【原创】在Vivado HLS中如何优化程序的执行速度

发表于 7/27/2014 5:24:15 PM 阅读（14619）

在前面的博文里，我们已经介绍了如何用Vivado HLS把一个C程序快速转换为RTL并导出（请参考http://blog.chinaaet.com/detail/35964），但是当时，我们并没有太关心转换之后代码的效率和执行速度问题。今天我们以含有for循环的程序来说明，代码的执行速度是如何优化的。

首先新建一个Vivado工程，并输入C代码，然后进行对C代码的高层次综合，综合结果如图1所示。

图1 综合后的资源利用率

从图1中可以看出：

1. 目前我们的设计的延时是89个（latency）时钟周期，也就是说需要89个时钟周期后结果才能刷新输出结果。

2. 两次读取输入信号运行之间的间隔是90个（Interval）时钟周期，说明在上一次运算输出写操作完成之后，需要等待一个时钟周期，表明目前我们的设计没有进行流水线优化。

3. 在C程序中，我们使用了循环，这段逻辑被执行了11次（Trip Count），每次需要8个时钟周期（Iteration Latency）。

显然89个时钟周期对一个FIR滤波器来说不算快，所以我们要分析一下程序中的性能瓶颈，然后才好对症下药。点击Vivado HLS菜单栏上的Analysis视图（或者点击Window---Analysis Perspective），打开详细的性能分析和资源利用率报告，分别如图2、图3所示。

图2 详细的性能分析视图

图3 资源利用率的详细视图

从图2中可以看出，源程序中for循环需要多个时钟周期才能完成，造成了我们的设计存在较大的延时，这是因为目前的综合结果是把for循环编译为一个对象，然后多次调用，这样虽然节省了硬件资源，但是因为串行执行，减小了执行速度；如果我们以设计的运行速度为指标，则可以把for循环改为并行执行的。从图3中可以看出，源程序中的数组被综合为移位然后寄存的逻辑，并且用BRAM实现的，如果把它改为用移位寄存器SRL来实现，则效率会更高。因此，我们对程序性能的优化就从这两个方面考虑。

在Vivado HLS中再新建一个solution，并点击菜单栏的Project---Close Inactive Solution Tabs，关闭其它已打开的解决方案。然后双击打开源程序，并在Directive视图中for循环上点右键，插入新的设计规则，如图4所示。