基于FPGA的高速卷积的硬件设计实现

在数字信号处理领域，离散时间系统的输出响应，可以直接由输入信号与系统单位冲激响应的离散卷积得到。离散卷积在电子通信领域应用广泛，是工程应用的基础。如果直接在时域进行卷积，卷积过程中所必须的大量乘法和加法运算，一定程度地限制了数据处理的实时性，不能满足时效性强的工程应用。本文从实际工程应用出发，使用快速傅里叶变换(fft)技术，探讨卷积的高速硬件实现方法。
1 卷积算法的原理
设线性时不变系统的冲激响应为h(n)，则冲激响应和输入δ(n)之间有关系
假设该系统的输入为x(n)，输出为y(n)，则根据线性时不变系统的定义，有
根据式(3)，线性时不变系统的输出信号可以由输入信号与单位冲激响应的卷积求得。实际应用中，x(n)与y(n)的序列长度均为有限的，假设均为n，显然，求出n点的y(n)需要n2次复数乘法，当序列长度大时，所需计算量是庞大，在需要实时处理的系统中，难以满足实时性要求。
将m点序列x(n)，l点序列h(n)分别作扩展，构造新的序列x’(n)，h’(n)，使得长度n满足如下条件
根据时域循环卷积定理，x(n)与h(n)的线性卷积可以用循环卷积来代替。即
根据式(9)，给出了一种基于快速傅里叶变换(fft)的卷积的实现方法，如图1所示。分别对补零后的z(n)和h(n)进行fft运算，得到对应的频域响应x(k)和h(k)，将x(k)和h(k)相乘的结果再做ifft，即可以得到x(n)和h(n)的卷积结果y(n)。
2 基于fpga的高速卷积的实现
随着电子技术的发展，现阶段fft硬件实现的方法主要有asic，dsp和fpga这3类。专用fft处理芯片asic，例如pdspl6510，这类芯片的主要特点是技术简单。但是由于此类asic处理点数有限，实现大点数fft时，需要多芯片并行工作，会导致所需的配套控制复杂、存储芯片较多，加大了系统实现难度。使用dsp，如tms320dsp6416，控制程序设计比较简单，但由于dsp的串行式软件工作机理，当点数较大时，处理速度难以满足实时要求。使用fpga实现fft功能，其并行处理机制允许fft运算过程中使用流水线的形式，大大提高处理速度，而且随着技术发展，fft ip核技术日臻完善，使得基于fft ip核的系统在速度、灵活性等方面均展现出优越性。本文使用altera公司的stratix ii系列芯片ep2s60实现线性卷积的功能。
stratix ii是altera公司生产的一款高性能fpga器件。它采用台积电的90 nm工艺技术生产，等效逻辑单元(le)最高可达180 kb，嵌入式存储器容量最高可达9 mb。该器件不但具有较高的性能和密度，而且还针对器件总功率进行了优化，同时可以支持高达l gb/s的高速差分i/o信号，因而是一款高性能的fpga。该芯片中所含的高性能嵌入式dsp块的运行频率高达370 mhz。另外stratix ii还有12个可编程pll，并具有完善的时钟管理和频率合成能力，能满足高性能系统的需求。
ep2s60集成了60 440个等效逻辑单元(les)，内嵌m512 ram模块329个，m4k ram模块255个，m-ram模块2个，总存储单元2 544 192 bit，并集成了dsp模块36个、18 bit×18 bit嵌入式硬件乘法器144个，含有2个增强性锁相环和8个快速锁相环，可满足本系统的要求。
3 fft ip核的实现方法
为了节省开发时间，加速产品的投放，本文使用ahera提供的fft ip核来实现fft和ifft功能。ahera fft ip核函数是一个高性能、参数化的快速傅里叶变换(fft)处理器，完全支持ahera的fpga系列。可以完成变换长度为2m(6≤m≤14)的基2、基4按照频率抽选的高性能复数fft以及逆fft运算。
fft ip核支持3种数据流模式，流模式(streaming)、缓冲突发模式(buffered burst)、突发(burst)模式。并可以参数化设置变换点数和fft或ifft转换方向。表l给出了fft在stratix ii系列fpga上使用流模式(streaming)的性能。
为了在整个转换计算过程中保持高信噪比，fftip核在定点结构与全浮点结构之间折中，使用块浮点结构来表示转换结果。在定点结构中，数据精度需要足够大，才能充分表示整个计算过程中的所有的中间计算结果。在执行定点fft过程中，经常出现数据的位数过大或精度损失的现象。而在浮点结构中，每个数用单独的指数和尾数来表示，虽然这样可以大大提高数据精度，但是浮点运算需要占用更多的器件资源。块浮点结构保证了fft整个转换过程中数据位数的有效使用，每次通过基4-fft运算以后，数据位数最大可能增加倍，根据前面输出数据模块动态范围的测量进行比例换算，换算过程中累计的移位次数被作为整个模块的指数输出。这种移位方法保证了最低位(lsb)的最小值在乘法运算后的输出进行舍入操作之前就被舍弃。实际上，块浮点表示法起到了数字自动增益(agc)的作用，为了在连续输出模块中产生统一的比例，必须用最终的指数对fft函数输出进行比例换算。
4 实际工程中的卷积的实现
如图2所示，给出了一个实际应用的例子。为了保证i，q两路的相位同一性，使用双通道a/d，选择linear公司的ltc2280，ltc2280支持10 bit，105 ms/s的最大采样率，并拥有61.6 db的信噪比(snr)，85 db的无杂散动态范围(sfdr)，满足系统需要。双通道d/a使用analog公司的ad9763，ad9763支持10 bit、125 ms/s的最大采样率。
首先，需要在pc机上准备好h(n)对应的dft变换结果h(k)，h(k)的处理实际上有两种方法，一个是将h(n)下载到下位机中，使用下位机硬件实现h(k)，还有就是将h(k)在上位机就计算好，直接将计算结果下到下位机中。由于h(n)在系统工作中是不变的，在pc机端事先计算好h(k)更合适，不仅可以减少fpga的资源占用，而且也方便数据的处理。基于以上的考虑，本系统将在pc机端求出的h(k)通过422接口下载到下位机的ram中，方便使用。
下位机系统工作之前，上位机需要通过pci控制板卡将计算好的数据下载到下位机的ram中，方便工作过程中的数据使用。在收到外部控制信号后，下位机开始启动，ltc2280开始采集i、q通道数据并送入到fpga中。
ad输出的i，q数据直接作为一个复数的实部和虚部进入fft核进行fft变换。为了加速处理速度，使用基-4四引擎输出结构。fft核输出的结果x(k)过指数调整以后直接进入到一个硬件复数乘法器，与存储于ram中计算好的h(k)对应相乘，同时乘法器输出可以直接输入到ifft模块进行逆fft运算，ifft计算结果再经过指数调整以后即可以直接通过d/a输出。
5 性能分析与改进
fpga的流水线结构决定了速度的瓶颈取决于整个流程中处理速度最慢的部分。在fft核速度可以保证的前提下(ep2s60的理论速度可以达到293.06 mhz)，而处理过程中全部使用fpga内部ram来存储中间数据，所以在本系统中，fpga内部的理论处理速度达到200 mhz以上。本系统的处理速度主要局限于a/d和d/a的数据转换率，根据实际测试，在100 mhz系统时钟下，数据吞吐率可达100 ms/s，满足了设计技术指标。图4给出了fpga的资源占用。为了较好地检测整个使用fft_ifft实现卷积的系统性能，设计了一个初略性能分析测试结构，如图5所示。
在图5中，由上位机产生的一组8 192点随机复数a(t)写入rom中，作为fft模块的信号输入，经过fft后将结果b(ω)存入ram中，以方便上位机读取并与a(t)使用matlab计算出来的fft结果a(ω)进行比较;接着将该fft结果b(ω)再进行ifft计算，由数字信号处理理论可知，一个信号进行fft后再进行ifft的结果应该是信号本身，所以将b(ω)再进行ifft计算后得到的结果b(t)存入ram，由上位机读取并与原始信号a(t)进行比较，可以分析整个卷积系统的处理误差。图6给出了计算fft结果相对误差的matlab相关程序。
求出a(ω)的最大值max[a(ω)]，分别对b(ω)的实部和虚部计算相对误差，得到如图7所示的相对误差曲线。由图6可知，在fft过程中，相对误差可以保证在0.5%以内。对fft所得的结果b(ω)做ifft得到b(t)，分析b(t)与原数据a(t)的误差，得到如图8所示的相对误差曲线。
观察图8可知，经过fft变换和ifft变换以后的累积相对误差保持在±3%以内，主要原因是fpga计算fft和ifft过程中由于精度的要求，进行数据舍去，造成误差的产生。这种误差是由硬件客观条件限制的，不可避免，但是±3%的误差精度完全可以满足实际应用。
本系统由于涉及到高速a/d、高速d/a，所以在pcb设计过程中必须考虑电磁兼容emc(electro magnetic compatibility)和抗电磁干扰emi(electro magnetic interference)性和信号的完整性。总体来说，在进行高速pcb设计过程中，不仅要考虑pcb的元器件布局和布线，同时设计中的接地、去耦和旁路同样重要。例如在a/d部分这种混合信号pcb设计中，由于混合了模拟信号与数字信号，只有尽可能减小电流环路的面积才能降低数字信号与模拟信号之间的相互干扰。一个可行的方法是将地平面分割，然后在a/d转换器下面将模拟地和数字地连接在一起。
在处理fft和ifft核的指数问题时，正常做法是在fft结束后直接做一次指数调整，在ifft结束后再做一次指数调整。设经过fft核后的直接输出结果为x’(k)、对应指数输出为(-expl)，x(n)的真实结果为x(k)，则有
由式(12)可知，fft和ifft的两次指数调整实际可以在ifft合为一次，可以减少控制的复杂程度。两次调整指数的示意图如图9所示。一次调整指数的示意图如图10所示。
6 结束语
本文基于altera的fpga ep2s60f1 020c8，搭建了结合a/d，d/a等功能的配套处理平台，完成了对高速离散卷积的硬件实现，使该系统在100 mhz时工作正常，满足了设计要求。

同步发电机的工作原理
第三代半导体材料GaN和SiC的发展趋势及投资机会分析
浅析变压器的上升空间
华为荣耀Note9最新消息汇总：荣耀V9、荣耀9都发布开售了，今年的荣耀Note9还会远吗？
无线充电联盟标准及TI兼容解决方案有哪些？
基于FPGA的高速卷积的硬件设计实现
如何推动工业互联网与制造业两化融合发展
灵越5488笔记本搭载了英特尔酷睿处理器是一款非常实用的轻薄本
多核处理器启动的基本原理
荣耀8X和小米6X哪个更值得买
R-C Snubbing for the Lab
2.3Gbps的5G商用化后将会带来怎么样的体验呢
关于目前FPGA主要的几个应用方向
先进人工智能交互技术构建汽车“最强大脑”
E开箱：看到手机的一瞬间，着实吓人一跳的Realme Q
在LDO与DC/DC中怎么选择 LDO电容与噪声怎么考量
HMC713MS8对数检波器/控制器概述
什么是卤素灯_卤素灯的优点与缺点_卤素灯和氙气灯区别
新能源汽车为什么采用中控大屏？
如何安装ubuntu14.04操作系统