基于Ｖｉｒｔｅｘ系列ＦＰＧＡ的可编程嵌入式

摘要：介绍了基于ｖｉｒｔｅｘ系列ｆｐｇａ和ｔｍｓ３２０ｃ４０ｄｓｐ的可编程通用信号处理背板的设计和制作；并对ｖｉｒｔｅｘ系列ｆｐｇａ的性能和特点进行了分析；同时还叙述了可编程通用信号处理背板的调试；最后给出了背板应用开发实例。关键词：ｖｉｒｔｅｘ系列现场可编程逻辑门阵列（ｆｐｇａ）ｔｍｓ３２０ｃ４０数字信号处理器（ｄｓｐ）
现场可编程逻辑门阵列（ｆｐｇａ）和高性能数字信号处理器（ｄｓｐ）是高速信号处理领域两大关键器件，ｆｐｇａ和ｄｓｐ的运算速度及并行处理效能成为制约高速信号处理应用的主要因素。ｆｐｇａ以其设计灵活性及硬件高密度性在高速信号处理领域显示出愈来愈重要的作用。ｘｉｌｉｎｘ公司最新推出的ｖｉｒｔｅｘ系列ｆｐｇａ。是一种采用５层０．２２μｍｃｍｏｓ工艺的高性能、大容量现场可编程逻辑门阵列，其系统门密度高达１００万门，系统性能可达２００ｍｈｚ，可选择配置为多种接口标准，内部含有丰富的布线资源，其ｓｅｌｅｃｔｒａｍ和ｂｌｏｃｋｒａｍ可灵活地配置为ｓｒａｍ、ｆｉｆｏ、ｄｐｒａｍ、ｃａｍ等多种形式的存储单元。ｖｉｒｔｅｘ系列ｆｐｇａ含有极其丰富的ｉ／ｏ资源，可灵活地与ｔｍｓ３２０ｃ４０ｄｓｐ接口，与ｄｓｐ配合可完成复杂的信号处理功能。ｃ４０ｄｓｐ含有两组外部总线资源和６个高速通信口，可方便地进行多ｄｓｐ扩展，以提高系统信号处理的性能。
在对ｖｉｒｔｅｘ系列ｆｐｇａ进行充分理解和研究的基础上，结合对ｘｃ４０００系列ｆｐｇａ和ｄｓｐ背板开发设计经验，研制出了基于ｘｃｖ２００／３００ｐｑｆｐ２４０和ｔｍｓ３２０ｃ４０的可编程嵌入式高速信号处理背板。背板采用了针对系统需求自行开发的ｘｐｃｉ总线，背板可脱离实际应用系统进行独立的面向应用的设计和调试，也可按照ｘｐｃｉ总线标准方便地嵌入到实际应用系统中，成为系统的一部分进行联合调试。
对可编程嵌入式信号处理背板进行全面综合测试的结果表明，背板性能达到了预期设计要求，工作状态稳定。我们还针对实际应用开发了一些ｆｐｇａ模块和ｄｓｐ程序。
１ｖｉｒｔｅｘ系列ｆｐｇａ性能简介
在前几代ｆｐｇａ开发的基础上，ｖｉｒｔｅｘ系列ｆｐｇａ结合了多种可编程系统的特征，采用了快速灵活的层次性互连布线资源和先进的处理技术，提供了高速度、大容量的逻辑解决方案，进一步缩短了数字信号处理系统的开发周期。与前几代ｆｐｇａ相比，ｖｉｒｔｅｘ系列ｆｐｇａ的特性主要体现在以下几个方面：
（１）更高的处理速度和更高的逻辑门密度。ｖｉｒｔｅｘ系列最大系统门数高达１００万门，系统性能可达２００ｍｈｚ，其中比较常用的几个功能模块性能如表１所示。
表1 virtex 系列fpga几个常用功能模块的性能
功能模块性能（virtex-6）
加法（16位） 5.0ns
加法（64位） 7.2ns
乘法（8位×8位） 5.1ns
乘法（16位×16位） 6.0ns
地址译码（16位） 4.4ns
地址译码（64位） 6.4ns
16选1 5.4ns
奇偶校验（18位） 5.0ns
lvttl接口 200mhz
hstl接口 180mhz
（２）更多可兼容的ｉ／ｏ接口标准。ｖｉｒｔｅｘ系列可兼容１６种高性能接口标准，可直接与ｚｂｔｒａｍ器件接口，且其独特的ｉ／ｏ分组方式可使多种不同电压标准接口在同一片ｆｐｇａ上实现。
（３）片内时钟管理电路。ｖｉｒｔｅｘ系列内部包含４个灵活的延时锁相环用于高级时钟管理，可实现倍频、分频、锁相等功能，此外还有４个主全局时钟网络和２４个从本地时钟网络，以实现高速时钟的传输。
（４）层次性存储管理系统。ｖｉｒｔｅｘ系列内部查找单元可配置为１６ｂｉｔ和３２ｂｉｔｒａｍ、１６ｂｉｔｄｐｒａｍ或１６ｂｉｔ移位寄存器，其ｂｌｏｃｋｒａｍ资源可配置为４ｋｂｉｔｄｐｒａｍ或ｆｉｆｏ、ｃａｍ等存储器件，且提供了高速外部ｒａｍ接口。
（５）更加灵活的系统结构。复杂的进位逻辑链提高了算术逻辑性能，复杂的乘法器支持，级联链支持宽位输入模块，丰富的带时钟使能的寄存器和锁存器，支持异步和同步复位及置位，支持ｉｅｅｅ１１４９．１边界扫描逻辑。
（６）基于ｓｒａｍ的在系统可重构技术。可无限次重复编程，包含主串、从串、ｓｅｌｅｃｔｒａｍ和ｊｔａｇ四种配置模式，支持部分重构。
２基于ｖｉｒｔｅｘ系列ｆｐｇａ的可编程嵌入式信号处理背板的设计
由于对ｖｉｒｔｅｘ系列ｆｐｇａ进行了充分理解和熟悉，我们研制了基于自行开发的ｘｐｃｉ总线的可编程嵌入式信号处理背板。由于ｖｉｒｔｅｘ系列ｆｐｇａ内部结构相同，外部引脚兼容，只是在系统门数上有所区别，我们采用了ｘｃｖ２００ｐｑ２４０－４作为可编程嵌入式信号处理背板的主处理芯片，与ｆｐｇａ接口的ｄｓｐ采用功能强大、接口灵活的ｔｍｓ３２０ｃ４０ｄｓｐ。背板中ｄｓｐ的应用目的是对ｆｐｇａ进行管理和控制、对ｆｐｇａ处理结果进行分析、通过ｄｓｐ软件实现其他相关功能，以提高系统设计的灵活性。ｃ４０ｄｓｐ具有两组外部总线资源和６个高速通信口，能方便灵活地实现系统扩展。背板中ｆｐｇａ可根据设计需要选择不同规模的芯片。
可编程嵌入式信号处理背板结构如图１所示。背板上主要包含１片ｘｃｖ２００ｐｑ２４０ｆｐｇａ、１片ｔｍｓ３２０ｃ４０ｄｓｐ、１片ｘｃ９５３６ｃｐｌｄ、１片ｅｄｉ８ｌ５１２ｓｒａｍ（５１２ｋ×３２ｂｉｔ）、１片ａｔ４９０２０ｆｌａｓｈ?２ｍｂｉｔ?、ｄｓｐ调试ｊｔａｇ接口、ｆｐｇａ调试ｘ＿ｃｈｅｃｋｅｒ接口、ｃｐｌｄ调试ｊｔａｇ接口、自行开发ｘｐｃｉ接口及５个独立ｄｓｐ通信口。背板所有器件除ｄｓｐ外均采用贴片封装、双面装焊，使得背板的尺寸较小（７６ｍｍ×１２７ｍｍ×１２ｍｍ），ｄｓｐ外围５１２ｋ×３２ｂｉｔｓｒａｍ使得背板系统能够满足大部分应用程序的要求。２ｍｂｉｔｆｌａｓｈ用于固化ｆｐｇａ配置和ｄｓｐ应用程序代码。背板系统既可以独立工作（ｓｔａｎｄａｌｏｎｅ方式），也可以通过ｘｐｃｉ总线嵌入系统工作（ｐｌｕｇ＿ｉｎ方式）。
背板系统以４０ｍｈｚ晶振输出作为时钟，ｃ４０ｄｓｐ工作在４０ｍｈｚ时钟下，ｘｃｖ２００ｆｐｇａ以４０ｍｈｚ时钟作为输入，在内部通过ｄｄｌ电路可将内部工作时钟倍频到１８０ｍｈｚ。ｄｓｐ通过本地总线（ｌａ?０．．３０?、ｌｄ?０．．３１?）以ｔｔｌ兼容方式与ｆｐｇａ接口，占用ｆｐｇａ６５ｂｉｔｉ／ｏ资源；ｄｓｐ通过本地总线对ｆｐｇａ进行配置、参数设置及数据交换，实现软硬件之间的协同处理。
ｖｉｒｔｅｘ系列ｆｐｇａ内部供电电压为２．５ｖ，ｉ／ｏ通过ｖｃｃｏ和ｖｒｅｆ控制实现与各种电平接口之间的兼容；与ｔｔｌ兼容的ｖｃｃｏ控制电压为３．３ｖ，ｖｒｅｆ作为一般ｉ／ｏ使用；ｖｉｒｔｅｘ的ｉ／ｏ分组方式实现使得不同电平接口得以在同一芯片设计中共存。
背板通过１６８线ｘｐｃｉ总线与外部系统接口，ｘｐｃｉ总线主要包含三大部分：电源接口、ｆｐｇａ的可编程ｉ／ｏ口、ｄｓｐ接口。电源接口包括给ｄｓｐ、ｃｌｐｄ、ｓｒａｍ及其他ｔｔｌ逻辑供电的５ｖ电源，给ｘｃｖ２００ｐｑ２４０等ｖｉｒｔｅｘ系列ｆｐｇａ内部工作逻辑供电的２．５ｖ电源，ｉ／ｏ接口供电电平ｖｃｃｏ和分组参考电平ｖｒｅｆ（ｂａｎｋ０～ｂａｎｋ７ｆｐｇａ可编程ｉ／ｏ接口主要提供了６４个从ｖｉｒｔｅｘ系列ｆｐｇａ引出的可编程ｉ／ｏ引脚，用于设计特定逻辑；ｄｓｐ接口提供了ｔｍｓ３２０ｃ４０ｄｓｐ主总线接口、中断口和通信端口０及ｔｃｌｋ０和ｔｃｌｋ１，用于系统扩展及与用户程序之间的数据交换。
背板有丰富的配置及调试接口。ｖｉｒｔｅｘ系列ｆｐｇａ在板上可实现三种配置方式：从串方式（通过ｘｌｉｎｘ专用ｘ＿ｃｈｅｃｋｅｒ接口）、ｊｔａｇ方式（通过ｘｐｃｉ接口提供给用户）、ｓｅｌｅｃｔ＿ｒａｍ方式（通过ｄｓｐ和ｘｃ９５３６ｃｐｌｄ实现）；ｄｓｐ调试通过专用１４芯ｊｔａｇ接口完成；ｃｐｌｄ逻辑可通过标准ｊｔａｇ电缆实时修改配置。ｄｓｐ其他５个通信口通过５个ｉｄｃ１４插座输出，可根据系统实际需要选用。
３基于ｖｉｒｔｅｘ系列ｆｐｇａ的可编程嵌入式信号处理背板的调试
在信号处理背板制作完成之后，我们对背板进行了调试，并开发了一些背板专用配置程序。
在调试过程中我们使用了ｗｈｉｔｅｍｏｕｎｔ公司的ｃｏｄｅｃｏｍｐｏｓｅｒｄｓｐ开发调试软件和ｘｉｌｉｎｘ公司的ｆｏｕｎｄａｔｉｏｎ２．１ｉｆｐｇａ＆ｃｐｌｄ开发调试软件。为全面验证我们预期的设计效果，调试按以下过程进行：
（１）利用ｆｏｕｎｄａｔｉｏｎ２．１ｉ通过ｘ＿ｃｈｅｃｋｅｒ接口向ｆｐｇａ下载测试配置，ｆｐｇａ响应结果正确。
（２）利用ｃｏｄｅｃｏｍｐｏｓｅｒ通过ｊｔａｇ电缆对ｄｓｐ内部ｒａｍ和外部ｓｒａｍ进行测试，测试表明硬件设计正确。
（３）利用ｆｏｕｎｄａｔｉｏｎ２．１ｉ通过标准ｊｔａｇ电缆对ｘｃ９５３６下载测试配置，ｃｐｌｄ响应结果正确。
（４）利用ｆｏｕｎｄａｔｉｏｎ２．１ｉ通过标准ｊｔａｇ电缆对ｘｃ９５３６下载自行设计的ｆｐｇａ专用配置，利用ｃｏｄｅｃｏｍｐｏｓｅｒ通过ｊｔａｇ电缆对ｄｓｐ加载专用配置程序，使得ｄｓｐ完成对ｆｌａｓｈ烧录ｆｐｇａ配置数据和ｄｓｐ的ｂｏｏｔｌｏａｄｅｒ数据。
（５）脱离开发系统，背板上电通过ｆｌａｓｈ内的配置数据自行ｆｐｇａ配置和ｄｓｐ的ｂｏｏｔｌｏａｄｅｒ?运行结果正确。
４应用设计实例
为进一步验证背板的通用性，我们根据实际课题需求，在背板上开发了两个应用设计实例。一个是３２０ｍｈｚ３２ｂｉｔ高速计数器。我们在以前开发的２００ｍｈｚ高速计数器的基础上，基于多路均匀相差时钟信号在ｔｏａ时刻进行逻辑译码获得高速计数效果的原理，通过外部４０ｍｈｚ输入时钟，利用ｖｉｒｔｅｘｆｐｇａ内部ｄｄｌ电路产生４路相差９０°的８０ｍｈｚ信号，形成３２０ｍｈｚ３２ｂｉｔ高速计数器，使得时间测量精度达到３ｎｓ左右。该设计可用于高精度ｔｏａ、ｐｗ、ｒｆ等参数的测量。
另一个是基于内容可寻址存储器（ｃａｍ）的关联比较器。我们在充分分析ｘｌｉｎｘ提供的ｃａｍ＿ｃｏｒｅ设计的基础上，自行设计了一种基于ｃａｍ的可编程关联比较器。该比较器采用中值比较法，可通过控制线控制比较范围，并设计了一种专门对付捷变参数的多值比较逻辑。我们利用ｘｃｖ２００ｐｑ２４０实现了上述设计，通过测试母板上的ｕａｒｔ从控制台微机上接收模拟辐射源数据。测试结果表明，在辐射源参数空间重叠不太严重的情况下，该设计可同时处理８０个以上的装定辐射源参数（１２８ｂｉｔｐｄｗ可包含捷变参数），且能达到较好的分选效果，可见它在侦察信号处理领域的应用前景是非常广阔的。

功率电感器商品被用于搭载电源电路各种用途
自主作战的新型无人机正式与我们见面
60W隔离反激开关电源(SMPS)电路图详解
乐淘网正式宣布第三轮融资2亿元已经全部到账
Python 如何判断字符串是否包含子串
基于Ｖｉｒｔｅｘ系列ＦＰＧＡ的可编程嵌入式
高速公路组合式电子收费系统解决方案
高通、Nvidia引爆移动处理器之战
HTC与苹果停战?王雪红库克将首度会面
足球上的物联网是怎样的
高通确认已获得向华为供应4G芯片的许可证
格芯4.3亿美元出售纽约300mm晶圆工厂
谷歌系无人驾驶汽车公司Waymo于上海注册
“北斗+电网”两大国之重器，如何融合促进百姓生活变化？
真菌毒素快速定量检测系统的效果如何
全球半导体产能创新高，中国占近半壁江山
核心组件原理——pod核心原理
汽车HDI PCB的材料要求
IBM：专注于发展开放式混合云平台和人工智能，积极推动增长
模拟电子技术在电力配电系统中的应用