深度解析CPLD和FPGA内部结构和原理

可编程逻辑器件（programmable logic device，pld）起源于20世纪70年代，是在专用集成电路（asic）的基础上发展起来的一种新型逻辑器件，是当今数字系统设计的主要硬件平台，其主要特点就是完全由用户通过软件进行配置和编程，从而完成某种特定的功能，且可以反复擦写。在修改和升级pld时，不需额外地改变pcb电路板，只是在计算机上修改和更新程序，使硬件设计工作成为软件开发工作，缩短了系统设计的周期，提高了实现的灵活性并降低了成本，因此获得了广大硬件工程师的青睐，形成了巨大的pld产业规模。
目前常见的pld产品有：编程只读存储器（programmable read only memory，prom），现场可编程逻辑阵列（field programmable logic array，fpla），可编程阵列逻辑（programmable array logic，pal），通用阵列逻辑（generic array logic，gal），可擦除的可编程逻辑器件（erasable programmable logic array，epla），复杂可编程逻辑器件（complex programmable logic device，cpld）和现场可编程门阵列（field programmable gate array，fpga）等类型。pld器件从规模上又可以细分为简单pld（spld）、复杂pld（cpld）以及fpga。它们内部结构的实现方法各不相同。
可编程逻辑器件按照基本单元颗粒度可以分为3类： ①小颗粒度（如：“门海（sea of gates）”架构）， ②中等颗粒度（如：fpga）， ③大颗粒度（如：cpld）。
按照编程工艺可以分为四类： ①熔丝（fuse）和反熔丝（antifuse）编程器件， ②可擦除的可编程只读存储器（ueprom）编程器件， ③电信号可擦除的可编程只读存储器（eeprom）编程器件（如：cpld），④sram编程器件（如：fpga）。在工艺分类中，前3类为非易失性器件，编程后，配置数据保留在器件上；第4类为易失性器件，掉电后配置数据会丢失，因此在每次上电后需要重新进行数据配置。
可编程逻辑器件的发展历史可编程逻辑器件的发展可以划分为4个阶段，即从20世纪70年代初到70年代中为第1阶段，20世纪70年代中到80年代中为第2阶段，20世纪80年代到90年代末为第3阶段，20世纪90年代末到目前为第4阶段。
第1阶段的可编程器件只有简单的可编程只读存储器（prom）、紫外线可擦除只读存储器（eprom）和电可擦只读存储器（eeprom）3种，由于结构的限制，它们只能完成简单的数字逻辑功能。
第2阶段出现了结构上稍微复杂的可编程阵列逻辑（pal）和通用阵列逻辑（gal）器件，正式被称为pld，能够完成各种逻辑运算功能。典型的pld由“与”、“非”阵列组成，用“与或”表达式来实现任意组合逻辑，所以pld能以乘积和形式完成大量的逻辑组合。
第3阶段xilinx和altera分别推出了与标准门阵列类似的fpga和类似于pal结构的扩展性cpld，提高了逻辑运算的速度，具有体系结构和逻辑单元灵活、集成度高以及适用范围宽等特点，兼容了pld和通用门阵列的优点，能够实现超大规模的电路，编程方式也很灵活，成为产品原型设计和中小规模（一般小于10000）产品生产的首选。这一阶段，cpld、fpga器件在制造工艺和产品性能都获得长足的发展，达到了0.18 工艺和系数门数百万门的规模。
第4阶段出现了sopc和soc技术，是pld和asic技术融合的结果，涵盖了实时化数字信号处理技术、高速数据收发器、复杂计算以及嵌入式系统设计技术的全部内容。xilinx和altera也推出了相应socfpga产品，制造工艺达到65 ，系统门数也超过百万门。并且，这一阶段的逻辑器件内嵌了硬核高速乘法器、gbits差分串行接口、时钟频率高达500mhz的powerpc微处理器、软核microblaze、picoblaze、nios以及niosii，不仅实现了软件需求和硬件设计的完美结合，还实现了高速与灵活性的完美结合，使其已超越了asic器件的性能和规模，也超越了传统意义上fpga的概念，使pld的应用范围从单片扩展到系统级。目前，基于pld片上可编程的概念仍在进一步向前发展。开发工具基于高复杂度pld器件的开发，在很大程度上要依靠电子设计自动化（eda）来完成。pld的eda工具以计算机软件为主，将典型的单元电路封装起来形成固定模块并形成标准的硬件开发语言（如hdl语言）供设计人员使用。设计人员考虑如何将可组装的软件库和软件包搭建出满足需求的功能模块甚至完整的系统。pld开发软件需要自动地完成逻辑编译、化简、分割、综合及优化、布局布线、仿真以及对于特定目标芯片的适配编译和编程下载等工作。典型的eda工具中必须包含两个特殊的软件包，即综合器和适配器。综合器的功能就是将设计者在eda平台上完成的针对某个系统项目的hdl、原理图或状态图形描述，针对给定的硬件系统组件，进行编译、优化、转换和综合。
随着开发规模的级数性增长，就必须减短pld开发软件的编译时间、并提高其编译性能以及提供丰富的知识产权（ip）核资源供设计人员调用。此外，pld开发界面的友好性以及操作的复杂程度也是评价其性能的重要因素。目前在pld产业领域中，各个芯片提供商的pld开发工具已成为影响其成败的核心成分。只有全面做到芯片技术领先、文档完整和pld开发软件优秀，芯片提供商才能获得客户的认可。一个完美的pld开发软件应当具备下面5点：
准确地将用户设计转换为电路模块
能够高效地利用器件资源
能够快速地完成编译和综合
提供丰富的ip资源
用户界面友好、操作简单
cpld工作原理与简介基于乘积项（product-term）的pld结构采用这种结构的pld芯片有：altera的max7000，max3000系列（eeprom工艺），xilinx的xc9500系列（flash工艺）和lattice，cypress的大部分产品（eeprom工艺）我们先看一下这种pld的总体结构（以max7000为例，其他型号的结构与此都非常相似）：
图1 基于乘积项的pld内部结构这种pld可分为三块结构：宏单元（marocell），可编程连线（pia）和i/o控制块。宏单元是pld的基本结构，由它来实现基本的逻辑功能。图1中兰色部分是多个宏单元的集合（因为宏单元较多，没有一一画出）。可编程连线负责信号传递，连接所有的宏单元。i/o控制块负责输入输出的电气特性控制，比如可以设定集电极开路输出，摆率控制，三态输出等。图1 左上的input/gclk1，input/gclrn，input/oe1，input/oe2 是全局时钟，清零和输出使能信号，这几个信号有专用连线与pld中每个宏单元相连，信号到每个宏单元的延时相同并且延时最短。宏单元的具体结构见下图：
图2 宏单元结构左侧是乘积项阵列，实际就是一个与或阵列，每一个交叉点都是一个可编程熔丝，如果导通就是实现“与”逻辑。后面的乘积项选择矩阵是一个“或”阵列。两者一起完成组合逻辑。图右侧是一个可编程d触发器，它的时钟，清零输入都可以编程选择，可以使用专用的全局清零和全局时钟，也可以使用内部逻辑（乘积项阵列）产生的时钟和清零。如果不需要触发器，也可以将此触发器旁路，信号直接输给pia或输出到i/o脚。乘积项结构pld的逻辑实现原理下面我们以一个简单的电路为例，具体说明pld是如何利用以上结构实现逻辑的，电路如下图：
图3 假设组合逻辑的输出（and3的输出）为f，则f=（a+b）*c*（！d）=a*c*！d + b*c*！d （我们以！d表示d的“非”） pld将以下面的方式来实现组合逻辑f：
图4 a，b，c，d由pld芯片的管脚输入后进入可编程连线阵列（pia），在内部会产生a，a反，b，b反，c，c反，d，d反8个输出。图中每一个叉表示相连（可编程熔丝导通），所以得到：f= f1 + f2 = （a*c*！d） + （b*c*！d）。这样组合逻辑就实现了。图3电路中d触发器的实现比较简单，直接利用宏单元中的可编程d触发器来实现。时钟信号clk由i/o脚输入后进入芯片内部的全局时钟专用通道，直接连接到可编程触发器的时钟端。可编程触发器的输出与i/o脚相连，把结果输出到芯片管脚。这样pld就完成了图3所示电路的功能。（以上这些步骤都是由软件自动完成的，不需要人为干预）图3的电路是一个很简单的例子，只需要一个宏单元就可以完成。但对于一个复杂的电路，一个宏单元是不能实现的，这时就需要通过并联扩展项和共享扩展项将多个宏单元相连，宏单元的输出也可以连接到可编程连线阵列，再做为另一个宏单元的输入。这样pld就可以实现更复杂逻辑。这种基于乘积项的pld基本都是由eeprom和flash工艺制造的，一上电就可以工作，无需其他芯片配合。 fpga工作原理与简介如前所述，fpga是在pal、gal、epld、cpld等可编程器件的基础上进一步发展的产物。它是作为asic领域中的一种半定制电路而出现的，即解决了定制电路的不足，又克服了原有可编程器件门电路有限的缺点。
由于fpga需要被反复烧写，它实现组合逻辑的基本结构不可能像asic那样通过固定的与非门来完成，而只能采用一种易于反复配置的结构。查找表可以很好地满足这一要求，目前主流fpga都采用了基于sram工艺的查找表结构，也有一些军品和宇航级fpga采用flash或者熔丝与反熔丝工艺的查找表结构。通过烧写文件改变查找表内容的方法来实现对fpga的重复配置。
根据数字电路的基本知识可以知道，对于一个n输入的逻辑运算，不管是与或非运算还是异或运算等等，最多只可能存在2n种结果。所以如果事先将相应的结果存放于一个存贮单元，就相当于实现了与非门电路的功能。fpga的原理也是如此，它通过烧写文件去配置查找表的内容，从而在相同的电路情况下实现了不同的逻辑功能。
查找表（look-up-table）简称为lut，lut本质上就是一个ram。目前fpga中多使用4输入的lut，所以每一个lut可以看成一个有4位地址线的的ram。当用户通过原理图或hdl语言描述了一个逻辑电路以后，pld/fpga开发软件会自动计算逻辑电路的所有可能结果，并把真值表（即结果）事先写入ram，这样，每输入一个信号进行逻辑运算就等于输入一个地址进行查表，找出地址对应的内容，然后输出即可。
下面给出一个4与门电路的例子来说明lut实现逻辑功能的原理。例：给出一个使用lut实现4输入与门电路的真值表。表1-1 4输入与门的真值表
从中可以看到，lut具有和逻辑电路相同的功能。实际上，lut具有更快的执行速度和更大的规模。
由于基于lut的fpga具有很高的集成度，其器件密度从数万门到数千万门不等，可以完成极其复杂的时序与逻辑组合逻辑电路功能，所以适用于高速、高密度的高端数字逻辑电路设计领域。其组成部分主要有可编程输入/输出单元、基本可编程逻辑单元、内嵌sram、丰富的布线资源、底层嵌入功能单元、内嵌专用单元等，主要设计和生产厂家有xilinx、altera、lattice、actel、atmel和quicklogic等公司，其中最大的是xilinx、altera、lattice三家。
如前所述，fpga是由存放在片内的ram来设置其工作状态的，因此工作时需要对片内ram进行编程。用户可根据不同的配置模式，采用不同的编程方式。fpga有如下几种配置模式：
并行模式：并行prom、flash配置fpga；
主从模式：一片prom配置多片fpga；
串行模式：串行prom配置fpga；
外设模式：将fpga作为微处理器的外设，由微处理器对其编程。
目前，fpga市场占有率最高的两大公司xilinx和altera生产的fpga都是基于sram工艺的，需要在使用时外接一个片外存储器以保存程序。上电时，fpga将外部存储器中的数据读入片内ram，完成配置后，进入工作状态；掉电后fpga恢复为白片，内部逻辑消失。这样fpga不仅能反复使用，还无需专门的fpga编程器，只需通用的eprom、prom编程器即可。actel、quicklogic等公司还提供反熔丝技术的fpga，只能下载一次，具有抗辐射、耐高低温、低功耗和速度快等优点，在军品和航空航天领域中应用较多，但这种fpga不能重复擦写，开发初期比较麻烦，费用也比较昂贵。lattice是isp技术的发明者，在小规模pld应用上有一定的特色。早期的xilinx产品一般不涉及军品和宇航级市场，但目前已经有q pro-r等多款产品进入该类领域。 fpga芯片结构目前主流的fpga仍是基于查找表技术的，已经远远超出了先前版本的基本性能，并且整合了常用功能（如ram、时钟管理和dsp）的硬核（asic型）模块。如图1-1所示（注：图1-1只是一个示意图，实际上每一个系列的fpga都有其相应的内部结构），fpga芯片主要由6部分完成，分别为：可编程输入输出单元、基本可编程逻辑单元、完整的时钟管理、嵌入块式ram、丰富的布线资源、内嵌的底层功能单元和内嵌专用硬件模块。
图1-1 fpga芯片的内部结构每个模块的功能如下：
1．可编程输入输出单元（iob）
可编程输入/输出单元简称i/o单元，是芯片与外界电路的接口部分，完成不同电气特性下对输入/输出信号的驱动与匹配要求，其示意结构如图1-2所示。fpga内的i/o按组分类，每组都能够独立地支持不同的i/o标准。通过软件的灵活配置，可适配不同的电气标准与i/o物理特性，可以调整驱动电流的大小，可以改变上、下拉电阻。目前，i/o口的频率也越来越高，一些高端的fpga通过ddr寄存器技术可以支持高达2gbps的数据速率。
图1-2 典型的iob内部结构示意图外部输入信号可以通过iob模块的存储单元输入到fpga的内部，也可以直接输入fpga 内部。当外部输入信号经过iob模块的存储单元输入到fpga内部时，其保持时间（hold time）的要求可以降低，通常默认为0。
为了便于管理和适应多种电器标准，fpga的iob被划分为若干个组（bank），每个bank的接口标准由其接口电压vcco决定，一个bank只能有一种vcco，但不同bank的vcco可以不同。只有相同电气标准的端口才能连接在一起，vcco电压相同是接口标准的基本条件。
2．可配置逻辑块（clb）
clb是fpga内的基本逻辑单元。clb的实际数量和特性会依器件的不同而不同，但是每个clb都包含一个可配置开关矩阵，此矩阵由4或6个输入、一些选型电路（多路复用器等）和触发器组成。开关矩阵是高度灵活的，可以对其进行配置以便处理组合逻辑、移位寄存器或ram。在xilinx公司的fpga器件中，clb由多个（一般为4个或2个）相同的slice和附加逻辑构成，如图1-3所示。每个clb模块不仅可以用于实现组合逻辑、时序逻辑，还可以配置为分布式ram和分布式rom。
图1-3 典型的clb结构示意图 slice是xilinx公司定义的基本逻辑单位，其内部结构如图1-4所示，一个slice由两个4输入的函数、进位逻辑、算术逻辑、存储逻辑和函数复用器组成。算术逻辑包括一个异或门（xorg）和一个专用与门（multand），一个异或门可以使一个slice实现2bit全加操作，专用与门用于提高乘法器的效率；进位逻辑由专用进位信号和函数复用器（muxc）组成，用于实现快速的算术加减法操作；4输入函数发生器用于实现4输入lut、分布式ram或16比特移位寄存器（virtex-5系列芯片的slice中的两个输入函数为6输入，可以实现6输入lut或64比特移位寄存器）；进位逻辑包括两条快速进位链，用于提高clb模块的处理速度。
图1-4 典型的4输入slice结构示意图 3．数字时钟管理模块（dcm）
业内大多数fpga均提供数字时钟管理（xilinx的全部fpga均具有这种特性）。xilinx推出最先进的fpga提供数字时钟管理和相位环路锁定。相位环路锁定能够提供精确的时钟综合，且能够降低抖动，并实现过滤功能。
4．嵌入式块ram（bram）
大多数fpga都具有内嵌的块ram，这大大拓展了fpga的应用范围和灵活性。块ram可被配置为单端口ram、双端口ram、内容地址存储器（cam）以及fifo等常用存储结构。ram、fifo是比较普及的概念，在此就不冗述。cam存储器在其内部的每个存储单元中都有一个比较逻辑，写入cam中的数据会和内部的每一个数据进行比较，并返回与端口数据相同的所有数据的地址，因而在路由的地址交换器中有广泛的应用。除了块ram，还可以将fpga中的lut灵活地配置成ram、rom和fifo等结构。在实际应用中，芯片内部块ram的数量也是选择芯片的一个重要因素。
单片块ram的容量为18k比特，即位宽为18比特、深度为1024，可以根据需要改变其位宽和深度，但要满足两个原则：首先，修改后的容量（位宽深度）不能大于18k比特；其次，位宽最大不能超过36比特。当然，可以将多片块ram级联起来形成更大的ram，此时只受限于芯片内块ram的数量，而不再受上面两条原则约束。
5．丰富的布线资源
布线资源连通fpga内部的所有单元，而连线的长度和工艺决定着信号在连线上的驱动能力和传输速度。fpga芯片内部有着丰富的布线资源，根据工艺、长度、宽度和分布位置的不同而划分为４类不同的类别。第一类是全局布线资源，用于芯片内部全局时钟和全局复位/置位的布线；第二类是长线资源，用以完成芯片bank间的高速信号和第二全局时钟信号的布线；第三类是短线资源，用于完成基本逻辑单元之间的逻辑互连和布线；第四类是分布式的布线资源，用于专有时钟、复位等控制信号线。
在实际中设计者不需要直接选择布线资源，布局布线器可自动地根据输入逻辑网表的拓扑结构和约束条件选择布线资源来连通各个模块单元。从本质上讲，布线资源的使用方法和设计的结果有密切、直接的关系。
6．底层内嵌功能单元
内嵌功能模块主要指dll（delay locked loop）、pll（phase locked loop）、dsp和cpu等软处理核（soft core）。现在越来越丰富的内嵌功能单元，使得单片fpga成为了系统级的设计工具，使其具备了软硬件联合设计的能力，逐步向soc平台过渡。
dll和pll具有类似的功能，可以完成时钟高精度、低抖动的倍频和分频，以及占空比调整和移相等功能。xilinx公司生产的芯片上集成了dll，altera公司的芯片集成了pll，lattice公司的新型芯片上同时集成了pll和dll。pll 和dll可以通过ip核生成的工具方便地进行管理和配置。dll的结构如图1-5所示。
图1-5 典型的dll模块示意图 7. 内嵌专用硬核
内嵌专用硬核是相对底层嵌入的软核而言的，指fpga处理能力强大的硬核（hard core），等效于asic电路。为了提高fpga性能，芯片生产商在芯片内部集成了一些专用的硬核。例如：为了提高fpga的乘法速度，主流的fpga中都集成了专用乘法器；为了适用通信总线与接口标准，很多高端的fpga内部都集成了串并收发器（serdes），可以达到数十gbps的收发速度。
xilinx公司的高端产品不仅集成了power pc系列cpu，还内嵌了dsp core模块，其相应的系统级设计工具是edk和platform studio，并依此提出了片上系统（system on chip）的概念。通过powerpc、miroblaze、picoblaze等平台，能够开发标准的dsp处理器及其相关应用，达到soc的开发目的。软核、硬核以及固核的概念 ip（intelligent property）核是具有知识产权核的集成电路芯核总称，是经过反复验证过的、具有特定功能的宏模块，与芯片制造工艺无关，可以移植到不同的半导体工艺中。到了soc阶段，ip核设计已成为asic电路设计公司和fpga提供商的重要任务，也是其实力体现。对于fpga开发软件，其提供的ip核越丰富，用户的设计就越方便，其市场占用率就越高。目前，ip核已经变成系统设计的基本单元，并作为独立设计成果被交换、转让和销售。
从ip核的提供方式上，通常将其分为软核、硬核和固核这3类。从完成ip核所花费的成本来讲，硬核代价最大；从使用灵活性来讲，软核的可复用使用性最高。
1．软核
软核在eda设计领域指的是综合之前的寄存器传输级（rtl）模型；具体在fpga设计中指的是对电路的硬件语言描述，包括逻辑描述、网表和帮助文档等。软核只经过功能仿真，需要经过综合以及布局布线才能使用。其优点是灵活性高、可移植性强，允许用户自配置；缺点是对模块的预测性较低，在后续设计中存在发生错误的可能性，有一定的设计风险。软核是ip核应用最广泛的形式。
2．固核
固核在eda设计领域指的是带有平面规划信息的网表；具体在fpga设计中可以看做带有布局规划的软核，通常以rtl代码和对应具体工艺网表的混合形式提供。将rtl描述结合具体标准单元库进行综合优化设计，形成门级网表，再通过布局布线工具即可使用。和软核相比，固核的设计灵活性稍差，但在可靠性上有较大提高。目前，固核也是ip核的主流形式之一。
3．硬核

互联网医院“在线问诊+线上购药”的创新服务模式逐渐被更多居民接受
“新基建”进度引发广泛关注将为未来数字经济发展助力新活力
TCL已量产交付小米10的AMOLED曲面屏
红米Note4X初音绿图赏：一个字，美！
什么是串口波特率？串口波特率的分类及应用详解
深度解析CPLD和FPGA内部结构和原理
测试永磁铁氧体的注意事项盘点
电源滤波器是什么电源滤波器的作用
卷积神经网络的工作原理卷积神经网络通俗解释
如何给101网口104配网
小米平板5和小米平板5pro区别在哪
最新研究证明：新冠病毒可在手机屏幕上存活28天
深之蓝公司也带着全新产品——SublueTMSeabow登上CES舞台
连续调制模式功率因数校正器的设计
关于未来物联网的联想
森力茂推出原创球传动轮毂减速器
基于交流或直流电源的LED驱动电路设计
pcb layout培训基础之传输线的特性阻抗
mos管是什么，它的作用以及特性的介绍
要打算买初音版的红米Note 4x吗？不如先捡个骚绿色的索尼Z3C试试