PCIe Gen3/Gen4接收端链路均衡测试（上篇：理论篇）

作者：泰克科技应用工程师李煜
pcie接口自从被推出以来，已经成为了pc和server上最重要的接口。为了更高了数据吞吐率，pci-sig组织不断刷新接口标准，从pcie 3.0的8gt/s数据速率，到pcie 4.0的16gt/s数据速率，再到pcie 5.0的32gt/x。pci-sig组织实现了在速率翻倍的同时，仍能保持使用普通的fr4板材和廉价接插件，主要源自两个方面的改进，一是使用128b/130b编码来代替8b/10b编码，使得编码效率大幅提高；另一个是使用动态均衡技术，来代替先前代的静态均衡技术。
这里聚焦于pcie 3.0和4.0中的动态均衡技术，介绍其原理、实现及其相关的一致性测试。这样一种动态均衡技术，在spec中被称作“link equalization”（链路均衡，简称为leq）。本系列文章分上下两篇，本文理论篇主要介绍pcie 3.0/4.0的链路均衡的工作原理，下一篇实践篇则侧重于链路均衡的测试和调试。
另外，泰克pci express专家david bouse将在4月10日（周五）13:00-16:00直播课堂【pci express 5.0规范更新解读和测试揭秘】讲解如何解决pcie 5.0的新测试挑战https://info.tek.com/cn-pcie-mofu.html。
pcie 3.0 & 4.0的链路均衡
在pcie 3.0和4.0中的链路均衡技术相较于先前代要复杂得多，这样一种动态均衡技术可以分为两个方面进行讨论。
均衡特性方面：从这个方面来说，相对于先前代的均衡来说，3.0和4.0中的均衡技术的硬件性能指标要求更高了。协议方面：为了实现动态地调整均衡设置，需要协议层的配合，这是通过phy层的ltssm状态机中的recovery.equalization子状态来实现的。先来从均衡特性的角度来看看pcie 3.0和4.0的均衡，如下展示了在pcie 3.0/4.0中所使用的全部均衡技术，在tx端有ffe（feed forward equalizer，前馈均衡器）；在rx端有：ctle（continuous time linear equalizer，连续时间线性均衡器）和dfe（decision feedback equalizer，判决反馈均衡器）。通过ffe和ctle，可以去除大部分由isi所引入的抖动；通过dfe可以进一步去除isi，它还能去除部分的阻抗失配所造成的反射。通过这些均衡处理，就能够最大程度上地保证在接收端判决输入处将眼图打开。
除了上述这些均衡特性上的支持外，在协议层（ltssm）中还规定需要通过协议的方式来动态调整链路上的均衡设定值，这整个过程称作链路均衡（link equalization，leq）。在链路均衡过程中：
本地端按照某个初始tx eq的设定来发送数据；对端在接收到数据时，会根据误码率或信号质量来判断该tx eq是否合适；若不合适，对端会通过协议向本地端请求一个新的tx eq值；本地端在接收到这个请求值之后，会改变tx eq的值。通过这一动态过程，就能够保证链路上的tx eq为最优值。与此同时，本地端和对端也会同时调整rx eq。通过动态地调整tx eq和rx eq，就能够灵活地适应不同的信道情况。
图1 leq硬件实现的模块框图
发送端的均衡：ffe
在pcie 3.0 & 4.0中使用的都是3-tap ffe，如图 2a所示。其中，qn为数字信号，建模时取值为±1；c-1， c0， c+1为ffe的抽头系数；voutn为发送端的模拟信号输出。
（a）ffe的模型框图（b） ffe的模拟电压输出
图2 pcie 3.0 & 4.0发送端所使用的3-tap的ffe
理想情况下的差分电压幅度有：23÷2=4种可能性，这四个电压幅度在pcie标准中（如图 2b所示）分别被标记为va，vb，vc，vd。
va=c0-c+1+c-1×2g
vb=c0+c+1+c-1×2g
vc=c0+c+1-c-1×2g
vd=c0-c+1-c-1×2g
其中，vb被称作去加重电压（de-emphasis voltage），vc被称作预冲电压（preshoot voltage）；vd被称作最大幅度电压（boost voltage），pcie标准中没有为va取一个专门的名字。在此基础上，标准中通过三组比值来完备地描述ffe的性能：
deemphasis=20logvbva=20logc0+c+1+c-1c0-c+1+c-1
preshoot=20logvcvb=20logc0+c+1-c-1c0+c+1+c-1
boost=20logvdvb=20logc0-c+1-c-1c0+c+1+c-1
若不加限制的来说，那么c-1， c0， c+1形成的组合有无穷多个。但并不是所有的组合在实际应用中都是合适的。其中一个最重要的约束条件就是：去加重电压vb不能过小，过小的去加重电压会导致输出信号在接收端的眼高过低。因此通过boost比值对去加重地电压幅值进行限制：对于满摆幅的tx输出，规范要求boost≤9.5db；对于减摆幅的tx输出，规范要求boost≤3.5db。最终会形成一个如图 3类似的矩阵表，图中系数的粒度为1/24。在实际应用中可以是其他的粒度值，例如1/64；更小的粒度能够使系数空间的取值可能性更多，在leq调节时也更精细。
图3 发送端均衡的系数空间的矩阵表举例
鉴于系数空间上的取值可能性较多，pci-sig协会在开发协议的过程中，广泛地研究了在不同插入损耗下最优的系数取值组合；最后选定了若干个特定的系数取值组合，并把它们称作预设定值（preset），在实际的leq过程中，链路双方就可以先采用预设定值进行粗调；若还认为链路的均衡设置仍然没有达到最优，可以进一步通过系数空间的方式进行细调，最终达到速度和精度的平衡。
接收端的均衡：ctle和dfe
在pcie 3.0 & 4.0 基础规范中，并没有明确地规定接收端的结构是怎样的；而只是从测量的角度对接收端性能进行了规定。相反地，在规范中定义了一个行为级ctle和行为级dfe。这些行为级模型可以作为设计指南；并且为了使得待测对象能够通过规范的要求，一般来说用户所设计的接收端性能至少要等于这些行为级模型的性能，可以强于这些行为级模型，但不能弱于这些行为级模型。
（a）（b）
图4 行为级ctle的频响曲线：（a） pcie 3.0 （b） pcie 4.0
发送端的输出在经过一段很长的fr4走线之后，仅仅使用ctle，可能是不够的。因此在pcie 3.0 & 4.0中，还使用了dfe的技术。在3.0中，使用1-tap的dfe，而在4.0，由于速率相对于3.0翻倍了；所以使用2-tap的dfe，以便移除更大的isi。
与线性均衡器ffe和ctle相比，dfe为一种非线性均衡器。dfe的基本想法是：若已经正确接收了之前的比特数据的话；那么先前的比特数据对当前比特所产生的影响就是已知的；从而我们就可以通过反馈的方式进行补偿，这样就能够进一步消除抖动和噪声的影响。不难看出这里的非线性体现在：反馈回来的信号是经过判决之后的数字信号；而判决电路是一种非线性电路。显然，反馈通路上的抽头数目越多，那么对抖动和噪声的消除可能就越好；这也就是为什么3.0中使用1-tap的dfe，而在4.0中使用2-tap的dfe。
（a）（b）
图5 行为级dfe的结构：（a） pcie 3.0 （b） pcie 4.0
链路均衡过程
链路上的两端刚开始建立通信的时候，并不知道整个信道的物理特性是怎样的，例如插入损耗多大，是否有阻抗不连续等。由于pcie 3.0和4.0的插入损耗允许的变化范围很大，一个静态的均衡设置并不能覆盖所有的情况。这样就需要链路上的双方根据当前物理信道的特性，来动态地调整均衡设置，使得均衡设置对于当前的物理信道来说是最优的。假设port a和port b是一个链路上的两端，那么链路均衡过程要做的事情有：
配置port a和port b的初始均衡设置；配置从port a tx à port b rx这一方向的均衡设置；配置从port b tx à port a rx这一方向的均衡设置；下面我们以port a tx à port b rx这一方向来说明链路均衡时如何实现的。如图 6所示，在8gts/或者16gt/s速率下的链路开始建立通信时，是以初始的未优化的tx eq在发送ts1/ts2序列，并且port a在ts1/ts2序列中表明其所用的tx eq的值。
图6 leq：本地端发送未经优化的初始tx eq
当port b rx在接收到这些ts1/ts2序列时，芯片内部存在一块电路或者一套算法来评估当前的tx eq是否合适，若认为不合适，就会如图7所示，发送ts1序列来请求一个新的tx eq。
图7 leq：对端请求一个新的tx eq
随后，port a会接收到请求设置tx eq的ts1序列，如图8所示，调整其tx端的ffe的设置。
图8 leq：本地正确地接收到了对端的请求，设置新的tx eq
port a在调整完tx ffe的设置之后，如图9所示，会将新的tx eq设置值更新到ts1/ts2的序列之中，发送到port b端。若port b仍然觉得这个时候的tx eq不是最优，那么仍然会重复图中的2~4步骤，直到达到最优的tx eq。当然上述过程并不能无限进行下去，必须要在大概32ms的范围进行完。
图9 leq：本地端告知对端已成功设置新的tx eq
在上述2~4步骤的同时，port b的rx端也在不停地调整其rx eq，如图 10所示。如图6~图10中所讨论的，leq是基于请求-响应机制来完成动态均衡的。在pcie的规范中，leq总共包含四个阶段：phase 0、phase1、phase 2、phase 3。其中上行端口包含全部四个过程；而下行端口不包含phase 0。
图10 leq：整个过程中同时调整rx eq
通过图11不难看出，在leq过程中，上行端口和下行端口的行为是有区别的。以上描述的是在leq过程中链路上的双方如何调整tx eq。而对于rx eq，根据base规范中的说明，在整个leq的过程、以及在后续正常工作的过程中，链路双方都可以一直调整rx eq。
图11 leq的状态跳转示意图

西门子基于TCP/IP 的PLC通信技术分析
测试测量：CPU在有涂抹硅脂和没有情况下的温度相差多大？
磁振子纳米纤维研究：为新兴技术及的构造开辟了道路
区块链技术对生态令有什么帮助
如何选择4G模块 4G模块选型注意事项
PCIe Gen3/Gen4接收端链路均衡测试（上篇：理论篇）
2024年三元材料海外订单预期或持续走低
示波器以太网测试标准、测试项目与测试描述
浅聊一下铜缆跳线
如何手势控制鼠标
安达发|如何选择适合企业的APS排程系统？
今年半导体景气在前段时间进入存货修正期大陆半导体发展或受阻
“携号转网”新进展:全国推广工作研讨会明确目标、进度 !
移动处理器赢家之战加剧：高通霸气，德仪稳重，Nvidia图变
如何用Keil生成bin、汇编、C与汇编混合文件？
PCB学习-差分走线
继电器的原理及接线图
实现超高功率密度，这两款USB PD评估板有什么诀窍？
3D视觉热潮来袭，“ToF”接力“结构光”
正点原子DS100mini示波器的拆解说明