一种创新的存内计算架构

摘要
传感器和数据生成设备的大规模发展推动了现代计算范式的转变，从以算术逻辑为中心向以数据为中心的处理。在硬件层面，这迫切需要将密集、高性能和低功耗的存储单元与si逻辑处理器单元集成起来。然而，像搜索和模式匹配这样的数据密集型问题也需要在电路和架构级别进行范式更改创新，以支持内存计算(cim)操作。cim体系结构结合了数据存储，同时提供低延迟和小占用是非常受欢迎的，但尚未实现。在这里，我们提出了氮化铝钪(alscn)铁电二极管(fed)忆阻器件，允许存储，搜索和基于神经网络的模式识别在一个无晶体管的架构。我们的设备可以直接集成在si处理器的顶部，以可扩展的后端流程。我们利用联邦储备系统的现场可编程性、非波动性和非线性来演示电路块，该电路块可以支持原位内存搜索操作，搜索延迟时间< 0.1 ns，单元占用面积 106，高开/关比超过10²，续航超过104个周期，现场编程速度超过500ns，并与cmos线后端(beol)处理兼容。然后，我们利用这些独特的特性，并演示了使用0-晶体管/2-fed单元的非易失性三元内容寻址存储器(tcam)。这些都是大数据应用中并行搜索过程的内存计算硬件实现的关键构建块。这种无晶体管的方法是我们的设备和存储单元设计的一个关键优点。因此，与基于2-晶体管/2电阻(2t-2r)的tcam细胞相比，2-馈源tcam具有最紧凑的设计(45 nm节点0.12µm²/cell)，搜索延迟显著降低(45 nm节点 106，同时具有超过10²的开/关比和超过104循环的耐久性，使fed器件在存储的内存层次中处于很好的位置。此外，高非线性可以抑制潜电流，而不需要额外的接入晶体管或选择器。
c.对于搜索操作，一个非易失性tcam可以建立在0-晶体管/2-fed单元上，这是大数据应用中并行搜索的内存计算硬件实现的构建块。
d.对于神经网络，fed器件可以提供不同的多重导电状态的可编程性，且与电脉冲的数量有高度的线性关系。这允许映射矩阵乘法运算(神经网络计算的一个关键核心)，通过将输入向量编码为模拟电压幅值，并将矩阵元素编码为一组fed装置的电导，读取fed装置每位线上的累积电流。
45nm alscn薄膜的铁电响应通过在半径为25μm的圆形金属/铁电/金属电容上进行正上，负下(pund)测量来表征，使用的方波延迟为2μs，脉冲宽度为400 ns(补充图s11)。pund测试优于偏振-电场迟滞回线(p-e回线)测量，因为45 nm alscn的p-e回线显示出偏振依赖的漏电，这妨碍了对将材料切换到金属-极性态的正应用场的极化饱和的观测。pund结果显示，残余极化约为150 μ c/cm²，如图2c所示，与之前的观察结果一致。为了进一步验证铁电开关，进行了动态电流响应，观察到铁电开关对应的峰值(补充图s12)。为了进一步表征记忆效应和可靠性，我们在正极化和负极化状态之间进行了耐力测试，如图2d所示。图2d显示了从20,000个pund循环中提取的剩余正负极化。同一alscnfed装置的循环设置/重置操作表明，正负极化状态都是稳定的，并且在相当数量的循环内都是可重写的。如图2e所示，我们通过对顶部电极施加负/正电压，同时对底部电极接地，在低电阻状态(lrs)和高电阻状态(hrs)之间反复设置/重置fed装置，使用准直流电压扫描，循环100次。fed器件显示超低工作电流和自整流行为，在9v到0v之间具有非线性> 106，这有助于抑制隐藏电流，而不需要额外的接入晶体管或选择器。lrs和hrs电阻的分布如图2f所示，显示了lrs和hrs之间的比值在周期与周期变化上的紧密分布。
图2所示。alscn/mos2 fe - fet的室温电性表征。
a, alscn fed器件的3d示意图和alscn fed的截面tem图像，显示45nm alscn为铁电开关层。
b，在(a)中所示区域(1)和(2)获得的铁电体和界面原子结构可见的高分辨率相位对比tem图像。
c，脉冲宽度为400ns，脉冲间延迟为2μs的45nm alscn薄膜的pun结果。pund测试显示饱和剩余极化为150μc/cm²。
d，利用1.5μs脉冲宽度和26 v振幅对alscn薄膜进行持久测试时的pund测量提取的剩余极化值。
e，在基于45纳米 alscn的feds上进行100个周期的程序和擦除测量。
f, e中程序和擦除测量过程中hrs和lrs电阻的分布。
2-fed tcam单元用于搜索
接下来，我们关注cim电路架构和计算应用程序，包括上述作为非易失性存储器的feds。我们首先演示一个使用feds的tcam实现。tcam是大数据应用中快速高效并行搜索cim硬件实现的关键构件。tcam通过并行比较输入数据与存储在内存数组中的数据来执行搜索功能，并在检测到匹配时返回数据地址。这种并行搜索允许tcam在一个时钟周期内执行查找表功能。与存储“0”或“1”位值的二进制内容寻址存储单元不同，tcam单元可以存储额外的“x”(“不在乎”)位，这将导致匹配状态，而不管输入的搜索数据是什么，并使tcam在搜索应用程序中更加强大。然而，在传统的si cmos结构中，需要多个晶体管(~16)来构建一个具有静态随机访问存储器(sram)的tcam单元(图3a)。由于晶体管的充放电和互连寄生电容，这种配置导致了大的占地面积和高功耗。这限制了该配置在高速、大规模和功率受限系统中的使用。非易失性存储器(nvm)是实现tcam的有前途的替代方案，因为它们更节约占地面积和更节能。这是因为它们在更紧凑的体系结构中形成了一个单独的tcam单元，并且即使电源被切断，它们也保留了存储的信息。基于电阻性随机存取存储器(rrams)的tcam、磁隧道结(mtj) ram、浮栅晶体管存储器(flash)和相变存储器(pcms)已经被证实。然而，所有这些架构仍然构建在线前端晶体管之上，没有一个完全兼容beol。
在这项工作中，tcam的单元结构可以通过仅使用两个feds而显著简化，由于feds具有很大的非线性，因此不需要加入晶体管(图3a)。图3b演示了单个fed tcam电池的工作。电池结构使利用fed crossbar存储器阵列变得很自然，其中连接到阳极和阴极的信号线在tcam演示的位搜索中并行，如补充图s3所示。首先，我们讨论了基于feds的tcam如何存储和搜索“0”或“1”位(图3b)。在单元操作过程中，首先将互补状态写入两个feds，如果搜索数据在搜索线(sl和非sl)上有偏差，与存储的信息匹配，匹配线(ml)保持高;否则，ml被下拉。正如我们在超真空中所展示的，fed设备具有高度的自整流能力，并能维持较高的开/关比。因此，只有当fed被编程为低电阻状态且读电压高于fed的打开电压时，ml上才会发生放电。
如图3b所示，我们将逻辑“1”状态写入到fed tcam单元中，分别将左/右fed设置为低阻/高阻状态。在搜索操作中，匹配线被一个读电压vs所偏置，它高于fed的启动电压。接下来，我们通过分别对左/右fed施加高/低电压来搜索逻辑“1”，并通过分别对左/右fed施加低/高来搜索逻辑“0”。在这种情况下，“高压”指的是读电压vs，它高于fed的打开电压，但低于写电压。相反，“低电压”指的是接近零的读电压，远低于fed的打开电压。由于左fed与右fed平行，只有当单元中的两个fed都被截断时，才会观察到匹配状态(图3b，左面板)。根据这些写入和搜索方案，当存储数据和搜索数据匹配时(如图3b左面板所示，存储位为逻辑' 1 '，搜索位为逻辑' 1 ')，低电阻为0的fed器被关闭，因为它的阳极和阴极之间的压降接近于零，低于它的打开电压。此外，高阻状态下的fed也是截止的，因为电流在高阻状态下通过fed时自然是低的。因此，在两个通道的放电电流都是最小的，ml保持较高。但是，当搜索数据与存储数据不匹配时，即使处于高阻状态的右侧fed仍然被切断，但左侧fed没有被切断。左fed低阻通电时，其正极和阴极之间的压降为vs，且高于其接通电压的值为0。因此，放电电流显著，ml电压较低(图3b，中面板)。我们还演示了两个基于美联储的tcam中的三元“不在乎”状态。如图3b的右面板所示，通过将左右两个fed设置为高电阻状态，我们将逻辑“不在乎”状态写入fed tcam单元。使用上面的写方案和逻辑“1”和“0”相同的搜索方案，无论什么信号到达两个feds，这两个feds总是被切断，因为它们处于高电阻状态。图3c显示了在搜索数据和存储数据位' 1 '之间的匹配和不匹配状态下，使用7 v的中等搜索电压对两个基于fed的tcam单元的电阻进行重复准直流读取。图3d显示了使用查询位“1”和“0”对存储数据位“don’t care”的两个fed tcam单元电阻的重复准直流读取。这表明，对于这两个查询，两个基于feds的tcam的ml阻力仍然很高，因此没有通过任何两个feds进行放电。因此，带有两个feds的tcam单元在所有三种状态下都能完全工作。两种基于fed的tcam单元的完整查找表汇总在补充表中。
传统的双端忆阻器通常与前端晶体管配对构成tcam单元。这是因为晶体管需要切断通道，因为它们与双端nvm串联在一起。基于fed的设计得益于高自整流比，无需任何晶体管就能切断通道。换句话说，fed将晶体管的功能抽象为自身的自整流行为。没有晶体管导致更小的电池足迹和面积效率，并提高了基于美联储的tcam的搜索速度。通过spice模拟，我们验证了基于fed的tcam中的搜索延迟与之前基于2晶体管2电阻(2t-2r)的tcam体系结构相比有所降低。图3e显示了各种tcam单元横向足迹与搜索延迟的基准对比图。我们的两个基于fed的超cmos sram tcam和其他基于晶体管+ nvm设备的架构的卓越性能是显而易见的。
基于feds的tcam的感知度是自整流比和on/off电导(或电流)比的函数。根据我们详细的紧凑模型(见补充注释1)，通过在fed层顶部集成一个非铁电绝缘体，并对这些铁电绝缘体和非铁电绝缘体层之间的厚度比以及铁电层的矫顽场进行工程设计，可以进一步提高fed的开/关比。未来的研究将专注于通过设计这些变量来进一步提高感知边缘。
图3。2-fed tcam单元用于搜索操作
a，带有匹配线(ml)、搜索线(sl)和搜索线(sl条)电极(左)的tcam单元的方框示意图。基于cmos voltle静态随机存取存储器(sram)技术的单16晶体管(16t) tcam电池电路图，以及基于pcm和rram等电阻性存储元件的2晶体管2电阻(2t2r) tcam电路。(中间)。本工作中提出的两个基于二铁二极体的tcam电池(右)通过使用两个平行但极性相反的feds连接显著简化了tcam设计。
b.由2个federal组成的单个tcam单元对“匹配”、“不匹配”和“不在乎”状态的操作。
c，对于搜索数据和存储数据位' 1 '之间的匹配和不匹配状态，重复准直流读取两个feds tcam单元的电阻，显示在ml电阻上有>100 x的差异。
d，使用查询位“1”和“0”重复准dc读取存储数据位“don’t care”的两个铁二极管tcam单元的电阻，结果表明，对于两个查询，两个feds tcam的ml电阻都很高，因此没有通过两个feds中的任何一个放电。
e，各种存储技术中tcam细胞横向足迹与搜索延迟的基准对比图。这个估计假设单一fed面积为0.0081μm2。
神经网络
接下来，我们将关注我们的fed设备阵列在深度神经网络(dnn)推理中的应用，这涉及到重复矩阵乘法/累积(mmac)操作。mmac操作和dnn通常在软件级别实现。然而，它们的软件实现使得在电力和资源受限的设备或环境中部署它们特别具有挑战性。同样，这在很大程度上是由于传统的冯诺依曼计算硬件方法，它在内存访问方面是密集的，很难并行化。在模拟域进行mmac操作提供了一种有前途的替代方案:具有模拟导管的忆阻器已被证明是执行mmac操作的优越硬件介质。通过利用基尔霍夫电流定律(kcl)的高并行性，mmac操作可以显著减少到读取单个时钟在忆阻器的每个位线上的累积电流。这是通过将输入矢量编码到模拟电压幅值和将矩阵元素编码到忆阻器阵列的电导来实现的。
理想的适合mmac的忆性器件应该在电气编程中实现线性排列的电导值，电流对驱动电压的线性依赖，以及抑制电流量的高电阻。该领域的先前研究主要集中在具有优异欧姆性能和大量电导状态的记忆器件上，如rram和pcm。在dnn推理精度的背景下，电流和电压之间的线性关系是最小化输入基准失真的必要条件，大量的电导将使权矩阵上的精度损失最小化，这对于执行高度精确的推理任务是必不可少的。然而，从功率和面积效率的角度来看，一个优秀的欧姆行为和大量的电导状态将损害结构指标的功率效率和每次计算的低延迟。这有几个原因。首先，具有优异欧姆性能的忆性器件以高器件导电性为代价，这意味着高工作电流限制了阵列的缩放。其次，大量的电导将相应地需要高精度的模数转换器(adc)。从先前的工作中我们已经知道，在忆阻阵列系统中，电路级别上的adc支配着能量和面积成本。因此，更多的电导状态意味着在dnn推理引擎的架构级别上更多的功率开销。因此，dnn推理的准确性与功率和面积效率之间存在明显的权衡。在这里，我们展示了fed忆阻器可以用于执行这些指标之间的最佳权衡。首先，为了实现器件导电性的权衡，重要的是在保持线性行为的同时降低记忆器件的操作导电性。前一个条件对于高度自整流的设备来说很容易满足，这是联邦储备银行的固有属性;后一个条件可以通过在输入电压振幅上应用编码器来线性化电流-电压关系(见补充注2)来满足。第二，为了放松电导状态数量上的权衡，需要少量但稀疏且线性排列的电导状态。与实现大量电导状态的方法相比，这种方法可以获得等效的推理精度。
图4a显示了通过逐步电压脉冲调制的fed系统的逐步切换。使用逐步电压脉冲，fed电池逐渐编程成16个不同的电导状态。这些电导状态显示与编程脉冲数量的高度线性，如下所述。图(左)显示了一系列编程操作，其中逐步电压脉冲(范围从16 v到19 v)应用于feds的顶部电极上，然后每次都进行擦除操作。标注窗口(右)显示了一个代表性周期的电导与脉冲数的关系。图4b显示，fed器件能够实现电压脉冲诱导模拟双极开关(范围从16v到19v，左)。标注窗口(右)显示了一个逐步编程和逐步擦除的循环。在双向调制中，fed器件对16种不同的电导状态表现出优越的线性(线性拟合的r2分数为0.9997)。图4c显示了16种不同电导状态下的电导保留率，并没有显示明显的退化。图4d显示了在16个程序脉冲(脉冲宽度为2 μs)，交错读取(8 v)的相同序列下，五个独立的fed器件的电导状态分布。结果显示，这些fed设备之间的设备间的差异可以忽略不计。我们注意到，用于编程这些状态的fed器件的电导范围(~25-250 ns)比用于tcam操作的电导范围(~ 2-250 ns)小得多。这主要是因为在较小的电导范围内可以更好地实现工作中的线性。此外，dnn推理应用不一定需要高范围的电导调制。我们在一个用于计算机视觉的训练卷积神经网络(cnn)的实际应用中，模拟了由这种fed设备组成的阵列的性能。在mnist数据集(mnist, modified national institute of standards and technology database)上训练一个cnn(包括两个卷积层和一个全连接层)，然后将预训练的权重转移到fed电导范围。该网络的示意图如图4e所示。我们分析了由于重量转移到低精度的电导值，加上一个附加的可变因子a，这是一个非线性指标，精度下降。a因子与非线性的关系已在补充注3中详细讨论。因此，全精度训练网络的权重被量化为若干电导状态(从1位到9位不等)。然后，对网络在mnist测试数据集上的准确性进行重新评估。卷积神经网络对于低精度的权值传递具有较低的非线性(a > 0.5)的鲁棒性，如图4f所示。图4f中，对于低精度的权值传递变化，在单精度浮动点数格式(fp32)上仅用3位的权值精度恢复了97.5%的全精度测试精度。对于较高的非线性(a <0.35)， fp32上需要1 ~ 2位权精度才能恢复全精度测试精度，这说明线性排列稀疏的电导状态具有良好的线性性，可以替代大量的电导状态，实现等效推理精度。此外，我们在fed阵列上模拟原位训练的内存实现，其中训练相同的卷积神经网络，并在每次反向传播后将权值更新直接映射到fed的实际电导状态。如图4g所示，对于图4a中fed器件中演示的16个独立电导状态，原位学习精度比在fp32上训练的精度下降了约2%。然而，使用更先进的低精度训练技术和软件上的模型压缩技术，我们相信这个数字可以大幅减少，允许在训练阶段执行低精度权重转移到fed设备时几乎没有精度下降。
图4。fed-based神经网络。
a，通过逐步电压调制脉冲在铁二极管(fed)中逐步开关。使用逐步电压脉冲将fed电池逐步编程成各种电导状态。左面板显示了一系列编程操作，其中逐步电压脉冲偏向于联邦电极上的顶部电极，每次都跟着一个擦除操作。标注窗口(右面板)显示一个代表性周期的电导与脉冲数的关系。
b, fed被证明能够进行电压脉冲诱导模拟双极开关(左)。标注窗口(右)显示了一个逐步编程和逐步擦除的循环。在16个不同的状态下，fed器件显示了优越的线性。
c, 16个不同电阻状态的电阻保留率。
d，受16个程序脉冲(2 μs脉冲宽度)序列和交错读取(8 v)的影响，五个独立的feds的电阻状态分布。
e，为mnist数据集训练的cnn的插图。使用铁二极管阵列进行矩阵乘法的神经网络硬件实现可以在完全模拟模式下运行，而无需外围的模数转换器。
f.仿真包括实现模拟权层的fed设备，以及在mnist上训练的带有fp32计算的网络的不准确权映射。(f)中的模拟表明，当a < 0.5时权重精度仅为3位时，网络推理精度的退化小于1%。
g，直接使用实现模拟权层的fed设备对(e)中的网络进行原位训练的模拟。利用fbi渐进编程中的优越线性，模拟权值层具有16个电阻状态，其推理精度可与fp32计算基线相媲美。
结论
总之，我们证明了基于alscn的ferrodiode（铁二极管器件）是一种新颖的、beol兼容的无晶体管架构多功能cim平台。我们通过一个tcam电路实现了搜索功能的实验演示，该电路具有横向单元足迹和搜索延迟，优于所有现有和实验nvm技术。最后，我们演示了一种稳定的、脉冲可编程的4位存储器，来自ferrodiode，结合卷积神经网络的硬件实现，其推理精度可与软件相媲美。因此，我们的工作通过使新型ferroelectric和使用它们制造的二极管器件成为可能，为cim平台打开了新的可能性。
番外
fed设备制造的方法
fed由si/al0.8sc0.2n (85 nm)衬底上的al (80 nm)/al0.68sc0.32n (45 nm)/al (30 nm) 的薄膜堆栈组成。为了准备这个堆栈，我们首先溅射沉积一层85纳米厚的al0.8sc0.2n模板在6英寸si 晶圆的顶部。采用脉冲-直流无功溅射沉积单合金al0.8sc0.2n靶材料，靶功率为5 kw，压力为7.47x10-3 mbar，沉积温度为375℃，在n2气氛中沉积了al0.8sc0.2n。第一层85 nm的al0.8sc0.2n将随后80 nm厚的al层定向为{111}取向。这一层al (80 nm厚)作为第二层al0.68sc0.32n(45 nm厚)的底部电极，这是本器件使用的铁电层。在evatec clusterline200 ii脉冲直流物理气相沉积系统中，45nm厚的铁电al0.68sc0.32n薄膜从单独的4英寸al和sc目标共溅射。al和sc靶分别在1250 w和695 w下工作，卡盘温度350℃，ar气体流量10 sccm和n2气体流量25 sccm。腔室压力维持在~1.45x10-3 mbar。这种溅射条件导致沉积速率为0.3 nm/秒。高取向{111}al层促进了alscn的生长，其[0001]轴方向垂直于衬底，因此，产生了高纹理的fe薄膜。在不破真空的情况下，溅射出一层30 nm的al层作为顶电极和盖层，防止铁电al0.68sc0.32n的氧化。
设备特征
使用keithley 4200a半导体表征系统在环境温度下的空气中进行电流电压测量。利用keithley 4200a半导体表征系统和辐射精度premier ii测试平台进行了fed alscn的p-e迟滞回线和pund测量。在fei helios nanolab 600聚焦离子束(fib)系统中，采用原位提升技术制备tem横截面样品。样品被涂上薄薄的碳质保护层，用记号笔在表面写上一条线。随后使用电子束和离子束沉积铂保护层，以防止fib铣削过程中的电荷和加热效应。在最后的清洗阶段，低能的ga+离子束(5 kev)用于减少fib诱导的损伤。在200kv加速电压下运行的jeol f200上进行了tem表征和图像采集。样品定向于[001]区轴进行成像。所有捕获的tem图像都是使用数字显微软件收集的。

编写优质嵌入式C程序的基础
ADAS/AD图像传感器需迈过的第一道门槛
同是高颜值！看完荣耀8青春版和荣耀V9的对比后，你选谁？
迈同车载放大器芯片成功应用于比亚迪汽车
喜讯 | 经纬恒润荣获一汽解放2021年度“技术支持奖”！
一种创新的存内计算架构
遥控器透气膜技术是如何实现防水又透声音的
360N5S发布会提前看：双面玻璃加骁龙653+6GB，前置双摄超大电池！360N5S价格成悬念
浅谈电子终端设备ePTFE防水透声膜设计方案的应用
中国移动牵头完成了基于网联式（C-V2X）自动驾驶功能架构标准立项
百度研发中国首款云端全功能AI芯片“昆仑”
电池业务拟分拆上市天能动力的资本局
自动控制系统PID控制器的基本实现
采用Linux系统的嵌入式工控量热仪设计方案
边缘自动化与IIoT的机遇
眉山建市以来最大工业项目，信利（仁寿）第5代显示项目封顶仪式举行
数据中台不断落地逐渐蔓延到了安防行业
IR推出多功能系列CHiL数字脉冲宽度调制(PWM)控制器
索尼中国宣布索尼X80J系列正式全渠道开售
新冠病毒核酸检测移动实验室正式交付