Layerscape LX2160A:小体积大算力

与大多数其他layerscape处理器一样,lx2160a处理器面向无头嵌入式系统。它不适用于拥有强大cpu和流畅用户界面的计算机。诚然,它的大多数指标得分都很高,但最突出的是惊人的网络加速和i/o性能。它适用于无线传输卡和工业控制器等设计。为何要把lx2芯片连接到gpu上呢?
答案是,lx2对于计算机来说足够强大,但它是为高要求的嵌入式应用而设计。lx2擅长利用16个cpu进行通用计算。cortex®-a72 cpu由arm®授权,可用于其他layerscape处理器和其他公司的asic。例如特斯拉采用12核cpu的“fsd计算机”以及亚马逊网络服务公司采用16核cpu的graviton(与lx2一样)。我们的分析显示,16核lx2的性能与竞争对手架构(通常针对pc和服务器)的16线程/8核处理器相当。
需要这种性能的应用范围很广。其中包括layerscape及其power architecture®前身长期瞄准的通信设备类型中的数据平面功能:基站中的传输卡、数据中心服务器的智能网卡以及路由器的第2层/第3层加速度传感器。这些应用可采用lx2的众多内核以及每个layerscape处理器内置的连接和加密加速功能。
恩智浦在通信设备领域也有长期目标,特别是利用通信设备的高单线程性能方面。在这一方面,lx2也大放异彩——但在这种情况下,是由于lx2的cpu速度很快,可以穿透软件层。例如,网络功能虚拟化(nfv)将软件封装在以前运行在独立物理硬件上的虚拟机中。虽然虚拟化起源于服务器和工作站,但它在恩智浦处理器上可高效运行,这要归功于恩智浦的cpu内核和soc机箱的虚拟化功能。自2008年qoriq p系列问世以来,我们一直致力于这类组件的设计。
尽管如此,在典型的nfv系统中,各种因素共同消耗着cpu时钟周期。旧的物理系统是带精益系统软件的专用硬件。而虚拟化网络功能(vnf)是在类似计算机的通用硬件和系统软件上执行的,本质上效率较低。此外,这些平台还托管了多个vnf,它们通过虚拟交换机(软件上部署的以太网交换机)相互通信。数据平面开发工具套件(dpdk)等库减轻了操作系统开销,但依赖高速内核来运行并完成任务。lx2拥有所需的内核,而恩智浦投资优化网络和虚拟化软件,如dpdk和linux内核虚拟机(kvm)。恩智浦还投资容器化——成本更低的虚拟化替代方案。
然而,最重要的软件是linux。是的,恩智浦仍然与wind river等嵌入式操作系统专家合作。对于希望获得开源嵌入式体验的客户,恩智浦提供了yocto嵌入式linux开发环境。但是,许多开发人员(尤其但不限于具有it背景的开发人员)更喜欢在计算机上使用类似的环境。恩智浦的layerscape开发套件(lsdk)很受欢迎。它是一个参考集成,示范了客户如何将众多组件融合到系统映像或个性化linux发行版中。
为了构建lsdk,恩智浦首先修改大量开源启动加载程序、内核、库和工具,以与特定器件(如lx2)配合使用。我们将这些修改作为补丁,提交给相关的开源项目。一旦上传,lsdk组件就可从kernel.org和github等公共存储库下载。恩智浦会不时更新这些补丁,定期发布新版本,并为最新的两个长期支持版(lts)内核提供支持。开发人员可以选择自己集成所需的组件。无需下载大量iso文件或tarball。
lsdk参考集成非常便捷,包含了一个用户空间,其中包含从备受欢迎的ubuntu发行版派生的文件和文件夹层次结构。这为开发人员提供了熟悉的操作环境。重要的是,它还提供了对大量二进制软件库的轻松访问。这些应用运行顺畅,因为lx2和其他layerscape处理器使用标准arm内核,最大限度地提高了兼容性。其他受欢迎的发行版也支持64位arm处理器,使用lsdk打造自己发行版的开发人员可以调整这些用户空间,而不是我们提供的ubuntu示例。图1是lx2上linux桌面的截屏。
图1 layerscape lx2160a处理器上运行的linux桌面的截屏
lx2的性能和软件生态合作体系正将其推向通信以外的市场。高端辅助驾驶自动化系统(adas)中的服务器硬件通常会解决这类问题,即通过人工智能(ai)硬件集成从相机、激光雷达和其他传感器提取的信息的问题。这种硬件体积庞大、价格昂贵且容易发热。而lx2是个极具吸引力的替代方案,它具有相似的性能和更好的集成性,同时厂家在满足汽车制造商对长期供货计划、功能安全和恶劣环境耐受性的需求方面有着良好口碑。恩智浦与全球各大公司合作开展adas和自动驾驶工作。同样,客户也在工业机器视觉、航空航天和数控切割机中使用lx2。
即使在通信中,lx2也可以处理在通用处理器上未运行的工作负载。例如,5g移动通信标准支持各种功能拆分,包括在称为分布式单元(du)的系统中而非传统宏基站的信道卡上实现上层phy功能,包括信道编码、位操作、信道估计、均衡和预编码,可以在通用处理器上的软件中运行。然而,该处理器必须能够处理大量数据。恩智浦的分析表明,lx2可以胜任这项任务。
出于类似的原因,lx2甚至正进入数据中心,也就是终极计算设备200w+服务器芯片的大本营。lx2并没有取代服务器,而是通过插入服务器的网络接口卡与其进行互补。lx2将网络任务从那些昂贵且耗电的服务器内核中分流。xilinx开发的fpga + lx2 nic组合就是一个例子。
要了解lx2如何提供如此具有竞争力的性能,我们先深入了解一下一般计算工作负载上影响其性能的一些因素。它有两个受ecc保护的64位ddr4内存接口,如图2所示。虽然这比服务器处理器少,但lx2的ddr4接口运行速度高达3200 gt/s,比市场上的其他处理器快约50%。因此不仅可以确保良好的内存吞吐量,还能降低成本(与采用的宽ddr端口较少有关)。
图2 lx2160a处理器结构框图
这得益于8mb的平台高速缓存,高速缓存缓冲cpu内核访问、网络加速度传感器和i/o控制器的片外内存。片上还集成了2mb数据包快速缓冲区,可最大限度地减少内置以太网交换机对dram的访问。每对cpu旁边都有1mb的二级缓存。这与graviton的每核数量相同,graviton没有l3缓存,比许多计算处理器都要多。与片外内存相比,高速缓存的访问速度更快,因此对于向cpu提供指令和数据来说,高速缓存必不可少。
如上所述,lx2使用arm cortex-a72 cpu。这些cpu属于该公司的“大”a系列内核。有些layerscape使用“小”arm cortex-a53 cpu。这两种cpu相互兼容,可实现相同版本的arm 64位指令集。在相同的时钟频率下,a72的速度大约是原来的两倍。它每个周期可解码三条指令,并且可以在八条管道的任意一条无序执行。a53一次只解码和执行两条指令,可以降低功耗和成本。a72以性能为导向,还拥有更快的浮点单元和更广泛的neon simd执行单元,增强了其分割数学密集型计算工作负载(例如无线du中的上层phy函数)的能力。a72 的每个neon单元(共两个)的每个周期都可以进行两个复杂的16位乘积累加运算。
总之,恩智浦layerscape lx2160a处理器在计算方面表现出色。我们与一位希望更换其嵌入式系统pc处理器的客户取得了联系。他们想要类似的性能,但不想放弃他们的软件生态合作体系。lx2正好符合要求。工程师将得到一张标准gpu卡,插入系统的pcie插槽。因为有开源社区和lsdk,软件安装轻而易举。lx2专为解决嵌入式系统的环境挑战而设计,并针对通信应用进行了优化,在计算工作负载方面也大放异彩。或许恩智浦已经找到了新的宣传口号:layerscape lx2160a:小体积大算力。


通过机器学习重新获得力量
2016硬见开发者论坛:为创新者解决产品化技术难题
适用于制造飞机零件的3D金属打印机问世
锂离子电池预锂化实际应用的机遇和挑战
华为推Petal Map地图,可隔空操作
Layerscape LX2160A:小体积大算力
经纬恒润以太网开发及测试方案,助力智能汽车落地
华米Amazfit PACE智能手表首次在美国推出,售价仅129美元
物联网将会为半导体业者带来绝佳的成长商机
嘉寓股份发布2020年一季度业绩预告 短短一个月完成3个光伏相关项目签约
一加5什么时候上市?一加5最新消息:确定了,一加手机5将在6月15日发布!
在5G相关发展方面我国计划投入数千亿美元,正掀起一场别人几乎无法追赶的5G海啸
CC1310 CC1310F128RSMR 超低功耗SUB-1GHz 无线 MCU芯片
武汉大学-腾讯联合实验室揭牌 发布《科技向善,智享医保—智慧医疗保障蓝皮书》
要收购博通?英特尔CEO:不符合公司利益
Intel安腾2取消32位硬件电路改用虚拟软件
变频电机和定频电机的区别
贸泽备货 Microchip 16位 PIC24F 开发板 集成新手设计丰富功能快速开发
在5G商用元年,vivo到底做对了什么?
日本制造管理的三个核心理念