数据算力需求的日益增长带动了ai芯片行业的兴起,作为中国ai芯片的中坚力量,燧原科技聚焦于ai训练与推理不断推出芯片以及加速卡产品。12月7日,燧原科技重磅发布第二代云端人工智能推理加速卡“云燧i20”,这是时隔仅五个月,继今年7月发布云端人工智能训练加速卡“云燧t20”之后,燧原科技又推出的全新一代针对云端推理场景的ai加速产品。
燧原科技ceo赵立东和coo张亚林发布第二代云端ai推理产品
燧原科技ceo赵立东在发布会上表示,我们的第1代训练和推理产品已经在国家重点实验室、互联网、智慧城市、智慧金融等几大方向上实现了突破,已产生了过亿的订单和收入。在这个过程中,我们也通过多种业务模式和产学研结合,建立了强大的朋友圈和生态圈。随着第2代训练和推理两条产品线逐步量产,以及软件生态的不断优化和完善,业务的加速落地和规模化正按计划逐步实现。未来,我们除了继续大力拓展上述的几个业务方向之外,还会在高性能计算,交通和能源等领域投入资源,拓展商机。
从2017年到2023年,整个ai云端市场训练和推理产品比例在发生变化,推理产品比例在慢慢变高。基于这样的ai市场趋势,燧原科技coo张亚林表示,燧原科技也在做产品线拓展,ai的业务从传统的单一的机器视觉、声音、文字,还有决策、推荐等方向性的算法,已经变成多场景、多应用的落地,广泛分布在用户日常生活中。
12nm工艺打造的新一代“邃思”ai推理芯片
第二代云端推理加速卡云燧i20,基于新一代“邃思”ai推理芯片,它采用第二代高性能计算核心和数据引擎,由12nm工艺打造,通过架构升级,大大提高了单位面积的晶体管效率,从而实现了与目前业内7nm gpu相匹敌的计算能力。不仅如此,基于12nm成熟工艺带来的成本优势,使得云燧i20在相同性能表现下更具性价比优势。并且供应链体系更加稳定成熟,客户的业务需求可以得到及时满足。
燧原科技发布全新一代“邃思”云端ai推理芯片
具体来看,邃思推理芯片的计算架构具备全ai的算力空间,其中单精度fp32达到了32 tflops,以及单精度张量tf32,达到了128 tflops,它同样具备半精度bf16/fp16的算力,达到128 tflops。最重要的在推理方面,提升整个整数精度int8,达到256tops。也就是,从fp32到int8,包含中间精度tf32、bf16、fp16五个精度构成了全ai算力空间,满足各种各样推理的客户需求。
邃思推理芯片用16位算力做到32位的精度效果。如何做到的?它具备tf32张量单精度,拥有4倍于fp32的算力,但是在整个模型上拥有99%的精度一致性。于是,就可以用4倍的fp32算力达到99%fp32的算力精度,这也是中国第一颗tf32的推理芯片。
邃思推理芯片的数据架构,拥有完全自研的svs (sparse value segment ) 数据压缩格式。它能够进行独立的分层压缩和硬件自动循环解压,使得所有的数据,特别是稀疏数据在传输过程之中,能够节省带宽和功耗。它支持硬件指令预取的操作,使得指令的预取、数据的传输和计算可以同时进行。进行并行的数据广播,使得同样的数据可以广播到多个处理器上进行并行执行。同时,它具有很强的动态功耗控制,让整个数据传输的动态功耗变得非常的有效。
在存储方面,燧原科技依然采用了业内最领先的hbm2e,由2颗hbm2e构建,单芯片容量达到16gb,最大带宽达到819gb/s,在整个封装上,依然采用2.5d的高级封装,整合了五颗芯片,它的整个封装尺寸达到了55毫米乘以55毫米。大芯片加上两颗hbm2e存储的护航,构建了计算加存储的互促,使得ai的推理在带宽、存储容量和算力上能够进行极致的发挥。
云燧i20加速卡性能显著提升
比上一代云燧i10相比,云燧i20在浮点32位、浮点16位、整点8位的算力,以及存储带宽,存储类型等方面都有巨大提升。云燧i20单精度fp32峰值算力达到32 tflops,单精度张量tf32峰值算力达到128 tflops,整型int8峰值算力达到256 tops。对比第一代推理产品,云燧i20将浮点算力提升到1.8倍,整型算力提升到3.6倍。
燧原科技发布第二代人工智能推理加速卡“云燧i20”
和业内主流的gpu的次旗舰相比,云燧i20的浮点16位的算力、int8的算力,都是其2倍,内存带宽是2.65倍。
基准测试部分,在业内的主流模型中以友商的gpu次旗舰为baseline,从图像分类、识别到目标检测到图像分割到图像超分等整个模型来看,云燧i20是友商的gpu次旗舰的2.5到3.7倍不等。
一个例子是,针对bert文本场景分析,每一个白色的框是一段文本,通过邃思推理芯片dtu和gpu的实时渲染和处理,分析出每一段文字的情感,这个情感用彩色框标注为各种情绪。运时显示,dtu整个分析速度明显加快,彩色的框出现的比率明显增高,频率也越来越快。同时,dtu的实时性能是gpu的2.5倍以上,而实时的延时dtu只有gpu的不到一半。
软件生态升级,搭建训推一体化
此次,在软件支持层面,升级后的“驭算topsrider”软件栈,在性能、开发效率和模型覆盖面上得到大幅提升。通过引入通用高层图优化和大规模算子融合技术,充分释放了大容量片内存储和高带宽存储的利用率,将模型平均性能提升3.5倍,硬件算力利用率平均提升2倍;通过升级的编程模型以及算子自动分片、自动生成技术,自定义算子开发效率翻倍,模型迁移成本大大降低;此外,驭算增强了对动态性的支持,使云燧i20在检测、语音识别、语义理解等场景更具竞争力。
张亚林表示,t20和i20组合的训推一体化系统日臻完善,在topsrider软件系统里,从高层的图优化到中间的算子库再到中间的编程模型,最后到底层的runtime,四个阶段中分别统一了整个训练和推理引擎,使得用一套结构可以支持所有训练和推理软件栈,通过统一的表达,统一的训练推理的算子编程模型和runtime,训练和推理栈进行了深度融合和充分泛化,在运用训推一体化时更高效、精密和兼容。
同时,我们支持lazy、graph、eager、trace mode四种图执行模式,这四种模式涵盖了广泛的框架和图执行,它能适配各种各样的训练和推理的场景。通过今天i20和i20相关匹配的dtu2.5和topsrider2.5的发布,燧原科技已经拥有第二代全系统、全自主的技术栈。
云燧i20已量产应用
目前,已经有不少合作伙伴推出了基于燧原科技i20板卡的服务器产品,包括浪潮、华三和超威等等,产品涵盖4u到2u的服务器,搭配16张dtu的卡到2到4张dtu的卡,
比如,浪潮标准的4u服务器配置了16张i20板卡,以及2cpu,通过16张i20板卡,4u服务器能够提供非常高的算力密度。
浪潮信息副总裁刘军表示:“燧原科技是国产人工智能计算芯片的领军企业,浪潮信息与燧原科技通过元脑生态联合创新,在ai整机系统、ai算力优化、场景方案落地等多方面深入合作。此次云燧i20的发布,标志着燧原从训练到推理全面进入2.0时代,这也是国产ai算力发展的里程碑。我们期待和燧原一起紧密合作,共同推进中国人工智能产业的快速发展。”
此外,在身份证识别、人像卡通化、人体姿态检测、车路协同等应用场景,燧原云燧推理卡和相关识别技术的搭配,实现快速、精准的智能效果。
燧原科技以其国产ai算力产品为核心,以商业生态和科研生态为支撑,实现燧原科技的云端ai推理产品在互联网、金融、政务等多家客户的商业落地,并获得认可。在第一代训练和推理产品产生了过亿的订单和收入之后,相信第二代产品将加速向更多领域进行渗透。根据规划,面向训练和推理的下一代产品t30/t31,i30已经在研发中,三年完成两代产品迭代,随着燧原科技产品和技术路线图延伸,将有更多惊喜的产品和技术的展露。
星云医学影像人工智能平台落地,飞利浦新产品如何开启AI医疗时代?
插座冒烟的原因和解决方式
车身电子产品的趋势及行业前景
val.py源码解读
联华电子正面临12吋成熟制程需求量的激增
匹敌7nm GPU,燧原科技第二代云端AI推理卡发布,落地服务器、身份识别、车路协同等应用
前11月中国燃料电池汽车产销分别完成935辆和948辆
电源监控器IMP809/IMP810及其应用
HarmonyOS极客松“上分秘籍”! 高手们顶峰相见!
诺基亚8最新消息:诺基亚8骁龙835+2K屏+4g回归性价比,诺基亚8即将发布售价3383?
博通物联网平台助力海尔新智能家电
如何让多个智能体学会一起完成同一个任务,学会彼此合作和相互竞争
住友增加对SINTAVIA的投资,加速高性能航空部件增材制造服务
360N5评测:高通骁龙653+大内存6GB+支持应用分身多开
智能锁厂家坤坤浅析全自动智能锁的选择标准
与小米6同行?miui9也要来了?更多黑科技,米粉们期待吗?
鸿蒙生态中华为并未“以权谋私” 鸿蒙生态的参与者需要这些人
管窥一下汽车这样的“自控力”是如何实现的
电线电缆因功能需求的多方面而应用非常广泛
日常生活中常见的测量工具