什么是AI芯片“存储墙”的解决方案?

最近刚刚看了唐杉博士的《ai芯片的“冷”与“热”》,第一句就是“ 参加过去年硅谷的ai hardware summit的朋友,普遍反映这次在北京的会议没有那么火了”。记得,自己在2016年威海参加中国体系结构年会的时候,孙所也说了一句调侃的话:“现在的ai很火,大家都往那边去,没有人太关心体系结构了,我要告诉那些追ai热点的,它都死了三回了!” 的确,作为从小学马列的中国人,我们最熟悉螺旋式上升的概念。对于计算和i/o来讲,和中国经济调控一样,都是“ 水多了加面,面多了加水”螺旋式上升。
google在2017年发布了tpu v1之后,现在已经有越来越多的ai startup的芯片出现,大家基本上都是用标准的resnet50,googlenetv3 等网络为benchmark, 一次一次地刷新性能和功耗比,个人觉得很有可能在一天,ai芯片的性能和功耗比在特定的imagenet的任务上超过人脑,现在ai在准确率和性能上都超过了。对于ai的芯片来讲,有一个指标也是大家讨论比较多的。roofline model
y轴是p,代表算力,用来flop/s来表示,现在新出的ai asic往往在flop/s并不发力,因为从功耗比的角度上,算力肯定不是越高越好,而且大家都很难高过老黄的核弹。
代表了一个特定的计算平台的peak performance,就是最大算力。
就是特定的计算平台的i内存/o带宽,这个和该计算平台使用的ddr类型有关。
x轴是i,代表计算强度,就是在一个byte上的计算量。因为对于一个特定的平台,我可以知道它的最大算力和带宽,我们就可以知道它的最大的计算强度。
因此,和图上显示的一样,在点(imax,),这个计算平台达到了完美。在它的左边,说明memory受限,在它的右边说明计算受限。
因为对于每一次访存都是32位的float point,因此整个内存的占用就是 260mb左右,而计算量是724mflops,因此alexnet的计算强度就是724/260=2.7 operation/byte。
对于一个特定的平台,比如老黄家的新的gtx2080ti 系列来讲:
对于计算性能,先不管老黄加各种tensor core,rtcore,从cuda core本身来讲,他是100tlop/s,
它的内存带宽如下:
因此,作为2080ti, 它的imax就是166operation/byte.
可能到这个,就可以看出,对于alex的2.7 来讲,远远没有达到2080ti的计算强度,主要是受限于内存带宽了。
在google的tpu中,有一个图经常被大家引用。
大家基本上可以看到,google的imax差不多在1000左右,基本上没有什么网络可以完全用满tpu的peak performance。
怎么办,内存带宽的解决方案就是hbm,hbm2, hbm3不断加大带宽。记得在2017年的cncc上,谢源教授讲,他在2010年左右提出了hbm的概念,他很快就看到了amd,nvidia以及xilinx和intel都在芯片上使用了hbm,证明了这条道路的正确性。他认为目前应该在ai芯片上摆脱这种”水多了加面,面多了加水“,in-memory 计算应该是下一个方向。
这个就引出了在memory+会议上来自平头哥的段立德博士的topic,”processing near or in memory for deep learning.

Windows7系统即将停止更新你会免费升级到Win10吗
伺服电机的调试方法
华为发布NoF+存储网络解决方案
低功耗多通道数字隔离器ISO7041的特点及应用分析
人工智能发展趋向的是哪一个方向
什么是AI芯片“存储墙”的解决方案?
CAN总线调整同步的规则是什么
机器乌鸦成功骗过真老鹰
巨哥科技带来新款红外热像仪
三星将携两款重磅产品王者归来
三菱fx3u系列plc编程技术与应用转网口模块
2022蓝牙耳机哪款更值得买?最受欢迎的十大蓝牙耳机排行榜
2023年中国集成电路设计业呈现哪些变化?未来走向如何?权威报告即将在ICCAD上隆重发布
许可区块链可以给银行带来什么益处
有效维修:提升机减速机端的轴径磨损在线修复工艺
什么是计算机视觉,图片处理基础操作
浅析太阳能草坪灯系统设计方案
魅族17修复低温环境下无法充满电的问题
热点新闻:华为智能生活馆落地杭州 三星正研发智能运动鞋
国内首个已量产的大算力自动驾驶芯片可在2022年内上车