BF16是为深度学习而优化的新数字格式 预测精度的降低幅度最小

深度学习、ai人工智能等技术正在成为各大处理器的热点,虽然目前的主流是通过专用的npu单元来加速ai指令,但在cpu中集成相应的指令集也会带来很大的改变,intel在cascade lake及10nm ice lake处理器中就加入了bflota16指令集(简称bf16),ai性能达到了前代的2.5倍以上。
bf16是为深度学习而优化的新数字格式,它保证了计算能力和计算量的节省,而预测精度的降低幅度最小。
bf16,有时也被称为bfloat16或brain float16,是一种针对人工智能/深度学习应用程序进行优化的新数字格式。它在谷歌brain上获得了广泛的应用,包括谷歌、英特尔、arm和许多其他公司的人工智能加速器。
bf16背后的想法是通过降低数字的精度来减少计算能力和将张量相乘所需的能源消耗。张量是一个三维的数字矩阵;张量的乘法是计算人工智能所需的关键数学运算。
现在大多数人工智能训练都使用fp32, 32位浮点数。虽然这意味着计算非常准确,但它需要强大的硬件和大量的电力。推理通常使用int8, 8位整数(整数)。虽然使用诸如int8这样的较低精度的数字系统可以在相同的硬件上提供更高的吞吐量,从而节省电力,但是计算(预测)的结果却不那么准确。
bf16的目的是优化精度和预测精度之间的权衡,以增加吞吐量。
解剖fp
计算中的二进制数表示为:
底数是2,尾数是x的基指数,
在fp32中,每个数字都表示为:
1位表示符号(+或-),后跟8位的指数,在后面是23位的尾数(总共32位)。
对于bf16,谷歌brain提出通过将fp32的尾数截断为7位来降低精度。
因此,bf16数字表示为:
1个符号位+ 8个指数位+7个尾数位(总共16位)。
这些16位数字提供了谷歌所追求的高吞吐量需求,同时保留了fp32的近似动态范围(该系统可以表示的数字的整个范围),因为指数是相同的大小。
使用bf16算法的预测精度与fp32相似,但不如fp32精确(谷歌曾说过,这是因为神经网络对指数的大小比尾数敏感得多)。对于大多数应用程序,这种折衷还是被认为可以接受。
为什么不用fp16?
现有的fp16格式(在移动图形应用程序中很流行)也是16位浮点数格式。为什么不用它呢?
fp16包括:
1个符号位,5个指数位,10个尾数位(共16位)。
使用这种格式,指数比fp32小,因此动态范围大大缩小。此外,将fp32数字转换成fp16比转换成bf16要困难得多——这比直接截断尾数要多得多,而尾数截断是一个相对简单的操作。
另一个重点是计算所需的硅物理面积。由于硬件乘法器的物理大小随尾数宽度的平方而增加,因此从fp32切换到bf16可以显著节省硅面积(这足以说服谷歌在其张量处理单元(tpu)芯片中使用bf16)。bf16乘法器比fp32乘法器小8倍,但仍然是fp16的一半。
dl还有哪些格式?
bf16并不是为深度学习提出的唯一新数字格式。在2017年nervana提出了一个名为flexpoint的格式。这个想法是通过结合点和浮点数系统的优点来减少计算和内存需求。
定点数使用固定的位来表示整数(整数)和分数(小数点后的部分)—与上面描述的浮点格式相比,用定点数计算通常更简单、更快。但是,对于给定位数,定点数的动态范围要比浮点数小得多。
flexpoint数字共享相同的指数,使张量更容易相乘
flexpoint张量中的(浮点数)数使用相同的指数(不仅仅是相同的指数大小,而是完全相同的指数值)。这个指数是由张量中的所有数字共享的,所以指数的传递可以在整个张量中平摊。
张量相乘可以作为一个定点运算,因为每个计算的指数是相同的——这比浮点数所需的数学运算要简单。这些计算代表了深度学习数学的绝大部分,因此节省了相当大的费用。然而,由于所有数字都有相同的指数,所以导致管理指数很复杂,动态范围(可以表示的数字范围)很低。
可惜的是,flexpoint从未成功,甚至nervana自己的芯片在消亡前也使用了bf16。
延伸阅读——arm下代处理器架构将支持bfloat16指令集 ai性能突飞猛进
arm宣布将在下一版armv8架构中加入新的non及sve指令,以便支持bfloat16运算。
bf16运算还不是ieee的标准,但与标准的fp32浮点、fp16半精度相比,bf16运算优点多多,它可以轻松取代fp32,而且还能保持正确的nn神经网络操作,这点是fp16做不到的,而且它占用的内存及带宽只有fp32一半,所以性能更高,而且不需要复杂的架构改变。
总之,支持bf16运算优点多多,根据arm做的模拟,不同类型的运算中bf16带来的性能提升不等,少的有1.6倍性能,多的可达4倍性能,所以在ai方面性能变化是非常大的,是前代的数倍之多。

MOS管在USB PD快充移动电源中的应用
全球导航试验中心利用NI公司的基于FPGA的矢量信号收发器模拟多个复杂的卫星群
JD1A-90调速器工作原理图分析
埃隆.马斯克:再有10个月特斯拉就完蛋了
瑞萨节能的“功能模块”解决方案
BF16是为深度学习而优化的新数字格式 预测精度的降低幅度最小
纯无纺纸壁纸耐磨测定仪的特点是什么
空压机压力怎么调
1374架无人机翱翔西安城墙,刷新“最多无人机同时飞行”吉尼斯称号
如何在Vivado中添加时序约束呢?
地面互动投影的工作原理/特点/优势/应用
大型商场POS作业系统以及贵重商品的电子防窃设计
中国移动在北京地区开通首个双频5G基站5G网络下行速率达5Gbps以上
5G LAN标准进展,5G LAN应用场景需求分析
博通并购高通影响太大,被阻未能并购成功
人工智能核心涉知识、数据、算法和算力
Python中enumerate函数的解释及可视化
气动球阀结构及工作原理
未来五年中国计划投入9.5万亿来研发自主芯片
【算法+终端】EC-A1684JD4生态算法一体机