Google的TPU芯片的发展历史和硬件架构

google在高性能处理器与ai芯片主要有两个系列:1)针对服务器端ai模型训练和推理的tpu系列,主要用于goggle云计算和数据中心;2)针对手机端ai模型推理的tensor系列,主要用于pixel智能手机。
结合最近几年google在hotchips、isca、isscc发布的论文和报告,总结了google的tpu芯片的发展历史和硬件架构,可作为学习、研发高性能处理器与ai芯片的参考资料。
1. tpuv1
google第一代tpu芯片,服务器端推理芯片。
硬件架构 功能特性
1).tpu指令通过pcie gen3 x16总线从主机发送到指令缓冲区。矩阵乘法单元是tpu的核心,包含256x256个mac,可以对有符号或无符号整数执行8位乘法和加法。16位乘积被收集在矩阵单元下方的32位累加器的4 mib中。4mib表示4096256个元素的32位累加器。矩阵单元在每个时钟周期产生一个256元素的部分和。
2).当混合使用 8 位权重和 16 位激活时(反之亦然),矩阵单元以半速计算,而当两者都是 16 位时,它以四分之一速度计算。
3).省略了稀疏架构支持。稀疏性将在未来的设计中占据高度优先地位。
4).tpu 指令遵循 cisc 传统,包括重复字段。这些 cisc 指令的平均每条指令时钟周期 (cpi) 通常为 10 到 20。总共约有 12 条指令,但以下 5 条是关键指令:read_host_memory、read_weights、matrixmultiply/convolve、activate、write_host_memory。其他指令是备用主机内存读/写、设置配置、两个版本的同步、中断主机、调试标记、nop 和暂停。
2. tpuv2
google的第二代tpu,定位是服务端ai推理和训练芯片。
硬件架构 tpuv2改变
单个向量存储器,而不是固定功能单元之间的缓冲区。
通用向量单元,而不是固定功能激活管道。
连接矩阵单元作为向量单元的卸载。
将 dram 连接到内存系统而不是直接连接到矩阵单元。
转向 hbm 以获得带宽。
添加互连以实现高带宽扩展。
tpuv2 core
超长指令字架构:利用已知的编译器技术。
线性代数isa:标量、向量和矩阵,为通用性而构建。
tpu 核心:标量单元 322b vliw 捆绑包:
2 个标量槽
4 个向量槽(2 个用于加载/存储)
2 个矩阵插槽(推入、弹出)、
1 个杂项插槽
6 个立即数
存储系统
针对 sram 暂存器进行加载和存储
在核心内提供可预测的调度
可能会因同步标志而停止
可通过异步 dma 访问
在同步标志中指示完成
互连器
具有 4 个链路的片上路由器
每个链路 500 gbps
组装成2d环面
软件视图:使用 dma,就像 hbm 一样;限制推送 dma;只需定位另一个芯片 id
3. tpuv3
tpu3是是对tpu2的温和重新设计,采用相同的技术,mxu和hbm容量增加了两倍,时钟速率、内存带宽和ici带宽增加了1.3倍。tpu3超级计算机还可以扩展到1024个芯片。
硬件架构 功能特性
协同设计:具有软件可预测性的简化硬件(例如,vliw、暂存器)。
使用 bfloat16 脉动阵列计算密度:hbm 为计算提供支持,xla编译器。
具有原则性线性代数框架的灵活大数据核心。
4. edge tpu
google发布的嵌入式tpu芯片,用于在边缘设备上运行推理。
5. tpuv4i
tpuv4i:google于2020年发布,定位是服务器端推理芯片.
硬件架构 功能特性 1).单核tpuv4i 用于推理,双核 tpuv4(可扩展至 4096 个芯片)用于训练。 2).选择编译器兼容性,而不是二进制兼容性。 3).通过通用内存 (cmem)增加了片上 sram 存储。 4).四维张量 dma 引擎充当协处理器,可完全解码和执行 tensorcore dma 指令。 5).添加了一个共享片上互连 (oci),用于连接芯片上的所有组件。 6).引入了四输入加法器运算单元。 7).时钟频率达到 1.05 ghz。 8).2个ici链路链接板端4 个芯片。 9).具有广泛的跟踪和性能计数器等硬件功能。
6. tpuv4
谷歌2020年发布,服务器推理和训练芯片,芯片数量是tpuv3的四倍。


荣耀手环4Running版评测 专业的跑姿监测数据
如何录制系统声音
采用5.8GHz无线宽带接入技术实现大面积的无线覆盖应用
AI芯片已经成了最热门的投资领域,各种AI芯片层出不穷
三种控制线路的工作原理
Google的TPU芯片的发展历史和硬件架构
三输出和双输出微型模块稳压器对基于FPGA的系统优化方案
EMI辐射超标整改案例分享
360儿童手表9X Pro重磅发布:内置人工智能语音助手
IQM首席执行官:欧洲可能引领量子计算革命
判断电磁阀好坏的方法及常见故障(设备工程师和采购基本知识)
如何判断可控硅的三个极?如何判断可控硅是否损坏?
诺基亚8终于出现了! 这次是真的吗?
地平线征程5芯片通过ISO 26262 ASIL-B 功能安全产品认证
高端品牌中,卡萨帝为何能够屡次斩获中国专利奖
苹果停止英特尔5G芯片供货?纯属乌龙
基于51单片机的智能温控系统
运营商纷纷布局工业互联网
Transformer压缩部署的前沿技术:RPTQ与PB-LLM
测试机器中的不规则PCB是怎样设计的