据称,该gpu计划是迄今为止最大,设计最多的芯片:将具有1000个执行单元(eu),内核数量超过8000个,采用了7种关键技术,包含47个tile,是有史以来尺寸最大、最复杂的gpu。
英特尔新gpu:foveros 3d封装不同代工厂tile
英特尔的ponte vecchio gpu集成了超过1000亿个晶体管,47颗xpu tile以及各种制程节点的混搭。这款gpu采用了xe-hpc图形架构,该架构是基于英特尔7nm euv节点的旗舰产品。
除此之外,该芯片还有大量基于不同工艺节点的tile,其中一些xe-hpc tile由台积电等外部晶圆代工厂生产。
目前,尚无法确定英特尔是否会采用台积电的7nm或7nm+ euv工艺节点,但是鉴于台积电代工的xe link i/o tile采用了标准的非euv 7nm工艺,英特尔可能会继续采用标准7nm工艺。
英特尔首席架构师raja koduri曾经说ponte vecchio gpu采用了7项先进技术,技术媒体wccftech给出了具体名单:
英特尔7nm工艺、台积电7nm工艺、foveros 3d封装、emib(嵌入式多芯片互连桥接)技术、英特尔增强型10nm superfin工艺、rambo cache(兰博缓存)与hbm2显存。
raja koduri也在推特上公布了47颗tile分别是什么:16颗xe hpc(internal/external)、8颗rambo(internal、2颗xe base(internal)、11颗emib(internal)、2颗xe link(external)和8颗hbm(external)。
ponte vecchio实际上由两个独立gpu芯片组成,每个gpu包含六个xe-hpc计算单元。
一对xe-hpc计算单元直接与兰博缓存相连,兰博缓存采用了英特尔增强型10nm superfin工艺。
每个gpu还连接了四个hbm2显存,hbm2采用4hi或8hi堆叠(可以简单理解为4层或8层)。一共八个hbm2可以提供多gb的内存容量和带宽负载。此外,每个gpu上还有8个passive die stiffeners。
总体来说,英特尔xe hpc这款mcm结构gpu处理器使用了最先进的foveros 3d封装技术,将多个来自不同代工厂,使用不同工艺制作的tile集成在一个平台上,emib技术则将hbm2、xe link i/o等tile与gpu互连。
所有这些整合形成了ponte vecchio xe-hpc gpu。
执行单元数量将超1000,提供40倍双精度浮点算术能力
英特尔此前曾介绍过,其xe-hpc gpu将具有1000个执行单元(eu)。到目前为止,xe lp有96个eu,它们构成了总共768个内核。
新gpu的每个子层(subslice)有8个eu。第12代gpu中的subslice类似于英伟达sm单元或amd的cu单元。
而在英特尔的9.5和11代gpu上,每个subslice具有8个eu,因此如果12代保持相同的层次结构,人们将能看到大量由subslice组成的超级切片。从目前的图片上看,英特尔第12代gpu将有8个算术逻辑单元(alu),与11代和9.5代保持一致。
大致来说,一个gpu芯片将有1000个eu单元,8000个内核,而实际内核数量还要更多。而xe hp gpu的hpc尺寸也将更大。
wccftech列出了英特尔gpu的实际eu单元、对内核数量的估计。功率和tflops(每秒浮点运算次数)等数据:
英特尔xe hp (12.5) 2-tile gpu: 1024个eu单元,8192个内核,20.48 tflops,1.25 ghz,300w;
英特尔xe hp (12.5) 4-tile gpu: 2048个eu单元,16384个内核,36 tflops,1.1 ghz,400w-500w。
英特尔xe类gpu具有下面几种可变矢量宽度(vector width):simt(gpu)、simd(cpu)、simt+simd(最高性能)。
raja koduri谈到,英特尔的xe hpc gpu能够扩展到1000个eu,eu通过几个高带宽内存通道与xe内存结构相连,并且每个eu单元都进行了升级,可以提供40倍的双精度浮点计算能力。
兰博缓存则将在整个双精度工作负载中提供可持续的fp64计算性能。
就工艺优化而言,以下是英特尔针对7纳米工艺节点的一些关键改进:
1、相较10nm节点具有两倍的密度缩放优势;
2、内部的节点优化;
3、dr(design rules)的4倍缩减;
4、采用了euv光刻技术;
5、新一代foveros和emib封装。
200W大功率无线充电技术-深入探讨帕沃思科技提供的无线充电模组方案
我将GuiLite移植到了STM32F4开发板上
华为闪存门持续恶化 用户一纸诉状将华为告上法庭!
STM32CUBEMX开发GD32F303(14)----IIC之配置OLED
Bakkt究竟是不是加密货币交易所
英特尔针对7纳米工艺节点做出哪些关键改进?
哪些应用在5G初期获得利益
马尔戴克启动一个以锂离子电池为基础的储能项目 投资约1500万欧元
NS系列接地电阻柜类型
蓝牙耳机音质排行榜,盘点双十二值得入手的高音质耳机
在购买激光测距仪时,您需要考虑几点
晶科能源高效光伏组件全球累计出货量已超165GW
太阳能语音监控杆智能安防的新选择
浅析人机界面互动技术的趋势发展
努比亚Z17能用上骁龙835?nubia Z17mini炫红色更值得关注!
在2020第十届中国国际机器人高峰论坛上,李群自动化再受瞩目
苹果与高通闹掰对其用户有哪些影响
智能建筑中高低压配电设备集成监控和管理系统应用分析
嵌入式开发之C语言的指针
基于LonWorks现场总线实现监控系统设计的四种方案分析