英伟达三大AI法宝：CUDA、Nvlink、InfiniBand

01. cuda架构，助力ai加速计算生态
gpu适用于处理大数据集，cuda核是本质原因。最开始，gpu(图形处理单元)作为一种专用计算机处理器，可以满足实施高分辨率3d图形计算密集型任务的需求。到2012年，由于gpu已经发展成为高度并行的多核系统，让它具备了处理大量数据的能力。简而言之，cpu做的专注线性计算，gpu做的是并行计算(数据之间没有直接关系)，而本质的原因是cuda核的不同，cuda核越多，计算性能越强，而gpu的cuda核数是cpu的上百倍，如amd epyc 7003系列7763核心数为64个，而英伟达a100 40gb核心数为6912个。
cuda的本质是“软件定义硬件”，实现“软件调用硬件”。cuda是一种并行计算平台和应用程序编程接口(api)，允许软件使用特定类型的图形处理单元(gpu)进行通用目的的处理，称为通用图形处理单元计算(gpgpu)。cuda提供了直接访问gpu虚拟指令集和并行计算元素的软件层，用于执行计算内核。cuda支持的gpu还可以使用编程框架，通过将代码编译为cuda来使用hip。cuda将从前多种不同的代码整合成了一气呵成的代码，这样极大的加快了开发模型的训练速度。可以简单理解，cuda是英伟达实现软硬件适配的一种“类编译器”，将软件的代码转换成硬件汇编代码，cuda是英伟达实现软硬件生态的护城河。
cuda助力加速计算及深度学习：gpu通过图形应用程序的算法存在算法密集、高度并行、控制简单、分多个阶段执行等特征，英伟达引入的cuda使gpu超越了图形领域。同时，cuda的框架和库可以充分发挥gpu的并行计算能力，提供高效的矩阵运算、卷积运算等计算任务的实现，大大简化深度学习的编程工作，提高开发效率和代码质量。在经gpu加速的应用中，工作负载的串行部分在cpu上运行，而应用的计算密集型部分则以并行方式在数千个gpu 核心上运行，能够大幅提升计算效率。目前nvidia h100 gpu的cuda数已达到14592个，远超amd epyc genoa-x cpu的96个核心。
cuda生态合作者规模翻倍增长。根据英伟达2023财年年报，目前有400万名开发者正在与cuda合作，而且规模还在不断扩大。英伟达通过12年的时间达到200万名开发者，在过去的两年半里该数字翻了一番。目前cuda的下载量已经超过了4000万次。
02. nvlink、nvswitch助力芯片快速互联互通
速度更快、可扩展性更强的互连已成为当前的迫切需求: ai和高性能计算领域的计算需求不断增长，对于能够在每个gpu之间实现无缝高速通信的多节点、多gpu系统的需求也在与日俱增。要打造功能强大且能够满足业务速度需求的端到端计算平台，可扩展的快速互连必不可少。简而言之，随着模型复杂程度增加，单张gpu无法完成训练任务，需要联合多张gpu，乃至多台服务器搭建集群协同工作，并需要gpu之间以及服务器之间进行数据传输交互。我们认为数据传输同样也是大模型算力集群能力的重要体现。
英伟达推出nvlink技术代替传统的pcie技术：第四代nvidia nvlink 技术可为多gpu系统配置提供高于以往1.5倍的带宽，以及增强的可扩展性。单个 nvidia h100 tensor core gpu 支持多达18个nvlink 连接，总带宽为900gb/s，是pcie 5.0带宽的7倍。nvidiadgx h100等服务器可利用这项技术来提高可扩展性，进而实现超快速的深度学习训练。
nvswitch与nvlink协同互联，助力英伟达高速通信能力构建: nvswitch是一种高速交换机技术，可以将多个 gpu 和 cpu 直接连接起来，形成一个高性能计算系统。每个nvswitch都有 64 个 nvlink 端口，并配有 nvidia sharp 引擎，可用于网络内归约和组播加速。
03. infiniband配合组网技术实现高效互联互通
ib交换机：是采用infiniband网络通信标准的交换机（以太网交换机是采用以太网协议），ib网络具备高吞吐带宽和低网络时延等优点。mellanox是全球ib交换机领先厂商，2020年被英伟达68亿美金收购。当前ai大模型的建设，尤其模型的训练部分，英伟达的网络配置方案已经占据了绝对领先地位。目前业界基于英伟达a100和h100 gpu构建的网络以配套ib交换机为主：
dgx a100 superpod基本部署结构信息为，140台服务器(每台服务器8张gpu）+交换机（每台交换机40个端口，单端口200g），网络拓扑结构为ib fat-tree（胖树），交换机速率为200gb/s；交换机建议mellanox hdr 200gb/s infinband交换机；
dgx h100 superpod基本部署结构信息为：32台服务器(每台服务器8张gpu）+12台交换机，网络拓扑结构为ib fat-tree（胖树），交换机单端口400g速率，可合并形成800g端口；交换机建议nvidia quantum qm9700 switc；
以太网是一种广泛使用的网络协议，但其传输速率和延迟无法满足大型模型训练的需求。相比之下，端到端ib（infiniband）网络是一种高性能计算网络，能够提供高达 400 gbps 的传输速率和微秒级别的延迟，远高于以太网的性能。这使得ib网络成为大型模型训练的首选网络技术。
infiniband网络（ib网络）：是指通过一套中心 infiniband 交换机在存储、网络以及服务器等设备之间建立一个单一的连接链路，通过中心 infiniband 交换机来控制流量，能够降低硬件设备间数据流量拥塞，有效解决传统 i/o结构的通信传输瓶颈，还能与远程存储设备和网络设备相连接。
端到端ib网络还支持数据冗余和纠错机制，能够保证数据传输的可靠性。在处理大模型中较多的数据时，数据传输错误或数据丢失可能会导致训练过程中断甚至失败，因此保证传输的可靠性尤为重要，而ib网路有效实现了保证。

工业4.0加速实现“数物相合”，可视化工厂节省时效高达85%
手机、显示器屏幕的“色域”是什么？显示器又该如何选择？
谷歌Pixel 2上市风波不断，烧屏层出不穷或面临停产难关
新闻：亚马逊联手黑莓内存闪存涨价预警
FTP服务器架设－－管理篇
英伟达三大AI法宝：CUDA、Nvlink、InfiniBand
PlayStation游戏卡带新专利曝光或重回掌机市场
MAX13256的缓冲器设计
聚酯装置DCS系统的硬件配置及在接地和电源方面的问题分析
将彩电延时电路应用于重合闸,Delay switch
索尼PlayStation 5设备外观专利曝光
LTE Cat1有什么用？基于4G LTE打造cat1，弥补NB-IoT和5G的空缺RDA ASR, cat 1 cat m nbiot
中端旗舰之战！荣耀V9play上线，跟小米5X和魅蓝Note6角逐一番
清华团队实验演示稳态微聚束成功, 有望为EUV光刻光源提供新技术路线
PCB设计中GND是整体覆铜还是用线连起来
安捷伦科技InfiniiVision 3000 X系列示波器添加了1GHz带宽的4款产品
用户最喜欢的手机公布，OPPOR9s获第一！
AirPods耳机火爆今年出货量将达6000万副
开年旗舰华为荣耀V9发布，盲约已经开启，看点有很多
万华化学多款产品获得ISCC PLUS认证