训练和部署大模型需要强而有力的硬件支持,而这也是人工智能时代芯片成为核心技术的原因,因为大模型需要的算力归根到底来自于芯片,同时人工智能市场的发展也极大地推动了芯片行业的市场规模,以及相关芯片技术的演进。
在给人工智能大模型提供足够的算力用于训练和部署的核心芯片技术中,数据互联正在占据越来越重要的位置。芯片互联越来越重要主要出于两个原因:
首先,随着大模型的参数规模和训练数据容量快速提升,训练和部署最新的大模型一定会使用分布式计算,因为单机几乎不可能提供运行大模型的足够算力。在分布式计算中,随着分布式计算节点数量提升,理想情况下计算能力是随着计算节点数量线性提升,但是现实中由于不同计算节点间的数据交互需要额外的开销,因此只能接近而无法真正实现计算能力随着计算节点增加而线性增加。换句话说,随着模型规模越来越大,需要的分布式节点数量越来越多,对于这类分布式计算节点间的数据互联需求(带宽,延迟,成本等)也就越来越高,否则这类分布式计算中的数据互联将会成为整体计算中的效率瓶颈。
其次,从芯片层面考虑,随着摩尔定律越来越接近物理极限,目前以chiplet(芯片粒)为代表的高级封装技术正在成为芯片性能提升的重要方式。使用chiplet可以把单个复杂的大芯片系统分成多个小的芯片粒,每个芯片粒都可以用最合适的工艺去单独制造,因此确保复杂的芯片系统可以以合理的成本和良率来制造。对于人工智能大模型而言,用于训练和部署的芯片的规模都非常大,因此chiplet将会成为支持人工智能芯片的核心技术。而在chiplet方案中,多个chiplet之间的数据通信也需要数据互联技术,换句话说高带宽、高密度的数据互联将会成为使用chiplet搭建的人工智能加速芯片中的核心组件。
如上所述,在人工智能时代,数据互联将会成为核心技术,而其中最关键同时也是未来将会有最多发展的数据互联方案,就是用于分布式计算中的中长距离数据互联,以及用于chiplet场景中的超短距离数据互联。
超越 PCIe:AI 芯片厂商自研互联技术
由于PCIe技术的发展速度跟不上时代需求,目前主流的AI芯片厂商都已经自研了互联技术,其中较为代表的就是英伟达的NVLink和AMD的Infinity Fabric。
英伟达的NVLink
自2014年开始,英伟达在其GPU中引入了NVLink互联技术。NVLink 是由 Nvidia 开发的一种高带宽、低延迟的点对点数据传输通道。它的主要用途是连接 Nvidia GPU,或者 GPU 与 CPU 之间的通信,允许它们以高速率共享数据。这对于那些要求高数据吞吐量和低通信延迟的应用至关重要,如深度学习、科学计算和大规模模拟。过去十年间,NVLink已成为英伟达GPU芯片的核心技术及其生态系统的重要组成部分。
让我们再来细细回顾下NVLink这一技术的发展历程。2014年,NVLink 1.0发布并在P100 GPU芯片之间实现,两个GPU之间有四个NVLink,每个链路由八个通道组成,每个通道的速度为20Gb/s,系2统整体双向带宽为160GB/s(20*8*4*2)/8=160GB/s),是PCle3x16的五倍;
2017年英伟达推出了第二代NVLink,两个V100 GPU芯片之间通过六个NVLink 2.0连接,每个链路也是由八个通道组成,不过每个通道的速度提升至为25Gb/s,从而实现300GB/s的双向系统带宽(25*8*6*2)/8=300GB/s),几乎是NVLink1.0的两倍。此外,为了实现八个GPU之间的完全互连,Nvidia引入了NVSwitch技术。NVSwitch1.0有18个端口,每个端口的带宽为50GB/s,总带宽为900GB/s。每个NVSwitch保留两个用于连接CPU的端口。通过使用6个NVSwitch,可以在8个GPUV100芯片之间建立一个全连接的网络。
2020年,推出NVLink 3.0技术。它通过12个NVLink连接连接两个GPU A100芯片,每个链路由四个通道组成。每个通道以50Gb/s的速度运行,从而产生600GB/s的双向系统带宽,是NVLink2.0的两倍。随着NVLink数量的增加,NVSwitch上的端口数量也增加到36个,每个端口的运行速度为50GB/s。
2022年,NVLink技术升级到第四代,允许两个GPU H100芯片通过18条NVLink链路互连。每个链路由2个通道组成,每个通道支持100Gb/s(PAM4)的速度,从而使双向总带宽增加到900GB/s。NVSwitch也升级到了第三代,每个NVSwitch支持64个端口,每个端口的运行速度为 50GB/s。
2024年,随着英伟达全新Blackwell架构的发布,NVLink 5.0也随之而来。NVLink 5.0以每秒100 GB的速度在处理器之间移动数据。每个 GPU 有 18 个 NVLink 连接,Blackwell GPU 将为其他 GPU 或 Hopper CPU 提供每秒 1.8 TB 的总带宽,这是 NVLink 4.0 带宽的两倍,是行业标准 PCIe Gen5 总线带宽的 14 倍。NVSwitch升级到了第四代,每个NVSwitch支持144个NVLink 端口,无阻塞交换容量为 14.4TB/s。
NVLink设计之初,就是为了解决传统的PCI Express (PCIe) 总线在处理高性能计算任务时带宽不足的问题。从下面两幅图的对比中,可以发现,从单通道速度的角度来看,NVLink的速度通常是同代PCle的两倍左右。总带宽的优势更加明显,NVLink提供的总带宽约为PCle的五倍。
除了NVLink,另外一个值得一提的互联技术是InfiniBand。英伟达收购的Mellanox在InfiniBand领域也处于佼佼者。自收购Mellanox以来,NVIDIA也开始将NVLink技术与InfiniBand(IB)技术相结合,推出新一代NVSwitch芯片和具有SHARP功能的交换机,针对外部GPU服务器网络进行了优化。
InfiniBand是一种开放标准的网络互连技术,具有高带宽、低延迟、高可靠性的特点。该技术由 IBTA(InfiniBand 贸易联盟)定义。该技术广泛应用于超级计算机集群领域。同时,随着人工智能的兴起,它也是GPU服务器的首选网络互连技术。由于 RDMA(远程直接内存访问)等功能,InfiniBand 在人工智能等数据密集型任务中通常优于以太网。据Dell'Oro 估计,约90%的AI部署都是使用Nvidia/Mellanox的InfiniBand,而不是以太网。这些部署将 Nvidia 的网络收入推至每年100亿美元。
传奇CPU设计师兼Tenstorrent首席执行官 Jim Keller是开放标准的坚定支持者,他建议 Nvidia应该在基于 Blackwell 的GB200 GPU 中使用以太网协议芯片到芯片连接,而不是专有的NVLink,背后的主要原因是,这可能会使软件移植到其他硬件平台变得更加复杂。而凯勒认为,使用以太网协议可以为英伟达及其硬件用户节省大量资金。
AMD的Infinity Fabric
与英伟达的NVLink相似,AMD则推出了其Infinity Fabric技术,支持芯片间、芯片对芯片,以及即将推出的节点对节点的数据传输。Infinity Fabric是AMD在其“Zen”微架构中引入的一个关键特性,旨在提高整体系统性能,特别是在多核心处理器和数据中心环境中。
Infinity Fabric由两部分组成:数据布线(Data Fabric)和控制布线(Control Fabric)。数据布线用于处理器内部和处理器之间的数据传输,而控制布线则负责处理器的功耗、时钟和安全性等方面的管理。Infinity Fabric的主要特点包括:1)高效率:Infinity Fabric设计用于提供高效率的数据传输,支持多个设备之间的高速通信;2)模块化:Infinity Fabric支持AMD的小芯片(chiplet)架构,允许不同功能的芯片模块通过高速互连进行组合;3)内存共享:Infinity Fabric支持CPU和GPU之间的内存共享,有助于提高异构计算的效率;4)扩展性:Infinity Fabric的设计允许它随着技术进步和需求增长而扩展。
AMD最新的AI加速器Instinct MI300X 平台,就通过第四代AMD Infinity Fabric链路将 8 个完全连接的 MI300X GPU OAM 模块集成到行业标准 OCP 设计中,为低延迟 AI 处理提供高达 1.5TB HBM3 容量。第四代 Infinity Fabric支持每通道高达 32Gbps,每链路产生 128GB/s 的双向带宽。
不同于英伟达NVLink仅限于内部使用,AMD已经开始向新合作伙伴开放其 Infinity Fabric 生态系统。在去年年末AMD MI3000的发布会上,Broadcom宣布其下一代PCIe交换机将支持XGMI/Infinity Fabric。不仅如此,AMD还希望Arista、博通、Cisco等合作伙伴能推出适用于 Infinity Fabric 等产品的交换机,能够方便MI3000在单一系统外实现芯片间通信。这类似于英伟达的NVSwitch。
英特尔:以太网的坚实拥护者
英特尔的用于生成式AI的Gaudi AI芯片则一直沿用传统的以太网互联技术。Gaudi 2 每个芯片使用了24 个 100Gb以太网链路;Gaudi 3也使用了24 个 200 Gbps 以太网 RDMA NIC,但是他们将这些链路的带宽增加了一倍,达到 200Gb/秒,使芯片的外部以太网 I/O 总带宽达到 8.4TB/秒。
在近日的intel vision峰会上,英特尔还宣布正在开发一款用于超以太网联盟(UEC)兼容网络的 AI NIC ASIC 以及一款 AI NIC 小芯片,这些创新的AI高速互联技术(AI Fabrics)将用于其未来的 XPU 和 Gaudi 3 处理器。这些创新旨在革新可大规模纵向(scale-up)和横向(scale-out)扩展的AI高速互联技术。
一直以来,英特尔都希望通过采用纯以太网交换机来赢得那些不想投资 InfiniBand 等专有/替代互连技术的客户。InfiniBand非常适合那些运行少量非常大的工作负载(例如 GPT3 或数字孪生)的用户。但在更加动态的超大规模和云环境中,以太网通常是首选。Nvidia 最新的 Quantum InfiniBand 交换机的最高速度为 51.2 Tb/s,端口为 400 Gb/s。相比之下,以太网交换在近两年前就达到了 51.2 Tb/s,并可支持 800 Gb/s 的端口速度。
虽然InfiniBand在很多情况下表现都不错,但它也有缺点,比如只能在特定范围内使用,而且成本也不低,将整个网络升级到 InfiniBand 需要大量投资。相比之下,以太网因为兼容性强,成本适中,以及能够胜任大多数工作负载,所以在网络技术领域里一直很受欢迎,建立了一个庞大的“以太网生态”。
Dell'Oro 预计 InfiniBand将在可预见的未来保持其在 AI 交换领域的领先地位,但该集团预测在云和超大规模数据中心运营商的推动下,以太网将取得大幅增长,到2027 年大约将占据20%的市场份额。
不仅是英特尔,在2023年的AI Day上,AMD也表示将重点支持以太网,特别是超级以太网联盟。虽然 Infinity Fabric提供了GPU之间的一致互连,但AMD正在推广以太网作为其首选的 GPU 到 GPU网络。
此外,英特尔还提出了一种开放性互联协议Compute Express Link(CXL)。关于CXL互联技术,业界看法不一。英伟达的GPU一向单打独斗,并不支持CXL;AMD透露其MI300A会支持CXL。目前来看,像三星、SK海力士、美光等存储厂商更加青睐于CXL。
互连在先进封装中的重要性
首先,需要注意的是,互连技术是封装中关键且必要的部分。芯片通过封装互连以接收电力、交换信号并最终进行操作。由于半导体产品的速度、密度和功能根据互连方式而变化,因此互连方法也在不断变化和发展。
除了开发各种工艺以在晶圆厂实现精细图案外,还全面努力推进封装工艺中的互连技术。因此,开发了以下四种类型的互连技术:引线键合、倒装芯片键合、硅通孔 (TSV) 键合以及小芯片混合键合。
引线键合
引线键合是第一种开发的互连方法。通常,具有良好电性能的材料(例如金、银和铜)被用作连接芯片和基板的导线。这是最具成本效益且可靠的互连方法,但由于其电气路径较长,因此不适合需要高速操作的较新设备。因此,这种方法被用于不需要快速操作的移动设备中使用的移动 DRAM 和 NAND 芯片。
倒装芯片键合
倒装芯片接合 克服了引线键合的缺点。其电气路径的长度是引线键合的十分之几,使其适合高速操作。与在芯片级执行的引线键合相比,在晶圆级进行处理的倒装芯片键合还提供了卓越的生产率。因此,它被广泛应用于CPU、GPU和高速DRAM芯片的封装。此外,由于可以在芯片的整个侧面形成凸块,因此可以比引线键合拥有更多的输入和输出 (I/O),从而有可能提供更高的数据处理速度。然而,倒装芯片接合也有其自身的缺点。首先,难以进行多芯片堆叠,这对于需要高密度的存储产品来说是不利的。此外,尽管倒装芯片键合可以比引线键合连接更多的 I/O,和有机 PCB 间距阻止连接更多数量的 I/O。为了克服这些限制,开发了 TSV 键合技术。
硅通孔 (TSV) 键合
TSV不采用传统的布线方法来连接芯片与芯片,而是通过在芯片上钻孔并填充金属等导电材料以容纳电极来垂直连接芯片。制作带有TSV的晶圆后,通过封装在其顶部和底部形成微凸块,然后连接这些凸块。由于 TSV 允许凸块垂直连接,因此可以实现多芯片堆叠。最初,使用 TSV 接合的堆栈有四层,后来增加到八层。最近,一项技术使得堆叠 12 层成为可能,并于 2023 年 4 月SK hynix 开发了其 12 层 HBM3。虽然 TSV 倒装芯片接合方法通常使用基于热压的非导电薄膜 (TC-NCF),但 SK hynix 使用 MR-MUF 4 工艺,可以减少堆叠压力并实现自对准。5这些特性使 SK hynix 能够开发出世界上第一个 12 层 HBM3。
如上所述,引线、倒装芯片和 TSV 键合在封装工艺的各个领域中发挥着各自的作用。尽管如此,最近出现了一种新的互连技术,称为铜对铜直接键合,它是混合键合的一种。
与小芯片的混合键合
术语“混合”用于表示同时形成两种类型的界面结合6。界面结合的两种类型是:氧化物界面之间的结合和铜之间的结合。这项技术并不是新开发的技术,但多年来已经用于 CMOS 图像传感器的大规模生产。然而,由于小芯片的使用增加,它最近引起了更多关注。Chiplet技术将各个芯片按功能分离,然后通过封装将它们重新连接起来,在单个芯片上实现多种功能。
尽管小芯片的功能是该技术的一个明显优势,但采用它们的主要原因是成本效益。当所有功能都在单个芯片上实现时,芯片尺寸会增加,并且不可避免地导致晶圆生产过程中良率的损失。此外,虽然芯片的某些区域可能需要昂贵且复杂的技术,但其他区域可以使用更便宜的传统 技术来完成。因此,由于芯片无法分离,制造工艺变得昂贵,因此即使只有很小的面积需要精细技术,也要将精细技术应用于整个芯片。然而,小芯片技术能够分离芯片功能,从而可以使用先进或传统的制造技术,从而节省成本。
虽然chiplet技术的概念已经存在十多年了,但由于缺乏能够互连芯片的封装技术的发展,它并没有被广泛采用。然而,芯片到晶圆 (C2W) 混合键合的最新进展显着加速了小芯片技术的采用。C2W 混合键合具有多种优势。首先,它允许无焊料键合,从而减少键合层的厚度、缩短电气路径并降低电阻。因此,小芯片可以高速运行而无需任何妥协——就像单个芯片一样。其次,通过直接将铜与铜接合,可以显着减小凸块上的间距。目前,使用焊料时很难实现 10 微米 (μm) 或更小的凸块间距。然而,铜对铜直接键合可以将间距减小到小于一微米,从而提高芯片设计的灵活性。第三,它提供了先进的散热功能,这一封装功能在未来只会继续变得越来越重要。最后,上述的薄粘合层和细间距影响了封装的形状因数,因此可以大大减小封装的尺寸。
然而,与其他键合技术一样,混合键合仍然需要克服挑战。为了确保稳定的质量,必须在纳米尺度上改进颗粒控制,而控制粘合层的平整度仍然是一个主要障碍。同时,SK海力士计划使用最高功率的封装解决方案来开发混合键合,以便将其应用于未来的HBM产品。