近日,2023年世界人工智能大会落下帷幕,这场“有史以来”最受瞩目的AI盛会,齐聚30多款大模型,除了阿里通义、百度文心、复旦MOSS等通用大模型,垂直行业的大模型应用也纷纷亮相,标志着行业进入了大模型主导的新阶段。
只不过对于大模型公司而言,发布模型只是开始。硅谷风险资本的调查显示,初创大模型公司普遍需要支付一笔“AI税”,即拿出早期融资金额的80%-90%用于购买AI芯片,以此为大模型提供算力支撑,可见算力对于大模型发展是尤为重要的。只不过目前为国内大模型提供算力的英伟达A100 GPU,由于种种原因将受到限制。因此国内大模型公司将目光转向国内的AI芯片厂商,寄希望于它们能够提供国产替代的算力新选择。
AI芯片竞争路线
目前,随着人工智能的发展逐步深入后,算力成了AI发展的核心资源。必然导致许多公司都在开发自己的AI芯片,在AI算力领域能抢占至高点。一些传统的芯片制造商,如英特尔、三星、博通和高通,正在投入大量资金开发这项技术。当然,一些大型科技公司,如苹果和谷歌,也在努力创新AI芯片领域。
TPU(Tensor Processing Unit):这是谷歌专门为机器学习设计的AI加速芯片,用于加速tensor(张量)相关的运算,尤其对大规模神经网络模型的训练和推理有非常好的加速效果。TPU采用了专门的矩阵运算单元,数据流水线等架构。谷歌使用TPU获得了很大的AI计算优势。
NPU(Neural Processing Unit):这是用于加速神经网络模型运算的专用芯片。通常被集成在部分智能手机、IoT设备中,用于本地的神经网络推理。主要由移动芯片厂商设计,如高通、苹果、华为的自研NPU。优化了针对移动端AI算法的算力、功耗、成本等指标。
GPU(Graphics Processing Unit):图形处理器,具有大规模并行计算能力,被广泛应用于AI模型训练中。知名的有NVIDIA Tesla系列GPU,针对深度学习进行了架构优化。AMD、Intel等也有专门的AI加速GPU。可以提供很强的算力来训练复杂的AI模型。
FPGA(Field-Programmable Gate Array):现场可编程门阵列,可在场地灵活编程,覆盖面广。英特尔、赛灵思等公司提供了专用于AI加速的FPGA解决方案。可以编程实现不同的加速功能,但编程复杂度较高。
ASIC(Application Specific Integrated Circuit):应用专用集成电路,专门针对特定应用和算法设计,如Graphcore和Cerebras的AI芯片。性能和效率可以做到极致optimization,但不灵活。
SoC(System on a Chip):把CPU、GPU、NPU、DSP等多种处理器集成在一颗芯片上,如华为的麒麟系列芯片。SoC可以提供综合算力,但设计和验证复杂。
英伟达的竞争对手们
AI这个巨大的千亿市场,不只是英伟达一家的游戏,AMD和英特尔也在加速追赶,希望分得一杯羹。
英特尔在2019年以约20亿美元价格收购了人工智能芯片制造商HABANA实验室,进军AI芯片市场。今年8月,在英特尔最近的财报电话会议上,英特尔首席执行官Pat Gelsinger表示,英特尔正在研发下一代Falcon Shores AI超算芯片,暂定名为Falcon Shores 2,该芯片预计将于2026年发布。
除了Falcon Shores 2之外,英特尔还推出AI芯片Gaudi2,已经开始销售,而Gaudi3则正在开发中。业界认为,目前Gaudi2芯片的热度不及预期,这主要在于Gaudi2性能难以对英伟达H100和A100形成有效竞争。
英特尔研究院副总裁、英特尔中国研究院院长宋继强近日表示:“在这一波大模型浪潮当中,什么样的硬件更好并没有定论。”他认为,GPU并非大模型唯一的硬件选择,半导体厂商更重要的战场在软件生态上。芯片可能花两三年时间就做出来了,但是要打造芯片生态需要花两倍甚至三倍的时间。英特尔的开源生态oneAPI比闭源的英伟达CUDA发展可能更快。
AMD也在加速追赶。今年6月,AMD举行了新品发布会,发布了面向下一代数据中心的APU加速卡产品Instinct MI300,直接对标H100。这颗芯片将CPU、GPU和内存全部封装为一体,从而大幅缩短了DDR内存行程和CPU-GPU PCIe行程,从而大幅提高了其性能和效率。
Instinct MI300将于2023年下半年上市。AMD称Instinct MI300可带来MI250加速卡8倍的AI性能和5倍的每瓦性能提升(基于稀疏性FP8基准测试),可以将ChatGPT和DALL-E等超大型AI模型的训练时间从几个月减少到几周,从而节省数百万美元的电费。
此外,谷歌、亚马逊、特斯拉等也都在设计自己的定制人工智能推理芯片。除了国外大厂,国内的芯片企业也迅速入局,其中,昆仑芯AI加速卡RG800、天数智芯的天垓100加速卡、燧原科技第二代训练产品云燧T20/T21均表示能够具有支持大模型训练的能力。
国产替代者有望出现
与此同时,国内AI芯片产业进入快速发展阶段,产业前行者们正在快研发进程,新兴厂商也不断涌现。这也导致国内AI芯片厂商在架构选择上有了不同的看法,国内AI芯片产业也由此划分出多元的技术路线。
眼下最有机会实现国产替代的,当属以海光为代表选择了GPGPU架构的厂商。这不仅是因为GPGPU大约占了90%的市场份额,更是因为GPGPU是目前唯一能运行大模型训练的架构。而基于架构的优势,海光也推出了国内唯一支持全精度计算的——深算系列DCU产品。目前海光还正基于GPUGP架构,加速DCU产品的自主创新迭代。
而另外一条路线就是以寒武纪为代表选择ASIC架构的厂商。因为ASIC架构的定制性,让它具备特定场景下具有计算快,能耗低的优势。但定制化也导致ASIC芯片的通用性差,在硬件架构强相关场景中存在限制。因此寒武纪、昇腾等ASIC芯片目前还只是在深度调优后适用于相对成熟、场景固化的模型,难以作为核心算力支撑众多新兴大模型。
国内大模型目前多处于发展阶段,而GPGPU架构依然是首选的最优解。而且随着未来AI在视频、图片、语音等多模态领域的应用逐步深入,GPGPU架构的通用性优势也将更加突显。