对于大规模模型训练而言,算力硬件无疑是支撑其发展的核心基石之一。随着全球算力需求逐渐转向人工智能领域,搭载GPU的AI服务器应运而生,成为满足这一需求的关键力量。
据TrendForce预测,2023年AI服务器(包括搭载GPU、FPGA、ASIC等各类加速器)的出货量将达到约118万台,同比增长率高达38.4%。这一增长速度远超整体服务器市场,预计AI服务器在整体服务器出货量中的占比将接近9%,预计到2026年,AI服务器的占比将提升至15%,出货量有望达到236万台。
AI服务器成长力道强劲
服务器作为一种高性能计算机,通常用于处理网络上的数据、存储和传输数据,并提供各种网络服务,以满足客户端请求与需要,在网络环境中扮演十分重要的角色。
AI服务器即专门为人工智能应用设计的高性能计算平台,与传统服务器相比,在用途上AI服务器专门设计用于处理大规模数据和提供高效计算能力以支持人工智能应用;在硬件配置上,二者皆采用高速网络技术与硬件加速技术,与传统服务器以CPU为主要算力的形式不同,AI服务器需要满足AI算法下高性能计算、高存储需求,因而配置更加复杂,除了CPU之外,通常还需配备GPU、FPGA、ASIC等加速芯片,以满足AI算法训练和推理过程中对高吞吐量计算的需求,此外也需要配备大内存、高速SSD等存储产品。
当前AI服务器多属于“机架服务器”,一个机柜放多个服务器机箱,规格以U为代称,比如1U、2U、4U、7U等,AI需求越高,数字则越大。
AI大模型有训练(Training)、推理(Inference)两大应用场景需求,以此划分,AI服务器主要有训练型与推理型两类,其中训练型AI服务器算力要求极高,多数部署于云端,推理型AI服务器则对算力无太高需求,主要部署于云端与边缘侧。
在AI需求推动下,AI服务器成长力道强劲。全球市场研究机构TrendForce集邦咨询预估,2024年全球AI服务器(包含AI Training及AI Inference)将超过160万台,年成长率达40%。
此外今年3月,科技大厂戴尔大幅上调了AI服务器全球TAM(潜在市场规模),该公司预计2025年与2027年全球AI服务器TAM分别达到1050亿美元与1520亿美元,高于此前预期的910亿美元与1240亿美元。
服务器革命:从幕后到台前的算力基石
AI服务器对算力行业的重塑,是一次可以类比电车对燃油车的革命。
当年不少人认为汽车技术已经相当固定了的时候,新能源车成了产业链彻头彻尾的颠覆者,这一影响一直延续至今还在持续发酵。
无可争辩的是,下一个时代是数字经济时代,所以这轮的服务器革命乘数效应注定将更为宏大,整个人类社会和经济构成模式都将被撬动。服务器这个典型to B的产品,成为了每一个个体不得不去关心的工业品,这也解释了文章开头提到的名场面。
电车颠覆的是出行链,往最大了说也就是能源革命;而服务器的变化,重塑的是信息时代的数字基座,是将人类从机械、电力、信息时代推向数字时代的“行星发动机”。
可以得到佐证的是,在英伟达披露的数据中心资本开支构成中,服务器单一占比高达70%,是最大的成本项。数字经济,用硬件的黑话来说,是一堆服务器的搭积木游戏。
服务器从来都在技术的前沿
有人认为,服务器无非就是由主板、内存、CPU、磁盘、网卡、GPU显卡、电源、主机箱等硬件设备组成的一台大电脑,早在1945年冯诺依曼就给这个技术定了性,毫无新意可言。再加上服务器公司由于盈利能力弱,一直都是边缘板块。
但从工程创新上,信息时代开始至今的60年间,服务器其实从未停止迭代的脚步,经历了从大型机/小型机、到PC、到云计算用服务器的至少3代升级。只不过吃亏于to B的属性,没有几个人会对机房里傻大黑粗的服务器有什么兴趣。
复盘历史上服务器的变革,对产业链和商业模式也都有举足轻重的影响。上一轮带来产生颠覆性结果的是Wintel联盟,带领X86一桶天下,服务器CPU垄断者英特尔在历史上长期都是芯片的绝对王者。其次是,云计算时代白牌服务OEM厂商的崛起,台系厂商默默占据了关键位置,并为当今的AI服务器格局早早埋下了伏笔。
AI的算力黑洞,唯有升级服务器可对抗
在算力即国力的时代背景下,大规模并行计算成为数字时代的刚需,背后遵循着大力出奇迹的朴素道理。AI带来的算力需求近乎无上限,而服务器中的CPU,已经成为新大陆下的旧地图。
在云计算时代,大家更多做的是闲置算力的优化,是中间层和软件层的革新,本质是一种共享经济而非技术革命。而面对新时代的需求,提升服务器及其集群算力成为木桶的最短板,我们再也绕不开对硬科技的技术升级。
AI 服务器相较于传统服务器最大的差异在于,靠堆料高性能GPU和HBM,最终呈现了突出的异构计算能力,成为填补算力黑洞唯一可行的硬件解法。比如在训练AI服务器中,GPU的成本占比超过70%,而在基础型服务器中,这一占比仅仅不到20%。
服务器平台的升级,也从跟随英特尔CPU的代际变化,变成了英伟达GPU的代际变化。服务器单机价值量也从1万美元左右,飙升到20万美元左右。
英伟达,无疑成为AI服务器革新中最大的赢家,市值也一路从3000亿美元攀升至3万亿美元。显然,万亿美元从来不是芯片公司的对价,而是对服务器或者说数字经济这个大赛道的畅想。
做好生态建设
AI大模型时代,进口品牌GPU等高端芯片供应面临周期波动挑战,为国产AI芯片加速推向市场打开关键窗口。不过,AI大模型的训练、推理和海量数据存储无一不需要高性能算力支撑,也对国产算力底层基础设施能力和生态建设提出考验。
艾瑞咨询产业数字化研究院负责人徐樊磊表示,在AI大模型爆发之前,国内的智能算力资源主要用于推理端。AI大模型趋势到来,使国内厂商开始推出训练端的算力硬件产品和服务,但目前相关产品能力比起全球领先算力能力仍有较大差距。
业内人士表示,在计算层面,由于芯片厂商在开发过程中使用的技术路线不同,导致芯片适配服务器等设备的开发周期普遍很长。在训练层面,单芯片算力有限,而大模型训练需要大规模的算力集群,需要算力系统具有灵活的算力扩展能力。在存储层面,多模态大模型的训练和推理对存储提出了更高要求。
近年来,我国AI算力市场高度依赖英伟达GPU硬件和相应的软件生态。周韡韡坦言,全球90%的AI工程师都在使用英伟达GPU配套的CUDA软件生态,这和英伟达GPU在全球的垄断地位完全匹配。“一些国产GPU计算性能并非绝对不够,而是若要把国产GPU和基于CUDA架构开发的设备进行适配,需要在调试和优化上花费大量精力,导致用户使用算力的效率下降。”
然而,随着英伟达芯片进口难度不断提升,国产AI芯片自主创新任重道远。
记者梳理发现,浪潮信息、海光信息、希姆计算、中科通量、瀚博半导体、墨芯人工智能、摩尔线程、天数智芯、寒武纪、燧原科技等芯片公司推出了应用于不同场景的AI推理和训练任务的芯片加速卡,涉及CPU、GPU、RISC-V等不同设计架构。
海光信息表示,海光DCU兼容CUDA生态,对文心一言等大多数国内外主流大模型适配良好。依托DCU可以实现LLaMa、GPT、Bloom、ChatGLM、悟道、紫东太初等为代表的大模型全面应用。
如何进一步提升国产AI芯片竞争力?中国工程院院士、清华大学教授郑纬民认为,要开发基于国产AI芯片的系统,这一过程中最重要的是做好生态建设。“国产AI芯片只要达到国外芯片60%的性能,如果生态做好了,客户也会满意。”郑纬民称。
徐樊磊建议,做好自主创新要从人才、设施、科研和生态领域四方面突破,逐步提升智能算力设备软硬件功能。在硬件方面,提高国产AI芯片的稳定性和兼容性,特别是提升芯片之间、服务器集群之间的数据传输效果。在软件生态方面,降低适配门槛,让开发者逐渐使用国产芯片生态。