GPU Utils 发布了一份关于英伟达GPU——主要是H100的研究报告,试图梳理有关GPU供应和需求的相关问题。在这篇主要针对美国市场的报告中,我们看到了目前阻碍大模型和人工智能发展的关键瓶颈GPU短缺是如何形成和发展的。
总的来说,GPU瓶颈的出现原因是多方面的,环环相扣的复杂工艺制造流程,半导体周期,对稀缺资源的抢占与恐慌乃至未曾预料到的人工智能的突然爆发,都让GPU算力变得无比紧张。
对人工智能的巨大需求也暴露了用于开发和部署人工智能模型的强大芯片的全球供应链的局限性。GPU 是一种关键的硬件,可帮助运行训练和部署人工智能算法所涉及的无数计算。行业分析师表示,持续的 GPU 紧缩已经影响了大大小小的企业,包括人工智能行业的一些领先平台,并且至少在一年或更长时间内可能不会出现有意义的改善。
不过乐观地看,2024年这一瓶颈或许会有所缓解。
1、AI 圈里,苦 H100 GPU 久矣
OpenAI 联合创始人兼职科学家 Andrej Karpathy 近日发文称“目前硅谷最热门的八卦,就是谁谁又买了多少块 H100 GPU。”
特斯拉掌门人马斯克曾经向整个科技行业发出警告,称巨大的 GPU 危机即将来临。今年 4 月,马斯克曾发表推文说,“如今不管是人是狗,都在疯狂购买 GPU。”而巨大的需求,势必引发严重的供应短缺。时间快进到当下,每个人都想搞自己的 AI 产品和业务。面对这样一场声势浩大的 AI 洪流,即使是像英伟达这样的全球巨头也难以及时制造出充足的 GPU 货源。
市场对高性能 GPU(特别是英伟达 H100)的需求仍在猛增。截至 2023 年 8 月,科技行业正经受英伟达 H100 短缺的严重折磨。GPU 供应不足,正在对严重依赖其进行模型训练和推理任务的 AI 厂商造成重大影响。
微软最近的年度报告显示了人工智能芯片可能长期短缺的最新迹象。该报告首次将 GPU 的可用性确定为投资者可能会遇到的的风险因素。
微软写道:“我们将继续寻找和评估扩大数据中心位置和增加服务器容量的机会,以满足客户不断变化的需求,特别是考虑到对人工智能服务不断增长的需求。” “我们的数据中心取决于许可的可建设土地、可预测的能源、网络供应和服务器,包括 GPU 和其他组件。”
微软对 GPU 的认可凸显了计算能力的获取如何成为制约 AI 发展的关键因素。该问题直接影响正在构建人工智能工具和产品的公司,并间接影响希望将该技术应用于自己目的的企业和最终用户。
来自 OpenAI 公司的 Andrej Karpathy 表示,“目前硅谷最热门的八卦,就是谁谁又买了多少块 H100 GPU。”有趣的是,AWS Lambda CEO Stephen Balaban 也提到,“Lambda 将于今年年底之前上线数千块 H100——如果您需要 64 块或者更多的 H100,请提前私信预约。”没错,这宝贝现在就是这么紧俏。
包括 Quora 公司 CEO Adam D’Angelo 和 OpenAI 创始人 Sam Altman 在内的多位 AI 领导者,也都表达了自己对于 GPU 短缺问题的担忧。OpenAI 透露,GPU 供应不足阻碍了他们的短期计划,包括模型微调和划拨专用容量。也许这正是 OpenAI 目前拘囿于 GPT-4,无法进一步履行其大语言模型开发承诺的原因之一。
2、数十万张缺口,一百五十亿需求
每个想要在人工智能爆发中分一杯羹的人都需要GPU。准确地说,是英伟达的A100和H100,它们在训练和推理大模型中扮演关键角色。如果要想要从头训练大模型,至少需要上千张A100或H100,而推理和微调大模型也至少需要储存100张。
具体到每家的数量上,报告汇总了一些数据:GPT4在1万到2.5万块A100上训练,Meta有2.1万块A100,特斯拉有7000块,Stability AI有5000块,谷歌云大概有2.5万块H100,微软Azure 有1万到4万块,甲骨文可能也有同样多的H100。值得一提的是,Azure的GPU基本都用来供应OpenAI的训练了。
而根据马斯克的说法,GPT5的训练可能会用到3万到5万张H100,因此对未来的估计上,报告指出OpenAI可能需要5万张H100,Meta至少需要2.5万张(也有人说实际上需要10万乃至更多),所有的云服务厂商,微软、谷歌云和亚马逊云以及甲骨文各需要3万张,私有云服务商,比如刚刚融资的CoreWeave等总需求是10万张,而像Claude的开发者Anthropic这样的初创公司也都至少需要1万张GPU。
另外,一些金融公司比如JP Morgan等也在部署A100或H100,因此总体上看,对H100的需求超过了43万张。
这还是不算中国市场的情况,由于制裁原因,字节跳动、百度、腾讯和阿里巴巴只能大量购买A100和H100的替代产品A800与H800,这一部分的需求没有列入其中,其总额高达50亿美金。
如果将这些数字相加,这就是目前英伟达面对的,总计规模高达200亿美元的GPU需求。
3、瓶颈到底在哪里?
目前,H100的供应已经相当短缺,有传言说微软Azure和谷歌云的容量实际上已经快用完了,亚马逊云也面对同样的情况,传言目前下单需要等数月乃至半年。
导致稀缺的原因是多方面的,最根本的是,GPU是一项极端复杂的技术,需要世界上最先进的生产工艺,而掌握这项工艺的工厂——台积电,它的产能是有限的。
目前H100都由台积电代工,使用4N工艺,也就是增强型5纳米制程(相比之下A100使用的是N7),这几乎是目前最复杂的芯片制作工艺,从开始生产到出售给客户,H100中间经历的生产、包装和测试环节一共需要6个月左右,这就意味着对H100的生产需要英伟达和台积电进行提前的布局,这在半导体行业来说是经常的事,但这一次英伟达和台积电显然都对H100需求出现了错误的判断。
这很好理解,因为ChatGPT爆发是去年底的事,那时关于今年的生产计划(至少是上半年的计划)已经规划好了,台积电总体的生产能力是有限的,还需要在不同的大客户之间分配,而产能爬坡也需要一个很长的过程——不要忘记生产H100这种GPU包含着全世界最复杂的工艺流程。
报告中特别指出生其中之一的瓶颈在于所谓CoWoS封装(Chip on wafer on Substrate 芯片、晶圆、基板封装),它目前的月产量是8000片,今年底有望提升至 11,000 片, 2024 年底则达到每月 14,500 至 16,600 片左右的水平,也就是说,想要提升一倍的产量,几乎需要一年半的时间,这当然也是由于生产工艺异常复杂导致。
这直接影响了H100的生产,更何况并不是只有一家在使用CoWoS封装工艺,英伟达的竞争对手AMD以及博通、思科和赛灵思等都同样在使用这种工艺制作芯片,又一次,台积电的产能瓶颈限制了GPU的供应。
另外,H100所使用的HBM3系列内存也是一个生产难点。报告指出英伟达主要在使用SK海力士的内存,后者是这一领域的领军者,特别是在HBM内存的研发上。HBM技术直接把内存堆栈放在GPU芯片上,实现了更高的带宽和更低的功耗。今年4月20日,SK海力士宣布在全球率先研发出12层堆叠的HBM3内存,单颗容量达到24GB。内存容量越大,意味着GPU可以装载下更大的模型,然而HBM3内存的生产过程也十分复杂,产量提升同样困难重重,实际上另外几家芯片大厂,比如三星和美光,都很难提升HBM内存的产量,据说SK海力士正在根据英伟达的要求增产,在刚刚过去的SIGGRAPH 2023 上,黄仁勋发布了GH200超级芯片的更新版, 采用了增强的HBM3E内存,这可以看作是英伟达在内存领域同供应商密切协作的一个例子。
4、GPU 稀缺性已成新的护城河
令事态雪上加霜的是,业界专家担心当前 GPU 稀缺性可能引发自我强化的循环。换言之,这种稀缺性本身成为新的护城河,增强各方囤积 GPU 资源的心理、进一步加剧资源不足。也许这就是马斯克当初囤积 GPU 的原因所在。下一代 H100 继任者预计要到 2024 年底才会推出,这漫长的一年半将反复折磨用户们脆弱的神经。
2010 年,我们使用黄仁勋的英伟达 GPU,证明无需任何无监督预训练,即可通过简单的反向传播实现对深度前馈网络的训练。2011 年,我们的 DanNet 成为首个超级卷积神经网络。而到如今,计算成本降低到当初的百分之一,但英伟达公司的市值则涨了 100 多倍……
获取 H100 已经成为 AI 公司面临的重大难题,也开始阻碍他们的正常运营,导致产品发布和模型训练纷纷出现延迟。AI 热潮带来的对算力前所未有的需求也在加剧这种情况,导致 GPU 制造中使用的各种基本组件均告短缺。
英伟达一直在支持全球几乎所有 AI 初创公司,而且似乎在为初创公司提供资助,帮助他们建立业务并购买 GPU。如今的英伟达已经在 GPU 市场上建立起垄断地位,而其他参与方也不得不抱紧这条大腿。于是乎,满足市场需求的责任将无人分担,只能着落在英伟达自己身上。
但 GPU 的制造涉及复杂的工艺流程,需要各种关键组件。内存、互连速度(例如 InfiniBand)、缓存和缓存延迟等因素,在 GPU 的实际性能表现上起着至关重要的作用。其中任何一种组件的短缺,都有可能导致 GPU 生产延迟、进而引发整体供应不足。