随着生成式AI的大热,英伟达正在数据中心领域大杀四方,这也帮助他们实现了更好的业绩。根据公司公布的数据,截至 2023 年 7 月 30 日的第二季度,英伟达收入为 135.1 亿美元,较上一季度增长 88%,较去年同期增长 101%。
不过,英伟达目前的业绩预期很多都是基于当前的芯片和硬件所做的。但有分析人士预计,如果包含企业 AI 及其 DGX 云产品,该数据中心的市场规模将至少是游戏市场的 3 倍,甚至是 4.5 倍。
英伟达在最近公布了一个包括H200、B100、X100、B40、X40、GB200、GX200、GB200NVL、GX200NVL 等新部件在内的产品路线图,这对英伟达未来的发展非常重要。
1、精准的供应链控制
据semianalysis说法,英伟达之所以能够在群雄毕至的AI芯片市场一枝独秀,除了他们在硬件和软件上的布局外,对供应链的控制,也是英伟达能坐稳今天位置的一个重要原因。
英伟达过去多次表明,他们可以在短缺期间创造性地增加供应。英伟达愿意承诺不可取消的订单,甚至预付款,从而获得了巨大的供应。目前,Nvidia 有111.5 亿美元的采购承诺、产能义务和库存义务。Nvidia 还额外签订了价值 38.1 亿美元的预付费供应协议。单从这方面看,没有其他供应商可以与之相媲美,因此他们也将无法参与正在发生的狂热AI浪潮。
自 Nvidia 成立之初起,黄仁勋就一直积极布局其供应链,以推动 Nvidia 的巨大增长雄心。黄仁勋曾在重述了他与台积电创始人张忠谋的早期会面中表示:
“1997 年,当张忠谋和我相遇时,Nvidia 那一年的营收为 2700 万美元。我们有 100 个人,然后我们见面了。你们可能不相信这一点,但张忠谋曾经打销售电话。你以前经常上门拜访,对吗?你会进来拜访客户,我会向张忠谋解释英伟达做了什么,你知道,我会解释我们的芯片尺寸需要有多大,而且每年都会变得越来越大而且更大。你会定期回到英伟达,让我再讲一遍这个故事,以确保我需要那么多晶圆,明年,我们开始与台积电合作。Nvidia 做到了,我认为是 1.27 亿,然后,从那时起,我们每年增长近 100%,直到现在。”
张忠谋一开始不太相信英伟达需要这么多晶圆,但黄仁勋坚持了下来,并利用了当时游戏行业的巨大增长。英伟达通过大胆供应而取得了巨大成功,而且通常情况下他们都是成功的。当然,他们必须时不时地减记价值数十亿美元的库存,但他们仍然从超额订购中获得了积极的收益。
2、AMD首先出击
AI 芯片方面,今年1月2023年消费电子展(CES)上,AMD董事长、CEO苏姿丰(Lisa Su)正式发布下一代面向数据中心的APU(加速处理器)产品Instinct MI300,采用台积电5nm+6nm结合的Chiplet架构设计,集成CPU和GPU,拥有13颗小芯片,晶体管数量高达1460亿个,AI性能和每瓦性能是前代MI250的8倍和5倍(使用稀疏性FP8基准测试),将在2023年下半年量产供货。
随后6月,AMD还公布全新专为生成式 AI 打造、拥有1530亿个晶体管的 AI 加速芯片Instinct MI300X、Instinct MI300A等产品,在存储容量、互联带宽方面均有提升,MI300X的晶体管数量比H100多两倍,HBM3高带宽内存是H100的2.4倍。单颗芯片上可以运行800亿参数的大模型,预计今年底之前发货。
这不仅全面展示收购赛灵思之后的数据中心 AI 技术能力,而且也在挑战英伟达 AI 算力芯片霸主地位。
当然不止是GPU和 AI 芯片,AMD最擅长的就是做CPU(中央处理器)芯片,毕竟数据中心需要CPU的通用计算能力。去年11月,AMD发布了采用Zen 4架构的第四代数据中心EPYC 9004系列,代号为“热那亚”(Genoa),不仅架构升级,苏姿丰还在这颗芯片上堆料堆到了极致:台积电5nm制程,96个核心,192个线程,384M三级缓存,支持PCle5.0。
与英特尔的八核处理器相比,AMD的数据中心、边缘计算CPU系列在能耗、性能方面都有很大提升,包括热那亚芯片面积减少40%,同时能源效率提高48%。
今年9月,AMD则推出最新第四代EPYC 8004系列,将“Zen 4c”核心引入专用CPU,提供从智能边缘(例如零售、制造和电信)到数据中心、云计算等领域。
事实上,亚马逊云AWS发布了基于热那亚M7A通用计算实例,最终结果显示,性能相比前一代提升50%,而相比英特尔第四代至强白金版8490H版,热那亚在多个应用场景的性能提升达1.7-1.9倍,整体的能效提升达1.8倍,全面用于金融建模、天气模拟、药物研发等高性能计算领域。另外在 IoT Edge网关工作负载中,最新八核EPYC 8024P供电的服务器也为每8kW机架提供大约1.8倍的总吞吐量性能。
整体来看,无论是CPU、GPU,还是FPGA、DPU数据中心处理器,或是软件栈工具AMD ROCm系统,AMD都已经做好了准备,正“磨刀霍霍”以挑战英伟达的产品。
3、60多年的芯片巨头英特尔,也不想将市场“拱手让人”
今年7月11日,芯片巨头英特尔公司(Intel)在北京发布面向中国市场、采用7nm工艺的 AI 芯片Habana Gaudi2,可运行大语言模型,加速AI训练及推理,运行ResNet-50的每瓦性能约是英伟达A100的2倍,性价比相较于AWS云中基于英伟达的解决方案高出40%,并预计今年9月性价比超越英伟达最新H100。
英特尔执行副总裁Sandra Rivera 今年7月对钛媒体App表示,不可能有唯一一家企业独霸 AI 芯片市场。因为市场需要多样性,并且客户也希望看到更多的芯片企业在 AI 领域发挥领导作用。
9月,在美国圣何塞举办的英特尔On技术创新大会上,基辛格宣布采用5nm制程的 AI 芯片Gaudi 3将于明年推出,届时,其算力将会是Gaudi 2的两倍,网络带宽、HBM容量则会是1.5倍。
同时,基辛格还预览第五代英特尔至强可扩展服务器处理器,称下一代至强将拥有288核心,预计将使机架密度提升2.5倍,每瓦性能提高2.4倍。另外,英特尔还发布Sierra Forest、Granite Rapids,与第四代至强相比 AI性能预将提高2到3倍。
阿里云首席技术官周靖人表示,阿里巴巴将第四代英特尔至强处理器用于其生成式 AI 和大语言模型,即“阿里云通义千问大模型”,而英特尔技术大幅缩短了模型响应时间,平均加速可达3倍。
此外,对于 AI 大模型训练来说,比较重要的是软件生态。英特尔宣布与 Arm 公司合作,使其至强产品部署到Arm CPU 上,同时推出AI推理和部署运行工具套件OpenVINO,不仅支持预训练模型,而且只需编写一次即可部署任何可用的关键跨平台支持,已支持Meta的Llama 2模型。
同时,Linux基金会在本周还宣布成立统一加速(UXL)基金会,提供开放标准的加速器编程模型,简化高性能、跨平台应用程序的开发,核心是加速演进英特尔oneAPI计划,创始成员包括 Arm、谷歌云、英特尔、高通、三星等公司——英伟达不在其中。
英特尔公司高级副总裁、英特尔中国区董事长王锐对钛媒体App等表示,英特尔后续将发布拥有288核的处理器。数据中心在未来也会越来越多,英特尔将推出Gaudi3、Falcon Shores等产品,产品矩阵将构成未来加速器与AI计算发展的路线图。
“我们把AI的能力内置到芯片中。根据不同需求,内置AI能力将使用不同算力、不同架构来提供支持。”王锐表示,在数据中心方面,从客户端到边缘端,再到云端,AI已经渗透到各种应用场景;从进行大语言模型训练到进行小规模、普惠语言模型训练,AI的影响力无处不在。
今年8月底基辛格表示,他认为英特尔正迈向达成其宏大的整顿目标,朝着恢复在产业的领先地位前进。而谈及英伟达时,基辛格坦承英伟达布局良好,能抓住支持 AI 软件扩张所需系统的需求,但他说,英特尔很快将开始赢得这些加速器芯片市场的订单。
“他们做得很好,我们都赞扬他们。但我们即将展现实力。”基辛格表示。
4、OpenAI自研芯片
大模型风靡的这大半年,如果说数据是大模型的生产原料,那么算力则是大模型的生产力。此前,OpenAI公布过一组数据,大模型训练所需算力的增速保持在3-4个月/倍速度增长,远超摩尔定律18-24个月/倍。
强大的算力,意味着更快的数据处理速度、更强大的大模型服务能力。与此同时,伴随着越来越多的企业入局大模型,导致对A100和H100等高端GPU的需求直线增加,英伟达及其制造伙伴台积电,都在努力满足供应。
今年8月,百度、字节跳动、腾讯和阿里巴巴向英伟达共订购了价值50亿美元的芯片。外部需求的爆发,导致了市场供货异常紧张。据CoreWeave联合创始人兼CTO Brian Venturo表示,今年一季度,获取英伟达GPU还很容易,但从4月份开始订购,交货时间也要等到2024年Q1甚至Q2。
OpenAI的CEO Sam Altman也曾多次抱怨算力短缺问题,而这个市场主要由英伟达主导,该公司控制着全球80%以上最适合运行人工智能应用的芯片市场。
最近在伦敦听证会上,Altman称算力的短缺让API可用性低于标准,并坦诚承认计算机芯片短缺,可能阻碍ChatGPT推出更大的“上下文窗口”。上下文窗口决定了模型的响应速度,和单次提示使用的数据。
财经评论员张雪峰表示,“OpenAI要自研芯片意味着他们希望独立研发和生产适合其人工智能技术需求的定制化芯片。自研芯片可以使OpenAI更好地优化算法和硬件的协同工作,提升人工智能系统的性能和效率。同时,自研芯片还可以减少对供应商的依赖,降低成本并更好地满足OpenAI独特的需求。”
实际上,谈算力问题始终离不开成本问题。分析师StacyRasgon曾估算算,ChatGPT每次查询成本约4美分。若ChatGPT查询增长到Google 搜索规模的十分之一,需要价值约481亿美元的GPU,每年则需160亿美元的芯片才能保持运行。
据外媒报道,2022年OpenAI营收2800万美元,亏损为5.4亿美元,亏损的主要算因就是算力开销。另外,ChatGPT移动端9月收入虽增长至460万美元,但增长疲态出现。根据市场情报公司Appfigures的最新数据,其营收增长已经开始放缓,7月份为31%,8月份为39%,9月份降至20%。
英伟达作为AI芯片市场的领先企业,在AI芯片之战仍将保持竞争优势,但是竞争对手通过自研芯片能够更好地满足特定领域和应用的需求,有望推动市场多元化,其‘霸主’地位可能会面临一定的冲击。他表示“随着更多企业,包括大厂和创业公司都意识到自研芯片的重要性,AI芯片之战未来可能呈现多个参与者自研芯片的局面,市场的进一步发展,将取决于技术创新、应用需求和市场竞争力的综合影响。”