英伟达独霸时代结束了?在酝酿数年后,微软的人工智能芯片或将在下个月露面。
10月6日,媒体援引知情人士消息称,微软计划在下个月的年度开发者大会上推出首款为人工智能设计的芯片,来降低成本并减少对英伟达的依赖。
报道称,微软芯片用于数据中心服务器,为训练大语言模型(LLM)等软件而设计,同时可支持推理,能为ChatGPT背后的所有AI软件提供动力。
知情人士称,微软内部仍在争论是否会将这款芯片提供给微软Azure云客户,不过如果微软自研芯片亮相开发者大会,这表明其正在试图吸引未来云客户的兴趣。
运行ChatGPT的微软数据中心服务器目前用了上万块英伟达A100 GPU,为云客户提供先进的LLM,包括OpenAI和Intuit,并支持微软应用程序中的一些列人工智能功能。
微软希望其Athena芯片能够与英伟达供不应求的H100 GPU相媲美。 此前有消息爆出 ,微软秘密组建的300人团队,在2019年时就开始研发一款名为"雅典娜"(Athena)的定制芯片。今年开始,微软加快了推出专为LLM设计的AI芯片的时间轴。
媒体分析指出,在谷歌、微软和亚马逊的芯片大战中,微软一直处在落后的位置,在推出Athena后,微软将基本赶上亚马逊和谷歌。
想逐步摆脱英伟达?
为了发展ChatGPT,微软已经抢购了不少GPU,随着算力需求的增加,微软在后续或许需要更多的芯片支持。如果一如既往地购买英伟达GPU,这对微软来说将是一笔昂贵的支出,于是,对于微软的自研AI芯片市场上出现了更多探讨。
根据最初的计划,“雅典娜”会使用台积电的5nm工艺打造,预计可以将每颗芯片的成本降低1/3。如果在明年能够大面积实装,微软内部和OpenAI的团队便可以借助「雅典娜」同时完成模型的训练和推理。这样一来,就可以极大地缓解专用计算机紧缺的问题。
据报道,微软认为自己的 AI 芯片并不能直接替代英伟达的芯片,但随着微软继续推动在Bing、Office、GitHub和其他地方推出AI 驱动的功能,自研芯片可能会大幅削减成本。
研究公司 SemiAnalysis 的分析师Dylan Patel指出,如果Athena具有竞争力,与英伟达的产品相比,它可以将每芯片的成本降低三分之一。
OpenAI:这两家,我都不想要
对于OpenAI来说,能同时减少对微软和英伟达芯片的依赖,显然是最好的。
据OpenAI网站上的几则招聘信息显示,公司正在招聘能够帮助其评估和共同设计AI硬件的人员。路透社也报道,OpenAI正在计划下场生产自己的AI芯片。此前,CEO Sam Altman曾将获得更多AI芯片作为公司的首要任务。
一方面,OpenAI所需的GPU十分短缺,另外,运行这些硬件时产生的成本「令人瞠目结舌」。如果算力成本一直居高不下,长远来看于整个AI行业来说可能并不是一个好消息。
毕竟如果掘金的「铲子」卖的比金子本身都贵,那么还会有人去做挖金子的人吗?
根据Stacy Rasgon的分析,ChatGPT每次查询大约需要4美分。如果ChatGPT的查询量增长到谷歌搜索规模的十分之一,那么就将需要价值约481亿美元的GPU,并且每年需要价值约160亿美元的芯片来维持运行。
目前还不清楚OpenAI是否会推进定制芯片的计划。
据业内资深人士分析,这将是一项投资巨大的战略举措,其中每年的成本可能高达数亿美元。而且,即使OpenAI将资源投入到这项任务中,也不能保证成功。除了完全的自研之外,还有一种选择是像亚马逊在2015年收购Annapurna Labs那样,收购一家芯片公司。据一位知情人士透露,OpenAI已经考虑过这条路,并对潜在的收购目标进行了尽职调查。
但即使OpenAI继续推进定制芯片计划(包括收购),这项工作也可能需要数年时间。在此期间,OpenAI还是将依赖于英伟达和AMD等GPU供应商。
因为就算强如苹果,在2007年收购了P.A. Semi和Intristy,到2010年推出第一款芯片A4,也经历了3年的时间。而OpenAI,自己本身都还是一家初创公司,这个过程也许走得会更加艰难。而且英伟达GPU最重要的护城河,就是它基于CUDA的软硬件生态的积累。
OpenAI不但要能设计出性能上不落后的硬件,还要在软硬件协同方面赶超CUDA,绝对不是一件容易的事情。
但是,另一方面,OpenAI做芯片也有自己独特的优势。
OpenAI要做的芯片,不需要向其他巨头推出的芯片一样,服务于整个AI行业。他只需满足自己对模型训练的理解和需求,为自己定制化的设计一款AI芯片。这和谷歌、亚马逊这种将自己的AI芯片放在云端提供给第三方使用的芯片会有很大的不同,因为几乎不用考虑兼容性的问题。这样就能在设计层面让芯片能更高效地执行Transformer模型和相关的软件栈。
而且,OpenAI在模型训练方面的领先优势和规划,能让它真正做到在未来把模型训练相关的硬件问题,用自己独家设计的芯片来解决。
不用担心自己的芯片在「满足自己需要」的性能上,相比与英伟达这样的行业巨头会有后发劣势。
都是成本的问题
设计自己的AI芯片,与英伟达直接「刚正面」如此之难,为什么巨头们还要纷纷下场?
最直接的原因就是,英伟达的GPU太贵了!
加上云提供商在中间还要再赚一笔。这样,包括OpenAI在内,使用英伟达GPU+云提供商的基础模型企业成本肯定居高不下。
有国外媒体算过这样一笔账:
现在,购买一个使用英伟达H100 GPU的人工智能训练集群,成本约为10亿美元,其FP16运算能力约为20 exaflops(还不包括对矩阵乘法的稀疏性支持)。而在云上租用三年,则会使成本增加2.5倍。
这些成本包括了集群节点的网络、计算和本地存储,但不包括任何外部高容量和高性能文件系统存储。购买一个基于Hopper H100的八GPU节点可能需要花费近30万美元,其中还包括InfiniBand网络(网卡、电缆和交换机)的分摊费用。
同样的八GPU节点,在AWS上按需租用的价格为260万美元,预留三年的价格为110万美元,在微软Azure和谷歌云上的价格可能也差不多。
因此,如果OpenAI能够以低于50万美元的单价(包括所有成本)构建系统,那么它的成本将减少一半以上,同时还能掌握自己的「算力自由」。
将这些费用削减一半,在投入资源不变的情况下,OpenAI的模型规模就会扩大一倍;如果成本能够减少四分之三,则翻四倍。在模型规模每两到三个月翻倍的市场中,这一点非常重要。
所以长远来看,也许任何一个有野心的AI大模型公司,都不得不面对的一个最基本问题就是——如何尽可能的降低算力成本。
而摆脱「金铲子卖家」英伟达,使用自己的GPU,永远都是最有效的方法。