Chiplet对 Nvidia 来说并不陌生。该公告还为Chiplet作为一个概念增加了更多验证——许多半导体制造商都指望这一概念在未来几年帮助保持摩尔定律的活力。
小芯片背后的想法几乎不是一个新概念。几十年来,该行业一直在制造多芯片模块:例如,Mostek 在 1979 年将两个 MK4116 16-Kbit DRAM 芯片放入双腔陶瓷封装中,创建了 MK4332D 32Kbit DRAM。英特尔还将 CPU 芯片和一个1995 年底推出的 Pentium Pro 中的 SRAM 芯片。这些多芯片模块 (MCM) 使 Mostek 和 Intel 能够超越其半导体工艺的局限,创造出“超越摩尔”的封装设备。
Chiplets 的两大优势
Xilinx Virtex-7 2000T 和 580HT 展示了小芯片提供的两个最大优势。
对于 Virtex-7 2000T,使用硅中介层将四个 28 纳米 FPGA 小芯片组装到一个封装中,使 Xilinx 能够构建更大的 FPGA,这可以通过单片 28 纳米芯片实现。中介层允许半导体制造商通过将大型芯片组装成比单个芯片可能更大的马赛克来超越晶圆步进机的光罩限制。
Virtex-7 580HT 删除了 Virtex-7 2000T 的四个 FPGA 小芯片之一,并用 28Gbps 收发器小芯片取而代之,当时无法使用主流 28nm 数字 CMOS 工艺制造 28Gbps 收发器FPGA小芯片。
因此,小芯片提供的第二个优势是能够混合和匹配使用不同工艺节点制造的芯片,很可能来自不同的代工厂。与主流和前沿数字工艺节点明显不同的重要工艺节点包括模拟工艺、内存工艺(例如 DRAM 工艺,特别是高带宽内存(HBM)内存堆栈的形式)和高电流或高电压工艺——尤其是特殊工艺,例如用于光子学的砷化镓 (GaAs) 和用于功率半导体的碳化硅 (SiC)。
Chiplet:AI 芯片算力破局之路
伴随摩尔定律逼近物理极限,提升制程工艺和芯片面积将面临大幅的良率下降、成本增加,性能提升收益边际降低。此外,2022 年 10 月以来,美国持续对国内半导体产业施压,限制中国获取先进制程芯片产品和代工服务,对于国内 AI 芯片厂商而言,架构创新或将成为提升算力另辟蹊径的选择。
chiplet 工艺让我们看到通过架构创新实现算力跨越的可能,国内AI 芯片厂商亦已经进行了成功尝试。
2022 年 8 月,国产 GPU 厂商壁仞科技发布 BR100 系列 GPU,其采用 7nm 制程,实现了高达 2048TOPS INT8 算力,创下全球 GPU 算力新纪录。BR100 之所以能实现强大的性能,得益于 Chiplet 工艺的运用。BR100 包含 2 颗计算芯粒,通过台积电 CoWoS-S 工艺 die to die 互连,实现算力的跨越式提升。
但是,AI 芯片、GPGPU 芯片在设计难度、生态壁垒上较 CPU、GPU 更低,同时软件栈的支持也是 AI 芯片能否大规模导入云服务商的主要矛盾,这导致了国内云计算企业如阿里、百度等均尝试自研 AI 芯片;这意味着国产芯片供应链的机会(如接口芯片、IP 核等)比 AI 芯片的机会更具备确定性。
算力需求提升,导热材料需求有望放量
最先进的 NLP 模型中参数的数量呈指数级增长。近年来,自然语言处理(NLP)中 的基于 Transformer 的语言模型借助于大规模计算、海量数据以及先进的算法和软件取得 快速进展。拥有大量参数、更多数据和更长训练时间的语言模型可以获得更加丰富、更加 细致的语言理解能力。因此,从 2018 年开始,NLP 模型参数以每年近乎一个数量级的速 度在增长。
AI 大模型的持续推出带动算力需求放量。ChatGPT-3 模型版本拥有 1750 亿个参数, 而此前的 GPT-2 只有 1.5 亿个参数。由于参数数量的增加,ChatGPT-3 的训练时间和算 力需求也大幅增加。为了训练 GPT-3 模型,OpenAI 需要使用超过 285,000 个 CPU 核心 和 10,000 多个 GPU。训练 ChatGPT-3 模型的总计算量大约相当于在普通笔记本电脑上 运行 175 亿年的计算量,大约是 GPT-2 的数百倍(数据源自 OpenAI 官网)。而且,在推 理过程中,ChatGPT 也需要大量的算力来生成连贯、准确的文本。以中国近年算力规模看, 2016-2021 年算力规模 CAGR 为 47%(数据源自中国信通院)。随着 AI 大模型等对参数 需求大幅提升,全球对于算力的需求预计将呈现爆发式的增加。
面对算力缺口,Chiplet 或成 AI 芯片“破局”之路。ChatGPT 等 AI 应用蓬勃发展, 对上游 AI 芯片算力提出了更高的要求,头部厂商通过不断提升制程工艺和扩大芯片面积推 出更高算力的芯片产品。然而在后摩尔时代,制程升级和芯片面积扩大带来的经济效益锐 减,架构创新如 Chiplet 或将成为提升芯片算力的重要途径。Chiplet 技术除了成本和良率 端的优势,还能够在最大程度上提升芯片的算力以满足不同应用的需求。
Chiplet 技术是提升芯片集成度的全新方法。Chiplet 指的是将芯片的不同芯粒分开制 备后再通过互联封装形成一个完整芯片。Chiplet 较小的硅片面积不太容易产生制造缺陷, 因此可以避免大算力芯片良率太低的问题。芯粒可以采用不同工艺进行分离制造,可以显著降低成本。此外,Chiplet 技术带来高速的 Die to Die 互连,使得芯片设计厂商得以将多 颗计算芯粒集成在一颗芯片中,以实现算力的大幅提升。
芯片算力提升对导热材料的要求不断提升。Chiplet 技术的核心思路在于尽可能多在物 理距离短的范围内堆叠大量芯片,以使得芯片间的信息传输速度足够快。随着更多芯片的 堆叠,不断提高封装密度已经成为一种趋势。随着封装密度的提高,单位电路的功率也不 断増大以减小电路延迟,提高运行速度;同时,芯片和封装模组的热通量也不断増大,显 著提高导热材料需求。
全球 Chiplet 市场增长强势。随着下游人工智能(AI)、虚拟现实(MR)、物联网(IoT) 的不断发展,高算力的要求成为的未来趋势,Chiplet 技术或成为未来的主流芯片制造方案。 据 Omida 测算,全球 Chiplet 市场规模将从 2018 年的 6.45 亿美元逐步攀升至 2024 年的 24 亿美元,CAGR 为 44.2%。近年,全球头部导体公司都已经开始布局 Chiplet,已经有 商业化设备公布。
数据中心的算力需求与日俱增,导热材料需求会提升。根据中国信通院发布的《中国 数据中心能耗现状白皮书》,2021 年,散热的能耗占数据中心总能耗的 43%,提高散热能 力最为紧迫。随着 AI 带动数据中心产业进一步发展,数据中心单机柜功率将越来越大,叠 加数据中心机架数的增多,驱动导热材料需求有望快速增长。
5G 通信基站相比于 4G 基站功耗更大,对于热管理的要求更高。根据广州 4G/5G 基 站功耗的实际测试结果,5G 基站的有源天线单元(Active Antenna Unit,AAU)或远端射 频单元(Radio Remote Unit,RRU)的能耗相比于 4G 基站高出 3-5 倍,基带处理单元(Base Band Unit,BUU)的功耗也比 4G 基站高出 30%-50%。综合来看,5G 基站能耗大约为4G 基站的 3-4 倍。能耗的提升对导热材料提出更高要求,因此 5G 基站中多采用高效导热 的 TIM 材料以应对高能耗带来的高热负载。
未来 5G 全球建设会为导热材料带来新增量。截止 2022 年 12 月,我国完成的 5G 基 站数超过 230 万个,占全球基站的超过 60%。当前我国的万人人均 5G 基站数已经达到了 16.3 个,远远大于全球平均水平。伴随着未来全球的 5G 基站逐步建设,对导热材料的需 求预计将持续存在。
消费电子在实现智能化的同时逐步向轻薄化、高性能和多功能方向发展。随着集成电 路芯片和电子元器件体积不断缩小,手机机身厚度越来越薄,但由于功能件数量增多,手 机功率密度和发热量快速增加。此外,无线充电和快充技术的普及也加大了散热的需求和 难度。简而言之,电子产品的性能越来越强大,而集成度和组装密度不断提高,导致其工 作功耗和发热量的急剧增大,提高散热需求。
新能源车产销量不断提升,带动导热材料需求。2017-2022 年我国新能源汽车产销量 迅速攀升。据中国汽车工业协会披露,2022 年国内新能源汽车销量为 688.7 万辆,同比 增加 96%,产量为 705.8 万辆,同比增加 99%。由于新能源车单车导热材料的价值高于 传统燃油车,新能源车渗透率的上升将带动导热材料的需求上涨。