突破“内存墙”瓶颈,HBM应运而生
HBM(High Bandwidth Memory)即高带宽存储器,按照JEDEC的分类,HBM属于图形DDR内存的一种,其通过使用先进的封装方法(如TSV硅通孔技术)垂直堆叠多个DRAM,并与GPU封装在一起。
存储器与处理器性能差异正随时间发展逐渐扩大,当存储器访问速度跟不上处理器数据处理速度时,存储与运算之间便筑起了一道“内存墙”。而随着人工智能、高性能计算等应用市场兴起,数据爆炸式增长之下,“内存墙”问题也愈发突出。为此,业界希望通过增加存储器带宽解决大数据时代下的“内存墙”问题,HBM便应运而生。
存储器带宽是指单位时间内可以传输的数据量,要想增加带宽,最简单的方法是增加数据传输线路的数量。据悉,典型的DRAM芯片中,每个芯片有八个DQ数据输入/输出引脚,组成DIMM模组单元之后,共有64个DQ引脚。而HBM通过系统级封装(SIP)和硅通孔(TSV)技术,拥有多达1024个数据引脚,可显著提升数据传输速度。
HBM技术之下,DRAM芯片从2D转变为3D,可以在很小的物理空间里实现高容量、高带宽、低延时与低功耗,因而HBM被业界视为新一代内存解决方案。
自2014年首款硅通孔HBM产品问世至今,HBM技术已经发展至第四代,分别是:HBM(第一代)、HBM2(第二代)、HBM2E(第三代)、HBM3(第四代),HBM芯片容量从1GB升级至24GB,带宽从128GB/s提升至819GB/s,数据传输速率也从1Gbps提高至6.4Gbps。
借AI东风,HBM需求激增
2021年的时候,HBM位元需求占整体DRAM市场只有不到1%。主要是因为HBM高昂的成本以及当时服务器市场中搭载相关AI运算卡的比重仍小于1%,且多数存储器仍使用GDDR5(x)、GDDR6来支持其算力。
而到了今年年初,HBM的需求激增,并且业内人士称,与最高性能的 DRAM 相比,HBM3 的价格上涨了五倍,HBM“逆袭”的主要原因,就是AI服务器需求的爆发。
在ChatGPT火了之后,一下子点燃了AIGC(生成式AI)的热潮,谁不追,谁就要被抛下,于是大厂们纷纷开始推出自己的类ChatGPT的大模型。据不完全统计,自3月16日百度率先公布“文心一言”以来,国内已有超过30项大模型产品亮相。
而AI大模型的基础,就是靠海量数据和强大算力来支撑训练和推理过程。AI服务器作为算力基础设施单元服务器的一种类型也来到了台前,备受追捧。TrendForce集邦咨询预估,2023年AI服务器(包含搭载GPU、FPGA、ASIC等)出货量近120万台,同步上修2022-2026年AI服务器出货量年复合成长率至22%。
HBM成本在AI服务器成本中占比排名第三,约占9%,单机ASP(单机平均售价)高达18,000美元。所以,AI服务器是HBM目前最瞩目的应用领域。
AI服务器需要在短时间内处理大量数据,包括模型训练数据、模型参数、模型输出等。要想让AI更加“智能”,AI大模型庞大的参数量少不了,比如ChatGPT基于的GPT3.5大模型的参数量就高达135B。数据处理量和传输速率的大幅提升,让AI服务器对带宽提出了更高的要求,而HBM基本是AI服务器的标配 。
AI服务器GPU市场以NVIDIA H100、A100、A800以及AMD MI250、MI250X系列为主,基本都配备了HBM。2023 GTC大会发布的ChatGPT专用最新H100 NVL GPU,也配置了188GB HBM3e内存。HBM方案目前已演进为较为主流的高性能计算领域扩展高带宽的方案。
随着高端GPU需求的逐步提升,TrendForce集邦咨询预估2023年HBM需求量将年增58%,2024年有望再成长约30%。
除了AI服务器,汽车也是HBM值得关注的应用领域。汽车中的摄像头数量,所有这些摄像头的数据速率和处理所有信息的速度都是天文数字,想要在车辆周围快速传输大量数据,HBM具有很大的带宽优势。但是最新的HBM3目前还没有取得汽车认证,外加高昂的成本,所以迟迟还没有“上车”。不过,Rambus的高管曾提出,HBM 绝对会进入汽车应用领域。
AR和VR也是HBM未来将发力的领域。因为VR和AR系统需要高分辨率的显示器,这些显示器需要更多的带宽来在 GPU 和内存之间传输数据。而且,VR和AR也需要实时处理大量数据,这都需要HBM的超强带宽来助力。
此外,智能手机、平板电脑、游戏机和可穿戴设备的需求也在不断增长,这些设备需要更先进的内存解决方案来支持其不断增长的计算需求,HBM也有望在这些领域得到增长。并且,5G 和物联网 (IoT) 等新技术的出现也进一步推动了对 HBM 的需求。
不过,目前来讲,HBM还是主要应用于服务器、数据中心等领域,消费领域对成本比较敏感,因此HBM的使用较少。
可以肯定的是,对带宽的要求将不断提高,HBM也将持续发展。市场调研机构Omdia预测,2025年HBM市场的总收入将达到25亿美元。据新思界发布的分析报告显示,预计2025年中国HBM需求量将超过100万颗。
HBM市场格局:SK海力士、三星、美光三分天下
HBM是新一代内存解决方案,其市场被三大DRAM原厂牢牢占据。集邦咨询调查显示,2022年三大原厂HBM市占率分别为SK海力士50%、三星约40%、美光约10%。
公开资料显示,SK海力士是HBM市场的先行者,也是全面布局四代HBM的厂商。2014年,SK海力士与AMD联合开发第一代硅通孔HBM产品;2018年SK海力士发布第二代HBM产品HBM2;随后2020年SK海力士发布第三代HBM——HBM2E,作为HBM2的扩展版本,性能与容量进一步提升;2021年10月SK海力士成功开发出第四代产品HBM3,并于2022年6月开始量产,今年4月,该公司进一步宣布,已经全球率先研发出12层堆叠的HBM3内存,单颗容量可达24GB。
三星对HBM的布局从HBM2开始,目前,三星已经向客户提供了HBM2和HBM2E产品。2016年三星量产HBM2;2020年三星推出了HBM2;2021年2月,三星推出了HBM-PIM(存算一体),将内存半导体和AI处理器合二为一;2022年三星表示HBM3已量产。另据媒体报道,三星已于今年4月26日向韩国专利信息搜索服务提交“Snowbolt”商标申请,预估该商标将于今年下半年应用于DRAM HBM3P产品。
美光进军HBM相对较晚,相关产品公开报道不多。2020年美光表示将开始提供HBM2产品,用于高性能显卡,服务器处理器产品。另据业界透露,美光亦在发力最新HBM3产品。
集邦咨询指出,2023下半年伴随NVIDIA H100与AMD MI300的搭载,三大原厂也已规划相对应规格HBM3的量产。其中,在今年将有更多客户导入HBM3的预期下,SK海力士作为目前唯一量产新世代HBM3产品的供应商,其整体HBM市占率可望藉此提升至53%,而三星、美光则预计陆续在今年底至明年初量产,HBM市占率分别为38%及9%。
HBM未来潜力与演进方向
对于接下来的规划策略和技术进步,业界旨在突破目前HBM在速度、密度、功耗、占板空间等方面的极限。
首先,为了打破速度极限,SK海力士正在评估提高引脚数据速率的传统方法的利弊,以及超过1024个数据的I/O总线位宽,以实现更好的数据并行性和向后设计兼容性。简单来讲,即用最少的取舍获得更高的带宽性能。
针对更大数据集、训练工作负载所需的更高内存密度要求,存储厂商开始着手研究扩展Die堆叠层数和物理堆叠高度,以及增加核心Die密度以优化堆叠密度。
另一方面也在致力于提高功耗效率,通过评估从最低微结构级别到最高Die堆叠概念的内存结构和操作方案,最大限度地降低每带宽扩展的绝对功耗。由于现有中介层光罩尺寸的物理限制以及支持处理单元和HBM Cube的其他相关技术,实现总内存Die尺寸最小化尤为重要。因此,行业厂商需要在不扩大现有物理尺寸的情况下增加存储单元数量和功能,从而实现整体性能的飞跃。
但从产业发展历程来看,完成上述任务的前提是:存储厂商要与上下游生态系统合作伙伴携手合作和开放协同,将HBM的使用范围从现有系统扩展到潜在的下一代应用。
此外,新型HBM-PIM(存内计算)芯片将AI引擎引入每个存储库,从而将处理操作转移到HBM。
在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的约200倍,数据的搬运耗费的功耗远大于计算,因此真正用于计算的能耗和时间占比很低,数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题,称为“功耗墙”。新型的内存旨在减轻在内存和处理器之间搬运数据的负担。
过去几年来,HBM产品带宽增加了数倍,目前已接近或达到1TB/秒的里程碑节点。相较于同期内其他产品仅增加两三倍的带宽增速,HBM的快速发展归功于存储器制造商之间的竞争和比拼。