随着汽车智能化需求的快速增长,车载大算力芯片正在加快迭代速度,智能车的芯片成本占比也将大幅提升。
AI芯片在电子架构迈向中央计算的过程中处于智能车产业链核心地位。
英特尔CEO曾预测:到2025/2030年,芯片将占高端汽车物料成本12%/20%+(2019年为4%),最大增量来自辅助驾驶。
无人车市场,苦AI芯片久矣
如果你是一个看自动驾驶的投资人,过去三个月里你很可能看过AI芯片的项目;如果你是一个看芯片的投资人,过去三十天里你很可能看过存算一体的项目。
作为后摩尔时代最受关注的技术之一,存算一体几乎是当下AI芯片赛道最火的方向。
自2012年以来,全球AI算法模型对算力的需求每3.5个月翻一倍,六年里翻了近30万倍。基于传统冯·诺伊曼架构的AI芯片虽然解决了计算速度,却又受限于存储性能发展速度、总线数据搬运等因素制约。业内采用的HBM等“续命”方案能暂缓燃眉之急,却也昂贵得惊人,一块高性能自动驾驶芯片的成本最高能飙升到上千美元,几乎卡住了整个无人车产业的脖子。
算力、功耗、成本是当前发展无人车产业的几大关键因素。此外,对于国内无人车企业还要加上一条“保障供应链安全”的生死攸关因素。
存算一体技术的火,正是源自它满足了上述的需求。
首先是算力与成本方面。
以自动驾驶场景为例,当前,业内所采用的算法方案大多是激光雷达+AI视觉的融合方案。AI视觉方案在硬件成本、鲁棒性等方面的优势得到不少无人车企青睐。
然而,倘若想要靠以AI视觉为主的方案达到L4级别的自动驾驶,其所需算力却也以惊人的速度增长。新石器无人车CTO苗乾坤告诉36氪,新石器第三代无人车产品算力需求超过100 Tops、第四代车以AI视觉为主的算力需求接近200~300 Tops。
而根据后摩智能数据,通过打破传统·冯诺伊曼架构的存储、计算模块分离设计,存算一体芯片能够解决计算与存储模块间巨大的数据传输延迟与能量损耗,其理论算力最大值能够突破当前的算力天花板,实现单芯片数百甚至上千Tops的极大算力。
后摩智能联合创始人项之初告诉36氪,后摩智能存算一体的方案不仅在单块芯片的成本上较之现有市场竞品有着明显优势,其单芯片大算力的优势更是让无人车企不用“堆叠”多块AI芯片,同时减少传感器对激光雷达的重度依赖,全面降低自动驾驶的整体硬件成本。
其次是功耗方面。
由于普遍采用新能源电池作为动力来源,顶着强大的续航压力,无人车成为了一个功耗极其敏感的应用场景。车身体积越小、能够搭载的电池容量越小,对功耗要求就越敏感。
算力要提高,功耗却要降低,在传统芯片架构中几乎是不可调和的一对矛盾。
在目前的市场化传统芯片架构供应商中,实际应用中的稠密算力/功耗比值普遍在1-2 Tops /W的水平,倘若要满足接近200 Tops的无人车算力需求,光是芯片功耗一项就达到200W,逼近整车功耗。
由于减少了数据搬运的功耗损失,后摩智能的存算一体技术AI部分功耗可低至现有市面产品的1/10,在真实的调试使用过程中,其能效比能够达到同类产品的5~10倍。
存算一体芯片在降低能耗、提高无人车续航的同时,还解决了无人车企另一个头大的问题——散热。
不像数据中心,无人车在作业时需要时常暴露在温度不可控的室外环境中,本身就对功耗与散热系统提出了更高的挑战。与此同时,开放路面的无人车又对安全性要求极高——为了保障行人安全,绝对不能出现车辆系统过热卡顿问题。功耗必须降低。
最后,对自主可控、保障供应链安全方面的迫切需求,也迫使着无人车企寻找存算一体技术作为解决方案。
后摩智能联合创始人项之初透露,存算一体在算力与性能上的优势,使得后摩智能的产品能够在更成熟、更自主可控的制程节点上超越先进制程的表现。
举个例子,在后摩智能的测试结果中,在算力相等的情况下,即便用比后摩现有产品更早代际的28nm制程,其AI芯片的能效比也超过了采用7nm的传统芯片。
对于确保芯片安全,保证供应链自主可控而言,这无疑是无人车企的一颗“定心丸”。
而针对“存算一体技术作为一项前沿技术,是否具备通用性?是否能够’无痕’适配无人车企现有软硬件工作流程?”问题,项之初表示,这确实是无人车企最关心的问题之一,也是后摩智能从创业第一天就始终关注的问题。
所以公司从一开始就组建了经验丰富的软件研发团队,打造完善的工具链,尽全力确保使用方的好用、易用。后摩智能CEO吴强博士是国际知名的编译器专家,目前编译器负责人是原一线大厂负责人,软件及工具链团队水平业内一流。目前后摩智能的计算平台既能支持TensorFlow、Pytorch等当前各种主流人工智能训练框架,也能满足未来新的网络模型以及客户自研算子需求。
自动驾驶芯片市场格局
当前车载大算力芯片全球格局较清晰,本土公司正在崛起,新势力与自主头部汽车品牌积极定点英伟达、高通等的大算力芯片,AI芯片处智能车产业链核心地位,AI芯片产品路线图指向大算力+跨域融合,商业模式愈加开放灵活。
从自动驾驶域控制器所使用的的芯片方案来看,2022年11月,自动驾驶域控制器芯片市场份额TOP5分别为特斯拉FSD(43.2%)、英伟达(19.4%)、赛灵思(11.9%)、Mobileye(7.6%)、英飞凌(5.6%)。
特斯拉、英伟达、高通等国外企业领先。
2022年1-11月,自动驾驶域控制器芯片市场份额TOP5分别为特斯拉FSD(40.9%)、英伟达(13.3%)、赛灵思(12.8%)、英飞凌(9.2%)、地平线(8.5%)。
2022年,自动驾驶域控制器常用的主流芯片包括特斯拉FSD、赛灵思、地平线J3、英伟达Orin、英伟达Xavier、mobileyeEyeQ5H、英飞凌AURIX等。
当前主流已发布车型AI芯片以英特尔Mobileye系列为主,但从下一代车型开始,选择英伟达芯片厂商开始占据多数,包括蔚来、小鹏、理想、上汽、威马等车企均选择Orin芯片为下一代AI芯片。
英伟达2019年推出Xavier,可以实现L2+甚至L3的功能,成熟度高,国内德赛西威是和英伟达绑定非常深的Tier1。
英伟达发布新一代芯片DRIVE Thor,这款车规级系统级芯片(SoC)基于最新CPU 和GPU 打造,可提供每秒2000 万亿次浮点运算性能,将在2024年量产,吉利旗下极氪第一个宣布将在2025年起为旗下车型配备Thor芯片。
国内相关布局厂商主要有华为、地平线、黑芝麻、芯驰科技、寒武纪、芯擎科技等。
华为借助北汽阿尔法S完成AI芯片落地,后续与长安、广汽以及沙龙品牌都形成了合作关系。
此外,自动驾驶芯片加速上车,与芯片厂商深度合作的域控玩家和合作伙伴也有望受益。
整体来看,大算力芯片市场格局尚未收敛,目前英伟达和高通走在变革前列,地平线量产进度领跑国内市场,华为MDC或涅槃归来,架构变化下辉羲智能等国产厂商亦有突围机会。大模型开发者、自动驾驶产业链各环节都将赋能AI芯片加速演进,迎来新一轮产业机遇。
国产AI芯片商业化应用还需努力
其实综上来看,国内AI芯片设计水平与国外差距不大,在性能方面也足以替代国外AI芯片。不过评判国产AI芯片产品发展好坏,不止是从设计到量产维度考量,能否大规模商业化应用也是较为重要。
比如提到的国内ASIC芯片,基本只用于自家云业务,对外提供芯片产品也需要庞大团队的深度优化。主要原因一方面在于之前提到过的,ASIC芯片从研发之初就需要考虑算法适配情况;另一方面,ASIC芯片生态较为碎片分散,开发者上手难度较高。
相较于ASIC厂商,得益于GPGPU泛用性优势,GPGPU厂商商业化应用做的更好一些。以海光为例,据其官方透露,海光深算一号目前已完成与百度、阿里等厂商互证,主要客户是智算中心等“新基建”项目、行业用户、AI厂商及互联网企业,已商业化部署数十万片。
在国内自动驾驶、AIGC、垂直大模型等AI应用愈发火热的今天,国产AI芯片有希望撑起海量AI算力的需求。在解决性能问题之后,国产AI芯片面对国外巨头是有弯道超车可能性的,虽然未来仍需在生态建设与商业化发展方面大步追赶。
GPGPU和ASIC技术路线齐头并进
对于训练芯片,目前主要分为GPGPU和ASIC两类技术路线。
GPGPU是从GPU衍生而来,是弱化图形处理,增强计算能力的产物。模型在训练过程中,存在大量的矩阵计算,GPU架构特点即在于擅长处理并行计算,因此GPGPU芯片可适合绝大多数AI计算场景,通用性更强。当前AI芯片霸主-英伟达的主要产品A100、H100等,就属于GPGPU架构。
目前,国内投入GPGPU芯片领域的厂商较少,原因在于GPGPU研发需要有充足的技术和资金储备。知名的有海光信息、壁仞科技、沐曦等,其中较为领先的为海光。
海光深算一号早在2022年6月就实现了商用。据了解,海光深算一号性能不弱于主流的英伟达芯片,也能兼容英伟达的CUDA环境,适配性好。并且最大优势在于,深算一号是国内唯一支持全精度计算的AI芯片,这让海光可支持科学计算、AI计算、大数据计算等多种计算场景。
另一类技术路线为ASIC,一种为特定场景专门设计的集成电路,比如NPU。在AI算法领域,卷积神经网络是仿造生物的视知觉机制构建而成,是深度学习的代表算法之一。为满足深度学习效率需求,随着AI算法发展,模仿生物脑神经的NPU应运而生。
由此可看出,ASIC芯片需要结合大模型算法做定向开发和调配,通用性没有GPGPU那么强。国内主要在做ASIC芯片的包括寒武纪、华为昇腾等,以及一些互联网大厂,比如阿里含光、百度昆仑芯、腾讯紫霄等等,其性能也能满足大多数计算场景的需要。
在大模型计算日益复杂的今天,由CPU+GPGPU+ASIC组成异构计算系统成为算力供给最佳方案,绝大多数AI算力还是需要依靠GPGPU供给。