没错,后摩智能瞄准万物智能亮相的第一张王牌,就是一款智能驾驶芯片,剑指自动驾驶市场。
也许在一些人看来,2023年的智驾芯片已处于争抢上车的关键阶段,而此时向市场抛出一款新产品,后摩智能是否抓得住落地窗口?挑战丛生的行业环境,对后摩智能而言,这无疑是一场关键的自驾芯片市场抢位战。
押宝智驾芯片,后摩鸿途™H30应运而生
基于存算一体重构智能驾驶芯片,是后摩智能面向万物智能未来的第一阶段目标,亦是早期战略聚焦方向。
原因无他,需求是最为关键的决定性因素。在吴强看来,人们平均每天将近1/8的时间都是在驾驶场景,智能驾驶无疑将成为未来智能生活最重要的组成部分之一,“智能驾驶的终局是要替代人类驾驶,用传感器替代眼睛,用各式各样的算法填补意识与灵魂,而底层智驾芯片则扮演着人类大脑的角色。”他说。
从这一角度看,智驾芯片一定需要无限接近人脑的计算方式和效率,而存算一体所拥有远超传统芯片架构的高计算效率,这点技术优势正与未来智驾芯片的关键需求高度吻合。
在这个机遇下,鸿途™H30芯片应运而生。
作为后摩智能首款存算一体大算力AI芯片,H30芯片采用12nm制程工艺,在Int8精度下最高物理算力可达256Tops,典型功耗不超过35W。在相同工艺下,基于传统架构的AI芯片SoC能效比多为2Tops/W,而基于存算一体架构的H30 SoC能效比高达7.3Tops/W,整体具有高计算效率、低计算延时、低工艺依赖等特点。
实际上,H30颇具差异化的特点其实是底层架构创新所带来的优势。
简单来说,过去传统架构芯片产品的效率提升多采用算法和芯片的深度耦合,将算法固化到芯片中,这一定程度上损失了芯片的通用性。而基于存算一体技术,H30能够从底层架构进行创新,在不损失通用性的情况下,实现性价比更高的效率提升。
也就是说,尽管H30是一款相对通用的智能驾驶芯片,但它与其他大部分专用智驾芯片相比,不仅实现了性能和计算效率翻倍,支持更多算法模型,同时功耗却只有它们的二分之一。
为了保证H30的核心竞争力,提高产品的易用性、降低客户迁移门槛并加速落地,后摩智能还基于H30推出了智能驾驶硬件平台力驭,以及软件开发工具链后摩大道两款产品。
其中,力驭平台作为一款域控制器,主要面向末端物流无人小车、乘用车智能驾驶、车路协同等场景。其CPU算力为200Kdmips,AI算力为256Tops,支持多传感器输入,系统可靠性进一步提升。同时,力驭平台功耗仅为85W,支持灵活散热方式,便捷部署成本大大降低。
后摩大道则支持Pytorch、TensorFlow、ONNX等主流开源框架,编程兼容CUDA前端语法,并支持SIMD和SIMT两种编程模型,无侵入式的底层架构创新设计也使H30更为高效、易用。
综合来看,力驭平台和后摩大道两款产品更多是解决H30的易用性和快速迁移性问题,在这两款产品的辅助下,H30也将实现更快速的应用落地,从而进一步推动大算力智能驾驶场景的普及应用。
比亚迪或要成立单独的智能驾驶芯片研发部门
据国内媒体报道,比亚迪规划院的智能驾驶研发负责人王欢已经离职,其负责的智能驾驶开发部被分拆整合,该部门超500名员工,大部分被分流进韩冰负责的电子集成部。此次调整完成后,电子集成部总监韩冰已经成为比亚迪规划院的智能驾驶研发负责人。
不过,编者从比亚迪方面了解到,王欢并非智能驾驶研发部责任,且目前并未出现人员分流。
据报道,韩冰还在同步筹备比亚迪的智能驾驶芯片设计团队。编者了解到,目前比亚迪内部并未成立智能驾驶芯片团队。
虽然比亚迪董事长王传福曾表示,自动驾驶是被资本裹挟、是忽悠。但是比亚迪还是在智能化领域加速投入。
今年3月,比亚迪曾宣布与人工智能芯片制造商NVIDIA深化合作,拓宽NVDIA DRIVE Orin中央计算平台的应用范围。双方相信,未来汽车将具有可编程的能力,汽车整个生命周期内可通过软件更新带来新功能和服务。
同时,DRIVE Orin集中式计算平台将被应用到下一代王朝以及海洋系列车型中。资料显示,作为NVIDIA的最新一代智能汽车中央电脑,单Orin即可提供高达254TOPS的性能,能够处理同时运行的大量应用程序和深度神经网络。
为何是存算一体?
后摩采用了存算一体这种新的底层架构来设计芯片。
所谓存算一体,从字面意思上来说,就是存储和计算融为一体。
首先需要明确的一点是,所有的 AI 算法包括深度学习,本质上是在下达指令,做大量的乘加计算,体现在芯片层面,则是一大堆晶体管的开开闭闭。
在过去按照冯·诺依曼架构设计的芯片下,AI 计算过程简单理解是这样的:数据通过设备输入到存储器,处理器(计算单元)从存储器中获取指令和数据,进行计算,处理完后输出结果,写回存储器。
这种架构的显著特点是计算单元与存储单元分离,在执行计算时,数据在二者之间高频地迁移,在面对常规计算量时,这样做尚足以胜任工作,然而随着自动驾驶、ChatGPT 等大数据模型出现,对于算力需求急剧提升,冯·诺依曼架构开始遭遇瓶颈。
举例来说,以矩阵乘法为主的 Transformer 类计算,大多数的步骤是在访问内存,而非执行计算,尽管大量数据频繁在计算单元与存储单元之间移动,但由于存储器读写的速度不够快,导致数据被「堵塞」在访存过程中,并未真正投入计算,由此使得计算系统的有效带宽大大降低,系统算力的增长举步维艰。
尽管可以通过多核 (如 CPU)/众核 (如 GPU) 并行加速技术提升算力,但这将带来功耗和成本的提升。
应用存算一体新架构,可以解决这个难题,其底层逻辑是将 AI 计算中大量乘加计算的权重部分,直接留在存储单元中计算,以优化数据传输路径,从而大幅提升计算效率。
而这正是后摩智能设计智能驾驶芯片 IP 的思路,公司联合创始人兼研发副总裁陈亮分享道,通过在传统的 SRAM 电路旁,加入包括 Activation Driver、乘法器、加法树、累加器等定制化电路结构,后摩成功实现高能效的存内并行乘加运算。
「计算电路紧挨着存储单元,数据被读出的同时可以在原地进行乘加计算,相较于(冯·诺伊曼架构下)Row by Row 的数据读取方式,极大地提高了并行性。」
这样的 IP 设计拥有超高的计算密度,使得「大算力」得以实现;基于 SRAM 的纯数字设计,还满足全精度要求;架构上是完全的存内计算,也减少了访存功耗。
基于此,后摩面向智能驾驶场景打造了专用 IPU(Intelligence Processing Unit,处理器架构)——天枢架构。
陈亮表示,取名「天枢」在于其设计理念借鉴融合了庭院式的中国传统住宅和现代高层公寓楼的不同风格。
在他看来,庭院式代表着集中式的存储和计算架构,特斯拉 FSD 芯片正是如此,通过堆积大量芯片资源以及高并行性,带来性能提升。
然而,这在遇到算力要求更大、计算灵活性要求更高的场景下,容易受到数据规模的限制,此时计算效率急剧下降,数据的并行性和计算资源的并行性无法匹配。
「这样的架构设计类似于古典中式庭院,它向内合围成一个小的院子,集各种功能于一身,使得人与人、人和自然之间可以非常高效沟通,但是因为院落面积终究有限,所能容纳的居住人数也有限,且设计和建造这样的庭院难度和成本极大,所以它的可拓展性就比较差。」
而现代西式的高层公寓就截然不同,其采用完全相同的独立小单元,可以在三维空间中自由拓展,以容纳更多的人,类比芯片结构,就是将一个算力很大的核切分成若干个小核,细分到极致。「不过这样的架构下,人和自然之间、人和人之间的沟通效率就会变得很低。」
后摩的做法是融合了中式庭院和西式高楼的特点,陈亮解释道,先打造一个优美的庭院,以大布局设计保障计算资源利用效率,在此基础上,再借鉴现代高层建筑的方式,以多核/多硬件线程的方式灵活扩展算力,「这样我们就实现了芯片效率、灵活性和可扩展性的完美平衡。」
五类玩家角逐智驾芯片市场
对于当前的智驾芯片竞争格局,主要包括5类玩家。先将视野聚焦于国内市场,第一类为地平线、黑芝麻智能、芯砺智能、后摩智能等国内初创型玩家,其中芯砺智能、后摩智能的技术路线又较为不同。
值得注意的是,芯片一直是国内汽车产业链中的薄弱环节。根据公开信息显示,汽车芯片国产化率不足5%。这也意味着,破局一直是产业界和资本市场的聚焦点。
地平线智能驾驶产品规划与市场总经理吕鹏认为,芯片赛道破局确实难度较高,但智驾芯片正处于高速发展期,迭代速度很快,每一代智驾芯片其实都有一个相应的市场窗口期。「初创型玩家破局的关键,是抓住窗口期推出合适的产品,且能确保产品达到一定的成熟度(包括芯片可靠性、稳定性,工具链的成熟性等)。」
额日特则强调,黑芝麻智能作为Tier2,在做好硬件设计的同时,积极寻求和软件算法公司的合作,以此构建更加健全的生态体系,增加客户的使用粘性,为现阶段竞争的关键点。
从产品上来看,2016年成立的黑芝麻智能,2019年8月发布华山一号自动驾驶芯片A500,算力5-10TOPS;2020年6月发布华山二号A1000L、A1000,算力分别达16TOPS、58TOPS,16nm制程。根据披露的信息,其已经与江淮、吉利,东风等多家车企达成量产合作。
“国内智能电动汽车的崛起,一定会带来供应链的崛起。”后摩智能产品副总裁信晓旭表达了这样的观点。
回溯汽车产业发展历史,美日汽车产业的兴盛均带动了本土供应链的崛起。而在传统燃油车时代,国内主机厂话语权低,但在智能电动变革浪潮中,自主品牌已经占据先机,这也有利于本土tier1、芯片厂商的快速成长。
第二类玩家,为华为、寒武纪行歌等跨界玩家。
华为方面,作为ICT领域的巨头,其开展智能汽车业务最早可追溯至2012年,2019年5月正式成立一级部门智能汽车解决方案事业部,2020年发布MDC610计算平台,采用晟腾610芯片,单片算力可达 200 TOPS。
高工智能汽车研究院监测数据显示,目前,华为智驾芯片已经在北汽极狐、问界(今年4月)、阿维塔、广汽埃安、哪吒等品牌实现上车。
寒武纪行歌方面,其母公司为2016年成立的AI芯片厂商寒武纪,2020年7月成为“国内AI芯片第一股”,2021年1月成立寒武纪行歌,专注智能驾驶芯片。
产品方面,根据对外披露的信息,寒武纪行歌将于2022-2023年,面向行泊一体市场、L4市场,分别推出SD5223、SD5226,算力分别为16TOPS、400+TOPS,后者为7nm制程。
将视野转至国际市场,第三类玩家为最被市场瞩目的英伟达、高通、英特尔(2017年收购Mobileye)、安霸等消费电子、AI视觉芯片巨头。
高工智能汽车注意到,当智驾、座舱的大算力需求浪潮涌来,这些在PC、手机赛道长期深耕,拥有强大护城河的巨头们,旋即将触手伸向这一想象力巨大的新兴细分赛道,意图复制其在原有领域的地位。
以英伟达为例,作为全球头部智能计算平台型公司,2015年开始发力汽车领域,2020年上车的Xavier,16nm制程,算力30TOPS;2022年上车的orin,7nm制程,算力254TOPS;计划在2024年量产的thor,4nm制程,算力达到2000TFLOPS@FP8,支撑下一代中央计算架构。
高通,作为手机芯片巨头,其在汽车领域的切入点为通讯和座舱芯片,从820A到8155、8295,占据中高端智能座舱市场的主要份额。
2020年1月,高通发布Snapdragon Ride自动驾驶计算平台,含5nm骁龙8540、7nm骁龙9000,单板算力360TOPS,去年开始陆续上车;计划于2024年量产的Snapdragon Ride Flex,综合AI算力可达2000TOPS,同样支持中央计算架构。
英特尔方面,作为PC芯片巨头,2017年以153亿美元收购Mobileye,后者为视觉ADAS领域的开拓者,凭借“视觉算法+芯片”方案在L0-L2市场位居头部地位。根据披露的信息,截至2022年底,Mobileye的SoC及方案累积搭载1.35亿辆汽车,2022年,其出货量约为3370万套。
安霸方面,作为AI视觉芯片玩家,根据对外披露的信息,其2021年收购4D毫米波雷达算法公司傲酷。2022年1月,安霸发布AI域控制器CV3系列芯片,5nm制程、算力高达500 eTOPS。
第四类玩家,为TI、瑞萨等传统汽车芯片巨头。
瑞萨,2018年2月发布R-CAR V3H,并借助博世、电装等Tier1在智能前视一体机放量;2022年3月,发布R-Car V4H,7nm制程,深度学习性能达34 TOPS,用于ADAS和AD解决方案的中央处理,计划于2024年二季度开始量产。
TI主流的智驾产品包括TDA4 VL、TDA4 VM、TDA4 VH,算力分别为 4TOPS、8TOPS、32 TOPS,其中8TOPS的TDA4 VM已经量产,在轻量级行泊一体域控赛道成为主流选择。
智驾芯片的第五类玩家,为特斯拉、大华股份(持股零跑汽车)、芯擎科技(吉利系)等车企自研玩家。后续,还会有不少车企会涉足芯片定制甚至是自研。
特斯拉方面,其经历了从外购到自研芯片的历程。2014-2016年采用Mobileye EyeQ3芯片,2016年~2019年基于DRIVE PX 2 AI计算平台,2017年开启芯片自研,2019年自研的FSD芯片上车,14nm制程,搭载2颗,算力达到144TOPS。
大华股份方面,其持股零跑汽车,后者也被称为“大华系”的第二次创业。根据公开信息,2017年,零跑汽车决定自研智驾芯片,2020年10月,凌芯01发布,该芯片由零跑提出主体需求、主体架构,由芯昇科技(脱胎于大华股份芯片研究院)设计,28nm制程,单芯片4.2TOPS。
结语
就在鸿途™H30 正待上车的时间节点,后摩智能又开启了第二代智能驾驶芯片产品鸿途™H50 的研发,后者基于新一代更先进的天璇架构设计,支持自然散热条件,整体计算效率更高,预计将于 2024 年推出,支持客户 2025 年的量产车型。
随着后摩在存算一体方向持续发力,悄然间,一个新的智能驾驶芯片时代开启了。