在生成式人工智能(AIGC)热潮的催化下,澎湃旺盛的研发和应用需求,令算力产业空前兴奋,连带着AI芯片产业也铆足干劲,蓄势待发。
作为构筑AI芯片大厦的“砖瓦”,神经网络处理器(NPU)的设计会影响AI推理的性能、能效、灵活性、易扩展性、安全性。智能计算的多元化场景,正在改变新一代NPU的设计理念。
CPU、GPU、NPU有何区别
CPU、GPU、NPU 三者之间一字之差,但是功能与作用却是各不相同,这里主要说一说 CPU 和 NPU 之间的差别,咆哥这里简单的打个比方!
如果面前有一条河,在没有桥梁的情况下,我们要如何渡过这条河呢?那么思考这个问题的就是 CPU 了,CPU 就是手机的大脑,调度手机里面的性能如何配置,这是一个脑力活。
如果前面有一条河,有桥可以渡河,有船可以渡河,有直升机可以渡河,还可以游泳渡河......,我们选择哪一种方式渡河快还舒服呢?这就是 NPU 的工作了,它会在手机里面模拟一遍所有可行的方法,然后挑选出一个优选方式。如果这种方式有 1 亿种的话,那么 NPU 可能就要计算 1 亿次,这是一个苦力活!
所以现在大家明白了,CPU 干的是脑力工作,就像公司的总经理;NPU 是做程序式的工作,就像工厂流水线上面的工人。
ChatGPT带飞异构计算,如何影响终端NPU算力扩展?
发展通用人工智能是计算机行业一直以来的伟大梦想,而大模型与生成式AI取得的突破性进展,正以日新月异的速度缩短现实与想象之间的距离,也正重新制定AI芯片的规则。
“在应用层面,ChatGPT把数据处理的热度推向一个高峰。”安谋科技执行副总裁、产品研发负责人刘澍告诉智东西,ChatGPT的背后结合了知识图谱、数据库、数据收集和分析等一整套技术体系,开创了很多NPU在不同行业应用的窗口和前景,并带动NPU、CPU、GPU等多种异构算力的结合。
动辄参数规模上亿的AI模型大多训练和运行于云上。科研人员正在探索如何将它们放到性价比更高的终端硬件上。最近十几天,国内外研究人员已经成功实现用单张消费级显卡、苹果M1/M2芯片跑大型语言模型,展现了在性价比更高的终端硬件上运行认知智能的可能性。
近年来,智能汽车、AIoT等产业智能化进程提速。一方面,智能汽车、边缘计算、智能家居、移动设备等对AI处理图像分辨率的要求越来越高;另一方面,AI正与各行各业的典型应用场景相融合,并逐步向传统To B端产业渗透。
相比将所有计算放在云上,终端NPU处理能够降低数据传输造成的延时,节省大量开销。特别是对于视觉、语音等人机交互以及自动驾驶等对实时处理要求严苛的应用场景,终端NPU的发展是必然且必须的。
据刘澍观察,为了适应下游AI算法的发展,未来终端算力可能有两个发展路径:一是终端算力越来越强,终端算力的持续扩展是未来趋势,但会受限于成本和功耗;二是不断为终端裁剪网络,这是安谋科技长期在做的尝试,通过量化剪裁等措施将模型变得更小。
两者相互并进,通过将云端的算法模型优化到位,实现其在拥有更高算力的终端的部署。
多核心、大算力、多精度,助力AI多场景落地
随着摩尔定律放缓,通用处理器架构难以满足人工智能的密集型计算需求。数据显示,2000-2004年,每一美元能获取的芯片性能以每年48%的速度提升,而2008年以后已不足10%。在这种趋势下,专用芯片成为面向特定需求提升算力和能效比的新思路。
其中,NPU是面向机器学习和人工智能领域的专用加速芯片。相比CPU、GPU等通用芯片,NPU在电路层模拟了人类神经元和突触,针对AI计算涉及的大量神经网络模型进行特殊优化,能够以更高的效率、更低的能耗处理人工神经网络、随机森林等机器学习算法和深度学习模型。
如今,苹果、三星、oppo等多家手机厂商搭载了NPU,用于面部识别、拍摄物体及环境识别、影像处理等,为消费者带来3D动画表情、人脸解锁、AI场景识别、无损实时RAW计算等一系列新体验。随着人工智能向平板电脑、台式机等更多终端,家居、汽车等更多领域渗透,“万物智联”时代拉开序幕,这不仅考验着NPU的算力和精度,也对NPU架构的灵活性和兼容性提出了更高的要求。
结语:本土创新+生态构建,撬动芯片设计“大局”
生成式AI的火爆出圈,正激发新一轮AI研发与商用热潮。各类硬件终端智能化渗透率不断提升,对作为底层算力基础设施“大脑”的AI芯片提出了更高的要求。
快速迭代的AI算法、日趋广泛的应用场景,既离不开高性能NPU来提供更强算力支撑,也离不开易用的软件平台来加快芯片产品的部署和落地流程。