AIGC与终端侧设备相结合,可以更加有效地突出用户使用个性、降低运行成本、加快响应速度,对于生成式AI的商业落地有着重要促进作用。近来,联想、小米等智能终端厂商纷纷加大了针对边缘AI领域的开发力度,生成式AI浪潮正在从云端向边缘与终端侧延伸。
AI PC规模出货元年即将到来
10月24日,联想举办第九届联想创新科技大会,除了宣布与微软、NVIDIA、英特尔、AMD、高通等企业在智能设备、基础设施和解决方案领域持续深化合作之外,还展示了旗下首款AI PC(人工智能电脑)。据了解,这种本地运行的小型化AI模型,可以帮助用户实现修图、智能剪辑、撰写文档等功能,甚至根据用户思维模式发现发任务并自主解决。
对此,联想提出,除“公共大模型”外,人们还应发展企业端的“企业级私域大模型”和用户端的“个人大模型”,以解决“公共大模型”存在的数据安全和隐私泄露风险、难以个性化定制、通用训练推理成本高等问题。其中,个人大模型对应AI PC等边缘AI产品,通过裁剪和量化等方式,删减通用大模型中与个人使用无关的结构,实现把高性能的小模型融入终端设备,让每个用户拥有自己的个性化大模型。联想CEO杨元庆表示,考虑到企业保护商业机密的需求,本地部署的未来企业级大模型将与公有云部署的公共大模型呈现混合部署的形态。
手机厂商向边缘AI延伸的力度也很大。小米日前宣布获得高通骁龙8 Gen 3首发权,搭载骁龙8 Gen 3处理器的小米14将大幅提升在本地支持大模型的能力。同时,小米也将AI大模型植入澎湃系统,支持AI妙画、AI搜图、AI写真、AI扩图等功能,进一步提升用户的使用体验。而在11月1日举行的2023 vivo开发者大会上,vivo发布自研蓝心大模型,包括十亿、百亿、千亿三个参数量级共5款产品,全面覆盖核心场景。而此前,华为、OPPO、荣耀等头部手机厂商也都在积极布局大模型的开发。
手机、PC甚至汽车等终端设备之上越来越多地开始嵌入AI模型,已经成为一个发展的大趋势。群智咨询预测,2024年伴随着AI CPU 与Windows 12的发布,将成为AI PC规模性出货的元年。而打造“轻量化”,适用于“端侧”的AI模型也成为手机厂商当前发展的重点。
加速AI模型商用落地
AI模型融入终端设备固然有利于改善用户体验,提振消费电子市场,但是其对促进AI模型的应用落地意义可能更大。小米AI实现室大模型团队负责人栾剑介绍,之所以AI大模型能够受到人们持续广泛的关注,是因为它有效推动了人们在信息内容上的大规模生产。而这又得益于人们通过大数据、大任务、大参数上对AI模型的训练。下一步如何实现大模型的轻量化,使AI模型也能在终端设备上有效运行,将成为人们开发的重点。
实际上,生成式AI同智能终端结合,具备许多优势:一是个人信息无需上传云端,可以降低隐私泄露和数据安全风险;二是AI模型接入本地数据库和个人信息,有望实现通用基础AI大模型向个性化定制小模型转变,提供更适合的用户服务;三是通过压缩AI大模型和终端软硬件适配,边缘AI可能降低运行成本、加快响应速度和提高服务效率。
以往人们在使用AI设备时经常会诟病其不够智能——“我都使用快大半年了,可我每次用完关闭,再重新启动,它就好像是一个新朋友,对于上次的互动完全没有记忆。”这其实正是云端大模型的一种通病。因为它不太可能为每一位用户存储大量信息。在云端存储大量用户信息,并且动态加载这些信息,在功能上是一个巨大挑战。但是,把这项工作下放到端侧就会变得相对简单。
也就是说,生成式AI由云端延伸至边缘侧,使AI技术与PC、手机等终端硬件设备紧密结合,将成为AI大模型应用落地,商业化发展的大趋势。它可以改善或者解决AI发展中面临的个性化定制、安全和隐私风险、算力成本高昂、性能表现不及预期、交互能力弱等阻碍,加速AI模型的商业化应用进程。
终端芯片:CPU+GPU+NPU集成化
AI大模型轻量化、本地化过程也离不开芯片技术的支撑。实际上,高通、英特尔、英伟达、AMD等近来都在纷纷加码推出针对性的产品。骁龙X Elite作为高通首款推出的“骁龙X系列平台”PC处理器,集成专用神经处理单元(NPU),可支持百亿参数级大型语言模型。骁龙8 Gen 3平台将支持软、Meta、OpenAI、百度等20种以上AI大模型使用。英特尔最新Meteor Lake处理器,首次在PC处理器中内置NPU,并将NPU与处理器内计算引擎的AI功能结合,提升PC运行AI功能的能效。英伟达和AMD也计划2025年推出Arm架构的PC芯片,进军边缘端AI。
高通技术公司高级副总裁兼计算与游戏业务总经理Kedar Kondap强调大模型本地化的优势。“随着时间推移,PC将会变得高度智能化,和用户之间建立起情感纽带,PC会主动理解用户的想法,并在满足需求的同时对用户隐私提供足够保护。而且PC将具有即时性,能够立即回答用户的问题,提供想要的答案。如果这些需求都要传达到云端去解决,会增加很多复杂性,在类似用例中,终端侧AI处理具备更多优势。”
而为了满足大模型从云端向边缘与终端延伸所需要的更大也更加复杂的AI算力,CPU+GPU+NPU的集成化将成为处理器未来发展的方向。这又使得Chiplet技术受到更高度重视。在谈到这一趋势时,中兴微高速互联总工程师吴枫表示,一方面,通过Die to Die互联和Fabric互联网络,能够将更多算力单元高密度、高效率、低功耗地连接在一起,从而实现超大规模计算。另一方面,通过将CPU、GPU、NPU高速连接在同一个系统中,实现芯片级异构,可以极大提高异构核之间的传输速率,降低数据访问功耗,提高数据的处理速度,降低存储访问功耗,满足大模型的参数需求。
原粒半导体联合创始人原钢则强调了Chiplet如何满足当下算力需求的技术发展方向。“针对边缘侧单任务的大模型场景,可以把模型切分到不同Chiplet进行并行计算,通过在预训练模型的基础上进行额外训练,使其适应特定任务。大模型的边缘端微调,可使用本地存储的私有数据,或者本地新采集的数据。“SoC主控+AI Chiplet”组合可有效复用芯片主控,显著降低成本,快速满足各类规格需求。这将是未来该领域的重要发展方向。”