数周之前,芝加哥大学商学院的鲁海昊教授发现,原本传统依赖英特尔/AMD CPU(中央处理器)芯片进行计算的数学规划求解器(Solver,下称“求解器”),如今却可以突破技术瓶颈。
具体来说,鲁海昊教授团队通过实验发现,求解器能够通过英伟达GPU(图形处理器)和CUDA库函数,设计高效的数学规划算法cuPDLP来求解超大规模问题,并体现出了计算优越性,其研发的cuPDLP软件(Julia版本)也验证了这一点。而该研究成果日前发表在arxiv上。
此后,鲁海昊团队与斯坦福大学博士、杉数科技首席科学家葛冬冬教授团队进行了紧密合作:在最顶级的计算设施,英伟达GPU H100多显卡集群上,团队对自己研发的cuPDLP-C求解软件(C语言版本)进行了实验,验证GPU能否实现线性规划问题求解的“弯道超车”。
2023年12月8日,杉数科技团队在中国运筹学会算法软件与应用分会成立大会上,报告了他们在英伟达H100 GPU显卡上,成功验证了cuPDLP-C求解超大规模线性规划问题(LP problem)的显著优势。在多个经典测试集上,对于大规模问题,算法体现出了不亚于传统商业求解器的表现,并且在多个大问题上有明显求解优势。
1、计算时间缩短超过64倍,GPU芯片将加速求解更多复杂问题
运筹学是近代应用数学的一个分支,主要是研究如何将生产、管理等事件中出现的优化问题加以提炼,然后利用数学方法进行解决的学科。
美国物理学家,曾任加州大学柏克莱分校教授的Charles Kittel早在1947年首次提到“Operations Research”一词,中国则在1957年由中国工程院院士许国志、清华大学基础科部教授周华章正式定名为“运筹学”,并于1980年成立中国运筹学会(ORSC)。运筹学在全球发展至今已超过70年。
其中,数学规划是将现实问题转化为数学模型并求解的过程。数学规划求解器作为这一过程的核心软件,专门针对多种线性、整数和非线性规划模型进行算法优化。它可以被视为一个“黑盒子”系统,业界亦称之为算法领域的“芯片”。
求解器的重要意义在于,它能解决生活中非常复杂的应用数学问题。例如,2018年平昌冬奥会的闭幕式上,中国接棒八分钟展示里出现的无人仓机器人引起全球关注。但如何计算这些机器人的运行路线,为了确保这些机器人运行高效且避免碰撞,需要依赖最优算法,而背后依靠的就是求解器。
在此之前,求解器的核心计算硬件大部分依赖于CPU(中央处理器)芯片,主要原因是CPU的通用能力可以更广泛应用于众多计算系统和 算法实现,而且英特尔、AMD相关软件框架都非常齐全,特别是复杂高精度的各种矩阵运算,大大降低求解规划成本,并提高计算效能。
葛冬冬指出,芯片这类硬件是求解器底层的核心设施。
长期以来,GPU采用与CPU不同的底层架构,计算核心数量、软件和性能处理方案与CPU的底层逻辑差异极大。而国内外科研人员希望能够通过GPU或是其他类型芯片可实现线性规划的加速计算,但多次实验结果显示,GPU一直无法高效求解算法中的“矩阵求逆”或者“矩阵分解“问题,无论是计算精度(物理原因)还是并行计算,它都无法做到。
“未能突破的原因是,求解器的核心底层只要是这种连续优化问题,不管是线性还是非线性,传统算法中都躲不开如何高效求解‘矩阵分解’这一步。这个问题解决不了,GPU几千个计算单元并行加速的优势就无法体现。”葛冬冬表示,“矩阵分解”主要对应线性方程组求解,是计算最关键一步。一旦矩阵规模过大或者结构复杂,这个步骤往往会造成内存溢出或者求解时间极长,成为求解桎梏。
早在2016年,葛冬冬联合几位当年在斯坦福的博士同学,共同成立了杉数科技,研制了第一个国产专业求解器,避免受制于人。如今,作为智能决策技术服务公司,杉数科技以其自研大规模商用求解器COPT为核心引擎,打造了“计算引擎+决策技术中台+业务场景”的端到端智能决策技术平台,为消费零售、交通物流、能源电网、制造与供应链等多个行业提供数字化供应链解决方案,利用运筹优化和机器学习找出更优的决策方案,全面提升产业链和供应链运营效率和效果。
葛冬冬此前透露,利用COPT数学优化求解器这种优化决策,可以使生产排程订单满足率提高20%,产能损失率降低30%,排产排程人工干预降低70%,非计划维修降低15%。同时,杉数科技COPT数学优化求解器一直在全球求解器榜单中名列前茅。
而此前葛冬冬团队研发的COPT求解器系列,主要是利用CPU芯片进行计算处理的。
“事实上,过去十几年,这个领域内,包括我们,国内外学术界无数人,都在前赴后继地努力,试图回答这个问题:GPU/CUDA架构能否对数学规划求解器起到弯道超车的作用。此前的答案一直为‘否’。”葛冬冬表示。
然而,2023年11月初,葛冬冬的合作伙伴,鲁海昊教授在arXiv上发表了一篇论文,他们公开的cuPDLP代码,通过GPU硬件成功解决了线性规划求解计算问题,可用在这段Julia代码中求解线性规划。
葛冬冬说:“鲁老师突破这一长期瓶颈的技术方案,是他们观察到以前的CPU/GPU混合架构求解中,CPU/GPU之间的交互往往占用了绝大部分耗时,因此他们在此前他们与谷歌合作建立的PDLP求解器基础上(此求解器可以很好解决GPU计算精度无法达到10^-8精度要求的限制),将整套算法搬到了GPU/CUDA架构下实现。捅破了最后一层窗户纸!”
此后,鲁教授与葛冬冬教授领导的杉数COPT团队紧密合作,提出开源技术方案cuPDLP-C,即用一阶方法在GPU上解决线性规划问题,也是Julia版本cuPDLP.jl的C语言加强版,算法上也做了进一步的改善和提高。
与此同时,通过在目前最强的显卡H100上的实验发现,在运筹学最经典的测试集MIPLIB2017的383个线性松弛测试问题求解中,以10^-4 精度要求,cuPDLP-C已经可以求解到379个问题,而以严格收敛的标准10^-8 精度要求,cuPDLP-C也可以求解到369个问题。总体求解时间与目前最好的商业求解器的差距也拉近到了2倍(10^-4精度)和6倍(10^-8)精度之内。在测试集那些大问题中的差距明显更小,在10^-4精度下甚至体现出了计算优势。此外,葛冬冬团队还在多个更大规模问题上进行了广泛测试,cuPDLP-C的优势明显,例如zib03问题加速了64倍,而多个更大规模的测试问题,如在谷歌的Pagerank、某国内大企业供应链项目问题、经典的二次分配问题(QAP)等问题的测试上,传统求解器都无法求解,而cuPDLP-C可以做到可行时间内求解。
很显然,对于超大数学规划问题,在性能、计算速度、求解数量等方面,GPU都能比CPU都展现出了更好的前景。
杉数科技资深副总裁,技术负责人皇甫博士表示,利用GPU硬件,现在cuPDLP-C可以让之前难以解决的大规模优化问题变得易于解决,推动了模型建立的精确度和规模。以前因CPU限制而采用的非常精密复杂的一些求解技巧可能不再需要。此外,一旦GPU提速上百倍,cuPDLP-C求解优势可能拓展到其他连续优化领域,极大加速求解过程,让原本耗时的问题快速得到解决,从而打开新的应用可能性。
他强调,cuPDLP-C技术推翻了运筹学科长期以来的一些共识和定式,超出人们预期,利用GPU提高了求解器的性能潜力,可能使运筹学实现从CPU到GPU计算带来的“范式转变”。
2、行业冷静下来亦并非坏事
另有半导体产投人士对《科创板日报》记者表示,当年在GPU创业热潮中入场的项目,“存在一些并不具备落地生产的能力的。一些创始人有一定的行业积累,看到当时比较容易融到钱,就出来创业了,但一段时间之后,他们会发现事情没有想象中那么容易。一段时间之后还没能拿出成果,资本自然不会继续跟进。”
该人士进一步表示,GPU创业各方面门槛都较高,包括资金方面需要达几千万到一个亿以上的资金投入,“对于GPU创业项目而言,正常融个一到两个亿,其实是可以把产品做出来,并做一些铺货的,有些项目融得还不止这个数,如果还没进展,确实说不过去。”
该人士表示,国内GPU项目常常把设计方案出炉以及进入流片阶段,作为企业的重要里程碑进行宣传。“但是芯片设计好了拿去流片,这是再正常不过的流程了。”
该人士亦表示,除了国产GPU项目自身存在的一些问题,外部环境也是造成一些项目进展不太顺利的重要原因。“GPU项目流片还涉及到与多个外部厂商的配合,当前以美国为首的一些限制条件带来了较大的不确定性。”
今年截至目前,仅一家GPU项目完成了最新一轮融资,即壁仞科技。
工商信息显示,1月19日,壁仞科技完成股权变更,新增北京高瓴裕润股权投资基金合伙企业(有限合伙)和共青城航瓴昇和投资合伙企业(有限合伙)两个股东,注册资本增加2.58%。与往常不同,壁仞科技并未对此轮融资的情况进行高调官宣,仅低调完成了工商变更。
上述半导体产投人士表示,GPU赛道归于平静,项目方闷头做事,对行业发展而言不失为一件好事。“现在GPU这块正处于卖方市场,只要有产品,基本上,下游客户第一时间就会来寻求合作,行业内信息传播都是非常快的,真正做成东西不愁没人知道,宣传都是其次的。”
而对于AIGC热潮带来的机遇,上述人士均表示,国产GPU要抓住仍需时日。“国内的GPU生意和英伟达的生意还不在一个量级上,这个量级不是指今天的英伟达,即便是10年前的英伟达和当前国内的GPU创业公司相比,也不是一回事。”
3、20年性能提高约7000倍,GPU成本过高是否将制约行业发展?
过去一年,以ChatGPT为代表的生成式 AI 技术风靡全球。而作为以95%的市场占有率垄断了全球 Al 训练芯片的英伟达,成为了这轮 AI 混战的最大赢家,其研发的A100/A800、H100/H800等多款 AI 芯片成为 AI 热潮中的“爆品”。
正如英伟达自己所说:“GPU 已经成为人工智能的稀有金属,甚至是黄金,因为它们是当今生成式 AI 时代的基础。”
从技术角度来说,GPU优于CPU,特别是在并行计算能力、能耗效率和CUDA生态等方面,它的高算力和可扩展性使英伟达GPU成为AI加速芯片市场的首选。
根据斯坦福大学最近发布的一项报告显示,自2003年以来,GPU性能提高了约7000倍,单位性能价格也提高了5600倍。该报告还指出,GPU是推动 AI 技术进步的关键动力。
英伟达首席科学家Bill Dally也曾表示,NVIDIA GPU在过去十年中将 AI 推理性能提高了1000倍。
从运筹学角度来看,将CPU替换为GPU,计算能力、计算效率大幅提升。但问题在于,国内可以买到的H100/H800、A100/A800的价格都已经超过20万/张,再加上存储、NVLink互连、运维成本等,相比CPU,基于GPU的求解成本将进一步攀高。
那么,求解计算的基础设施成本,是否会成为未来求解器乃至运筹学发展的重要制约因素?
葛冬冬表示,目前只是基于GPU架构的优化算法的“拓荒期”。目前,他们已经与多家国产 GPU芯片厂商开展了广泛的测试合作,希望能够利用国产算力推动中国求解器行业发展。确实有部份国产GPU芯片已经具备了跑通算法的能力,但是也确实,还需要在芯片速度和库函数完备程度上做进一步建设。
而且,他认为,杉数也已经积极与商业伙伴开始积极探索这一技术的落地与应用前景。目前已经开始在电力系统的出清调度问题这一大规模复杂系统问题上,与南网总调合作,探寻运用GPU架构的优化求解算法来加速求解计算的研究。
谈及开源与商业化的话题,葛冬冬认为,把cuPDLP-C开源可以推动行业进一步发展,对于商业化求解器来说肯定会有一定冲击,但GPU求解大规模问题的新思路也带来了巨大的机会,目前来看,杉数科技在核心技术、商业化等层面还有非常领先的市场竞争优势。
“新的大门已经推开。过去20年,大家一直在尝试推开,但门被‘锁’死了。现在等于是发现‘锁’能打碎,门是能推开的。这就意味着运筹学算法又进入了一个新的‘大航海时代’,一个堪比‘西部掘金热’的时代。我们已经走出(开源)这一步。我们对自己的技术有信心,过去七年,从无到有,再到国际领先,杉数一直都在科研、技术和实践应用上,是国内求解器市场的领航者。在这个经我们的手打开的新时代,我相信,我们是不会落后的。”葛冬冬表示。