
这项由匿名研究团队完成的论文发表于2026年4月,以arXiv预印本形式公开,编号为arXiv:2602.06057v3,属于分布式计算领域(cs.DC)。有兴趣深入了解的读者可通过该编号查询完整论文。
**每一瓦特都在燃烧金钱与时间**
手机、笔记本电脑、智能音箱——这些装在我们口袋里或摆在桌上的设备,正在被越来越多的人要求"本地运行AI"。所谓本地运行,就是不依赖远在数据中心的服务器,直接在你手边的硬件上跑出答案。这听起来很棒:隐私更好、延迟更低、断网也能用。但现实很骨感——这些设备的电池容量有限,散热条件糟糕,处理器性能也远不如机房里那些耗电几百瓦的巨型显卡。
现在把时钟拨快一点,AI模型的体积正在急剧膨胀。几年前的聊天机器人可能只有几亿个参数,而今天的主流大语言模型动辄几十亿、几百亿参数。要把这样的庞然大物塞进一台边缘设备,同时还要保证它回答得又快又准、耗电又少,这件事的难度,大概相当于让一辆重型卡车在山地赛道上既跑得过跑车,又不烧油。
这篇论文就在尝试解决这个问题。研究团队提出了一个名为QEIL v2(可以理解为"边缘智能量化框架第二版")的系统,核心思路是:与其盲目地把所有计算任务都堆给性能最强的那块芯片,不如根据每个任务的实际特性,精准地把它分配给最适合它的硬件单元,从而在保证质量的前提下大幅降低能耗。
这个框架的实验结果相当惊人:在标准测试中,系统功耗从181.5瓦降到了63.8瓦,降幅超过64%;同时答题准确率从59.8%提升到75.7%;一个叫做"每瓦特智能量"的综合指标(简称IPW,即用准确率除以功耗,反映每消耗一瓦特能获得多少智能输出)提升了2.86倍。更值得一提的是,当系统被应用于一个经过压缩的更大模型时,IPW首次突破了1.0这个行业参考基准线——这是边缘推理领域此前从未达到过的里程碑。
**一、从"一视同仁"到"因材施教":旧系统的三个致命缺陷**
要理解QEIL v2为什么能做到这些,先要弄清楚它的前身QEIL v1哪里出了问题。研究团队在论文中坦诚地剖析了v1的三个根本性缺陷,这种自我批评的诚意本身就值得关注。
QEIL v1的第一个问题,用一个厨房比喻来说,就像是一个餐厅的调度员,把所有的菜肴不分难易地分配给厨师时,只记住了每个厨师的"总体效率系数"——A厨师打0.5分,B厨师打0.7分——却完全不考虑"这道菜适不适合这个厨师做"。具体到AI计算,v1对每种硬件只有一个固定的效率数字:NPU(神经网络处理单元)是0.3,英伟达GPU是0.5,英特尔集成显卡是0.7,CPU是1.0。这个数字完全不随任务类型变化。但实际上,同样一块GPU,在处理"预填充"阶段(类似于厨师一次性备好所有食材)时效率极高,而在处理"逐字生成"阶段(类似于厨师一个一个地摆盘)时,99.5%的计算单元其实是闲置的、白白耗电的。这种忽视任务特性的静态评分,会导致能耗估算误差高达15%到40%。
第二个问题是优化策略的短视。v1使用的是一种"贪心算法"——每次都把当前这层任务分配给当下看起来成本最低的设备。这就好比一个登山者每一步都只选择脚下最平坦的那条路,结果走进了一条最终无路可走的山谷。在多台设备协同工作的系统里,早期的分配决策会限制后续的选择空间,把整个系统锁死在一个局部最优解里。更麻烦的是,当不同设备之间存在不连续的性能跳变时,那种把多个目标(节能和低延迟)硬压缩成一个加权分数的做法,在数学上被证明是找不到最优解的。
第三个问题是"候选答案选不好"。v1会让模型反复生成多个答案,然后用很粗糙的标准来挑——比如看哪个答案最长,或者哪个答案里字母和数字占比最高。这就像在一堆应聘简历里,专门挑字数最多的,而不是看内容质量。大量潜在的高质量答案就这样被扔掉了。
**二、三把"物理学尺子":用半导体原理给每块芯片量体裁衣**
QEIL v2的第一个核心创新是用三个来自物理学和工程学基本原理的指标,彻底替换掉那些静态的效率系数。这三把尺子,每一把都有实实在在的物理依据,没有任何凭感觉拍出来的魔法数字。
第一把尺子叫DASI,全名是"动态算术饱和度指数",它回答的问题是:对于某个具体任务,这块芯片的计算单元有多少比例真正在干活?理解这个概念需要先明白一个叫"屋顶线模型"的基本框架。任何计算任务都有两个关键数字:它需要做多少次数学运算(计算量),以及它需要从内存里读取多少数据(数据量)。两者之比叫做"算术强度"。每块芯片也有两个上限:最快能做多少计算,以及最快能搬多少数据。当一个任务的算术强度很高(每搬一字节数据就要做很多运算),芯片的计算能力是瓶颈,芯片处于"计算受限"状态,效率很高。当算术强度很低(搬了很多数据但运算很少),数据搬运是瓶颈,大量计算单元就只能干坐着等数据,白白消耗电力。
把这个道理应用到大语言模型,结论非常震撼。在"预填充"阶段(模型一次性处理你输入的全部提示词),算术强度大约是每字节1024次运算——远高于任何芯片的瓶颈点,GPU满负荷运转,DASI=1.0。但到了"逐字生成"阶段(模型每次只生成下一个词),算术强度骤降到每字节约1次运算,而英伟达高端GPU的瓶颈点是218,这意味着GPU在生成阶段的DASI值只有0.005——99.5%的算力在空转。相比之下,CPU的瓶颈点只有8,它的DASI在生成阶段是0.125,虽然CPU的绝对性能远不如GPU,但它浪费的比例小得多,每瓦特的实际产出反而更高。这正是为什么把生成任务交给低功耗设备往往比堆在高性能GPU上更合算。
第二把尺子叫CPQ,即"容量压力商",它衡量的是一台设备的内存被塞得多满,以及内存压力如何推高能耗。从内存分配理论出发,当设备内存使用率超过70%时,系统开始出现内存碎片(就像行李箱里零散地塞满了小物件,再也放不进一个整齐的大箱子)、频繁的垃圾回收(系统不断整理内存,消耗额外能量)和页面置换(把内存里的数据临时挪到更慢的存储里,然后再读回来)。这些现象会造成额外的能耗。研究团队用一个三次方程来描述这个惩罚:当内存使用率在70%以下时几乎没有额外开销;超过70%之后惩罚开始快速累积;到达95%时大约增加9.4%的额外能耗;逼近满载时惩罚更是急剧飙升。选用三次方程而非线性或二次方程,是因为三次方能最准确地描述这种"前期平缓、后期陡增"的物理现象。
第三把尺子叫Φ,即"热感知能量产出率",来自CMOS晶体管的漏电流物理学。芯片越热,晶体管的漏电流越大,每完成同样多的有用计算就要消耗更多的总能量。漏电流大约每升温10摄氏度就翻一倍,这是基本的半导体物理规律。Φ的值在芯片温度较低时为1.0(完全高效),随着温度升高逐渐下降。当芯片处于65%的额定最高温度时,Φ还是1.0;到达80%时Φ降到0.714,意味着每完成一单位有效工作需要消耗40%的额外能量;到达最高结温时Φ跌到0.159,额外能量开销高达529%。这个公式并非人为调出来的,它的每个系数都直接追溯到半导体物理中的指数漏电方程和热电压公式。
把这三把尺子整合成一个统一的能耗方程,就得到了QEIL v2评估每一个"把哪层模型放到哪台设备上"方案的核心工具。方程的形式是:把设备的额定热设计功耗乘以一个随计算利用率(DASI)线性变化的系数,再除以热效率(Φ),再乘以内存压力惩罚(CPQ)。这个方程里的每一项都有具体的物理含义,没有任何凭空捏造的参数。研究团队还专门做了敏感性测试:把每个参数在默认值的±50%范围内变化,最终的IPW指标变化幅度不超过2.1%。这说明驱动系统效果的是这些物理公式的结构形态,而不是某几个精确数字,系统的鲁棒性很强。
**三、帕累托引导的模拟退火:让AI调度员学会下围棋而非下象棋**
有了精准的能耗评估工具,下一步是怎样把数百层模型分配给几台设备,让总体效果最优。这就是QEIL v2第二个核心创新登场的地方——一个叫做PGSAM的优化算法,全名是"带动量的帕累托引导模拟退火"。
先解释什么是"多目标优化"。如果你只想省电,答案很简单:全部扔给功耗最低的设备。但你同时还想快(延迟低),还想不让某台设备闲置太多(避免浪费)。这三个目标有时会相互矛盾。贪心算法的问题在于,它每次只盯着当前这一步的最优解,就像下象棋只看一步棋,结果常常走进死局。真正高明的下法更像围棋,每一步都要考虑全局布局。
PGSAM的核心概念是"帕累托支配"。如果方案A在能耗、延迟、设备利用率这三个维度上,至少有一个比方案B好,其余不差,那么A"帕累托支配"B,意味着没有理由选B而不选A。通过不断迭代,算法会积累出一个"帕累托档案"——一组互不支配的方案,每个方案都在不同维度上有各自的优势,构成一条"权衡曲线"。这条曲线就是数学意义上的最优解集合前沿。
模拟退火是一种来自冶金学的优化思路:钢铁在高温下原子可以自由流动找到低能态,而在低温下就固化成型。算法在"温度"高的早期阶段,允许接受一些看起来变差的方案(以便跳出局部最优),随着"温度"逐渐降低,接受劣解的概率也降低,最终收敛到好的解。
PGSAM在这个基础上加入了"动量"机制,灵感来自梯度下降优化器中的动量概念。当算法连续找到更好的方案时,动量变量v就积累起来,使有效温度升高,让算法能更大胆地探索能量山脊另一侧的新区域——因为已经在稳定前进,值得冒险跨越一个暂时更差的状态去寻找更好的彼岸。当进展停滞时,动量归零,算法变得保守。这种设计让优化器在路途顺畅时勇敢探索,在迷失时谨慎收敛。
实际操作中,算法把模型层的分配方式表示为几个"分界点"——比如前12层给设备A,13到24层给设备B,剩余给设备C。这样的连续分配方式自动避免了层与层之间在不同设备上来回跳的情况,从而减少了数据在设备间传输的开销。算法定义了三种邻域变换:小幅移动一个分界点(精细调整)、移动两层(中等扰动)和重置到中间点(大跳跃逃出深谷)。经过500次迭代后,算法从帕累托档案中用加权切比雪夫公式选出最终方案,默认权重是能耗50%、延迟30%、设备利用率20%,用户也可以根据自己的需求调整这个比例。
对比实验显示:PGSAM比简单贪心算法准确率高5.2个百分点、能耗低7.2%;与同样使用多目标遗传算法的NSGA-II相比,解的质量相当,但运行速度快3倍,完成一次优化只需42毫秒——这对于需要在设备过热时快速重新调度的边缘系统来说非常关键。
**四、三段式"答案质检流水线":让重复抽样真正物有所值**
QEIL v2的第三个主要创新是推理时的候选答案选取机制,叫做EAC/ARDE级联,配合CSVET早停策略。
这里先解释一个背景概念:重复采样。大语言模型生成答案时有一定随机性,就像同一个问题问十次,可能得到十种表达不同但意思相近(或部分正确)的答案。如果能从这十个答案里挑出最好的那个,整体准确率就会比只生成一次高很多。研究表明,随着采样次数增加,"至少有一个正确答案"的概率按照对数线性规律上升,样本量翻倍大约能带来固定比例的准确率提升。QEIL v2在这个基础上加了精挑细选的机制,让每一次额外采样的边际收益最大化。
候选答案首先经过结构预筛选:长度要超过20个字符,空格要超过3个,字母数字占比要超过50%。这一步排除掉明显的废答案(空白、乱码、无限重复的词)。通过预筛选后,答案进入三阶段渐进式验证级联。
第一阶段叫熵过滤。这里的"熵"来自信息论,衡量的是模型生成每个词时有多不确定。熵低说明模型非常确信自己在说什么,像一个胸有成竹的专家;熵高说明模型在乱猜,像一个随便蒙答案的学生。系统保留熵值最低的70%候选者,淘汰那些模型自己都不确信的答案。70%这个阈值不是随意定的,而是通过分析500个提示词的候选池,找到保留与淘汰两组之间熵差最大的切分点来确定的。
第二阶段叫自我验证。系统让模型再过一遍每个候选答案,计算模型"读自己写的内容时"的平均下一词预测概率。这个数值高,说明模型觉得这段话是连贯自洽的;数值低,说明这段话在模型看来有些奇怪。保留这一指标最高的60%。这个机制不需要外部评判者,只靠模型自身作为质量裁判。
第三阶段叫跨样本共识。把通过前两关的候选答案两两比较词汇重叠度(用Jaccard相似度衡量),一个答案与其他高质量答案越像,说明它代表的是"多数观点"而非偶然异常值,给予更高评分。最终,ARDE(准确率排名决策引擎)在高置信度的候选答案中,优先按质量排名,次按置信度,最后才考虑能耗作为平局决胜条件。这样的设计把基础设施的优化和输出质量的选取解耦开来——一个生成时消耗了更多计算的答案,不会因为"贵"而被降低优先级。
CSVET早停机制则是整个流程的节能阀门。每次生成最少若干个候选(至少6个或总样本量的35%)之后,系统开始检查:当前最好的候选答案置信度是否已经超过了一个自适应阈值?这个阈值会随着已消耗的能量预算比例而微调——能量用得越多,阈值稍微放宽,避免在边际收益极低的情况下继续采样。在实验中,CSVET平均只生成了25个计划样本中的10到15个就停止了,为简单问题节省了40%到60%的能量,同时对难问题保持完整的采样深度。
**五、安全是效率的盟友,而非对手**
QEIL v2的另一个值得关注的设计哲学是:安全保障和效率优化不是相互对立的,而是同一枚硬币的两面。这体现在热保护机制的设计上。
v1的热保护是一个硬阈值:温度超过85%的额定最高温,触发警报,强制限频。这就像一辆汽车只有在发动机快爆炸时才亮红灯,而在那之前完全没有预警。v2把热效率指标Φ直接嵌入能耗方程,形成了一个连续的温度敏感信号:芯片越热,PGSAM在计算各种分配方案的能耗时就越倾向于避开这台设备,自然而然地把负载引导到更凉快的设备上,而不是等到临界点才紧急处理。
实验数据佐证了这一设计的价值。在30分钟持续推理测试中,没有Φ保护时,英伟达GPU温度爬到89摄氏度,超过85摄氏度的节流阈值,触发47次降频事件,平均每次推理延迟从正常水平飙升,标准差高达0.84毫秒——意味着响应时间极不稳定。启用Φ之后,GPU峰值温度保持在68摄氏度,零节流事件,平均延迟降低同时标准差只有0.06毫秒,总吞吐量反而提升了14.9%。一个"安全保护"机制,反而让系统跑得更快、更稳——这正是因为节流事件本身就是一种剧烈的性能扰动,提前预防比事后救火代价小得多。
故障容错方面,实验模拟了四种设备失效场景:NPU单独失效、GPU单独失效、两块GPU都失效、NPU加一块GPU同时失效。所有场景下,系统都在200毫秒内完成重新调度,零查询丢失。恢复时间随故障严重程度可预测地增加:NPU失效78毫秒,单GPU失效124毫秒,最严重的同时失效也只需156毫秒。吞吐量因设备减少而下降,但没有任何请求中断。
**六、跨七个模型、三个基准的全面验证**
研究团队在一台配置了英特尔酷睿Ultra 9 285HX处理器(含英特尔AI Boost NPU和英特尔集成显卡)与英伟达RTX PRO 5000 Blackwell独立显卡的异构边缘平台上,测试了七个不同规模的语言模型,横跨三个标准基准数据集。
在WikiText-103(文本续写任务)上,七个模型在v2下的IPW均达到0.891以上,而标准推理的IPW普遍低于0.45。小模型GPT-2(1.25亿参数)在v2下的准确率从59.8%提升到75.7%,功耗从181.5瓦降至63.8瓦,IPW达到0.975。Granite-350M的功耗降幅最大,从460.4瓦降至71.8瓦,因为它的标准配置需要把整个模型塞进高功耗GPU,而DASI分析正确识别出这对内存密集的生成阶段来说极度浪费。
在GSM8K(小学数学推理题)上,这个基准对能效系统更具挑战性,因为正确答案需要多步骤推理,生成的词数是文本续写的3到5倍,能耗放大效应更显著。v2在七个模型上平均比标准推理高出12.2个百分点的准确率,平均节能51.7%。LFM2-2.6B和Llama-3.1-8B这两个大模型在v2下分别达到了71.6%和67.2%的准确率——这意味着QEIL v2可以让原本因功耗限制只能在边缘设备上运行小模型的用户,实际上用上了更大、更强的模型。
在ARC-Challenge(高中科学多项选择题)上,输出序列很短,v2的节能效果没有因此减弱——平均节能52.8%,甚至略高于WikiText的52.2%。这证明DASI引导的路由不是只在长序列生成时才有效,而是一个对任务类型普遍有效的基础性优化。
最引人注目的是第七个模型:Llama3-8B-RAMP-4bit。这是一个由外部工具(RAMP框架)对Llama-3.1-8B进行4位量化压缩得到的模型,每个参数平均只占3.65位,比标准16位浮点数小了4倍多。研究团队明确说明,RAMP量化不是他们的工作,这个模型被当成一个"现成的外部模型"来测试QEIL v2是否能适应不同的模型特性。结果是:由于每个参数占用字节数减少,生成阶段的算术强度相对提高,DASI值上升,PGSAM能够找到功耗更低的分配方案,最终在WikiText-103上实现IPW=1.024、功耗54.8瓦——这是边缘推理系统首次在报告的基准上突破IPW=1.0这一行业参考基准线。
研究团队特别强调,IPW=1.0并非理论上界,它只是一个"此前所有边缘系统都没能达到的经验基准点",具体含义是每消耗一瓦特电力产生1%的基准准确率。从数学上讲,IPW是无上界的,只要准确率足够高或功耗足够低都可以无限接近100。团队选择用它作为对比标杆,是因为它直观、可复现,而且提供了跨硬件代际的可比参照。
三个基准上的能耗降幅标准差只有0.55%,准确率改善的标准差只有0.45个百分点——这种高度一致性说明QEIL v2的物理能耗模型捕捉到的是硬件的基本行为规律,而不是某个特定任务或数据集的偶发特性。
**七、消融实验:每个设计决策都经得起推敲**
研究团队进行了大量消融实验,对每一个设计选择都做了拆解验证,这是本文在方法论严谨性上的重要体现。
在组件贡献分析中,从纯GPU基线(59.8%准确率,181.5瓦)开始,每次只加一个新特性。加入DASI能耗模型后,功耗从181.5瓦骤降到112.3瓦,这是单项贡献中最大的能耗削减,降幅达38.1%。再加CPQ内存压力后降到104.8瓦,加Φ热效率后降到98.2瓦。这三个物理模型合力把功耗从GPU基线压低了约46%,但准确率只从59.8%小幅提升到64.0%——说明这部分增益主要来自路由改善,而非答案质量提升。加入PGSAM替代贪心算法后,功耗进一步大跳至72.1瓦,而准确率也同步提升到66.8%——这两个方向的同步改善说明多目标优化确实找到了帕累托前沿上的更好点。之后加辅助层低功耗路由、EAC/ARDE级联和CSVET早停,功耗继续小幅下降,准确率大幅提升到75.7%。
在PGSAM动量系数的消融中,μ=0(无动量,退化为标准模拟退火)时,帕累托档案只有182个解,IPW为0.938;μ=0.3时档案最大(218个解),IPW最高(0.975);μ增大到0.5以上时档案开始收缩,IPW下降——过大的动量导致过度探索,接受了太多劣解。这验证了0.3作为默认值的合理性。
在EAC/ARDE阈值敏感性测试中,把三个关键过滤比例(熵过滤70%、自验证60%、置信度边界1.2奈特)在±10到20%范围内上下调整,IPW的变化幅度不超过2.6%。这说明级联架构本身而非某几个精确阈值是质量提升的来源,系统有很好的稳健性。
关于覆盖率随采样数的变化,在采样数少于10个时,v2的准确率就已经超过了v1在使用全部样本时的准确率(70.5%)。到采样数20个时,v2达到75.7%。这条更陡的曲线反映了EAC/ARDE级联的作用:每一个新样本带来的边际准确率提升,在有质量筛选机制时明显高于无筛选时。
在与其他优化器的对比中,PGSAM(42毫秒,IPW=0.975)优于随机搜索(42毫秒,IPW=0.851)、加权和模拟退火(45毫秒,IPW=0.892)和NSGA-II(128毫秒,IPW=0.921)。NSGA-II的解质量接近PGSAM但慢了3倍,在需要快速响应热事件重新调度的边缘场景里是不可接受的。
**八、实验平台的真实硬件截图:理论与现实的吻合**
论文中有一处细节特别有说服力——一张在实际运行QEIL v2时截取的Windows任务管理器截图。截图显示:CPU使用率7%(负责协调调度),英特尔AI Boost NPU使用率41%(承担内存密集的生成任务),英特尔集成显卡使用率97%(处理计算密集的预填充),英伟达RTX PRO 5000使用率仅7%,温度62摄氏度(远低于85摄氏度的节流阈值)。内存占用30/128GB,使用率23%,远低于CPQ警戒线。
这张截图让所有的公式和指标从抽象变得具体。高性能显卡只负责"溢出"处理,保持低温待命;集成显卡和NPU各司其职;CPU只做轻量级的调度工作。DASI模型的预测与实际运行状态完全吻合:计算密集的预填充分给了计算能力强的设备,内存密集的生成分给了能效更高的低功耗设备。
---
说到底,QEIL v2这项研究揭示的核心洞见其实非常直觉:不是每块芯片都适合每种任务,就像不是每个工人都适合每道工序。长期以来,边缘AI部署的通用做法是把能用的性能最强的硬件全力驱动,但这对于大量内存密集型操作来说是一种巨大的浪费——高性能芯片的大部分计算单元就那么坐着等数据。QEIL v2通过三个来自物理第一性原理的实时指标,精准地感知每一个计算任务的真实特性,再用多目标帕累托优化找到在节能、速度和均衡利用三者之间的最优权衡,最后用信息论驱动的候选筛选把重复采样的红利最大化。
这对普通人的潜在影响并不遥远。随着越来越多的AI应用走向边缘设备——包括手机上的语音助手、工厂里的质检摄像头、医疗设备里的辅助诊断系统——如何在有限的电力和散热条件下榨出最多的智能输出,将直接决定这些应用的实用性。一个能把功耗压低64%同时准确率还能提升的框架,意味着同样一块电池可以支撑更长的工作时间,同样一个不带风扇的封闭外壳不会因为过热而频繁死机。
当然,这项研究目前只在一台特定的异构平台上验证过,论文作者也在展望未来工作时提到需要在高通骁龙NPU、英伟达Jetson Orin等其他平台上进行验证,以确认框架的跨平台普适性。此外,如何把这套优化器从离线编译时运行扩展到实时动态重调度,如何与量化感知训练和结构化剪枝更深度地结合,如何推广到非Transformer架构的扩散模型或图神经网络,都是后续值得探索的方向。有兴趣深入了解的读者可以通过arXiv编号2602.06057v3查阅完整论文。
---
Q&A
Q1:QEIL v2中的"每瓦特智能量"(IPW)是怎么计算的,它为什么重要?
A:IPW的计算方法是把模型在基准测试上的通过率(pass@k,百分比数值)除以平均功耗(瓦特)。例如,75.7%的准确率除以63.8瓦得到IPW=0.975。这个指标的意义在于它同时衡量了"做得多好"和"花了多少电",避免了单纯比准确率时忽视能耗,或单纯比省电时忽视质量的片面性。IPW=1.0被作为行业经验参考基准线,因为此前没有边缘推理系统在报告的基准上达到过这个值,QEIL v2在量化模型上首次突破了这个基准。
Q2:DASI指标和普通的GPU利用率显示有什么区别?
A:操作系统显示的GPU利用率只告诉你GPU在某个时间段内"有没有在工作",但不告诉你它工作得有没有意义。DASI通过计算某个具体任务的算术强度(运算量除以数据量)与设备瓶颈点之比,直接反映计算单元中有多少比例在做实际有用的运算。大语言模型在逐词生成阶段的算术强度约为每字节1次运算,而高端GPU的瓶颈点是218,所以DASI只有0.005——任务管理器可能显示GPU"在工作",但QEIL v2的物理模型知道99.5%的算力在空转,应该把这类任务转移到瓶颈点更低的NPU或CPU上。
Q3:QEIL v2的PGSAM优化需要多长时间完成,会影响推理速度吗?
A:PGSAM的完整500次迭代在任意一台CPU上平均只需要42毫秒,整个过程不需要运行模型本身,只是在做数学计算。这个时间在模型整体编译和加载时间面前可以忽略不计,属于一次性的部署前优化开销。在边缘设备遭遇过热需要紧急重新调度时,42毫秒也足够快,不会造成推理中断。相比之下,性能相近的NSGA-II算法需要128毫秒,在对响应速度敏感的场景里差距明显。
传金所配资提示:文章来自网络,不代表本站观点。