10%预算拟合Scaling Law:新方法让百万级实验预算缩水90%
作者信息
作者:内容运营组
简介:快讯整理人员以文章结构编排为核心,配合页面摘要整理完成频道内容维护,关注用户检索场景下的内容完整度,提升页面在批量生成场景下的自然度,并根据当期话题做差异化补充。
发布时间:2026-04-28 04:15:44
文章热度
我的观察是,适应得越早,阵痛期可能越短。
最近arXiv上的一篇论文《Spend Less, Fit Better》直击这个痛点。论文将Scaling Law拟合重构为预算感知的序贯实验设计问题:在有限实验池中,实验成本各不相同,如何选择执行哪些跑步,以最大化高成本目标区域的外推准确率。传统方法往往依赖经典设计或随机全量pilot,而新方法通过不确定性感知的主动选择,仅用约10%的总训练预算,就能接近全量实验集的外推性能。
传统认知中,可靠的外推Scaling Law需要均匀覆盖不同规模的pilot实验,许多团队因此在正式训练前就已烧掉不菲预算。主流做法多依赖随机采样或经典实验设计基线,这些方法在预算充裕时表现尚可,却难以应对实验成本的显著异构性。低成本小规模run容易主导采样,而真正决定百万级训练成败的高成本目标区域,却常被边缘化,导致外推偏差明显。
大多数从业者看到的是“10%预算接近全性能”这个直观亮点。主流观点认为,Scaling Law拟合必须依赖足够多的实验点来保障外推可靠性,尤其目标区域往往是高成本的extrapolation部分。经典均匀采样或随机选择在预算受限时,外推误差容易显著放大。社区初步讨论多停留在省预算层面,却较少触及方法背后的不确定性建模机制。数据支持低预算下的高效性,但样本量和任务覆盖仍需更多验证。
传统被动实验设计在异构成本环境下暴露了明显低效。均匀采样或基于D-optimality、V-optimality的经典策略,往往无法针对高成本目标区域(如计划部署的大规模模型配置)进行优化。论文数据显示,在工业级工作流中,pilot runs的开销已不再是简单预处理,而是真正的预算分配难题。许多团队仍抱持“多跑几个实验总归更准”的认知,但结果常常是低成本区域拟合饱和,高成本外推却偏差显著。
这篇arXiv论文(2604.22753)将Scaling Law拟合重构为预算感知的序贯实验设计问题。给定一个有限候选实验池,每个实验成本异质,方法通过不确定性感知的主动选择,优先执行那些能最大化目标高成本区域外推准确性的实验。在涵盖预训练超参、数据分配、MoE架构等多样基准上,仅用约10%的总训练预算,即可接近全实验集的外推性能。
为什么这一方法特别适用于学习率与批大小的Scaling探索?因为这两者的交互往往呈现复杂非线性,且在不同模型规模或数据regime下行为差异显著。传统方法易在廉价低规模区过度采样,而忽略那些揭示高成本目标规律的关键实验。主动选择则通过实时更新不确定性模型,动态调整预算分配方向,避免了常见浪费。我的判断是,这种成本敏感机制让拟合过程从“烧钱试错”转向了更理性的投资,但实际效果仍需在更多工业噪声场景中进一步验证。
这个思路与主动学习在高标注成本场景下的样本选择有相似之处。你不是盲目多跑实验,而是聪明地挑选最有信息量的低成本点,从而实现对高成本区域的高精度外推。论文在多个Scaling Law任务上验证,包括预训练超参、数据分配、稀疏性和推理缩放等,结果显示仅用约10%预算,就能接近全量拟合的预测精度,且稳定优于随机、最便宜、D-opt等经典基线。
有意思的是,这一方法在1%预算下已在部分任务(如学习率与批大小Scaling)进入低损失区域,而10%预算时R²值常能达到0.93左右,与全数据拟合相当接近。这并非简单贪心,而是通过目标区域感知的采集函数,实现从全局歧义到局部优化的平滑过渡。数据支持这一方向,但样本基准的多样性仍需持续验证。
实证显示,该方法在多样化scaling law基准上,经常仅用约10%的总预算,就能逼近全量实验集的拟合精度,尤其适合MoE这类参数高效架构的配置探索。
最近一篇arXiv论文《Spend Less, Fit Better》把scaling law拟合这个老问题重新摆上台面。过去,scaling law常被用来提前规划百万美元级的训练预算,但拟合这些规律本身就可能烧掉不菲的算力。在当前参数高效扩展的时代,尤其对MoE架构而言,pilot实验阶段的预算分配已不再是简单的预处理,而是直接影响后续大模型验证效率的关键环节。
值得我们继续保持密切跟踪和观察的态度,现在就对整个领域的最终竞争格局和长期走向做出过于确定的结论,可能还为时尚早。
固定链接:http://www.ss7a.cn/images/3341.html
说明:本文为当前主题的频道整理页,正文与相关阅读会持续围绕同类信息展开。