10%预算拟合Scaling Law:新方法让百万级实验预算缩水90%
- 发布时间:2026-04-28 04:15:44
- 来源:附近1块1分跑的快群资讯中心
- 栏目:新闻资讯
方向是对的,但执行路径需要重新校准。
核心思路之一是引入基于目标区域不确定性的采集函数。传统不确定性仅关注参数空间,而论文强调真正关键的是目标区域的均方预测误差(MSPE),并将其分解为盆内不确定性和盆间不确定性。采集函数优先挑选能同时降低这两类不确定性的实验,同时以成本进行归一化惩罚,避免高价低信息实验被选中。这一机制在基准中展现出明显优势。
这篇arXiv论文(2604.22753)将Scaling Law拟合重构为预算感知的序贯实验设计问题。给定一个候选实验池,每个实验成本异质,方法不再是均匀分配预算,而是顺序挑选那些最能提升目标高成本区域外推精度的跑点。在涵盖预训练超参、数据分配、MoE架构等多类任务的基准上,仅用约10%的总训练预算,就能接近全实验集的性能表现。
从更广视角看,这类预算高效方法正悄然改变scaling law在LLM架构探索中的角色。它不再只是事后总结工具,而是转向事前精准规划,尤其对资源有限的团队而言,门槛有望降低。短期内,更多MoE项目可能会引入类似机制来迭代激活比和专家粒度,降低pilot风险;长期则可能推动整体训练预算利用率提升。
短期内,这类方法能让更多中小团队和研究机构以低成本验证自己的Scaling假设,显著降低大模型决策风险。长期来看,AI产业对低预算regime下拟合效率的重视,可能加速整体创新迭代,但外推准确性在极端有限实验池下的表现,仍需持续观察——如果主动选择优化到位,不确定性就能得到有效控制。
Scaling Law拟合已成为大模型训练规划中最隐蔽的成本黑洞。许多AI实验室在启动一次数百万美元规模的正式训练前,必须先投入上百万美元跑一系列pilot experiments,只为拟合出一条可靠的scaling curve。arXiv最新预印本《Spend Less, Fit Better》直指这一痛点:scaling laws用于规划多百万美元的run,但拟合过程本身就可能耗资数百万。
当然,方向虽明确,但不确定性依然存在。如果目标区域定义偏差,或候选池构建不够覆盖真实异质性,盆地估计的鲁棒性可能打折。数据支持主动选择的方向,但现在下结论为时尚早——Scaling Law优化的下一波进展,仍需行业持续跟踪验证。
主动实验选择方法则提供了Spend Less, Fit Better的路径。该方法将Scaling Law拟合建模为budget-aware sequential experimental design,在有限候选实验池中,针对每个run的异构成本,顺序选择执行顺序以最大化高成本目标区域的外推精度。
打个比方,这就像医生在有限医疗预算下给患者做检查。不是一股脑安排全套高端项目,而是通过不确定性评估,先筛出对关键诊断最有帮助的指标,先做这些,后面根据结果决定是否追加。论文在涵盖多个任务、数十个Scaling Law实例的多样基准上验证了这一点,新方法持续优于经典基线,尤其适合当前AI训练成本高企的环境。
大型语言模型的正式训练往往动辄数百万美元预算,团队在启动前习惯依赖Scaling Law来预测参数、数据与计算的最优配比。然而,拟合这些定律所需的Pilot实验本身就可能消耗掉大量算力。传统方法多采用随机采样或经典实验设计,大量小规模跑点铺开,表面上看能覆盖多样性,实际却在高成本目标区域的外推准确性上付出高昂代价。
最近arXiv上的一篇论文直指这一痛点。研究者将Scaling Law拟合重构为预算感知的序贯实验设计问题:在候选实验池中,每个实验成本异质,目标是顺序选择执行哪些实验,以最大化高成本目标区域的外推准确性。这篇工作提出不确定性感知的主动选择方法,在多样基准任务上,仅用约10%的总训练预算,就能接近全实验集的性能表现。
堆砌信息已难以满足用户与平台的双重要求。
固定链接:http://www.ss7a.cn/3341.html
说明:本页为频道内容整理与信息归档页面,便于围绕当前主题做连续查阅与延伸阅读。