理性剖析相关话题的热度居高不下。
传统 Scaling Law 拟合常依赖均匀采样或经典 D-optimal、V-optimal 设计。这些方法在参数估计上有理论基础,却容易忽略实验成本的巨大差异。有些小规模配置成本低廉,而接近目标规模的 run 可能贵出数十倍。结果是数据点积累不少,但对真正决策所需的目标区域外推精度贡献有限。业界不少讨论指出,这种做法往往陷入信息效率低下的循环,花了钱却没抓住最关键的不确定性。
arXiv 上这篇题为《Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection》的论文,把 Scaling Law 拟合重新定义为预算感知的序贯实验设计问题。给定一个候选实验池,每个实验的计算成本异质,方法的核心是通过主动选择,优先执行那些单位成本下最能降低目标高成本区域预测不确定性的实验。
为什么这种方法对学习率和批大小这类超参数特别有效?因为它们的Scaling行为常呈现非线性,且在不同模型规模或数据regime下差异显著。传统方法容易陷入低成本区域的局部最优,而主动选择通过实时评估不确定性,避免了盲目浪费。举例来说,当批大小增大时学习率的次线性调整规律,往往需要在高计算点上验证;主动策略能更早锁定那些关键验证实验,减少无效GPU小时消耗。
更深层的盲区在于目标区域外推的现实需求。Scaling Law的核心价值在于指导高成本的大规模训练,而非低成本Pilot本身。传统方法容易在廉价实验区域过拟合,却在百万美元级目标区产生显著偏差,最终造成后期训练规划失准,间接浪费远超拟合阶段的预算。论文将这一挑战形式化为预算感知序贯设计:给定异质成本的候选池,序贯更新后验,最大化目标区域的预测精度。
传统Scaling Law拟合到底有多贵?根据arXiv最新预印本,许多团队在现代大规模工作流中,组装足够信息量的pilot experiments本身就可能耗资数百万。被动或经典设计方法——如均匀采样、随机选择或基于D-optimality、V-optimality的策略——信息效率低下,尤其在实验成本异构时,无法针对高成本目标区域进行优化。常见误区是“多跑几个实验总归更准”,但结果往往是低成本区域拟合不错,高成本外推区域偏差明显。
打个比方,这就像医生在有限医疗预算下给患者做检查。不是一股脑把全套高端检查都做一遍,而是先通过不确定性评估,筛出对关键诊断最有帮助的指标,先做这些,后面再根据结果决定是否追加。这样的方式既控制了总花费,又保证了关键区域的诊断准确率。但现实更复杂,主动选择的效果取决于实验池的多样性。
最近一篇arXiv论文《Spend Less, Fit Better》把scaling law拟合这个老问题重新摆上台面。过去,scaling law常被用来提前规划百万美元级的训练预算,但拟合这些规律本身就可能烧掉不菲的算力。在当前参数高效扩展的时代,尤其对MoE架构而言,pilot实验阶段的预算分配已不再是简单的预处理,而是直接影响后续大模型验证效率的关键环节。
在8类多样化Scaling Law任务上,包括预训练超参调优、数据分配、架构搜索等共65个实例,该方法稳定优于经典基线。用约10%总预算时,往往接近甚至匹配全数据集拟合性能,尤其在低预算区间优势明显。例如在学习率与批大小联合缩放等困难任务中,主动方法在1%预算时已进入低损失区域,而随机或启发式方法滞后明显。R²指标显示其目标区域外推更稳健,避免了仅用廉价点拟合的误导。
新方法的核心在于不确定性感知的主动选择策略。它把参数不确定性建模为高斯混合近似,以捕捉Scaling Law景观中可能存在的多个局部最优盆地。每次迭代基于当前数据集估计这些盆地,然后为每个候选实验计算其对目标区域均方预测误差的预期减少量,并除以成本的α次方实现归一化。这样算法就能优先挑选单位成本下最能降低目标区域不确定性的实验,早期侧重全局模糊性消解,后期转向局部趋势精炼。
当然,事情比表面复杂。如果目标区域外推需求涉及更多异质成本维度或多任务联合优化,当前成本建模可能需要进一步细化,否则优势会打折。主动实验选择方法若在社区快速迭代普及,整体训练预算利用率有望提升;反之,传统均匀撒钱模式下,高浪费状况或许还会延续。这一点目前行业内仍有不同声音,值得持续跟踪,现在下结论为时尚早。
我的观察是,耐心比激进更有长期价值。