我们整理了近期几个典型案例,试图找出共性问题。
Scaling Law 长期以来是大模型实验室规划百万美元级训练预算的核心依据,通过小规模 pilot 实验外推更大规模下的性能表现。但拟合这些 Scaling Law 本身往往需要大量实验,成本动辄百万级。arXiv 上刚刚上线的一篇论文提出了一种预算感知的主动实验选择方法,将拟合过程形式化为预算受限的序贯实验设计,在多个基准任务上仅用约 10% 的总训练预算,就接近了全集数据拟合的性能。
当然,方法仍有现实边界。它依赖混合高斯近似,在盆地识别极端困难时精度可能受限,当前基准也使用了简化成本模型。实际部署中还需要结合真实算力计费进一步调优,多步前瞻和更鲁棒后验估计是值得跟踪的方向。但整体而言,这已为中小团队从被动全跑转向主动选择提供了实用框架,值得持续观察其在更多真实场景下的表现。
这个思路与主动学习在高标注成本场景下的样本选择有相似之处,不是盲目减少实验数量,而是聪明地挑选最有信息价值的那些,让有限预算精准服务于大模型外推的可靠性。论文基准测试覆盖预训练超参、数据分配、稀疏性等多类任务,结果显示该方法稳定优于随机、最便宜优先、D-opt 等经典基线。
最近arXiv上的一篇论文直击这个痛点。论文《Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection》提出,把Scaling Law拟合重构为预算感知的序贯实验设计,通过主动选择实验,仅用约10%的总训练预算,就能接近用全量实验拟合的预测精度。这件事远不止省钱那么简单,它直接重塑了AI训练前期的预算分配逻辑。
这一方法的反直觉价值在于,它不是简单“砍预算”,而是让有限资源流向真正影响决策的实验。在高预算团队看来,它提供更精细的分配策略;对中小团队,则显著降低了 Scaling Law 预研门槛。但盆估计准确性、实际成本建模精度等因素仍会影响效果,数据支持这个方向,但样本量和场景多样性有限,值得持续跟踪,现在下结论为时尚早。
核心方法将问题转化为不确定性感知的主动分配策略。它通过后验近似分解目标区域的预测误差为 basin 内方差和 basin 间分歧两部分,再设计采集函数,同时权衡减少不确定性的收益与实验成本的惩罚。类比之下,这有点像 A/B 测试中的多臂老虎机在预算约束下的变体,但更贴合 Scaling Law 的异构特性:早期优先解决全局歧义,后期精炼局部趋势。
值得持续跟踪的是,这种主动实验设计是否能在实验池异质性极强或目标区域成本极端高昂的真实场景中保持稳健收益。当前基准虽多样,但实际工业级训练的噪声和约束可能更复杂,现在下最终结论仍为时尚早。
论文的核心贡献在于把Scaling Law拟合转化为预算感知的序贯实验设计问题。给定有限候选实验池且成本异质,目标是最大化高成本目标区域的预测准确性。作者提出不确定性感知的主动选择策略,每次迭代优先挑选对目标区域外推信息量最大的实验点,而非盲目增加点数。这个框架本质上平衡了全局盆地辨识与局部精炼,区别于传统只优化参数估计精度的做法。
主动实验选择则提供了一条Spend Less, Fit Better的路径。这篇论文将Scaling Law拟合建模为budget-aware sequential experimental design,给定有限候选实验池与异构成本,目标是最大化高成本目标区域的外推精度。uncertainty-aware方法通过不确定性引导预算,顺序挑选最有价值的run。
在实际大模型工作流中落地并不复杂。团队先明确定义目标区域(如计划部署的模型规模和token量),准备候选实验池并估算成本代理,然后运行该序贯算法。代码已在开源平台提供,便于适配自家场景。相比全量pilot或手动设计,这种方式让Scaling Law拟合从昂贵前置成本转变为可控的预算优化工具。当然,方法也有边界假设,如候选池和成本可预估,对于完全开放探索的早期阶段,仍需结合人工判断。但在大多数工业规划场景下,其效率优势已足够显著。
这个趋势的演化路径,仍有较多开放性问题等待时间给出答案。