谁有一元一分跑的快群搜索用户,更倾向于停留在能提供清晰思考路径的页面上。
论文将scaling law拟合重新定义为预算感知的顺序实验设计问题。给定一个包含异质成本的候选实验池,目标不再是追求整体拟合优度,而是最大化高成本目标区域(如未来大模型落脚的高算力区)的预测准确性。核心是将过程转为顺序决策:不是一次性决定全集,而是边跑边观察,动态选择下一步。这与以往一次性批量实验的思路形成鲜明对比。
在当前大模型训练实践中,学习率与批大小的Scaling Law拟合往往成为前期预算的黑洞。传统随机采样或均匀实验设计容易在低成本区域过度积累数据,却难以精准捕捉高计算预算下的外推规律。这篇最新arXiv论文《Spend Less, Fit Better》提出的预算感知主动实验选择方法,正好针对这一痛点。它将拟合过程重构为序贯决策问题,根据每个候选实验的异质成本和对目标区域预测误差的预期贡献,动态挑选最有价值的运行。
最近几天,arXiv上这篇《Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection》引发了机器学习圈的讨论。Scaling Law常被用来规划百万美元级的大模型训练,但拟合这些定律本身就可能耗费巨额预算。传统做法往往是随机或贪婪采样几个试点实验,简单跑完就当作预处理。
很多从业者对Scaling Law的理解还停留在表面层面。大家都知道这些定律能帮助团队提前估算算力、数据和模型规模,避免盲目上大项目。但在落地时,先要跑一大堆试点来拟合曲线,这部分开支往往被低估成“常规预处理”。网友吐槽AI训练烧钱时,常把注意力放在最终训练成本上,却很少注意到试点阶段的异构成本问题:有些小模型实验跑得便宜,有些涉及长上下文或特殊硬件的就贵得多。主流观点的盲区在于,把实验设计当成简单的数据点采样,而非真正的预算分配决策。
论文把这个问题重构为预算感知的序贯实验设计:在异构成本的候选实验池中,通过不确定性感知的分配机制,仅用约10%的总训练预算,就能接近全量实验的拟合精度,尤其在外推到高成本目标区域时表现突出。
多盆地现象的核心在于参数拟合的非唯一性。从不同初始化出发,同一个观测数据集可能收敛到多个局部最优参数集,这些“盆地”在已观测的低成本区间表现相似,却在未观测的高成本目标区域产生显著不同的外推曲线。这带来了弱可识别方向的歧义:团队难以判断哪个盆地真正能指导百万美元级训练决策。即便是花了大笔预算跑完所有 pilot,外推准确性仍可能受限于盆地间的分歧,而非单纯的样本不足。
具体而言,论文先通过多次不同初始化在已有数据上refit模型,识别出多个候选盆地。然后在预测空间而非参数空间进行basin consolidation,根据这些拟合在外推目标区域的行为相似性合并冗余模式。接下来分解目标区域的均方预测误差为盆地内方差和盆地间分歧两部分,设计采集函数为每个候选实验打分,兼顾信息增益与计算成本。
当然,这一方法也存在适用边界。它假设候选实验池和成本估算相对可靠,且目标区域(如计划部署的模型规模与token量)已明确定义。在完全开放的早期探索阶段或成本预估困难的场景下,仍需结合人工判断辅助决策。但在大多数工业级规划流程中,其预算效率优势已足够显著,值得持续跟踪验证。
这篇论文将Scaling Law拟合重构为一个预算受限的序贯实验设计问题。给定候选实验池,每个实验附带不同的计算成本,算法的目标是在有限预算内选择序列实验,以最大化高成本目标区域的预测准确性。其核心是不确定性感知的预算分配策略:参数后验被近似为多个“外推盆地”的混合高斯分布,这些盆地捕捉不同的局部趋势和外推行为。每次迭代中,算法评估每个候选实验对降低目标区域不确定性的贡献,并除以其成本,优先执行性价比最高的低成本选项。
论文的核心贡献在于把Scaling Law拟合转化为预算感知的序贯实验设计问题。给定有限候选实验池且成本异质,目标是最大化高成本目标区域的预测准确性。作者提出不确定性感知的主动选择策略,每次迭代优先挑选对目标区域外推信息量最大的实验点,而非盲目增加点数。这个框架本质上平衡了全局盆地辨识与局部精炼,区别于传统只优化参数估计精度的做法。
在市场分析的灰度窗口内,团队需要同时处理技术验证和用户感知两个维度。