这提醒从业者需要持续积累行业洞察。
表面上看,这只是“省钱”故事的又一续集。社区讨论里不少人直接把焦点放在“10%预算接近全性能”这个数字上,感慨pilot阶段终于不用全量跑了。但主流观点其实一直强调,Scaling Law拟合的可靠性高度依赖实验点密度,尤其在高算力目标区域,经典均匀采样或随机选择在预算受限时外推误差会显著放大。忽略背后的机制,单纯砍预算往往适得其反。
传统思路总觉得“多跑几个实验总比少跑保险”,但基准测试显示,这种认知其实站不住脚。随机或启发式方法在预算仅占总量的1%-5%时,外推误差往往居高不下,甚至到10%预算仍与全集拟合有明显差距。论文在8个多样化任务、涵盖65个scaling law实例上验证了这一点,包括预训练超参调优、数据分配策略、MoE架构探索等场景。结果一目了然:花钱越多不等于拟合越准,关键在于让每一次实验都尽可能降低目标区域的不确定性。
与经典主动学习思路类似,这里“标注成本”变成了实验的实际FLOPs开销,而追求的是目标高成本区域的外推精度。传统D-opt或V-opt等设计方法往往忽略成本异质性,倾向于均匀探索;新方法则自适应地先消除不同外推盆地间的分歧,再精炼局部趋势。基准测试覆盖预训练超参、数据分配、稀疏性等多类任务,结果显示仅用约10%的总训练预算,就能让拟合性能接近甚至在某些指标上超越全量实验的基线表现。
核心方法将问题转化为不确定性感知的主动分配策略。它通过后验近似分解目标区域的预测误差为 basin 内方差和 basin 间分歧两部分,再设计采集函数,同时权衡减少不确定性的收益与实验成本的惩罚。类比之下,这有点像 A/B 测试中的多臂老虎机在预算约束下的变体,但更贴合 Scaling Law 的异构特性:早期优先解决全局歧义,后期精炼局部趋势。
有意思的是,这一方法在1%预算下已在部分任务(如学习率与批大小Scaling)进入低损失区域,而10%预算时R²值常能达到0.93左右,与全数据拟合相当接近。这并非简单贪心,而是通过目标区域感知的采集函数,实现从全局歧义到局部优化的平滑过渡。数据支持这一方向,但样本基准的多样性仍需持续验证。
arXiv最新论文《Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection》指出,大多数团队要么盲目执行整个候选实验池,要么依赖最便宜优先或经典D-opt准则,这些做法忽略了实验成本的异质性,也未能聚焦真正关心的目标区域外推。结果在低预算区间,拟合效果往往远低于预期。
核心机制之一是引入基于目标区域不确定性的采集函数。传统方法仅关注参数空间的不确定性,而这里强调分解为盆内不确定性和盆间不确定性,使用均方预测误差(MSPE)作为衡量指标。采集函数会优先挑选能同时降低这两种不确定性的实验,同时按成本进行归一化惩罚,避免高价低效的陷阱。这一点目前行业内仍有不同声音,但数据支持这个方向。
当然,主动设计的收益也存在边界。当目标区域成本极高或实验池异质性强时,区分多盆地的价值更明显;反之在简单任务或预算宽裕场景下,收益需结合具体微调。弱可识别方向的处理依赖合理近似,目前样本量有限,值得持续跟踪观察其在极端非线性情况下的稳健性。
把这个思路延伸开来,其价值远不止于Scaling Law拟合本身。在超参数搜索场景中,不同超参组合的训练成本差异巨大,有的需要多卡长时间运行,有的单卡几小时即可出结果。类似的不确定性驱动选择逻辑,能帮助团队避免在低信息增益的区域浪费资源。在异构硬件实验或混合云实例环境下,成本差异更加明显,这项技术提供了一个可操作框架,让预算真正向高价值外推倾斜。
这与历史scaling law演进一脉相承,从Kaplan到Tao等人对vocab scaling的细化,都在不断强调变量关系的精准刻画,而主动选择让这一过程更具前瞻性。
正规二元一分红中麻将群的落地节奏,呈现出明显的区域分化。