据Gartner最新报告,超过65%的企业已在试点阶段部署Agent,然而仅12%的项目进入生产环境并实现规模化收益。免押金一块1分跑的快群的推广热潮背后,隐藏着部署与变现之间的明显剪刀差。
其中一个关键创新是基于目标区域不确定性的采集函数。传统方法只关注整个参数空间的不确定性,而这篇工作强调,真正需要优化的其实是“盆内不确定性”和“盆间分歧”——前者指单个scaling趋势内部的预测方差,后者则反映不同局部最优趋势之间的分歧。他们用均方预测误差(MSPE)作为代理,采集函数则在效用分数中除以成本进行惩罚,避免高价实验被过度青睐。这一设计让低预算下的外推曲线更快收敛到真实全集效果。
传统Scaling Law拟合痛点在于信息效率低下。业界常见均匀采样或经典D-optimal、V-optimal设计,虽然在参数估计上有理论基础,但忽略了实验成本的巨大差异——小规模配置成本低廉,而接近目标规模的配置却高出数十倍。结果是大量低价值数据点堆积,对高成本目标区域的外推精度提升有限。数据支持这一观察,但样本量有限,值得持续跟踪。
该论文将Scaling Law拟合重构为序贯实验设计问题,核心在于显式建模参数的不确定性,并通过目标区域预测误差减少的预期价值来排序候选实验。这种不确定性感知策略优先选择那些能有效区分不同外推盆地或降低高成本区域方差的运行,与经典设计基线形成鲜明对比。在lr&bsz等基准任务上,它往往只需10%预算就达到接近全集性能的水平。
论文提出的uncertainty-aware采集函数则提供了另一种路径。它不仅考虑局部方差降低,还会评估实验对不同外推“盆地”区分的贡献,在预算约束下动态排序候选run。这一机制自然延伸到MoE的多维度scaling空间,总参数N、激活参数Na、专家数E、粒度G等因素交织,成本异质性强,主动选择能更精准捕捉激活比与compute budget之间的power-law关系以及粒度的非线性调制。
长远来看,这种budget-aware思路可能重塑AI训练的pilot设计流程,从预先固定实验列表转向动态资源分配。不过,如果盆结构过于复杂或候选池多样性不足,收益或会打折。数据支持这个方向,但样本量有限,现在下结论为时尚早。
传统随机或按成本优先的选择策略,容易陷入“盆地模糊”困境——不同拟合在外推趋势上分歧明显,却难以分辨哪个更可靠。这在N V D联合scaling中尤为突出,因为vocab大小不仅影响tokenization效率,还与模型embedding矩阵的优化深度绑定,成本结构与纯N-D scaling存在明显差异。数据支持这个观察,但样本量仍有限,值得持续跟踪,现在下结论为时尚早。
论文的核心创新在于,把Scaling Law拟合彻底转化为一个动态的预算感知序贯决策过程。不是一次性静态挑选实验,而是根据当前模型的不确定性,逐步决定下一步跑哪个候选点,同时精确考虑每个实验的具体成本。早期阶段,方法优先缓解全局参数空间的“盆地”模糊;后期则聚焦目标高成本区域,降低那里的预测方差。这种不确定性驱动的分配逻辑,在多个基准任务上稳定超越经典设计基线。数据支持这个方向,但样本量和场景覆盖仍有待更多验证。
Scaling Law拟合早已从简单的预处理演变为大模型训练规划中的核心预算分配难题。许多AI实验室在筹备数百万美元级别的正式训练run前,必须先投入巨额资源运行一系列pilot experiments来拟合曲线,可实际效果往往事与愿违。arXiv最新预印本显示,这种拟合过程本身就可能耗资百万级别,尤其当实验池中不同规模和配置的计算成本呈现明显异构时,传统方法难以高效利用有限资源。
真实测试进一步验证了其预算效率。在覆盖学习率优化、Mixture-of-Experts配置、稀疏性设计等多类任务的65个实例中,主动方法在仅使用10%预算时,就在多数场景下接近甚至达到全集拟合的外推精度(以目标区域R²衡量)。1%或5%预算水平下,它已显著拉开与基线的差距,而ablation实验确认,两种不确定性分解都不可或缺,前者精炼局部拟合,后者帮助分辨不同外推行为的盆。
许多AI研究者和小团队在规划百万美元级大模型训练时,首先面临的就是Scaling Law拟合这个门槛。传统做法要求跑大量pilot实验来收集不同规模下的性能数据点,这些小规模实验看似“预热”,实际开销却往往逼近甚至超过后续正式训练预算。结果是,性能预测还没来得及准确定位,预算已经大幅缩水。
行业内小范围的试点经验显示,实用性分析的ROI在特定条件下已具备吸引力。