我的判断是,数据驱动的微调比大规模改写更可持续,但这个判断可能需要根据未来数据修正。
想象一下,你正负责一个大模型预训练项目,预算卡得死死的。Scaling Law本该帮你提前预测大模型在千万参数或更多数据下的表现,结果光是跑那些pilot小实验,就可能烧掉几百万美元。很多人吐槽,pilot阶段花钱如流水,却拿不准对外推到真正高成本区域的预测准不准。
这一设计借鉴了 Bayesian optimization 中 acquisition function 的演进思路,但针对 Scaling Law 的外推特性做了适配:早期侧重分辨盆间差异,后期转向细化盆内精度。
传统方法倾向于随机或贪婪采样实验点,而作者将其重构为预算感知的序贯实验设计问题,在异构成本的候选实验池中,通过不确定性感知的分配策略,仅用约10%的总预算就能接近全量实验的拟合精度。
回看scaling law的演进路径,从早期Kaplan工作到近期vocab scaling研究,趋势一直是逐步细化变量交互。现在主动实验选择把拟合本身也纳入了预算优化框架,值得持续观察其在极端大模型目标区域的实际落地表现——如果目标是千亿参数级配置,这个方向的时间窗口可能比想象中更紧迫。
从历史视角看,Scaling Law的演进一直伴随着变量关系的细化:从早期Kaplan工作到Tao等人强调更大模型配更大vocab的趋势,这次主动实验选择进一步把拟合本身推向预算优化的前瞻阶段。它不是简单省实验,而是让每一次pilot都精准击中“大模型该配多大vocab”的决策痛点。数据支持这个方向,但不同目标区域的收益可能存在变异,值得持续跟踪验证。
论文提出将Scaling Law拟合重构为预算感知的序贯实验设计,在异构成本的候选实验池中,通过不确定性感知的主动分配,仅用约10%的总预算,就能接近全量实验的拟合精度。
该方法的运作机制依赖于对参数后验的近似处理,将其建模为多个局部最优盆的混合分布,并将目标区域预测误差分解为盆内方差与盆间分歧两部分。每个候选实验的效用分数经过成本归一化后,成为选择依据。从少量低成本warm-start开始,算法迭代更新数据集,确保每一笔预算都流向当前最能减少目标区域不确定性的方向。这种顺序决策避免了经典基线常见的资源浪费。
最近一篇arXiv论文(2604.22753)将Scaling Law拟合重新定义为预算感知的序贯实验设计问题。传统观点认为,要保证高算力目标区域的外推可靠性,就必须跑大量pilot实验,成本往往与正式训练相当。新方法引入不确定性感知的主动实验选择策略,在有限候选池中优先挑选对目标区域预测最有信息的点。实证结果显示,在多种基准任务上,仅用约10%的总训练预算,就能逼近全实验集的外推精度。
论文把这个问题重构为预算感知的序贯实验设计:在异构成本的候选实验池中,通过不确定性感知的分配机制,仅用约10%的总训练预算,就能接近全量实验的拟合精度,尤其在外推到高成本目标区域时表现突出。
真实测试进一步验证了其预算效率。在覆盖学习率优化、Mixture-of-Experts配置、稀疏性设计等多类任务的65个实例中,主动方法在仅使用10%预算时,就在多数场景下接近甚至达到全集拟合的外推精度(以目标区域R²衡量)。1%或5%预算水平下,它已显著拉开与基线的差距,而ablation实验确认,两种不确定性分解都不可或缺,前者精炼局部拟合,后者帮助分辨不同外推行为的盆。
搜索引擎对人工痕迹的识别能力在增强,保持自然表达更明智。