过去那种较多依赖空谈理论、纯猜测性观点或者未经严格验证的个人经验分享的空间,正在被越来越严格、越来越透明的数据验证和真实案例逐步压缩。
具体而言,论文先通过多次不同初始化在已有数据上refit模型,识别出多个候选盆地。然后在预测空间而非参数空间进行basin consolidation,根据这些拟合在外推目标区域的行为相似性合并冗余模式。接下来分解目标区域的均方预测误差为盆地内方差和盆地间分歧两部分,设计采集函数为每个候选实验打分,兼顾信息增益与计算成本。
值得持续跟踪的是,如果目标区域的外推需求继续复杂化,比如引入更多异质成本维度或多任务联合优化,现有的成本感知建模是否足够?目前方法在多样基准上稳定优于随机、贪心等基线,但样本量和场景覆盖仍有局限。我的判断是——主动实验选择正让Pilot阶段从“必要烧钱”转向“智能投资”,这直接挑战了行业长期默认的均匀撒钱惯例。
这篇论文把Scaling Law拟合重构为预算感知的序贯实验设计问题。给定候选实验池,每个实验附带不同计算成本,目标是在有限预算内,选择那些最能提升目标高成本区域预测精度的实验。核心创新在于不确定性感知的预算分配策略:算法优先挑选低成本实验中,对降低目标区域不确定性贡献最大的那些。
大多数从业者在讨论MoE scaling law时,焦点仍停留在专家激活比、粒度等配置如何解耦总参数与实际计算,从而带来效率杠杆。行业实证也显示,这些因素与compute budget之间存在可预测的power-law关系,粒度则扮演非线性调制角色。然而,主流观点往往默认pilot实验是常规预处理,却忽略了MoE场景下不同专家数、激活比例带来的算力开销高度异质,盲目全量跑容易造成严重预算浪费。
多盆地问题的根源在于弱可识别方向:参数空间中看似不同的拟合,在预测空间(尤其是目标高成本区域)的行为却可能大相径庭。论文提出在预测空间而非参数空间进行 basin consolidation,将相似外推行为的盆地合并,从而抓住真正影响决策的歧义来源。这一步避免了冗余计算,把注意力集中在那些会让百万美元训练跑走偏的争议上。
这篇arXiv论文(2604.22753)将Scaling Law拟合重构为预算感知的序贯实验设计问题。给定一个候选实验池,每个实验成本异质,方法不再是均匀分配预算,而是顺序挑选那些最能提升目标高成本区域外推精度的跑点。在涵盖预训练超参、数据分配、MoE架构等多类任务的基准上,仅用约10%的总训练预算,就能接近全实验集的性能表现。
进一步,不确定性被分解为盆地内部方差和盆地间分歧,前者反映单个拟合的置信度,后者捕捉不同盆地对外推的争议。基于此,论文设计了目标感知的采集函数,为每个候选实验计算信息增益与成本的比值,优先选择那些能有效减少目标区域均方预测误差的配置。这种主动视角类似投资组合优化中的动态采样,把有限预算投向回报最高的实验点。
传统Scaling Law拟合痛点突出。业界常用均匀采样或经典D-optimal、V-optimal设计,这些方法在参数估计上有理论基础,却忽略了实验成本的巨大差异。有些小规模配置成本低廉,而接近目标规模的run却昂贵数十倍。结果是信息效率低下:数据点积累不少,但对决策关键的外推精度提升有限。许多从业者反馈,盲目扩展pilot集容易陷入低回报循环。
论文的核心方法将scaling law拟合重构为预算感知的顺序实验设计。给定一池成本各异的候选实验,它采用不确定性感知的采集策略,通过分解目标区域的均方预测误差(MSPE)为盆地内方差和盆地间分歧,再结合成本惩罚项构造cost-aware score,优先选择那些性价比最高、能最大化外推准确性的run。顺序执行后更新后验,逐步精炼预测。
对计算最优分配的实际指导意义在于,资源有限的团队不再需要为保险起见过度跑实验,而是能更精准地预测参数-数据-计算配比。开源代码的出现进一步降低了门槛,下一次规划百万级训练时,或许值得先在小规模基准上测试这种不确定性感知分配。究竟主动方法普及后,整体训练预算利用率能提升多少,现在下结论仍为时尚早。
同城一元一分红中麻将群的现状,仍以试点为主。