然而,从认知到行动,仍存在不小的执行差距。
当前AI行业几乎把所有筹码都压在了大语言模型上。从ChatGPT到各类企业应用,大家都在疯狂堆积人类生成的文本数据,试图通过规模化模仿实现快速泛化。可就在这个节点,AlphaGo和AlphaZero的核心开发者David Silver却选择了另一条路径。
Silver的核心判断源于其在DeepMind的长期实践。AlphaZero不依赖任何人类棋谱,仅通过试错与自我对弈,就在围棋、象棋等多领域达到超人类水平。这一经验让他坚信,当前大语言模型本质上是人类知识的压缩机,擅长重组已有内容,却难以真正发现全新知识。Ineffable Intelligence的“superlearner”正是要回归纯经验路径:AI像早期进化过程一样,从空白起点与环境交互,逐步构建智能。
David Silver创办Ineffable Intelligence仅数月,便以51亿美元估值完成11亿美元种子轮融资,由Sequoia和Lightspeed领投,Nvidia、Google及英国政府等机构跟进。这笔欧洲史上最大种子轮的背后,并非单纯资本追逐明星创始人,而是他对AI发展路径的一次方向性押注:从依赖海量人类数据的“数据时代”,转向通过强化学习自主生成经验的“经验时代”。
长期来看,如果计算资源跟得上且对齐问题逐步解决,超级智能或许并非来自越堆越大的语言模型,而是源于这些“自学成才”的superlearner,它们能从开放环境中自主探索未知。这一范式转变对从业者意味着,RL技能和Agent交互设计将越来越关键。值得持续跟踪的是,经验时代能否真正主导AI轨迹,现在下结论仍为时尚早,但Silver已用声誉和巨额融资投下了明确一票。
Silver与Richard Sutton合作的论文《Welcome to the Era of Experience》提供了清晰的理论框架。他们指出,人类数据本质上是静态快照,规模再大也受限于已有知识的边界,并携带着各种偏见。在数学证明等前沿领域,纯依赖人类数据的模型已显露出增长疲态,而AlphaProof等早期系统则暗示超越人类中心方法的可能性。相比之下,经验数据由Agent通过持续试错和交互自主产生,可无限扩展且更贴近任务本质。
这一事件远不止融资新闻那么简单。它清晰地显示,AI顶尖人才正从大厂实验室向高估值创业公司加速流动。David Silver Ineffable的团队组建过程,成为观察这一趋势的关键切口。DeepMind十余年积累的强化学习专长,正在以创业形式快速向产业端转化。
这种流动并非孤例。近年来,AI顶尖研究员从大厂实验室出走加入或创办初创的案例日益增多,David Silver招募DeepMind旧将的动态,只是这一趋势的鲜明注脚。它凸显了技术路线博弈:一边是继续堆叠算力与数据的范式,另一边则是寻求摆脱人类数据依赖的新探索。若Ineffable的“超级学习者”路径获得早期验证,将进一步放大实验室到产业的转化效率,同时推高强化学习专长人才的稀缺性与估值。
Silver的核心判断在于,当前主流LLM本质上是人类知识的强大压缩机,擅长重组已知内容,却难以突破边界产生真正原创发现。相比之下,纯强化学习路径像早期AlphaZero那样,从空白状态出发与环境交互迭代,更接近达尔文式自发现机制,能解释并构建更广泛的智能法则。从2016年AlphaGo震撼世界到今天LLM主导投资,这场“数据范式 vs 经验范式”的路线之争,正因Silver的离职而变得更为公开。
年4月27日,TechCrunch报道了DeepMind强化学习元老David Silver创办Ineffable Intelligence的消息。这家伦敦实验室成立仅数月,便以51亿美元估值完成1.1亿美元种子轮融资,投资方包括Sequoia、Nvidia等重量级机构。公司核心目标是打造“超级学习者”,完全通过强化学习(RL)让AI从自身试错经验中自主发现知识,而非依赖人类生成的数据。
现实中,训练LLM面临的优质数据短缺、清洗成本高企以及隐私合规压力,已让不少创业团队感到疲惫。Ineffable的选择让人联想到AlphaZero的逻辑——从随机初始状态出发,通过反复试错和自我对弈构建高效策略,无需事先灌输人类专家知识。这个转向并非简单否定LLM,而是指向一条可能避开数据天花板的长期路径。
一次性投入的做法越来越难见效,滚动优化才是常态。