这种分层现象背后,是资源配置能力和风险承受能力的真实差异。
Silver与Richard Sutton合作的论文《Welcome to the Era of Experience》明确指出,AI正从人类数据主导转向经验驱动。Sutton的经典《The Bitter Lesson》早已说明,依赖人类知识注入的方法短期见效,长期却总被充分利用计算资源的通用方法超越。人类数据静态、有限且带有偏见,而经验数据可由Agent通过持续交互无限生成,质量更贴近任务本质。
把两种方案放在一起看,差异一目了然。LLM高度依赖人类数据,成熟度高但突破潜力受限;强化学习可近乎零人类数据起步,理论上拥有无限探索空间,却面临更高的落地风险和不稳定性。短期内,追求快速商业应用的企业仍会优先选择LLM路径。但如果目标是超越人类知识边界、走向真正超级智能,Silver倡导的经验驱动方式提供了更具想象力的选项。他的1.1亿美元融资,本质上是对LLM范式潜在上限的一次资本级判断。
Ineffable的superlearner战略,正是这一理论的落地尝试。它旨在构建能像生物般在数字环境中通过trial and error积累经验的系统,而非继续“吃老本”。短期内,这类方法有望加速游戏、数学证明、科学模拟等领域的突破,吸引更多资本从LLM转向经验驱动项目;长期来看,LLM的主导地位或将松动,超级智能可能源于自学成才的Agent。
他正积极从DeepMind等前沿实验室招募人才,这波动态远超单纯融资事件,凸显AI顶尖人才正从大厂向高估值创业公司加速流动。
年4月27日,TechCrunch报道了DeepMind强化学习元老David Silver创办Ineffable Intelligence的消息。这家伦敦实验室成立仅数月,便以51亿美元估值完成1.1亿美元种子轮融资,核心目标是打造“超级学习者”——完全通过强化学习从自身试错经验中发现知识,而非依赖人类生成数据。
Silver在公开表态中反复强调,从人类数据时代转向经验时代,才是通往真正超级智能的可持续路径。他把强化学习视作“从第一性原理构建智能”的方式,能像达尔文解释生命那样,解释并构建所有智能。这个观点锐利,却并非空谈——AlphaZero的零数据超人类表现已提供实证。不过,现实世界的复杂性远超棋盘,奖励信号的定义往往需要大量工程努力,训练过程也充满波动。
这种“化石燃料式” shortcut 带来了便利,却也埋下了明显上限:数据质量逐渐见顶,高品质训练数据越来越稀缺,模型容易产生幻觉,且难以生成真正超越人类已知边界的创新。
主流报道多聚焦融资体量与Silver的AlphaGo、AlphaZero成就,强调其不依赖海量文本数据的野心,以及他将Ineffable视为“一生事业”的表态。行业评论则热议这是“欧洲最大种子轮之一”,并看好伦敦AI生态的崛起。但这些声音往往停留在资本热度层面,较少触及具体人才招募动态及其对行业竞争的深层冲击。
多数媒体和行业观察者将焦点放在DeepMind核心人才流失、欧洲AI史上最大种子轮,以及顶级VC对新型计算需求的认可上。网友评论往往停留在“大牛创业拿大钱”的惊叹,或感慨顶级研究员从大厂出走的大势。Nvidia参与也被解读为对海量模拟计算的提前布局。然而,这些表面叙事容易掩盖更根本的分歧:Silver为何在AlphaGo成功十年后,仍坚持认为只靠人类数据喂养的LLM存在结构天花板,而纯强化学习的经验范式才可能突破现有知识边界。
值得持续跟踪的是,Silver团队能否在开放环境中定义合理奖励并避免无效探索循环。这个问题直接关系到AI未来是继续“抄人类”还是真正“自己玩”,数据支持这个方向,但样本量有限,方向是对的,但现实更复杂。
% 和 7%。这个鸿沟,正在考验行业的耐心。