我们把近期收集到的实测数据和观察结论做了汇总。
大多数企业眼中的AI投资困局,表面是技术热潮与落地现实的剧烈反差。过去几年,CEO们在各种场合高频提及AI转型,期待它迅速转化为利润增长和竞争优势。但实际试点大多陷入停滞,投入数十亿美元却看不到明显回报。Mercor的APEX-Agents基准测试了前沿AI代理在银行、咨询和律师等专业任务上的表现,即使采用OpenAI、Anthropic等最新模型,首次尝试成功率也仅在20-25%左右,多次迭代后也难以达到专业水准。
行业数据为这一判断提供了佐证。云基础设施支出近年保持高速增长, hyperscaler在AI相关领域的投资规模已达惊人水平。IDC的预测也显示,中国及亚太地区组织正面临从传统平台向AI适配平台的转型压力。如果云迁移仅止步于搬迁而不伴随现代化,早年云上云却未实现降本增效的教训很可能重演。那时很多企业上了云却未真正受益,如今在AI时代,若再次忽略这一步,资源浪费只会更加显著。
最近MIT Technology Review的相关报道点出了AI发展的一个尴尬现实:技术模型已经就位,经济转型的愿景也描绘得清晰,但从hype到实际盈利的中间环节却普遍空缺。多数企业卡在部署整合的Step 2,95%的生成式AI试点难以产生可衡量的P&L影响。
这一点目前行业内仍有不同声音。数据支持AI需嵌入真实业务的判断,但真实世界评估方法的缺失,让不少案例难以大规模复制。企业决策者或许该从评估现有流程入手,优先小范围真实场景测试,而非急于全公司堆砌模型。这一步走不好,再先进的技术也难真正变现盈利。
不同行业AI盈利路径的差异,本质上源于数据成熟度、集成难度和外部约束的组合。金融更依赖合规规模化,制造重在流程重构,零售则需行动闭环。没有通用模板,认清自身行业的专属Step 2并优先补齐,或许才是从炒作走向真实盈利的务实路径。值得持续跟踪,现在下结论为时尚早。
短期来看,若不补上这一桥梁,下个季度财报中AI相关成本很可能继续拖累利润表现,更多企业会选择暂停非核心试点,转而聚焦少数高价值场景。长期而言,只有少数完成工作流重塑的企业有望实现显著EBITDA改善——类似BCG分析显示,通过系统性整合,领先者在相关领域可获得10-20个百分点效率或增长提升。而普通企业持续跟风新模型,则面临投资浪费的风险。
主流媒体和厂商叙事仍聚焦乐观数据。OpenAI等将AI定位为经济转型技术,PwC早期预测2030年AI可贡献15.7万亿美元GDP,其中部分来自生产力提升,任务级研究也显示特定环节效率可改善14%-55%。这些观点广为流传,勾勒出AI重塑经济的图景。但企业端的现实反馈却截然不同,许多试点停留在实验阶段,难以落地转化为实际收益。
但这些乐观叙事忽略了职场现实的严峻测试。Mercor团队2月发布的APEX-Agents基准,将顶级模型驱动的AI代理置于480项真实职场任务中,这些任务覆盖投资银行分析师、管理咨询师和公司律师的日常工作。结果显示,即使最佳模型首次尝试成功率也仅约24%,多数任务难以独立完成。单纯将AI塞入现有流程,不仅难以提效,反而常因工作流重构的巨大阻力而增加混乱。
一家制造型中小企业的AI库存预测项目提供了可复制的实操参考。他们诊断出手动预测导致的年度额外成本约80万元后,定义目标为预测准确率提升至85%以上并提高库存周转率15%。试点三个月后,准确率升至87%,周转天数从45天降至38天,节省损失约45万元,首年ROI达到120%,回本周期不到半年。从“凭经验决策”到“数据驱动”,这一前后对比清晰可见,也说明从小范围验证起步能有效控制风险。
伦敦反AI游行中那张借用《南方公园》“内裤侏儒”梗的传单,精准捕捉了当前行业的尴尬:Step 1是构建强大的数字超级头脑,Step 3是承诺丰厚盈利,而中间的Step 2却始终是个巨大的问号。MIT Technology Review的最新报道指出,尽管技术门槛已大幅降低,但多数企业仍难以将AI从试点转化为可衡量的利润。这一现象远比简单的“泡沫论”复杂,核心在于执行路径的系统性缺失,而非技术本身失效。
但现实更复杂,真正拉开差距的往往是执行细节。