在归纳总结的讨论中,乐观预期与谨慎观察并存。
企业AI部署的热情高涨背后,真实的用户反馈却越来越一致:技术栈搭建完成,变革愿景也喊得响亮,但从实验室演示到实际盈利的那一步,总是差了关键的执行落地。MIT Technology Review的相关报道用South Park的侏儒梗精准概括了这一尴尬——Step 1是打造强大模型,Step 3是许诺经济转型,Step 2却成了巨大的空白。许多企业正集体卡在这个“死亡谷”里,hype带来的高预期与落地后的ROI现实形成鲜明反差。
短期内,更多AI项目可能因无法快速证明ROI而面临预算压缩,企业会优先选择低风险的按量模式进行小规模验证。长期来看,成功创新商业模式的企业有望建立可持续盈利路径,而未能掌握价值量化工具的普通企业和开发者,则可能在竞争中逐渐掉队。如果更贴近真实场景的职场评估基准测试能加速落地,这一进程或将提速;反之,hype泡沫延续或许会进一步放大监管压力。
制造AI最缺的,是流程重构加实时数据打通这一环。不改变旧的工作流,把AI简单叠加进去,等于让模型面对“被人类污染”的操作环境。很多工厂试点效果不错,一到全厂推广就失效,核心痛点就在这里。补上这一步,设备密集型的重复流程才能真正释放降本增效潜力。
短期影响已然显现:大量AI项目因无法证明清晰ROI而流产或缩减,决策智能的规模化落地率维持在较低水平。企业继续投入测试Agent,却发现真正能转化为利润的案例屈指可数。长期来看,若不补上决策痕迹与优化闭环,AI大概率停留在工具辅助层,而难以真正重构企业决策体系。从记录系统向决策系统的范式转移,需要可追溯、可治理的基础设施。目前的缺失,让这一转型充满变数。
执行差距的本质在于AI难以直接嵌入现有工作流。Anthropic的研究虽显示编程、数据录入等白领任务暴露度较高,但真实职场中,战略判断、跨领域协调仍是LLM的弱项。Mercor的代理测试更直观:顶级模型驱动的AI代理面对480个银行分析师、咨询顾问和律师的常规任务时,大多无法完成。模型在受控环境中表现突出,一旦涉及多工具切换、长期上下文和人类式决策,便频频失误。这说明技术已非瓶颈,组织能力才是考验。
Anthropic的劳动力市场影响研究虽然指出经理、建筑师等角色理论暴露度较高,但这些预测更多基于模型擅长任务类型,而非真实工作流中的实际产出。现实中,多份报告显示70%-95%的企业AI项目难以交付可衡量的业务价值。多数团队把资源集中在技术部署和未来愿景上,却跳过了中间的量化验证环节。hype容易,量化难,多数项目正是死在模糊的Step 2。
多份报告显示,70%-95%的企业AI项目难以交付可衡量的业务价值。多数团队把资源集中在技术部署和美好愿景上,却忽略了中间的量化验证环节。说白了,hype容易,量化难,多数项目就死在模糊的Step 2上。数据支持这个观察,但不同样本的失败定义仍有细微差异,值得持续跟踪。
三大行业的数据基础、集成难度和ROI周期差异显著:金融数据最优、周期最短,制造集成最难、周期最长,零售则居中且更依赖消费者侧闭环。认清自己行业的专属Step 2,比盲目追逐最新大模型更关键——补好它,AI投资才可能从hype真正走向profit。
这件事比表面看起来复杂得多——很多组织缺的不是更先进的AI模型,而是能让这些模型真正嵌入业务、产生回报的现代化基础设施。
缺失的Phase 2并非简单上线模型,而是系统性的流程重构、人类-AI协作机制设计,以及真实场景下的持续评估迭代。内裤侏儒的笑点在于只管收集不管转化,企业AI项目也常陷入类似陷阱:技术团队引入先进模型,业务端却发现输出与现有工作流格格不入,最终项目沦为演示或闲置。早期不少AI投资项目失败,正是因为数据质量、集成难度和流程调整被低估。AI不是魔法棒,少了清晰执行计划,再强的模型也只是昂贵的玩具。
如何因地制宜,仍需每个团队自行判断。