世界模型:人工智能迈向“推演未来”的关键一步
近年来,全球顶尖科研团队正积极探索构建“世界模型”这一新型人工智能大模型,许多研究者认为这是通向真正智能的关键路径。在一场近期举行的科技大会上,演示了基于世界模型的机器人已能完成一些复杂任务,例如为垃圾桶套上塑料袋、为鲜花进行透明包装。受访专家指出,世界模型因其能在环境中预判后果并做出决策的能力,被视为当前最具前景的研究方向之一,有望赋予AI“推演未来”的能力。
机器人套垃圾袋,难在哪
在一场演示中,人形机器人展现了为垃圾桶套袋的精细操作:它从墙上取下黑色垃圾袋,双手撑开后准确套入地上的垃圾桶,并细致地整理袋口,使其平整,如同人类一般。这表明人形机器人的智能水平已显著提升。

传统的机器人抓取任务多针对不易形变的硬物,这类物品无论从何处抓取都能成功。然而,对于柔性物体如塑料袋,情况则大相径庭。塑料袋易受外部环境影响而变形(例如风吹),其黑色材质也增加了视觉识别的难度,加之撕扯和套袋过程的复杂性与控制难度,这些都曾是制约机器人发展的技术瓶颈。如今,这些挑战正逐步被攻克。
这一进步得益于世界模型的强大支持。以往,机器人研发与训练多依赖VLA(视觉-语言-行为大模型)。现在,众多科研机构正转向利用世界模型来提升机器人的性能。据技术人员介绍,尽管VLA也能完成类似任务,但在面对复杂或异常情况时,机器人可能需要多次尝试才能成功。相比之下,世界模型能在抓取前预先“预测”多种抓取方案及其成功率,其核心优势在于强大的错误纠正能力。
现场演示显示,中国科研机构已基于世界模型成功开发出多款清洁机器人,未来有望在酒店等场景中投入使用。其中一款高大的人形机器人,面对餐桌上遗留的小龙虾壳、外卖盒等垃圾,能先将虾壳归置到外卖盒内,再把盒子投入旁边的外卖袋中,最后用抹布擦拭桌面,其清理逻辑与人类操作如出一辙。
除了清洁任务,机器人还出色地完成了更具挑战性的“包装”工作。一台机器人左手拿起桌面上的黑色锥形花盒,右手精准地将透明装饰壳套在其外。接着,它从花瓶中轻柔地捏起鲜花,将其装入花盒。在抓取鲜花时,机器人精确地捏住花枝,避免了对花瓣的任何损伤。此外,其对透明包装壳的精准识别能力,也标志着一项重要的技术突破。
不过,由于世界模型的训练和数据量仍然有限,一些极高难度的任务仍然让机器人手足无措。比如,换被套。这项工作就算一个成年人做起来都不轻松,对机器人来说更是挑战。
“将被芯从被套中取出并更换新被套,这项任务即使需要两台机器人协同完成,仍会面临诸多‘意外情况’。”一位技术人员解释道。
从回答问题到规划行动
世界模型的一大重要用途,就是具身智能。回到技术本身,世界模型到底是什么?它和我们常见的能够聊天的DeepSeek、ChatGPT有什么不同?
新加坡南洋理工大学人工智能交叉研究院院长安波教授指出,DeepSeek这类大模型本质上是“语言模型”。它们通过海量文本数据训练,核心能力在于预测“下一个词”,可以将其类比为一个阅读了人类所有书籍的个体:它深谙世界被如何描述,因此能进行流畅的对话、撰写文章和回答问题。然而,这种对世界的理解是“二手”的,源于文字而非直接感知。安波教授进一步解释:“世界模型旨在实现不同的目标,它要让AI在大脑中构建一个关于世界如何运作的内部模拟器。就像我们人类,看到杯子被推到桌边,无需计算物理公式也能预判它会掉落摔碎,甚至闭上眼睛也能想象‘如果我这样做,接下来会发生什么’。”
安波教授阐述道,语言模型着眼于“预测下一个词”,而世界模型则专注于“预测下一个状态”,即“在执行某个动作后,环境将如何变化”。他表示,世界模型旨在服务于“能行动的智能体”,使其能够在环境中预判行为后果并做出决策,这对于机器人、自动驾驶和具身智能至关重要。他形象地比喻:ChatGPT如同一个熟读所有游泳教材的人,而世界模型则是为了让AI真正投入实践、学会游泳而设计的。
目前,包括Meta前首席AI科学家杨立昆在内的许多AI大咖都在开发世界模型。分析认为,世界模型不再依赖概率推理,而是像人类大脑一样具备模拟和预判能力。去年11月,美国斯坦福大学教授、World Labs联合创始人李飞飞表示,现在以大型语言模型为代表的AI系统过于“纸上谈兵”,缺乏对现实空间、物理规律与因果关系的真正理解,具备空间智能的AI能够突破这一瓶颈,而要实现空间智能,就需要转向世界模型。
然而,当前各界对于世界模型的具体定义尚未形成统一共识。智源研究院院长王仲远指出:“目前大家正从不同方法和角度探索世界模型,但我们相信最终会殊途同归。”
安波教授描绘了未来图景:“想象几年后,你家拥有一个机器人助手。当你说‘把厨房收拾一下’时,它不会盲目行动,而会在‘脑中’预先模拟一遍:红酒杯易碎需轻拿,未吃完的菜应放入冰箱,刀具需避开等。它能预判每个动作的后果,然后才开始执行。这正是世界模型的核心作用。”他强调,家务机器人是世界模型的重要应用场景之一。不过,王仲远院长也提醒:“世界模型尚处于早期阶段,其对具身智能的实质性影响和突破仍需持续观察。”
自动驾驶是世界模型的另一个重要应用领域。安波教授解释:“当前的自动驾驶有时显得‘迟钝’,因为它主要基于即时情况做出反应。若搭载强大的世界模型,车辆便能像经验丰富的老司机一样进行‘预判’。这种对未发生事件的预演,是确保安全的关键。”他还提出了一个更为“大胆”的应用设想——数字孪生与城市治理。他指出,为工厂或城市建立可推演的数字分身,能够预测交通拥堵、能源消耗以及突发事件的连锁反应,从而辅助决策。安波教授总结道,当AI真正具备推演能力时,它将从一个仅仅回答问题的工具,蜕变为一个能协助我们推演世界、规划行动的智能伙伴。
未来十年的关键拼图
北京大学计算机学院教授黄铁军表示:“我们期望具身智能能像人类一样,在任何场景下都具备‘通用性’,这要求机器人能在真实的物理环境中进行视觉、听觉和触觉感知。世界模型正是帮助机器人理解世界万物运行规律的关键。从这一宏伟目标来看,世界模型的研发仍处于初期阶段。”

安波教授客观分析道:“世界模型目前正处于从实验室概念迅速迈向‘可用系统’的临界点。虽然已经能展示出令人惊艳的演示效果,但距离真正的成熟和大规模落地应用,仍有一段路要走。”他举例说明,今年2月,自动驾驶公司Waymo将谷歌DeepMind团队的Genie 3改造为专用于自动驾驶仿真的“Waymo世界模型”,用于生成现实中罕见的极端场景,如突发龙卷风、路遇大象、金门大桥降雪等,以训练自动驾驶系统。他指出:“这表明世界模型已开始在实际产业中发挥作用。”
包括安波在内的许多学者都认为,目前世界模型面临一项技术挑战——面对长程、开放式的任务,还没有展现出稳定可靠的表现。如今的模型生成短时间的画面很逼真,但只要让它连续往后推演得久一点,误差就会像滚雪球一样累积、放大,导致画面变糊、物体凭空消失、出现违反物理规律的情况。
安波教授表示:“可以说我们已经创造出了能‘做梦’的AI,但这个‘梦’的稳定性及与物理现实的符合度仍有不足,这正是当前研究的核心攻坚方向。”
打造像人一样聪明的通用人工智能(AGI)曾是许多AI企业的终极目标之一。那么,世界模型的能力真的如此强大吗?它会成为AI的下一个前沿领域吗?
安波教授肯定道:“世界模型确实是当前最具潜力的研究方向之一。可以这样说,它是通往通用人工智能(AGI)和具身智能的核心组成部分,因为一个无法理解物理世界的智能,很难被视为完整的智能。”然而,他也同时指出,AI大模型的众多发展路径中,哪条更优仍需时间验证:“大语言模型的发展尚未走到尽头,而世界模型则处于相对早期阶段,技术上仍有诸多难题亟待攻克。”
近期观察显示,国内众多科研机构和企业已开始转向世界模型的研发。另一个显著趋势是,过去几年AI的重点在于“会说话”,即理解和生成语言,而现在越来越多的科学家正致力于推动AI从“会说”向“会想”和“会做”转变。智源研究院院长王仲远预测:“未来3到5年将是世界模型持续演进和迭代的关键阶段。”
关于世界模型与具身智能的关系,深圳市人工智能与机器人研究院具身智能中心主任刘少山阐述道,世界模型旨在对环境进行理解和预测,而具身智能则强调在与环境的互动中生成智能。因此,世界模型有望成为具身智能的下一个突破口。
安波教授总结说:“在过去的十年里,我们致力于教会AI理解和生成信息。而未来十年的核心主题,很可能将是赋予AI预测、规划和行动的能力,世界模型正是实现这一转变过程中最为关键的一块拼图。”
