首页>>科技>世界模型：人工智能迈向“推演未来”的关键一步

世界模型：人工智能迈向“推演未来”的关键一步

admin 科技 2026-06-22 14:20:15 315

近年来，全球顶尖科研团队正积极探索构建“世界模型”这一新型人工智能大模型，许多研究者认为这是通向真正智能的关键路径。在一场近期举行的科技大会上，演示了基于世界模型的机器人已能完成一些复杂任务，例如为垃圾桶套上塑料袋、为鲜花进行透明包装。受访专家指出，世界模型因其能在环境中预判后果并做出决策的能力，被视为当前最具前景的研究方向之一，有望赋予AI“推演未来”的能力。

机器人套垃圾袋，难在哪

在一场演示中，人形机器人展现了为垃圾桶套袋的精细操作：它从墙上取下黑色垃圾袋，双手撑开后准确套入地上的垃圾桶，并细致地整理袋口，使其平整，如同人类一般。这表明人形机器人的智能水平已显著提升。

传统的机器人抓取任务多针对不易形变的硬物，这类物品无论从何处抓取都能成功。然而，对于柔性物体如塑料袋，情况则大相径庭。塑料袋易受外部环境影响而变形（例如风吹），其黑色材质也增加了视觉识别的难度，加之撕扯和套袋过程的复杂性与控制难度，这些都曾是制约机器人发展的技术瓶颈。如今，这些挑战正逐步被攻克。

这一进步得益于世界模型的强大支持。以往，机器人研发与训练多依赖VLA（视觉-语言-行为大模型）。现在，众多科研机构正转向利用世界模型来提升机器人的性能。据技术人员介绍，尽管VLA也能完成类似任务，但在面对复杂或异常情况时，机器人可能需要多次尝试才能成功。相比之下，世界模型能在抓取前预先“预测”多种抓取方案及其成功率，其核心优势在于强大的错误纠正能力。

现场演示显示，中国科研机构已基于世界模型成功开发出多款清洁机器人，未来有望在酒店等场景中投入使用。其中一款高大的人形机器人，面对餐桌上遗留的小龙虾壳、外卖盒等垃圾，能先将虾壳归置到外卖盒内，再把盒子投入旁边的外卖袋中，最后用抹布擦拭桌面，其清理逻辑与人类操作如出一辙。

除了清洁任务，机器人还出色地完成了更具挑战性的“包装”工作。一台机器人左手拿起桌面上的黑色锥形花盒，右手精准地将透明装饰壳套在其外。接着，它从花瓶中轻柔地捏起鲜花，将其装入花盒。在抓取鲜花时，机器人精确地捏住花枝，避免了对花瓣的任何损伤。此外，其对透明包装壳的精准识别能力，也标志着一项重要的技术突破。

不过，由于世界模型的训练和数据量仍然有限，一些极高难度的任务仍然让机器人手足无措。比如，换被套。这项工作就算一个成年人做起来都不轻松，对机器人来说更是挑战。

“将被芯从被套中取出并更换新被套，这项任务即使需要两台机器人协同完成，仍会面临诸多‘意外情况’。”一位技术人员解释道。

从回答问题到规划行动

世界模型的一大重要用途，就是具身智能。回到技术本身，世界模型到底是什么？它和我们常见的能够聊天的DeepSeek、ChatGPT有什么不同？

新加坡南洋理工大学人工智能交叉研究院院长安波教授指出，DeepSeek这类大模型本质上是“语言模型”。它们通过海量文本数据训练，核心能力在于预测“下一个词”，可以将其类比为一个阅读了人类所有书籍的个体：它深谙世界被如何描述，因此能进行流畅的对话、撰写文章和回答问题。然而，这种对世界的理解是“二手”的，源于文字而非直接感知。安波教授进一步解释：“世界模型旨在实现不同的目标，它要让AI在大脑中构建一个关于世界如何运作的内部模拟器。就像我们人类，看到杯子被推到桌边，无需计算物理公式也能预判它会掉落摔碎，甚至闭上眼睛也能想象‘如果我这样做，接下来会发生什么’。”

安波教授阐述道，语言模型着眼于“预测下一个词”，而世界模型则专注于“预测下一个状态”，即“在执行某个动作后，环境将如何变化”。他表示，世界模型旨在服务于“能行动的智能体”，使其能够在环境中预判行为后果并做出决策，这对于机器人、自动驾驶和具身智能至关重要。他形象地比喻：ChatGPT如同一个熟读所有游泳教材的人，而世界模型则是为了让AI真正投入实践、学会游泳而设计的。

目前，包括Meta前首席AI科学家杨立昆在内的许多AI大咖都在开发世界模型。分析认为，世界模型不再依赖概率推理，而是像人类大脑一样具备模拟和预判能力。去年11月，美国斯坦福大学教授、World Labs联合创始人李飞飞表示，现在以大型语言模型为代表的AI系统过于“纸上谈兵”，缺乏对现实空间、物理规律与因果关系的真正理解，具备空间智能的AI能够突破这一瓶颈，而要实现空间智能，就需要转向世界模型。

然而，当前各界对于世界模型的具体定义尚未形成统一共识。智源研究院院长王仲远指出：“目前大家正从不同方法和角度探索世界模型，但我们相信最终会殊途同归。”

安波教授描绘了未来图景：“想象几年后，你家拥有一个机器人助手。当你说‘把厨房收拾一下’时，它不会盲目行动，而会在‘脑中’预先模拟一遍：红酒杯易碎需轻拿，未吃完的菜应放入冰箱，刀具需避开等。它能预判每个动作的后果，然后才开始执行。这正是世界模型的核心作用。”他强调，家务机器人是世界模型的重要应用场景之一。不过，王仲远院长也提醒：“世界模型尚处于早期阶段，其对具身智能的实质性影响和突破仍需持续观察。”

自动驾驶是世界模型的另一个重要应用领域。安波教授解释：“当前的自动驾驶有时显得‘迟钝’，因为它主要基于即时情况做出反应。若搭载强大的世界模型，车辆便能像经验丰富的老司机一样进行‘预判’。这种对未发生事件的预演，是确保安全的关键。”他还提出了一个更为“大胆”的应用设想——数字孪生与城市治理。他指出，为工厂或城市建立可推演的数字分身，能够预测交通拥堵、能源消耗以及突发事件的连锁反应，从而辅助决策。安波教授总结道，当AI真正具备推演能力时，它将从一个仅仅回答问题的工具，蜕变为一个能协助我们推演世界、规划行动的智能伙伴。

未来十年的关键拼图

北京大学计算机学院教授黄铁军表示：“我们期望具身智能能像人类一样，在任何场景下都具备‘通用性’，这要求机器人能在真实的物理环境中进行视觉、听觉和触觉感知。世界模型正是帮助机器人理解世界万物运行规律的关键。从这一宏伟目标来看，世界模型的研发仍处于初期阶段。”

安波教授客观分析道：“世界模型目前正处于从实验室概念迅速迈向‘可用系统’的临界点。虽然已经能展示出令人惊艳的演示效果，但距离真正的成熟和大规模落地应用，仍有一段路要走。”他举例说明，今年2月，自动驾驶公司Waymo将谷歌DeepMind团队的Genie 3改造为专用于自动驾驶仿真的“Waymo世界模型”，用于生成现实中罕见的极端场景，如突发龙卷风、路遇大象、金门大桥降雪等，以训练自动驾驶系统。他指出：“这表明世界模型已开始在实际产业中发挥作用。”

包括安波在内的许多学者都认为，目前世界模型面临一项技术挑战——面对长程、开放式的任务，还没有展现出稳定可靠的表现。如今的模型生成短时间的画面很逼真，但只要让它连续往后推演得久一点，误差就会像滚雪球一样累积、放大，导致画面变糊、物体凭空消失、出现违反物理规律的情况。

安波教授表示：“可以说我们已经创造出了能‘做梦’的AI，但这个‘梦’的稳定性及与物理现实的符合度仍有不足，这正是当前研究的核心攻坚方向。”

打造像人一样聪明的通用人工智能（AGI）曾是许多AI企业的终极目标之一。那么，世界模型的能力真的如此强大吗？它会成为AI的下一个前沿领域吗？

安波教授肯定道：“世界模型确实是当前最具潜力的研究方向之一。可以这样说，它是通往通用人工智能（AGI）和具身智能的核心组成部分，因为一个无法理解物理世界的智能，很难被视为完整的智能。”然而，他也同时指出，AI大模型的众多发展路径中，哪条更优仍需时间验证：“大语言模型的发展尚未走到尽头，而世界模型则处于相对早期阶段，技术上仍有诸多难题亟待攻克。”

近期观察显示，国内众多科研机构和企业已开始转向世界模型的研发。另一个显著趋势是，过去几年AI的重点在于“会说话”，即理解和生成语言，而现在越来越多的科学家正致力于推动AI从“会说”向“会想”和“会做”转变。智源研究院院长王仲远预测：“未来3到5年将是世界模型持续演进和迭代的关键阶段。”

关于世界模型与具身智能的关系，深圳市人工智能与机器人研究院具身智能中心主任刘少山阐述道，世界模型旨在对环境进行理解和预测，而具身智能则强调在与环境的互动中生成智能。因此，世界模型有望成为具身智能的下一个突破口。

安波教授总结说：“在过去的十年里，我们致力于教会AI理解和生成信息。而未来十年的核心主题，很可能将是赋予AI预测、规划和行动的能力，世界模型正是实现这一转变过程中最为关键的一块拼图。”

标签：模型机器人 AI

上一篇：没有了

下一篇：没有了

首页>>科技>世界模型：人工智能迈向“推演未来”的关键一步

世界模型：人工智能迈向“推演未来”的关键一步

相关文章