新闻详情
李飞飞下场定调世界模型:渲染、仿真、规划
李飞飞下场定调世界模型:渲染、仿真、规划
主体→行动→状态→观察→返回这个循环赋予了现代术语“世界模型”以技术意义。目录01 溯源回归交互闭环厘清世界模型本源02 三大功能范式特征、现状与能力边界渲染器视觉优先商业化最成熟的视觉类模型仿真器物理为核全行业技术枢纽规划器聚焦决策具身智能的核心大脑03 仿真器为何是行业胜负手04 闭环的缺失从预测到交互的根本困境05 不断追问现有框架的缺失环节同等重要近日李飞飞发表长文《A Functional Taxonomy of World Models》从强化学习中的部分可观测马尔可夫决策过程出发将当前被冠以“世界模型”之名的技术划分为渲染器、模拟器与规划器三大功能范式。这一分类提供了难得的清晰视角但同样值得注意的是分类本身并非终点。因此基于这篇分享本文除了梳理这一分类框架外更想重点探讨文章之外的一个关键问题三类模型在工程实现中缺乏统一的闭环反馈机制导致从“预测”到“真实世界交互”之间存在着结构性的断裂。这一断裂使得当前的世界模型大多停留在“单向输出”阶段而无法形成真正的交互闭环而后者恰恰是任何智能体在真实世界中持续学习与适应的核心前提。01 溯源回归交互闭环厘清世界模型本源世界模型的理念最早可追溯至1943年的心智虚拟模型理论后被引入强化学习与机器人领域其核心始终围绕部分可观测马尔可夫决策过程POMDP交互闭环展开。▲POMDP框架在 POMDP 框架下完整交互闭环由智能体、动作、世界状态、观测四大核心要素构成形成智能体感知世界、理解世界、干预世界的完整链路智能体执行动作进而改变客观世界的完整状态智能体无法直接获取全域信息仅能接收传感器采集的局部观测数据智能依托观测再次生成动作循环往复。其中世界状态是包含物体位置、力学属性等全部客观信息观测是机器捕捉的视觉、传感表象动作则是智能体的外界干预行为。▲基础世界模型(WMs)的近期时间线涵盖不同类别中的核心方法论大语言模型学习文本规律而世界模型聚焦时空、几何与物理规则二者底层逻辑完全不同。如今各类“世界模型”本质都是对交互闭环不同环节的建模。基于输出目标差异可划分为渲染器、仿真器、规划器三类三类模型共享底层世界认知但定位与应用天差地别。02 三大功能范式特征、现状与能力边界渲染器视觉优先商业化最成熟的视觉类模型渲染器是大众认知度最高的一类世界模型核心输出为图像、视频等像素级观测内容评价标准以视觉逼真度为主而非物理上的精确度。谷歌Genie 3、Nano Banana等文生视频、交互式画面生成产品均属于此类。▲谷歌Genie 3该类模型依托海量互联网音视频数据训练擅长复刻光影、轮廓等视觉特征但不显式建模三维结构与物理规则。这就导致其典型缺陷画面观感出色却经不起多角度、物理逻辑校验。比如航拍生成的城市视频视觉完美切换地面视角便会出现建筑穿模流体、火焰等画面看似逼真却违背力学定律。其优势是训练数据充足、技术链路成熟但物理能力的缺失形成了明显天花板仅适用于视觉展示场景无法落地机器人、工业仿真等对精度有要求的领域。仿真器物理为核全行业技术枢纽仿真器的公众热度最低却是整个体系中价值最高的核心底座。它以完整数字化世界状态为输出严格遵循几何、刚体、流体等物理规则视觉呈现仅为附加功能。英伟达Omniverse、工业数字孪生平台、李飞飞团队的Marble都属于仿真器范畴。▲李飞飞团队Marble它是承上启下的关键枢纽高质量渲染画面可由仿真场景生成渲染器智能体的动作试错、策略训练也必须依托仿真环境规划器。没有高精度仿真渲染只是虚假画面规划也会沦为盲目决策。目前仿真面临多重行业难题高精度三维物理标注数据十分稀缺仿真与现实存在难以消除的虚实鸿沟多物理场耦合仿真算力成本居高不下。此外生成式仿真还存在三维模型结构错误、尺寸异常等新问题。尽管挑战重重仿真覆盖工业、物流、自动驾驶等万亿级市场是决定空间智能行业上限的核心技术。规划器聚焦决策具身智能的核心大脑规划器是面向未来潜力最大、现阶段成熟度最低的范式核心输出是智能体的连续动作。它与渲染器逻辑相反以观测画面、任务指令为输入直接生成执行动作主流VLA视觉语言动作模型、机器人决策系统均归为此类。近两年机器人演示视频层出不穷但客观而言规划技术仍处于实验室阶段。现有方案大多是反应式决策仅依靠实时观测做出判断缺少对未来场景的预判。一旦脱离简单实验室环境进入动态、复杂的真实场景任务稳定性会大幅下滑。▲Efficient VLA03 仿真器为何是行业胜负手结合三类模型的发展现状仿真器仍是整个世界模型体系的核心基石这也是行业最容易被忽视的关键点。从技术本质来看渲染、仿真、规划依托同一套几何、物理、动力学知识一个真正的世界模型基础模型应该是既能够渲染逼真的视图又能生成物理上精确的结构还能规划动作序列并根据下游用户的需求切换输出模式。例如一个真正理解杯子在桌面上如何放置其几何形状、材料属性、受力响应等的模型应该能够从任何角度渲染杯子模拟杯子被推动时的情况并规划出一只手拿起杯子的动作。渲染技术门槛低、变现快容易吸引流量与资本规划概念火热但落地遥遥无期而仿真攻坚难度大、短期收益弱却是打通全产业链的关键。高保真仿真环境不仅能批量产出训练数据解决渲染、规划的数据短缺问题还能为智能体提供零风险、低成本的虚拟训练场。因此短期追逐视觉效果可以理解但长期布局空间智能、具身智能必须将仿真技术作为核心攻坚方向。当下行业诸多瓶颈归根结底都源于仿真能力的不足。04 闭环的缺失从预测到交互的根本困境在这篇长文分享的评论区其中一条留言恰恰揭示了当前世界模型技术路线的核心盲区在这里也想和大家重点分享。▲图源长文评论区这一问题直指当前世界模型技术路线的核心局限三类模型分别处理的环节缺乏统一的、可更新的闭环反馈机制。规划器执行的动作在执行后会改变环境状态新的状态又会生成新的观测观测再触发新的规划。这个看似完整的循环在理论上是自洽的但在工程实现中存在着结构性的断裂。当前多数技术方案无论是文生视频的渲染器、工业数字孪生的模拟器还是VLA规划器均以“单向输出”为设计目标缺少一个统一的、可更新的闭环反馈机制。完整的技术逻辑应当形成 “渲染→模拟→规划→现实行动→反馈修正” 的全链路循环规划器生成的动作序列需要落地为现实行为行为产生的新环境变化会通过渲染形成新观测、通过仿真更新世界状态最终反向修正规划策略。理论上闭环的三层架构如果可以各自根据与预期的偏差进行更新就能最大程度地保持与现实世界的一致性。▲图源长文评论区但这里又会存在一个基础性的悖论从定义上说任何模型都无法完美复现世界本身。世界模型只能是对现实世界的不完全逼近而非等同。这意味着反馈闭环不可能完全消除偏差而是需要在“识别偏差—更新模型—重新预测—再次执行”的循环中不断逼近现实。如何将这一循环从理论框架落实到可工程实现的技术路径也是当前世界模型领域最本质的挑战之一。05 不断追问现有框架的缺失环节同等重要三类模型独立发展的格局正在被技术演进的内在逻辑所打破。功能融合成为主流研究方向人为划分的技术边界正不断模糊。从理论上看三类模型共用同一套几何、物理与动力学知识体系这一事实决定了它们的分立状态并非终局。当前融合路径主要分为三类一是渲染器延伸出预判能力结合动作模型实现“视觉想象行为决策”联动二是仿真器兼顾可视化与物理交互如Marble同时输出渲染模型与物理碰撞网格三是规划器嵌入仿真模块让智能先虚拟试错再执行动作。融合是必然选择单一模型的缺陷在复杂场景中会被持续放大。然而在同一套模型架构中同时平衡这三类需求仍然是当前世界模型领域最核心的攻关课题一方面渲染追求视觉、仿真追求物理优化目标相互冲突另一方面各类别数据分布不均视频数据海量三维与机器人交互数据严重不足加大了统一模型的训练难度。世界模型的技术演进仍处于早期阶段当前的一切定义与分类都应被视为阶段性工具而非终点。结合行业现状判断短期内不会出现全能统一模型垂直领域定制融合方案会成为主流自动驾驶偏向仿真规划影视元宇宙偏向仿真渲染家用机器人则整合三类能力。长远来看随着三维数据、仿真算力、多目标训练技术的迭代可灵活切换输出、兼顾视觉、物理与决策的统一世界模型将成为行业终极形态。在这个意义上不断追问现有框架的缺失环节、持续审视现实世界中的反馈失效与建立清晰的功能分类同等重要。Ref文章标题A Functional Taxonomy of World Models文章链接https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models?subscribe_promptfree