碾压π0.5，复旦团队：「世界模型+具身训练+强化学习」闭环框架

张家辉，复旦大学大数据学院博士三年级学生，研究方向为具身智能、视觉 - 语言 - 动作模型预训练与强化学习后训练，4D-VLA (NeurIPS 25) 第一作者。黄泽，复旦大学大数据学院博士三年级学生，主要从事机器人世界模型与三维重建、生成等方向研究。两人共同担任本文第一作者。

张力，复旦大学大数据学院教授，上海创智学院全时导师，担任本论文的通讯作者。主页：https://lzrobots.github.io

Vision–Language–Action（VLA）策略正逐渐成为机器人迈向通用操作智能的重要技术路径：这类策略能够在统一模型内同时处理视觉感知、语言指令并生成连续控制信号。

然而，当前大多数 VLA 仍主要依赖模仿学习，实质上是按示范轨迹复刻，在分布发生偏移、任务形式变化或操作时域拉长时，极易出现误差累积并导致任务失败。强化学习（RL）从回报信号出发直接优化任务成功率，按理应当能够缓解这一目标错配问题，但在真实机器人上开展在线 RL 成本高昂，并行执行受限，还伴随大量重置与标注开销；以 π*0.6 为代表的多轮离线 RL 范式在每一轮中仍高度依赖真实系统部署和人工干预，训练成本与迭代效率都存在明显瓶颈（需要一直有人类介入，一旦出现错误轨迹就人类接管操作，记录相应的数据）；另一方面，基于传统物理引擎（MuJoCo、Isaac sim）的强化学习又难以同时兼顾逼真度、场景多样性与工程可用性。

针对上述问题，研究团队提出ProphRL 框架采用大规模预训练的世界模型 Prophet 作为「面向真实环境」的视频级模拟器，并配合专为流式动作头设计的在线 RL 算法 Flow-Action-GRPO 与 FlowScale，在虚拟但物理一致的环境中直接对 VLA 策略进行强化学习优化，再将优化后的策略部署到真实机器人上。如此，策略改进的主要探索过程可以在世界模型中完成，在兼顾物理可信度的同时显著降低真实交互成本，为大模型 VLA 的实际落地提供了更可行的技术路径。如图所示：

碾压π0.5，复旦团队：「世界模型+具身训练+强化学习」闭环框架

实验结果显示，ProphRL在多个公开基准上为各类 VLA 模型（VLA-adapter-0.5B, Pi0.5-3B, OpenVLA-OFT-7B）带来 5–17% 的成功率提升，在真实机器人实验中进一步取得 24–30% 的大幅度成功率提升

碾压π0.5，复旦团队：「世界模型+具身训练+强化学习」闭环框架

碾压π0.5，复旦团队：「世界模型+具身训练+强化学习」闭环框架

免费教学更多>>