首页 > 生活分享 > 免费教学 > 碾压π0.5,复旦团队:「世界模型+具身训练+强化学习」闭环框架

碾压π0.5,复旦团队:「世界模型+具身训练+强化学习」闭环框架

发布时间:2025-12-04 21:08:07

张家辉,复旦大学大数据学院博士三年级学生,研究方向为具身智能、视觉 - 语言 - 动作模型预训练与强化学习后训练,4D-VLA (NeurIPS 25) 第一作者。黄泽,复旦大学大数据学院博士三年级学生,主要从事机器人世界模型与三维重建、生成等方向研究。两人共同担任本文第一作者。

张力,复旦大学大数据学院教授,上海创智学院全时导师,担任本论文的通讯作者。主页:https://lzrobots.github.io

Vision–Language–Action(VLA)策略正逐渐成为机器人迈向通用操作智能的重要技术路径:这类策略能够在统一模型内同时处理视觉感知、语言指令并生成连续控制信号。

然而,当前大多数 VLA 仍主要依赖模仿学习,实质上是按示范轨迹复刻,在分布发生偏移、任务形式变化或操作时域拉长时,极易出现误差累积并导致任务失败。强化学习(RL)从回报信号出发直接优化任务成功率,按理应当能够缓解这一目标错配问题,但在真实机器人上开展在线 RL 成本高昂,并行执行受限,还伴随大量重置与标注开销;以 π*0.6 为代表的多轮离线 RL 范式在每一轮中仍高度依赖真实系统部署和人工干预,训练成本与迭代效率都存在明显瓶颈(需要一直有人类介入,一旦出现错误轨迹就人类接管操作,记录相应的数据);另一方面,基于传统物理引擎(MuJoCo、Isaac sim)的强化学习又难以同时兼顾逼真度、场景多样性与工程可用性。

针对上述问题,研究团队提出ProphRL 框架采用大规模预训练的世界模型 Prophet 作为「面向真实环境」的视频级模拟器,并配合专为流式动作头设计的在线 RL 算法 Flow-Action-GRPO 与 FlowScale,在虚拟但物理一致的环境中直接对 VLA 策略进行强化学习优化,再将优化后的策略部署到真实机器人上。如此,策略改进的主要探索过程可以在世界模型中完成,在兼顾物理可信度的同时显著降低真实交互成本,为大模型 VLA 的实际落地提供了更可行的技术路径。如图所示:



实验结果显示,ProphRL在多个公开基准上为各类 VLA 模型(VLA-adapter-0.5B, Pi0.5-3B, OpenVLA-OFT-7B)带来 5–17% 的成功率提升,在真实机器人实验中进一步取得 24–30% 的大幅度成功率提升

免费教学更多>>

钱不白花!老主板升级50显卡带不动?实测解除你的焦虑 REDMI Turbo 5 Max跑分曝光 天玑新款旗舰芯片 网传小米阔折叠9月发布,拥有自研AP芯片、折叠OS等卖点 阿里千问发布会在即 神州数码蹭上阿里云热度 库克退意已决!新CEO候补是个「硬件控」 王自如放话安卓做不出好Air?荣耀李坤:你远离圈子太久了 真我Neo8真机亮相!赛博紫+觉醒光环,这波设计我直接跪了 2026开年王炸!TCL把旗舰级Mini LED价格打下来了 苹果Vision Pro邀你“坐”在场边看湖人队比赛:150Mbps码率 华为余承东带队前往广汽集团交流共建鸿蒙生态 vivo X300系列:双芯加持+影像续航双革新,1月底换机别错过! 华为和北汽的合作项目享界,结果余承东跑来看了,改成旅行车。 传长安汽车因2025年销量未达目标而取消员工年终奖引发不满! 丰田凯美瑞VS星海S7,到底谁才是真正的“家用王炸”? 现代起亚2025全球销售727.39万辆!坐稳全球TOP3 别克至境SUV预告图发布 延续概念车设计2026年内上市 一汽-大众迎关键接力,30年老兵董修惠扛鼎2026转型攻坚 比亚迪再登央视科晚,智能化技术对我们普通人有什么影响? 奔驰未来新车图谱:电动化提速、燃油车稳住阵地,老车主真实判断 宝马暴跌30万!豪车变街车,BBA急了 前横置V8缸发动机+前驱 大型豪华轿车发展中的一个插曲 经典路虎卫士V8升级,新增Octa风格内饰,售价高达19万英镑 智谱AutoGLM与豆包手机的分歧,是AI时代的安卓苹果之战? 关键信息基础设施安全保护支撑能力白皮书-以新质战斗力引领“AI+”时代网 TUXEDO推出新一代“台式机替代”Linux笔记本Gemini 17 - Gen4 预算卡死6K-8K?别慌!双12“甜点级”游戏本终极选购清单 小米米家轻量吸尘器开售:22000Pa最大吸力+ 40分钟续航 HPE扩展AI原生产品,以构建自动驾驶的网络战略重塑IT运营未来 下一个十年的AI发展图景 AI路边摊,下一个市民经济风口