Physical Intelligence 发布新模型π0.7 :机器人“通才”研究获突破性进展
一家成立仅两年的旧金山机器人智能体初创企业宣布,其最新模型 π0.7 已展现出处理从未经过显式训练任务的能力。这家名为 Physical Intelligence 的公司所发布的这篇研究论文显示,其通用机器人智能体开发取得早期但具有实质性意义的进展。
从“专才”到“通才”的跨越
物理智能体领域的传统训练范式长期依赖“死记硬背”模式:针对特定任务收集数据,训练专属模型,再为新任务重复这一流程。π0.7 的核心突破在于实现了组合泛化能力,即整合不同语境中习得的技能来解决模型从未遇到过的问题。
Physical Intelligence 联合创始人、加州大学伯克利分校 AI 与机器人学教授 Sergey Levine 指出,一旦跨越阈值,从只能执行训练数据涵盖的任务,真正转向以全新方式重组组合,能力增长将超越线性规模。“这种更有利的扩展特性在我们的其他领域已经出现过,比如语言和视觉。”
论文中最引人关注的演示涉及一台空气炸锅。模型在训练数据中仅有两段相关记录:一段是另一台机器人推动炸锅关闭,另一段来自开源数据集,呈现的是有人指示下将塑料瓶放入炸锅的情景。模型却将这两段碎片与更广泛的网络预训练数据融合,形成了对该电器功能的实用理解。
Physical Intelligence 研究员、斯坦福大学计算机科学博士生 Lucy Shi 表示:“追踪这些知识的来源以及模型的成败边界非常困难。”尽管如此,在零辅导的情况下,模型成功完成了用电饭煲烹饪红薯的初步尝试。
当提供分步骤口头指令时,仿佛向新员工解释任务那样引导智能体,模型表现更为出色。这种即时指导能力意味着机器人可以在新环境中部署并实时优化,无需额外数据收集或模型重训练。
研究团队的自我审视
研究团队坦言模型局限性明显。 Shi 描述了一次早期实验,原本成功率仅为 5%,经过大约半小时优化任务描述方式后跃升至 95%。她还表示,“有时问题不在机器人或模型,而在于我们不擅长提示工程。”
Levine 也指出,模型尚无法从单一高层指令自主执行复杂多步骤任务。“你不能直接说‘嘿,给我烤个面包’。但如果你逐步引导,打开某部件、按下那个按钮、完成这个动作,它通常能运作得相当好。”
团队同时承认,机器人领域尚缺乏标准化基准测试,这使得外部验证工作充满挑战。取而代之的是,π0.7 与该公司此前针对单项任务构建的专家模型进行对比,在制作咖啡、折叠衣物、组装纸箱等多项复杂工作中表现相当。
意外之喜与行业争议
研究中最值得关注的,或许并非任何单一演示,而是结果对研究人员自身的冲击程度。这些专业人士本应对训练数据内容了然于胸,理应清楚模型的能力边界。
Physical Intelligence 研究科学家 Ashwin Balakrishna 表示:“我的经验告诉我,当我深入了解数据内容时,通常能预估模型会做什么。我很少感到意外。但过去几个月是我真正感到惊讶的第一次。我随机购买了一套齿轮,问机器人‘你能转动这个吗?’它直接就做到了。”
Levine 回忆起研究团队首次遇到 GPT-2 生成关于安第斯独角兽故事时的情景。“它从哪里学到秘鲁独角兽的?这是一个很奇怪的组合。我认为在机器人领域看到类似现象真的很特别。”
然而,批评者指出了一个令人不安的不对称性:语言模型拥有整个互联网可供学习,而机器人做不到。无论怎样巧妙的提示工程都无法完全弥补这一差距。
对此 Levine 回应称,针对任何机器人泛化演示的批评总是任务本身“有点无聊”、“机器人没有后空翻”。他反驳这种框架,认为令人印象深刻的概念验证与真正具有泛化能力的机器人系统之间的区别恰恰是关键所在。泛化看起来总不如精心编排的特技表演那样引人注目,但其实际用途要大得多。
论文全文使用谨慎的措辞,将 π0.7 定位为展现泛化“早期迹象”和新能力的“初步演示”。这些是研究结果,而非已部署产品。当被问及基于这些发现的系统何时能投入实际部署时, Levine 拒绝推测。“我有充分理由保持乐观,确实比两三年前的预期进展更快,但要回答这个问题非常困难。”
资本持续涌入
Physical Intelligence 迄今已融资超过 10 亿美元,最近一次估值达到 56 亿美元。据报道该公司正就新一轮融资进行谈判,估值预计将翻近一倍至 110 亿美元。团队拒绝对此置评。
公司获得投资界热捧的部分原因在于联合创始人 Lachy Groom 的背景,后者曾在硅谷 Angel 投资领域享有盛誉,参与投资了 Figma 、 Notion 、 Ramp 等知名项目后认定 Physical Intelligence 是他一直在寻找的公司。这层背景帮助这家初创企业在拒绝为投资者提供商业化时间表的情况下持续吸引机构资金。
创艺洞察
π0.7 的出现标志着机器人智能体从“专项技能”向“通用认知”迁移的关键节点。更值得关注的是,这项研究的真正价值或许不在于某个具体演示的成功率,而在于它验证了一种可能性:当数据规模与组合广度达到临界点,机器人智能确实可能复制语言模型领域已经验证的能力跃迁规律。对于整个机器人行业而言,这预示着从“有多少数据就能做多少事”的线性思维,向“学会原理就能创造性地解决新问题”的范式转换。当然,从实验室演示到真实世界的可靠部署,中间仍有漫长的工程化道路要走,而这条道路从来都比论文所呈现的“惊人成果”要艰难得多。


