Claude 自己开机器狗:比人快20 倍,代码量只有十分之一

Anthropic 实验显示,Claude Opus 4.7 已能全程自主控制机器狗完成任务,速度比人类快约 20 倍,代码量仅为其十分之一。这标志着 AI 智能体正从辅助编程迈向物理工具自主操作阶段。但模型在实时闭环精细控制上仍有局限,且当前成果基于低复杂度任务。该进展体现了通用模型 scaling 的副产物效应,预示物理智能体时代早期来临,但距离解决复杂真实场景仍有差距。

发布于2026年6月21日 20:44
编辑零重力瓦力
评论0
阅读0

Claude 自己开机器狗:20 倍快于人,代码量只有十分之一

去年 8 月,Anthropic 把一群不会机器人的员工关进仓库,让他们用 Claude 编程控制一只四足机器狗去捡海滩球。当时结论是:有 Claude 的队伍比没 Claude 的快一倍,但 Claude 自己单独干,连怎么连上机器狗都搞不定。

不到一年,他们重跑了一次。这次 Claude Opus 4.7 全程自主,没有人类帮忙。结果是:人类队伍曾经完成的所有任务,它至少快 10 倍。拿两队人类都完成的 4 个任务算平均,它比没 Claude 的队伍快 37 倍,比有 Claude 的队伍快 18 倍。代码量却只有人类队伍的十分之一。

这不是 Anthropic 专门做机器人研究的成果,是通用模型 scaling 的副产物。但它展现的趋势很明确:AI 智能体正在从“帮人写代码”走到“自己用物理工具”。Anthropic 自己的原话是“我们可能正在进入物理智能体时代的早期”。

实验到底跑了什么

两期实验用的是同一款现成四足机器狗,任务链条是:用厂商控制器操作机器狗、连接机器狗的视觉和激光雷达传感器、写程序手动控制机器狗、监控机器狗的运动轨迹、写程序检测海滩球、最后把这一切串起来实现自主捡球。

第一期(2025 年 8 月跑,11 月发文)把 8 个 Anthropic 研究员随机分成两队,一队能用 Claude Opus 4.1,一队只能靠互联网和自己的脑子。有 Claude 的队完成得更多更快,平均时间约为无 Claude 队的一半,也只有他们朝自主捡球这个最终目标迈出了实质步伐。

第二期(2026 年 6 月 18 日发文)换了跑法:让 Claude Opus 4.7 在 Claude Code 里全程自主操作,自适应思考开到最大 effort。人类研究员的角色只剩三件事:把跑 Claude Code 的笔记本插到机器狗上、输入初始 prompt、批准命令和批准进入下一个任务。跑了三次。

数据怎么看

“至少快 10 倍”这个结论有个前提:对比的是第一期人类队伍至少有一队完成的任务。Opus 4.7 在这些任务上每个都比最快人类队快 10 倍以上。

如果只算两队人类都完成的 4 个任务,平均下来:比无 Claude 队快 37 倍,比有 Claude 队快 18 倍。Anthropic 给的口径是“大约比最快人类队快 20 倍”。

更值得注意的数字是代码量。Opus 4.7 产出的代码大约只有第一期有 Claude 队的十分之一,成功率却不低甚至更高。第一期人类队经常写出能跑但啰嗦的代码,Opus 4.7 写的代码很多第一次就跑通。研究员的评价是“效率差异肉眼可见”。

一个反例:Opus 4.7 默认选了一个过时的目标检测算法。但它自己绕过去了,最后还是给出了能用的方案。这恰恰说明它在任务内的纠错能力已经比较稳。

还干不了什么

海滩球捡回来这一步,Opus 4.7 没成功。这步要的是闭环控制:实时看球跑偏了没有、偏多少、上一条命令怎么影响的、下一条怎么调。人类练几次能做到,模型目前做不到精细调节。Anthropic 说一个更有机器人经验的研究员用更长时间和更多脚手架把自主捡球跑通了,他们觉得当前 Claude 给足时间和脚手架大概率也行,但“同样速度和可靠性还做不到”。

这其实是个有用的边界提示:模型在“感知、规划、写上层程序”这一层已经很快很稳,但一碰到需要实时闭环微调的底层控制,就退回到“能摆位置,不能精调”的水平。

一个值得记住的模式

Anthropic 在文里点出了一个三段式规律:先是模型帮人,再是人帮模型,最后是模型基本自己干。他们在网络安全领域已经看到过一遍,现在在物理世界又重演。第一期是“模型帮人”,第二期开始进入“模型自己干”的早期。

这个模式对普通使用 AI 智能体的人有直接启发。你现在用 Claude Code、Cursor、OpenClaw 这类工具写代码,大概率还停留在“模型帮人”的阶段,你盯着它每一步。但同样的任务链条里,感知、规划、接口选择、上层脚本这些环节,模型已经可以几乎独立完成,你只需要批准。真正还需要你动手的是那种需要反复试错微调的精调环节,比如调一个很难复现的并发 bug、调一个对时序敏感的动画。

实际操作上可以做的调整:把任务链条里“理解 API、选接口、写骨架代码、跑通连接”这一类交给模型自主跑,你只做批准和验收。把“反复微调到对”这一类留给自己或留给更长的脚手架循环。别再全程盯着模型写每一行,那是浪费你的时间,也浪费模型能自主的那部分能力。

几个要克制乐观的地方

第一,这次任务的物理复杂度其实很低。机器狗是现成的,传感器是标准接口,任务范围被精心设计过。真实世界里你要让模型操作一台没文档的旧设备、一个有噪声的工业传感器,难度会陡升。

第二,“快 20 倍”是和不到一年的非专家人类比,不是和机器人专家比。Anthropic 自己也说这不是“LLM 解决了机器人学”。

第三,通用 scaling 带来的能力跃迁确实在发生,但物理世界的数据反馈闭环比软件世界慢得多、贵得多。软件里模型可以一次跑几千次 eval,物理里一次试错就是真机器真时间。所以“物理智能体”的曲线大概率不会像代码智能体那么陡。

保持关注的点:模型能不能开始为特定硬件写定制控制策略,而不只是调用现成 API。那才是从“用工具”到“造工具”的跨越,也是 Anthropic 说“现在下结论还早”的地方。

引用来源:

  1. Anthropic,“Project Fetch: Phase two”,2026-06-18 — https://www.anthropic.com/research/project-fetch-phase-two
  2. Anthropic,“Project Fetch: Can Claude train a robot dog?”,2025-11-12 — https://www.anthropic.com/research/project-fetch-robot-dog
  3. Hacker News,“Project Fetch: Phase Two”讨论 — https://news.ycombinator.com/item?id=48614311
  4. Anthropic Engineering,“Building effective agents”,2024-12-19 — https://www.anthropic.com/engineering/building-effective-agents
  5. Anthropic Engineering,“Effective context engineering for AI agents”,2025-09-29 — https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
  6. AI Daily Dev,2026-06-19 — https://ai-daily.dev/

相关文章

JetBrains Junie 正式版:AI 编程 Agent 学会了用调试器断点
AI 编程开发
2026年6月19日
0 条评论
零重力瓦力

JetBrains Junie 正式版:AI 编程 Agent 学会了用调试器断点

JetBrains AI 编程 Agent Junie 正式 GA,在 SWE-Rebench 基准测试中排名第一。其核心优势在于深度集成 IDE 原生工具链,而非模拟替代。主要特性包括:Plan 模式生成结构化计划文档以防跑偏;原生调试器集成支持断点与运行时状态检查;支持异步远程控制长任务;基于项目上下文的交互式代码审查;以及模型自由切换以优化成本。Junie 标志着 AI 编程竞争正从模型能力转向工具集成深度。

#智能体#AI 编程
阅读全文
能自主运行数天的神话级模型 Claude Fable 5 正式发布
AI 产品工具
2026年6月13日
0 条评论
小创

能自主运行数天的神话级模型 Claude Fable 5 正式发布

Anthropic 发布最强模型 Claude Fable 5 并向公众开放。针对此前预览版存在的安全隐患,该模型引入安全路由机制,将高风险请求自动分流至 Opus 4.8 处理,在保障安全的同时释放通用能力。Fable 5 具备超高自主性,可连续数天独立处理金融、法律及科研等领域的复杂项目,无需人工干预。这种长周期、高自主性的任务处理能力,有望彻底改变现有工作流。

#Claude#AI 模型
阅读全文
别再纠结 Claude Code 还是 Cursor,高效开发者在同时用两个
AI 编程开发
2026年6月5日
0 条评论
零重力瓦力

别再纠结 Claude Code 还是 Cursor,高效开发者在同时用两个

高效开发者倾向于组合使用 AI 编程工具而非二选一。实战表明,Cursor 适合单文件精细调整,Claude Code 擅长跨文件重构与后台任务,两者互补可显著提升效率。多智能体并行及“先规划后编码”策略能加速 SaaS 开发,但需警惕 AI 生成质量下滑等问题。此外,Hermes Agent 等自动化工具可替代人工定时任务。建议以 Cursor 为主、Claude Code 处理复杂任务,初学者应循序渐进掌握工具组合拳。

#Claude Code#AI 编程
阅读全文
互动讨论

评论区

围绕《Claude 自己开机器狗:比人快20 倍,代码量只有十分之一》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。