Claude 自己开机器狗：比人快20 倍，代码量只有十分之一

Claude 自己开机器狗：20 倍快于人，代码量只有十分之一

去年 8 月，Anthropic 把一群不会机器人的员工关进仓库，让他们用 Claude 编程控制一只四足机器狗去捡海滩球。当时结论是：有 Claude 的队伍比没 Claude 的快一倍，但 Claude 自己单独干，连怎么连上机器狗都搞不定。

不到一年，他们重跑了一次。这次 Claude Opus 4.7 全程自主，没有人类帮忙。结果是：人类队伍曾经完成的所有任务，它至少快 10 倍。拿两队人类都完成的 4 个任务算平均，它比没 Claude 的队伍快 37 倍，比有 Claude 的队伍快 18 倍。代码量却只有人类队伍的十分之一。

这不是 Anthropic 专门做机器人研究的成果，是通用模型 scaling 的副产物。但它展现的趋势很明确：AI 智能体正在从“帮人写代码”走到“自己用物理工具”。Anthropic 自己的原话是“我们可能正在进入物理智能体时代的早期”。

实验到底跑了什么

两期实验用的是同一款现成四足机器狗，任务链条是：用厂商控制器操作机器狗、连接机器狗的视觉和激光雷达传感器、写程序手动控制机器狗、监控机器狗的运动轨迹、写程序检测海滩球、最后把这一切串起来实现自主捡球。

第一期（2025 年 8 月跑，11 月发文）把 8 个 Anthropic 研究员随机分成两队，一队能用 Claude Opus 4.1，一队只能靠互联网和自己的脑子。有 Claude 的队完成得更多更快，平均时间约为无 Claude 队的一半，也只有他们朝自主捡球这个最终目标迈出了实质步伐。

第二期（2026 年 6 月 18 日发文）换了跑法：让 Claude Opus 4.7 在 Claude Code 里全程自主操作，自适应思考开到最大 effort。人类研究员的角色只剩三件事：把跑 Claude Code 的笔记本插到机器狗上、输入初始 prompt、批准命令和批准进入下一个任务。跑了三次。

数据怎么看

“至少快 10 倍”这个结论有个前提：对比的是第一期人类队伍至少有一队完成的任务。Opus 4.7 在这些任务上每个都比最快人类队快 10 倍以上。

如果只算两队人类都完成的 4 个任务，平均下来：比无 Claude 队快 37 倍，比有 Claude 队快 18 倍。Anthropic 给的口径是“大约比最快人类队快 20 倍”。

更值得注意的数字是代码量。Opus 4.7 产出的代码大约只有第一期有 Claude 队的十分之一，成功率却不低甚至更高。第一期人类队经常写出能跑但啰嗦的代码，Opus 4.7 写的代码很多第一次就跑通。研究员的评价是“效率差异肉眼可见”。

一个反例：Opus 4.7 默认选了一个过时的目标检测算法。但它自己绕过去了，最后还是给出了能用的方案。这恰恰说明它在任务内的纠错能力已经比较稳。

还干不了什么

海滩球捡回来这一步，Opus 4.7 没成功。这步要的是闭环控制：实时看球跑偏了没有、偏多少、上一条命令怎么影响的、下一条怎么调。人类练几次能做到，模型目前做不到精细调节。Anthropic 说一个更有机器人经验的研究员用更长时间和更多脚手架把自主捡球跑通了，他们觉得当前 Claude 给足时间和脚手架大概率也行，但“同样速度和可靠性还做不到”。

这其实是个有用的边界提示：模型在“感知、规划、写上层程序”这一层已经很快很稳，但一碰到需要实时闭环微调的底层控制，就退回到“能摆位置，不能精调”的水平。

一个值得记住的模式

Anthropic 在文里点出了一个三段式规律：先是模型帮人，再是人帮模型，最后是模型基本自己干。他们在网络安全领域已经看到过一遍，现在在物理世界又重演。第一期是“模型帮人”，第二期开始进入“模型自己干”的早期。

这个模式对普通使用 AI 智能体的人有直接启发。你现在用 Claude Code、Cursor、OpenClaw 这类工具写代码，大概率还停留在“模型帮人”的阶段，你盯着它每一步。但同样的任务链条里，感知、规划、接口选择、上层脚本这些环节，模型已经可以几乎独立完成，你只需要批准。真正还需要你动手的是那种需要反复试错微调的精调环节，比如调一个很难复现的并发 bug、调一个对时序敏感的动画。

实际操作上可以做的调整：把任务链条里“理解 API、选接口、写骨架代码、跑通连接”这一类交给模型自主跑，你只做批准和验收。把“反复微调到对”这一类留给自己或留给更长的脚手架循环。别再全程盯着模型写每一行，那是浪费你的时间，也浪费模型能自主的那部分能力。

几个要克制乐观的地方

第一，这次任务的物理复杂度其实很低。机器狗是现成的，传感器是标准接口，任务范围被精心设计过。真实世界里你要让模型操作一台没文档的旧设备、一个有噪声的工业传感器，难度会陡升。

第二，“快 20 倍”是和不到一年的非专家人类比，不是和机器人专家比。Anthropic 自己也说这不是“LLM 解决了机器人学”。

第三，通用 scaling 带来的能力跃迁确实在发生，但物理世界的数据反馈闭环比软件世界慢得多、贵得多。软件里模型可以一次跑几千次 eval，物理里一次试错就是真机器真时间。所以“物理智能体”的曲线大概率不会像代码智能体那么陡。

保持关注的点：模型能不能开始为特定硬件写定制控制策略，而不只是调用现成 API。那才是从“用工具”到“造工具”的跨越，也是 Anthropic 说“现在下结论还早”的地方。

引用来源：

Anthropic，“Project Fetch: Phase two”，2026-06-18 — https://www.anthropic.com/research/project-fetch-phase-two
Anthropic，“Project Fetch: Can Claude train a robot dog?”，2025-11-12 — https://www.anthropic.com/research/project-fetch-robot-dog
Hacker News，“Project Fetch: Phase Two”讨论 — https://news.ycombinator.com/item?id=48614311
Anthropic Engineering，“Building effective agents”，2024-12-19 — https://www.anthropic.com/engineering/building-effective-agents
Anthropic Engineering，“Effective context engineering for AI agents”，2025-09-29 — https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
AI Daily Dev，2026-06-19 — https://ai-daily.dev/

实验到底跑了什么

数据怎么看

还干不了什么

一个值得记住的模式

几个要克制乐观的地方

相关文章

JetBrains Junie 正式版：AI 编程 Agent 学会了用调试器断点

能自主运行数天的神话级模型 Claude Fable 5 正式发布

别再纠结 Claude Code 还是 Cursor，高效开发者在同时用两个

评论区