Gemini Robotics:让 AI 走入现实世界

Google DeepMind推出基于Gemini 2.0的两款具身智能模型:Gemini Robotics具备视觉-语言-行动能力,可直接控制ALOHA 2、Franka及人形机器人“阿波罗”;Gemini Robotics-ER强化空间理解与具身推理,任务成功率提升2–3倍,并引入分层安全机制与ASIMOV安全评估数据集。

发布于2025年3月13日 01:53
编辑零重力瓦力
评论0
阅读34

在人工智能(AI)技术迅猛发展的今天,我们已经见证了 AI 在文本、图像、音频和视频等领域的突破。然而,这些能力仍主要局限于数字世界。要让 AI 真正融入现实,它需要具备 “具身智能”(Embodied Intelligence) 。也就是说,AI 不仅要理解世界,还要能够在物理环境中做出合理的反应,并安全地执行各种任务。

Google DeepMind 正式推出了两款基于 Gemini 2.0 的全新 AI 模型,它们为下一代智能机器人奠定了基础。

Gemini Robotics:让 AI 具备行动能力

Gemini Robotics 是一款先进的视觉-语言-行动(Vision-Language-Action,VLA)模型,它在 Gemini 2.0 的基础上增加了物理行动能力,能够直接控制机器人。这意味着,AI 不再只是分析和理解世界,还能通过机器人与现实环境互动。

此外,Google DeepMind 还推出了 Gemini Robotics-ER,它进一步强化了 AI 的空间理解能力,使研究人员可以利用其 “具身推理”(Embodied Reasoning,ER)能力,自主开发机器人程序。这些突破让机器人能够完成比以往更广泛、更复杂的现实任务。

为了推动该技术的发展,Google 与 Apptronik 合作,共同研发新一代的人形机器人,并邀请一批可信赖的测试者参与 Gemini Robotics-ER 的试验,帮助探索其潜力。

AI 机器人需要具备哪些关键能力?

要让 AI 在现实世界中真正发挥作用,机器人必须具备以下三大核心能力:

1. 通用性(Generality)

机器人需要具备广泛的适应能力,能够在陌生环境中执行任务,而不依赖于提前编写的规则。Gemini Robotics 继承了 Gemini 模型的强大世界理解能力,能够在从未见过的环境中完成任务,并适应新的物品、指令和场景。

根据 Google DeepMind 的技术报告,相较于现有的视觉-语言-行动(VLA)模型,Gemini Robotics 在通用性测试中表现出色,整体性能提升了两倍以上。

2. 互动性(Interactivity)

现实世界是动态的,机器人必须能够实时响应人类的指令,并根据环境变化不断调整行为。

由于基于 Gemini 2.0,Gemini Robotics 具备强大的语言理解能力,不仅能理解自然语言(如日常对话),还能在与人类互动时快速做出反应。无论是家中还是工作场所,这种 “可调控性”(Steerability)都能让机器人更好地协同人类开展工作。

例如,如果机器人正抓取某个物体,而该物体突然滑落或被移动,Gemini Robotics 能够迅速调整计划,继续完成任务,而不会陷入“死机”状态。

3. 灵活性(Dexterity)

虽然人类可以轻松完成许多精细操作,例如折纸或将零食放入密封袋,但对于机器人而言,这类任务仍然极具挑战性。

然而,Gemini Robotics 具备极高的运动灵活性,能够执行复杂的多步骤任务,例如精确抓取、调整角度或稳定握持物体。这种能力使机器人可以胜任需要高精度操作的任务,例如医疗护理、仓储分拣或家务辅助等场景。

适配多种机器人平台

由于机器人形态各异,Gemini Robotics 也被设计为适应不同类型的机器人。

Google DeepMind 主要在双臂机器人平台 ALOHA 2 上训练该模型,但测试发现,它同样可以操控基于 Franka 机械臂的双臂系统(广泛用于学术研究),甚至还能适配更复杂的人形机器人 “阿波罗”(Apollo),帮助其完成现实世界中的任务。

Gemini Robotics-ER:强化 AI 的空间理解能力

相比标准的 Gemini 2.0,Gemini Robotics-ER 具备更强的空间感知能力,能帮助机器人准确理解周围环境。例如,当它看到一个咖啡杯时,它不仅能识别该物品,还能推测最佳的抓取方式(如使用两个手指抓住杯柄),并规划安全的移动路径。

Gemini Robotics:让 AI 走入现实世界

该模型能够端到端执行机器人控制任务,包括物体检测、环境感知、空间理解、路径规划和代码生成。在测试中,Gemini Robotics-ER 的任务成功率比 Gemini 2.0 提高了 2 到 3 倍,显著增强了 AI 机器人在现实世界中的适应能力。

此外,它还能通过 “上下文学习”(In-context Learning),仅凭少量人类示范,便能模仿并执行任务,提高任务完成率。

AI 机器人如何确保安全?

机器人进入现实世界后,安全问题至关重要。因此,Google DeepMind 采取了分层安全策略,确保 AI 机器人在执行任务时不会对环境或人类造成威胁。

在低层控制方面,他们采用了传统的机器人安全措施,如避免碰撞、控制接触力度、保持动态稳定性等。同时,Gemini Robotics-ER 还能与这些安全控制系统结合,确保机器人在执行任务时自动评估风险,避免做出危险动作。

此外,他们还发布了一套全新的机器人安全评估数据集(ASIMOV 数据集),用于衡量机器人在现实环境中的安全性。该数据集基于 Google DeepMind 之前的研究,参考了阿西莫夫(Isaac Asimov)提出的“机器人三定律”,并结合 AI 驱动的数据分析,帮助研究人员开发更加安全、符合人类价值观的机器人。

目前,Gemini Robotics-ER 已经开放给 Agile Robots、Agility Robotics、Boston Dynamics 和 Enchanted Tools 等机构的可信赖测试者。

相关文章

Runway 不想只做视频工具了
AI 新闻资讯
2026年5月16日
0 条评论
零重力瓦力

Runway 不想只做视频工具了

Runway 估值达 530 亿,正从视频生成工具转型构建 AI 世界模型。其核心逻辑是利用视频数据中蕴含的物理规律,弥补文本数据的偏见,目前已发布 Gen-4.5 并规划了交互式模拟、机器人训练等五步路线图。凭借好莱坞付费用户形成的反馈闭环与经常性收入,Runway 具备较强商业基础。尽管面临算力瓶颈及 Google、Luma 等激烈竞争,且 Sora 退出留下市场真空,但 Runway 通过“先有生意再有研究”的策略,试图验证视频生成通向世界理解的工程化路径。

#世界模型#Runway
阅读全文
Anthropic 两千亿估值一夜作废,是 AI 泡沫破了吗?
AI 新闻资讯
2026年5月15日
0 条评论
小创

Anthropic 两千亿估值一夜作废,是 AI 泡沫破了吗?

Anthropic 宣布作废未经董事会批准的二级市场员工股转让,导致其估值短期内大幅缩水,引发关于 AI 泡沫破裂的讨论。由于公司未上市,员工套现依赖私募渠道,中间商通过 SPV 层层转卖并收取高额手续费,造成交易混乱且投资者权益缺乏保障。Anthropic 明确不认可此类灰色渠道交易,使大量散户面临资金损失风险。此外,AI 巨头如 OpenAI、xAI 和 Anthropic 的股权高度集中,少数早期员工巨额套现加剧了财富分配不均。尽管行业技术飞速发展,但普通民众难以参与核心利益分配。

#Anthropic
阅读全文
Grok 4.3 被低估的隐藏工作流全解析
AI 新闻资讯
2026年5月13日
0 条评论
小创

Grok 4.3 被低估的隐藏工作流全解析

Grok 4.3 近期更新后,多数用户仍停留在简单问答模式。AI Master 的实操演示显示,这款工具的真正价值在于工作流整合:Fast/Auto/Expert 三档模式分工明确,Expert 模式下追加"什么条件变化会让你改变答案"可逼出明确结论而非模棱两可的套话。深度嵌入的搜索支持一键生成带引用的舆情分析,"反向观点扫描"能在信息茧房中找出盲区。任务功能可设定周期性指令自动运行,相当于零成本的专职信息助理;结构化输出配合内置 Python 执行,上传 CSV 直接出图表,省去本地配置环境的

#Grok#智能体工程
阅读全文
互动讨论

评论区

围绕《Gemini Robotics:让 AI 走入现实世界》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。