Google 已正式通过 Gemini API 和 Vertex AI 推出 Gemini Embedding 2 的正式可用版。这款原生多模态嵌入模型,目标很直接,就是把此前还停留在实验和原型阶段的多模态项目,真正推进到生产环境。
Gemini Embedding 2 最早发布时, Google 面向开发者和企业的核心卖点,是“原生多模态嵌入”。换句话说,开发者可以用同一套能力处理文本、图像、视频和音频数据,不必再为不同模态分别搭建割裂的处理链路。预览阶段,已有用户基于这项能力做出一批颇具代表性的原型产品,包括更先进的电商搜索与发现引擎,以及更高效的视频分析工具。
这些案例反映出一个很现实的行业需求。过去,想让系统同时完成跨文本、图像、视频和音频的搜索与推理,往往得依赖复杂而分散的技术管线。工程成本高,维护也麻烦。 Gemini Embedding 2 试图解决的,正是这类多模态系统长期存在的碎片化问题。
这次进入正式可用阶段, Google 强调的重点不再是“能不能做”,而是“能不能稳定上线”。官方说法是, Gemini Embedding 2 已具备支撑生产部署所需的稳定性和性能优化。这意味着,企业如果已经在预览阶段完成验证,现在可以把相关应用更放心地迁移到正式业务场景中。
从产品定位看, Gemini Embedding 2 并不是一个边缘实验项目。 Google 表示,这项技术本身已经是多个 Google 产品背后的核心能力之一。现在将这部分研究成果开放给开发者社区,某种程度上也说明,多模态嵌入正在从研究概念变成更标准化的基础设施。


