OpenAI 发布 o3 和 o4-mini，模型推理与多模态能力迈入全新阶段

OpenAI发布o3与o4-mini，首次将工具调用深度融入思维链，支持数百次自动多轮操作；在编程（SWE-bench最优）、科研、法律等垂直领域表现突出；强化多模态推理，可处理低质图像并调用Python工具；配套Codex CLI提升本地自动化能力，兼顾性能、成本与实用性。

发布于2025年4月17日 04:50

编辑零重力瓦力

评论0 条

阅读50

#OpenAI #思维链 #多模态

OpenAI 刚刚发布了两款新推理模型 o3 和 o4-mini，标志着其推理与多模态能力进入了全新阶段。

模型的“系统化”能力成为本次升级的核心亮点。不同于以往仅仅作为推理引擎的模型，新一代产品被训练为能够使用外部工具的智能体，并能在复杂的任务中进行多轮工具调用。例如在实际案例中，o3 模型为了解决特定问题，能够连续调用数百次外部工具，这一自动化与高效性极大提升了模型解决复杂任务的能力。更重要的是，这种工具调用已深度嵌入其“思维链”之中，而非简单的函数调用。这种模式带来的不仅是推理能力的提升，也为模型在真实世界多任务环境下的适用性提供了基础。

在法律、软件工程、科研等垂直领域，o3 和 o4-mini 展现出强大的专业能力。以编程为例，模型不仅能生成单一的代码片段，更能理解并操作实际的代码库，完成端到端的自动调试和修复，甚至在 SWE-bench 基准测试上实现了最优成绩。

在科研场景中，模型能够理解和处理复杂的物理学数据，通过自动化分析流程完成结果对比和前沿文献的检索，省去了研究人员大量的数据整理与查阅时间。这种能力的提升，部分得益于强化学习算法的持续优化以及大规模算力的投入，使得模型在训练与推理阶段都获得了更好的泛化表现。

多模态推理是 o3 和 o4-mini 另一个显著的进步。模型不仅能够处理文本输入，还能结合图像、数据等信息源进行综合分析。例如，模型能够识别和处理上传的复杂、低质量甚至倒置的图像，并通过 Python 工具进行裁剪、转换，辅助完成用户目标。这为实际应用中的任务多样性提供了支撑，并推动了模型性能在多模态基准（如 MMMU、Mathvista 等）上的显著提升。

值得关注的是，OpenAI 还同步推出了 Codex CLI 等工具，让用户能够在本地环境下通过简单接口调用模型，实现自动化脚本编写、代码仓库管理等功能。

在模型评估和优化上，新一代模型不仅在数学、编程等传统任务上取得了远超前代的表现，在推理成本与速度方面也进行了优化。对于实际应用而言，这意味着更低的延迟和更高的性价比，有助于模型在企业级和日常场景中的广泛落地。

整体来看，o3 和 o4-mini 的发布，不只是算力和参数规模的升级，更是智能体范式和多模态推理能力的一次巨大进步。模型正在从“仅能输出答案”的工具，转变为能主动分析、规划并操作外部系统的智能助手。未来，这种范式有望重构知识工作、科学研究以及软件开发等领域的生产力结构。但与此同时，模型的安全性、可控性以及对外部世界的理解深度，仍然是下一阶段持续优化的关键。

#AI技术[超话]# #AI编程# #OpenAI推出o4# #多模态推理模型# #AI创造营#

OpenAI 发布 o3 和 o4-mini，模型推理与多模态能力迈入全新阶段

相关文章

GPT-5.6 Sol 来了：三模型家族、750 tokens/s、政府审查准入，OpenAI 这次改了游戏规则

Visa 把支付网络接进了 ChatGPT，AI 智能体终于能自己花钱了

SpaceX 4320 亿买下 Cursor：马斯克用一场 IPO 的钱，赌 AI 编程的未来

评论区