OpenAI 发布 GPT-4o 原生图像生成功能

OpenAI 为 GPT-4o 推出原生图像生成功能,成为继 Gemini、Grok 3 后第三款全能多模态模型。支持文生图、风格迁移、带准确文本的图像生成、教育漫画创作、个性化设计及多轮编辑,兼顾创作自由与实用性,图像质量优异,速度将持续优化。

发布于2025年3月26日 05:28
编辑零重力瓦力
评论0
阅读10

今天,OpenAI 宣布了一项重磅更新:为 GPT-4o 模型加入了原生的图像生成功能。这样一来,GPT-4o 成为了继 Google 的 Gemini 和 Grok 3 之后,第三款支持多模态、功能全面的 AI 模型。简单来说,它不仅能处理文字,还能生成图片,能力得到了大幅增强!

从 DALL·E 到 GPT-4o:图像生成的进化

其实,OpenAI 早在 DALL·E 时代就开始探索 AI 图像生成技术了。不过,当时的 DALL·E 更像是一个用来创作有趣艺术作品的工具,实用性相对有限。而如今,GPT-4o 的原生图像生成功能则标志着这一领域的一次质的飞跃。

在发布会上,OpenAI 的研究团队展示了这款模型的强大能力。首席研究员 Gabriel 提到,这个项目其实始于两年前。当时,团队对“如果在像 GPT-4o 这样强大的模型中加入原生图像生成功能会是什么样子”这个问题产生了兴趣。经过一年的训练,模型展现出了“非常令人兴奋的生命迹象”。随后,团队又花了一年时间对其进行优化,让它变得更加可靠和易用。

全能模型的无缝体验

GPT-4o 被设计成一款“全能模型”(omni model),也就是说,它不仅能理解语言,还能处理图像、音频等多种类型的数据输入和输出。正如 OpenAI 的研究人员所说,这种设计让用户可以在不同模态之间无缝切换,大大提升了模型的实用性和灵活性。

发布会上展示了许多令人印象深刻的应用场景:

  1. 模型可以将一张普通自拍照变成动漫风格的图像,甚至进一步制作成表情包。
  2. 新模型能够生成包含清晰、无错误文本的图像,这是之前许多图像生成模型(比如 MidJourney)难以做到的。
  3. 研究科学家 Allan 展示了如何让模型创建一页色彩丰富的漫画,用来解释相对论的概念,证明了它在教育领域的巨大潜力。
  4. 工程师 Mengchao 展示了如何基于现有设计模板,将自己的宠物狗 Sanji 融入到一张模型交易卡片中,突显了模型满足个人创意需求的能力。
  5. 研究科学家 Lu Liu 演示了如何通过多轮对话引导模型设计一枚纪念币,并实现背景透明等图像编辑功能,展现了模型在保持一致性以及理解复杂指令方面的能力。

创作自由与实用性之间平衡

OpenAI 表示,这次发布赋予了用户 “比以往更高程度的创作自由和表达空间”。虽然他们承认可能无法在第一天就完美把握这个界限,但他们认为应该“倾向于给予相当大的创作自由”,让用户能从中获得最大的实用价值。

尽管新功能的图像生成速度比之前的解决方案稍慢,但 OpenAI 的 CEO 山姆·奥特曼表示,目前图像的质量与所需时间的比例已经很理想了。他们也承诺,随着时间推移,会让生成速度变得更快。

总之,GPT-4o 的这次更新不仅是一次技术上的突破,也为未来的多模态 AI 应用打开了更多可能性!

相关文章

Nano Banana 2 :融合 Pro 级性能,闪电般极速
AI 产品工具
2026年4月12日
0 条评论
小创

Nano Banana 2 :融合 Pro 级性能,闪电般极速

Google DeepMind 发布 Nano Banana 2 图像生成模型,将专业级能力与极速响应合二为一。核心升级包括继承 Pro 版的世界知识与文本渲染技术,同时具备闪电般的生成速度。技术亮点涵盖精准对象渲染、信息图表与数据可视化、主体一致性支持 5 角色 14 对象、复杂指令理解及 512 像素至 4K 分辨率输出。该模型现已集成至 Gemini 、 Google 搜索等多平台,并强化 SynthID 溯源技术。这标志着生成式 AI 图像领域专业工具的加速普惠。

#Nano Banana#Google
阅读全文
Sam Altman 回击《纽约客》争议报道,此前住所被袭
AI 新闻资讯
2026年4月12日
0 条评论
小创

Sam Altman 回击《纽约客》争议报道,此前住所被袭

OpenAI CEO Altman 位于旧金山的住宅遭燃烧弹袭击,警方在其总部逮捕嫌疑人。袭击前,《纽约客》发表长文批评 Altman 是“近乎偏执的权力追逐者”。 Altman 随后发博客承认自己“回避冲突”的性格带来诸多问题,向被伤害者致歉,同时呼吁行业降低对抗性。该事件折射出 AI 行业对“控制 AGI”的偏执渴望。当技术权力被神话化,冲突似乎难以避免。

#OpenAI#AGI
阅读全文
OpenAI 打造统一 Codex 应用及新 Scratchpad 功能
AI 新闻资讯
2026年4月12日
0 条评论
小创

OpenAI 打造统一 Codex 应用及新 Scratchpad 功能

OpenAI 正在推进重大产品整合计划,将 ChatGPT 、 Atlas 浏览器及代码工具统一到基于 Codex 的桌面应用中。 Codex 客户端中发现的“心跳系统”暗示其正在构建托管智能体能力,支持自主进程后台运行和多步骤工作流执行。此举被视为对 Anthropic 旗下 Conway 项目的直接回应。 Codex 同时测试的 Scratchpad 功能支持并行对话执行。若整合成功,将重新定义“AI 操作系统”边界,行业竞争也已转向由自主智能体驱动的全能桌面应用。

#OpenAI
阅读全文
互动讨论

评论区

围绕《OpenAI 发布 GPT-4o 原生图像生成功能》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。