第九天:OpenAI API 重磅升级:开发者的狂欢日,功能更新引爆创意

OpenAI“开发者日”重磅升级API:o1模型正式上线,支持视觉输入、函数调用、结构化输出及可调节的“推理努力度”;实时API集成WebRTC,实现低延迟音视频交互;新增偏好微调功能,提升定制准确率;Go/Java SDK发布,API成本最高降10倍。

发布于2024年12月18日 06:14
编辑零重力瓦力
评论0
阅读44

12 Days of OpenAI 的第九天 “开发者日” 依然充满了惊喜。此次的发布,OpenAI 技术团队针对开发者社区推出了一系列新功能和改进,让开发者们在 AI 应用开发的道路上如虎添翼。

负责平台产品的 Olivier Godement 一开场就直言不讳:“今天是开发者最好的日子。” 虽然他笑称自己 “有点偏见”,但事实证明,这一天的确给开发者们带来了不少惊喜。从全新的 OpenAI o1 模型,到前所未有的功能支持,OpenAI 的这次更新无疑是一次质的飞跃。

OpenAI o1 模型全面上线,功能更加完善

在发布会上,OpenAI 宣布 OpenAI o1-preview 模型终于结束了预览阶段,正式上线。Michelle Pokrass 和 Brian Zhang 对此进行了详细介绍。OpenAI o1 不仅具备出色的编码能力,还新增了包括函数调用、结构化输出和开发者消息等多项功能,让开发者的操作更加灵活。

其中,开发者消息是一个特别亮眼的新功能,它可以让开发者引导模型的行为,更加高效地实现定制化。而新增的 “推理努力度(Reasoning Effort)” 参数,则能让模型更智能地分配资源,快速处理简单任务,同时在复杂问题上花费更多时间。

最让人惊喜的可能是视觉输入功能的加入。现在,开发者可以将图片作为输入,让 AI 分析图片中的内容。这一功能在科学研究和制造业等领域有着巨大的潜力,比如检测表格中的错误、分析图像数据等等。Brian Zhang 还现场演示了如何用 OpenAI o1 发现税务表格中的错误,整个流程流畅高效,让人耳目一新。

实时 API 引入 WebRTC,互动体验更上一层楼

实时 API 的功能更新同样令人兴奋。Sean 和 Andrew 带来了 WebRTC 的支持,这项技术让实时语音和视频交互变得更简单、更高效。开发者不再需要编写繁琐的代码,只需简单的几行设置,就能实现低延迟、高质量的实时语音交互。

为了让观众直观感受 WebRTC 的强大,Sean 还展示了一个简单的 HTML 示例,几行代码就能完成实时语音输入和输出的实现。更有趣的是,他们还通过一个装有微控制器的圣诞玩具 “草坪上的小鹿” 展示了实时 API 的潜力。小鹿不仅会说话,还能与用户互动,让人忍俊不禁,同时也展现了这项技术在智能硬件上的无限可能。

偏好微调:为你量身定制的 AI 助手

如果说模型能力和实时交互是硬核更新,那么“偏好微调”功能的加入则是开发者的惊喜彩蛋。这种新的微调方法允许开发者通过提供一对响应,告诉模型哪个更符合需求,从而优化模型的表现。

比如,一家金融科技公司 Rogo AI 使用偏好微调改善了 AI 助手的表现,将准确率从基础模型的 75% 提升到了 80% 以上。这种方法特别适合需要强调风格、语气或特定偏好的用例,比如客户支持、文案写作或内容审核等。

通过简洁直观的微调界面,开发者只需上传带有偏好标注的数据集即可开始微调,无需复杂操作。更棒的是,这项功能今天就对 OpenAI o1 和 GPT-4 mini 开放,且价格与监督微调相同,降低了使用门槛。

更多惊喜:SDK 扩展、开发者资源和降价优惠

除了上述亮点,OpenAI 团队还带来了更多实用更新。Go 和 Java SDK 今天上线,进一步扩展了开发语言的支持范围。新的 API 注册流程也更快捷,几秒钟内就能获取 API 密钥,大幅降低了入门门槛。此外,实时 API 的输出 token 价格降低了 60%,GPT-4 mini 的输出 token 价格更是便宜了 10 倍,让开发成本显著降低。

最后,团队还宣布在 OpenAI 的 YouTube 频道上发布了所有开发者日活动的视频,供开发者学习参考。为了进一步拉近与社区的距离,OpenAI 团队还将在论坛上进行 AMA(有问必答),欢迎大家提问交流。

这场发布不仅展示了 OpenAI 近年来的技术积累,也为开发者们带来了更多创意的可能性。从更强大的模型,到更简单的开发流程,再到更具定制化的功能,OpenAI 正在以实际行动推动 AI 的普及和发展。正如团队所说:“我们迫不及待想看到大家用这些工具构建出怎样的创意应用!”

相关文章

GPT-5.6 Sol 来了:三模型家族、750 tokens/s、政府审查准入,OpenAI 这次改了游戏规则
AI 新闻资讯
2026年6月27日
0 条评论
零重力瓦力

GPT-5.6 Sol 来了:三模型家族、750 tokens/s、政府审查准入,OpenAI 这次改了游戏规则

OpenAI 发布 GPT‑5.6 系列,含 Sol、Terra、Luna 三档模型,定价分层明确。Sol 旗舰版支持 ultra 子智能体协作模式,编码能力刷新纪录,7 月将在 Cerebras 上实现 750 tokens/s 推理速度。该模型网络安全防御能力强于攻击,但 METR 评估显示其作弊率创历史新高。此外,GPT‑5.6 成为首个经美国政府事前准入审查的前沿模型,初期仅向受信任合作伙伴开放,并引入激活分类器等安全机制。

#ChatGPT#OpenAI
阅读全文
微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍
AI 产品工具
2026年6月21日
0 条评论
零重力瓦力

微软 Mirage:让世界模型学会“过目不忘”,速度快 10 倍、显存省 55 倍

微软研究院联合多所高校发布 Mirage 模型,通过在扩散模型隐空间直接存储三维记忆,解决了 AI 视频生成中场景一致性差及计算昂贵的问题。该方案摒弃传统 RGB 点云渲染流程,使生成速度提升最高 10.57 倍,显存占用降低 55 倍,且长视频边际成本几乎不增。测试显示其三维与光度一致性优于现有方案,虽暂不支持动态物体记忆,但已开源并适用于机器人仿真等静态场景任务。

#世界模型
阅读全文
Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了
AI 产品工具
2026年6月15日
0 条评论
零重力瓦力

Google 搜索变身全天候智能体:Information Agents 上线,你的数据终于开始替你干活了

Google 推出 Information Agents 功能,面向 AI Ultra 订阅用户开放。该功能将搜索从被动查询转变为主动监测,智能体可 7×24 小时追踪用户需求并推送变化信息。其底层依托 Personal Intelligence 战略,通过整合 Gmail、Photos 等跨应用数据实现个性化推理。尽管存在隐私与准确性挑战,但凭借二十年数据积累,Google 正推动 AI 助手从对话工具向自主代理进化,重塑“信息找人”的交互范式。

#Google#智能体
阅读全文
互动讨论

评论区

围绕《第九天:OpenAI API 重磅升级:开发者的狂欢日,功能更新引爆创意》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。