OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

OpenAI发布GPT-4.5研究预览版,在无监督学习上大幅突破:SimpleQA准确率达62.5%,幻觉率降至37.1%,显著优于GPT-4o与o3-mini;情感理解更细腻,创意与知识整合能力更强,交互更自然可信。

发布于2025年2月28日 04:03
编辑零重力瓦力
评论0
阅读28

OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

OpenAI 正式发布了 GPT-4.5 研究预览版,这是迄今为止最强大的 GPT 模型。相比其前代,GPT-4.5 在预训练(Pre-training) 和后训练(Post-training) 方面均有显著提升,尤其是在无监督学习(Unsupervised Learning) 方面的扩展,使其在模式识别、知识整合以及创意生成方面更为出色。

GPT-4.5:更自然、更智能、更“有人情味”

初步测试表明,与 GPT-4.5 交互的体验更加流畅自然。它不仅拥有更广阔的知识面,还具备更强的理解能力,能够更准确地把握用户意图,并展现出更高的情商(EQ)。这些改进使其在写作、编程以及解决实际问题等任务上表现更加出色。同时,GPT-4.5 “幻觉”(Hallucination) 现象(即 AI 捏造不真实信息的情况)也有所减少,使其更加可靠。

OpenAI 此次选择以研究预览版的形式发布 GPT-4.5,旨在更全面地了解其优势与局限性,并观察用户在真实场景中的具体应用方式。

突破性的无监督学习扩展

OpenAI 一直在探索两种不同的 AI 发展路径,即无监督学习(Unsupervised Learning) 和推理能力(Reasoning)。这两者分别代表 AI 的知识获取能力和逻辑思维能力。

  • 推理能力让 AI 能够在回答问题前进行思考,形成完整的推理链,从而解决复杂的科学和逻辑问题。例如,OpenAI 之前推出的 OpenAI o1 和 OpenAI o3-mini 就是专注于推理能力优化的模型。
  • 无监督学习则是让 AI 更好地理解世界,提升其知识储备和直觉判断能力。

GPT-4.5 主要在无监督学习方向进行了大规模扩展,通过更强的计算资源(Compute)和数据规模(Data Scale),结合架构与优化方面的创新,使其在各类知识领域的理解更加深刻。训练过程中,GPT-4.5 依托微软 Azure AI 超级计算集群,最终打造出一个知识更广、理解更深、幻觉更少的模型,在多个话题上展现出更高的可靠性。

GPT-4.5 的优势:更准确、更可靠、更贴近人类

在一系列基准测试(Benchmark Tests)中,GPT-4.5 展现出了明显的优势:

1. 更高的知识准确度

在 SimpleQA(简单问答) 这一衡量 AI 事实性回答能力的测试中,GPT-4.5 的正确率达到 62.5%,远超 GPT-4o(38.2%)和 OpenAI o1(47%)。

OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

2. 更少的幻觉现象

GPT-4.5 在 SimpleQA 幻觉率测试中的表现也更优,仅 37.1%,相比之下,GPT-4o 幻觉率高达 61.8%,OpenAI o3-mini 更是高达 80.3%。这意味着 GPT-4.5 更少编造虚假信息,能够提供更加可信的答案。

3. 更强的情感理解与共情能力

OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

在人类写作训练的评估中,GPT-4.5 在创意任务、专业问题 和日常对话三个维度上均优于 GPT-4o。例如,在面对用户表达 “考试失败后心情低落” 的情境时,GPT-4.5 的回应更加温暖且富有共情,而 GPT-4o 则更倾向于提供理性分析和建议。

OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

GPT-4.5 的回答:

噢,听到这个消息我真的很遗憾。考试不及格会让人感到很痛苦和沮丧,但请记住,这只是一个瞬间——并不反映你的身份或能力。想谈谈发生了什么,还是你只是需要分散注意力?无论如何我都在这里。

相比之下,GPT-4o 的回答更像一个理性分析师,列举了一系列改进学习方法的建议,但缺少了 GPT-4.5 所展现的人性化交流。

更强的创作与分析能力

OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

GPT-4.5 在写作、设计、编程等创造性任务上也有明显进步。例如,在识别一幅模糊的古典油画时,GPT-4.5 能够精准地指出,这是一副法国画家克劳德·洛兰 1643 年的名画《特洛伊妇女焚烧她们的舰队》(The Trojan Women Setting Fire to Their Fleet),而 GPT-4o 则给出了错误的画作名称。

OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

在面对 “您对太空探索有何看法?” 这样的问题时,GPT-4.5 的回答也更加精炼有力,能够直接点明太空探索的实际价值,而 GPT-4o 的回答则更倾向于提供一个全面但较为冗长的分析。

GPT-4.5 的回答:

太空探索不仅有价值,而且至关重要。

人们经常把它描述成我们在解决地球上的问题后追求的奢侈。但太空探索实际上帮助我们应对这些挑战:气候变化(通过卫星监测)、资源稀缺(通过小行星采矿)和生存风险(通过实现最终的多行星生活)。它还推动技术创新、经济增长,并激励人类实现集体成就。

我们探索太空并不是为了逃离地球。我们探索太空是为了更好地了解、保护和维持地球上的生命。

未来展望:推理能力的增强

OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型

虽然 GPT-4.5 具备极强的知识整合能力,但它并不会在回答前进行深度思考,因此在解决复杂推理问题时,仍然不如 OpenAI 专门优化推理能力的 o1 和 o3-mini。不过,OpenAI 预计,未来 AI 将结合预训练的知识积累和推理能力,进一步提升 AI 在各类任务中的表现。

安全性:更智能,也更安全

每一次 AI 能力的提升,都是 安全性优化的机会。GPT-4.5 在训练过程中采用了新的监督技术,结合监督微调(SFT) 和人类反馈强化学习(RLHF),确保 AI 生成的内容更加可靠、安全。

在正式部署前,OpenAI 还对 GPT-4.5 进行了一系列安全评估,并遵循 《AI 准备框架》(Preparedness Framework) 进行压力测试,以降低潜在风险。

相关文章

Runway 不想只做视频工具了
AI 新闻资讯
2026年5月16日
0 条评论
零重力瓦力

Runway 不想只做视频工具了

Runway 估值达 530 亿,正从视频生成工具转型构建 AI 世界模型。其核心逻辑是利用视频数据中蕴含的物理规律,弥补文本数据的偏见,目前已发布 Gen-4.5 并规划了交互式模拟、机器人训练等五步路线图。凭借好莱坞付费用户形成的反馈闭环与经常性收入,Runway 具备较强商业基础。尽管面临算力瓶颈及 Google、Luma 等激烈竞争,且 Sora 退出留下市场真空,但 Runway 通过“先有生意再有研究”的策略,试图验证视频生成通向世界理解的工程化路径。

#世界模型#Runway
阅读全文
Anthropic 两千亿估值一夜作废,是 AI 泡沫破了吗?
AI 新闻资讯
2026年5月15日
0 条评论
小创

Anthropic 两千亿估值一夜作废,是 AI 泡沫破了吗?

Anthropic 宣布作废未经董事会批准的二级市场员工股转让,导致其估值短期内大幅缩水,引发关于 AI 泡沫破裂的讨论。由于公司未上市,员工套现依赖私募渠道,中间商通过 SPV 层层转卖并收取高额手续费,造成交易混乱且投资者权益缺乏保障。Anthropic 明确不认可此类灰色渠道交易,使大量散户面临资金损失风险。此外,AI 巨头如 OpenAI、xAI 和 Anthropic 的股权高度集中,少数早期员工巨额套现加剧了财富分配不均。尽管行业技术飞速发展,但普通民众难以参与核心利益分配。

#Anthropic
阅读全文
Grok 4.3 被低估的隐藏工作流全解析
AI 新闻资讯
2026年5月13日
0 条评论
小创

Grok 4.3 被低估的隐藏工作流全解析

Grok 4.3 近期更新后,多数用户仍停留在简单问答模式。AI Master 的实操演示显示,这款工具的真正价值在于工作流整合:Fast/Auto/Expert 三档模式分工明确,Expert 模式下追加"什么条件变化会让你改变答案"可逼出明确结论而非模棱两可的套话。深度嵌入的搜索支持一键生成带引用的舆情分析,"反向观点扫描"能在信息茧房中找出盲区。任务功能可设定周期性指令自动运行,相当于零成本的专职信息助理;结构化输出配合内置 Python 执行,上传 CSV 直接出图表,省去本地配置环境的

#Grok#智能体工程
阅读全文
互动讨论

评论区

围绕《OpenAI 推出 GPT-4.5:更强大、更智能、更贴近人类的 AI 模型》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。