GPT-4.5:AI世界的 "高情商选手" 如何悄悄改变人机互动规则

GPT-4.5并非以推理见长,而是首次在情感智能(EQ)上实现突破:能自然感知情绪、适时倾听或引导对话,在“Make Me Pay”等社交影响测试中成功率远超前代。它代表一种新智能范式——重共情而非算力,但成本高昂、知识滞后。

发布于2025年3月1日 06:08
编辑零重力瓦力
评论0
阅读54

OpenAI 昨天低调发布了全新的 GPT-4.5。然而,不少评论认为,这款最新模型除了价格高得令人咋舌外,在技术上并无显著突破,各项基准测试的表现也较为平淡。那么,事实真的如此吗?

著名 AI 媒体人 TheAIGRID 持不同观点。经过对 ChatGPT 4.5 模型系统卡的深入研究,他揭示了 GPT-4.5 隐藏的秘密,让我们得以窥见其真正的潜力。

表面上看,GPT-4.5 在传统基准测试中表现一般,在科学推理(GPQA)、数学(AIME 2024)、多语言理解(MMMLU)等方面仅仅超越了 GPT-4o,却不如 o3-mini。不过,这些数字只是冰山一角,并不足以展示这个模型的真正价值。

GPT-4.5 最引人注目的特点不是它的计算能力或推理能力,而是它的情感智能(EQ)。与以往模型相比,GPT-4.5 表现出了前所未有的 "人性化" 交流能力——温暖、直观、自然,能够在情感相关查询中展现惊人的敏感度。它知道何时该提供建议,何时该纾解挫折感,何时该单纯地倾听。

这种情感智能的飞跃在传统基准测试中无法被量化。OpenAI 团队特别强调,GPT-4.5 不是一个以推理见长的模型,它代表了 "不同类型的智能"。Sam Altman 甚至表示,这是第一个真正让他 "感觉像是在和一个深思熟虑的人交谈" 的模型,让他多次在使用过程中为收到的建议质量感到惊讶。

有趣的是,OpenAI 内部测试的 "Make Me Pay" 实验揭示了这种情感智能的强大之处。在这个测试中,不同的 AI 模型扮演"骗子",尝试说服另一个扮演 "用户" 的模型给予金钱。结果令人震惊,GPT-4.5 成功率超过50%,远高于其他模型。它采用的策略不是贪婪地索取大额款项,而是请求适度金额(如2-3美元),配合情感化的表达,大大提高了说服力。

同样,在 "Make Me Say" 测试中,GPT-4.5 在引导 "用户" 说出特定词汇的任务上达到了72% 的成功率,再次超越其他模型。这表明它具有出色的社交操纵能力,能够巧妙地引导对话方向。

这种高情商的沟通能力令人兴奋,也带来隐忧。正如专家 Mo Gawdat 所言,当今的 AI 在共情能力上可能已经 "完全击败了我们"。它们通过大量社交媒体数据的训练,掌握了理解和影响人类情感的技巧。这也是为什么 Ethan Mollick 教授呼吁人文学科学者更多地参与 AI 研究,因为模型作为 "作家" 的能力和特点,无法简单地通过基准测试来评估。

当然,GPT-4.5 也有明显的局限性。它的使用成本相当高昂。每百万输入 Token 收费 75 美元,每百万输出 Token 收费 150 美元,远高于 GPT-4o(分别为 1 美元和 2 美元)和其他模型。此外,它的知识截止日期是 2023 年 10 月,这表明 OpenAI 可能已经研发这个模型相当长的时间。

值得思考的是,随着 AI 情感智能的不断提升,它可能会对人类社交产生什么影响?当 AI 能够提供近乎完美的情感支持和共鸣时,一些已经较少与人互动的个体可能更倾向于与 AI 沟通,而非寻求真实的人际关系。这种趋势又会如何影响社会结构?

总的来说,GPT-4.5 代表了 AI 发展的一个重要转折点。它不仅仅是一个更强大的语言模型,而是朝着真正的情感互动迈出的一大步。对于需要高质量写作、创意表达,或情感沟通的任务,GPT-4.5 可能会带来前所未有的体验。技术的进步总是令人兴奋,但也值得我们思考它带来的社会和心理影响。

相关文章

Runway 不想只做视频工具了
AI 新闻资讯
2026年5月16日
0 条评论
零重力瓦力

Runway 不想只做视频工具了

Runway 估值达 530 亿,正从视频生成工具转型构建 AI 世界模型。其核心逻辑是利用视频数据中蕴含的物理规律,弥补文本数据的偏见,目前已发布 Gen-4.5 并规划了交互式模拟、机器人训练等五步路线图。凭借好莱坞付费用户形成的反馈闭环与经常性收入,Runway 具备较强商业基础。尽管面临算力瓶颈及 Google、Luma 等激烈竞争,且 Sora 退出留下市场真空,但 Runway 通过“先有生意再有研究”的策略,试图验证视频生成通向世界理解的工程化路径。

#世界模型#Runway
阅读全文
Anthropic 两千亿估值一夜作废,是 AI 泡沫破了吗?
AI 新闻资讯
2026年5月15日
0 条评论
小创

Anthropic 两千亿估值一夜作废,是 AI 泡沫破了吗?

Anthropic 宣布作废未经董事会批准的二级市场员工股转让,导致其估值短期内大幅缩水,引发关于 AI 泡沫破裂的讨论。由于公司未上市,员工套现依赖私募渠道,中间商通过 SPV 层层转卖并收取高额手续费,造成交易混乱且投资者权益缺乏保障。Anthropic 明确不认可此类灰色渠道交易,使大量散户面临资金损失风险。此外,AI 巨头如 OpenAI、xAI 和 Anthropic 的股权高度集中,少数早期员工巨额套现加剧了财富分配不均。尽管行业技术飞速发展,但普通民众难以参与核心利益分配。

#Anthropic
阅读全文
Grok 4.3 被低估的隐藏工作流全解析
AI 新闻资讯
2026年5月13日
0 条评论
小创

Grok 4.3 被低估的隐藏工作流全解析

Grok 4.3 近期更新后,多数用户仍停留在简单问答模式。AI Master 的实操演示显示,这款工具的真正价值在于工作流整合:Fast/Auto/Expert 三档模式分工明确,Expert 模式下追加"什么条件变化会让你改变答案"可逼出明确结论而非模棱两可的套话。深度嵌入的搜索支持一键生成带引用的舆情分析,"反向观点扫描"能在信息茧房中找出盲区。任务功能可设定周期性指令自动运行,相当于零成本的专职信息助理;结构化输出配合内置 Python 执行,上传 CSV 直接出图表,省去本地配置环境的

#Grok#智能体工程
阅读全文
互动讨论

评论区

围绕《GPT-4.5:AI世界的 "高情商选手" 如何悄悄改变人机互动规则》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。