Google 低调发布了 Gemini 3.1。这次升级在主打 “学新规则、快速举一反三” 的 ARC-AGI 2 测试中,拿到了 77.1% 的高分,不仅明显领先 Opus 4.6 和 GPT-Codex-5.3,比起上一代 Gemini 3.0 更是直接翻倍。

这说明,Gemini 3.1 不再并不是那种 “背题型” 的 AI,而是更擅长面对从没见过的新问题,现场思考、快速适应。可以看出,Google DeepMind 在提升模型的科研能力和复杂推理上下了不少功夫。相比编程见长的 Claude,以及高情商的 GPT,强化科研和硬核推理能力,或许正是 Gemini 选择的一条差异化路线。