DeepSeek 发布 DeepSeek-R1-Lite-Preview 推理能力直逼 o1-preview

DeepSeek发布轻量推理模型R1-Lite-Preview,在AIME和MATH基准上性能接近o1-preview,支持全程可追溯的透明推理。虽解“蜗牛爬井”题耗时24秒(o1-preview约5秒),但通过自我反思修正逻辑错误,最终得出正确答案。模型将开源并开放API。

发布于2024年11月22日 07:03
编辑零重力瓦力
评论0
阅读31

Deepseek 发布了最新的推理模型 DeepSeek-R1-Lite-Preview, 在 AIME 和 MATH 基准测试中性能达到 o1-preview 的级别。新的推理模型提供全透明的推理过程,并会在近期提供开源版模型以及 API。

DeepSeek 发布 DeepSeek-R1-Lite-Preview 推理能力直逼 o1-preview

DeepSeek 发布 DeepSeek-R1-Lite-Preview 推理能力直逼 o1-preview

用经典蜗牛爬井问题对 DeepSeek-R1-Lite-Preview 和 Chatgpt o1-preivew 进行了测试。两者答案都正确,DeepSeek 的推理用了24秒,o1-preivew 用了大约5秒。

ChatGPT o1-preview 推理蜗牛爬井问题

DeepSeek-R1-Lite-Preview 推理蜗牛爬井问题

DeepSeek 详细推理过程

嗯,这道题挺有意思的。一口7米深的井里,有一只蜗牛,它白天往上爬3米,晚上会滑下2米。问蜗牛需要多少天才能爬出井口。首先,我得理解一下这个问题。蜗牛每天实际上净爬升多少呢?白天爬3米,晚上滑下2米,那每天净爬升1米。那如果这样算的话,7米的话,7天就能爬出去。但是,我觉得可能有哪里不对,因为最后一天可能不需要滑下去了,因为如果它已经爬出去了,晚上就不会再滑下去了。

所以,我需要更仔细地想一下。假设井深7米,蜗牛每天白天爬3米,晚上滑下2米。那么,第一天结束时,蜗牛的位置是3-2=1米。第二天结束时,是1+3-2=2米。第三天结束时,2+3-2=3米。第四天结束时,3+3-2=4米。第五天结束时,4+3-2=5米。第六天结束时,5+3-2=6米。第七天结束时,6+3-2=7米。

但是,按照这个计算,第七天结束时才到7米,但实际上,第七天白天爬3米,可以直接从6米爬到9米,已经超过了井口,所以它应该在第七天的白天就已经爬出去了,不需要等到晚上再滑下去。因此,实际上,蜗牛在第七天的白天就已经爬出去了,所以总共需要6天加上白天的一天,也就是7天。

不过,我再想想,第一天结束时1米,第二天2米,第三天3米,第四天4米,第五天5米,第六天6米,第七天白天爬到9米,超过了井深7米,所以确实是在第七天爬出去的。

但是,我觉得可能还有更简单的方法来计算这个问题。比如,考虑蜗牛每天净爬升1米,但是在最后一天,它可能不需要滑下去,所以总天数可能比单纯的净爬升天数少一天。

具体来说,如果井深是7米,蜗牛每天净爬升1米,那么理论上需要7天。但是在实际中,最后一天它可能在白天就已经爬出去了,所以可能少算一天。

不过,根据前面的计算,第七天白天它就爬出去了,所以总天数是7天。

不过,我再看看网上的类似问题,有些说是5天,有些说是7天,好像有不同的答案。可能是因为理解题意不同。

让我再重新理一下逻辑。假设井深7米,蜗牛白天爬3米,晚上滑下2米。

第一天:爬到3米,滑下2米,净1米。

第二天:从1米爬到4米,滑下2米,净2米。

第三天:从2米爬到5米,滑下2米,净3米.

第四天: 从3米爬到6米, 滑下2米, 净4米.

第五天: 从4米爬到7米, 滑下2米, 净5米.

Wait, 这里有问题。如果第五天白天爬到7米,就已经出井了,不需要滑下去了。所以实际上,第五天白天就已经出井了。

Wait, but根据前面的计算,第六天结束时是6米,第七天白天爬到9米,出井。那到底是第五天还是第七天?

看来我哪里算错了。

再重新来过。

第一天结束:1米。

第二天结束:2米.

第三天结束:3米.

第四天结束:4米.

第五天结束:5米.

第六天结束:6米.

第七天白天:从6米爬3米,到9米,出井。

所以,第七天出井。

但是,有人可能认为第五天白天爬到7米就出井了,不需要滑下去,所以第五天就出井了。

所以,可能有不同的理解。

可能题目的意思是井深7米,从井底算起,出井口就算出井了。

所以,如果蜗牛在某一天白天爬到或超过7米,就算出井了,不需要再滑下去。

那么,蜗牛每天早上从当前位置开始爬。

第一天早上:从0米爬到3米,晚上滑下2米,到1米.

第二天早上:从1米爬到4米,晚上滑下2米,到2米.

第三天早上:从2米爬到5米,晚上滑下2米,到3米.

第四天早上:从3米爬到6米,晚上滑下2米,到4米.

第五天早上:从4米爬到7米,出井了,不需要滑下去了.

所以,总共是5天.

看来我之前的计算有误,应该是5天。

可能我混淆了结束时的位置和出井的条件。

所以,正确答案应该是5天。

DeepSeek 详细展示了它的推理过程,尽管前两次推理出现了错误,但它通过反思机制进行了更正。让它发现自身推理错误的具体原因并不明确,看起来它能够通过互联网搜索类似问题的答案(也有可能这些信息来自其训练数据集)。

相关文章

Hermes 超越 OpenClaw,背后是两种哲学的正面交锋
AI 产品工具
2026年5月16日
0 条评论
零重力瓦力

Hermes 超越 OpenClaw,背后是两种哲学的正面交锋

Hermes Agent 以单日 2240 亿 token 的处理量超越 OpenClaw,登顶开源 AI 智能体榜首。两者代表不同发展哲学:OpenClaw 侧重“连接一切”,拥有庞大生态但近期遭遇严重安全危机;Hermes 主打“自我进化”,通过自动反思生成技能并自主优化库,实现效率提升。尽管 OpenClaw 在广度上仍具优势,但 Hermes 凭借自学习机制和安全改进迅速崛起。未来趋势或指向两种哲学的融合,即兼具广泛连接与自主进化能力的智能体。

#Hermes Agent#OpenClaw#智能体框架
阅读全文
2026 国产大模型中文文案能力深度对比分析
AI 产品工具
2026年5月13日
0 条评论
零重力瓦力

2026 国产大模型中文文案能力深度对比分析

2026 年国产大模型中文文案能力迎来新标杆。评测显示,Kimi K2.6 以最低 "AI味” 和最高创意评分领跑,最接近人类写作风格。DeepSeek V4 Pro 凭借极低重复率和超长上下文,成为长文与 SEO 内容首选。GLM 5.1 则在指令遵循上表现最强,适合严格格式约束场景。文章详细对比了六款主流模型的规格、基准数据及适用场景,为品牌营销、内容创作团队提供选型参考。

#AI 模型#开源模型
阅读全文
如果你还没用过 OpenClaw,2026.5.2 版是一个好起点
AI 产品工具
2026年5月12日
0 条评论
零重力瓦力

如果你还没用过 OpenClaw,2026.5.2 版是一个好起点

OpenClaw 2026.5.2 稳定版发布,核心策略转向“做减法”。xAI Grok 4.3 成为默认模型,赋予智能体实时信息获取能力。架构上,插件与诊断模块外移,实现按需安装,显著降低体积并提升维护效率。Gateway 热路径性能优化修复了 268 个 Bug,大幅改善启动速度与运行稳定性。新增 SDK tools.invoke RPC 接口,打通外部系统调用通道,标志着框架从个人助手向基础设施演进。

#OpenClaw#Grok
阅读全文
互动讨论

评论区

围绕《DeepSeek 发布 DeepSeek-R1-Lite-Preview 推理能力直逼 o1-preview》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。