实现 LLM 记忆系统的五种方式

LLM记忆系统有五种实用方案:向量记忆支持语义检索,摘要记忆压缩长对话,时间窗记忆兼顾近期与重要信息,关键词记忆轻量本地索引,层级记忆则通过三层结构协同管理即时、短期与长期内容。

发布于2025年1月20日 07:47
编辑零重力瓦力
评论0
阅读29

实现 LLM 记忆系统的五种方式

在构建大语言模型(LLM)应用时,记忆系统是提升对话上下文管理、长期信息存储以及语义理解能力的关键技术之一。一个高效的记忆系统可以帮助模型在长时间对话中保持一致性,提取关键信息,甚至具备检索历史对话的能力,从而实现更智能、更人性化的交互体验。以下是实现 LLM 记忆系统的五种方式!

  1. 向量记忆 (Vector Memory)
  2. 摘要记忆 (Summary Memory)
  3. 时间窗记忆 (Time Window Memory)
  4. 关键词记忆 (Keyword Memory)
  5. 层级记忆 (Hierarchical Memory)

向量记忆 (Vector Memory)

概述

该记忆系统使用 OpenAI 的嵌入技术将消息转化为向量表示,并通过对话的历史记录实现语义搜索功能。

工作原理

  1. 每条消息通过 OpenAI 的嵌入模型转化为高维向量(嵌入)。
  2. 检索记忆时,将查询也转化为嵌入向量。
  3. 使用余弦相似度查找语义上最相似的消息。
  4. 超过相似度阈值的消息会按相关性排序并返回。

主要特点

  • 支持语义搜索(可以查找概念上类似的内容,而不仅是精确匹配)。
  • 维护固定大小的记忆缓冲区(MAX_MEMORIES)。
  • 使用相似度阈值确保匹配质量。
  • 返回前 k 个最相关的记忆。

应用场景

  • 查找与之前对话语义相关的内容。
  • 解答与过去讨论相关的问题。
  • 在长对话中保持上下文一致性。

实现 LLM 记忆系统的五种方式

摘要记忆 (Summary Memory)

概述

该记忆系统通过为对话片段创建简洁的摘要,在减少内存使用的同时保持上下文完整性。

工作原理

  1. 消息被收集成大小为 SUMMARY_THRESHOLD 的对话片段。
  2. 当片段满时,GPT 会生成该片段的摘要。
  3. 摘要和原始消息一起存储。
  4. 检索记忆时,GPT 根据查询识别相关摘要。
  5. 返回相关摘要中的原始消息。

主要特点

  • 自动对对话进行分块。
  • 基于 GPT 的自动摘要生成。
  • 保留原始消息以提供完整上下文。
  • 限制摘要数量(MAX_SUMMARIES)。
  • 基于查询检索相关片段。

应用场景

  • 长时间对话中需要保持完整上下文的时候。
  • 在保留语义的同时减少内存使用。
  • 快速访问对话重点。

实现 LLM 记忆系统的五种方式

时间窗记忆 (Time Window Memory)

概述

该记忆系统结合了最近的消息和重要的长期记忆,采用基于时间和重要性的双存储方法。

工作原理

  1. 最近的消息保存在大小为 WINDOW_SIZE 的滑动窗口中。
  2. 每条消息通过 GPT 评估其重要性。
  3. 超过重要性阈值(IMPORTANCE_THRESHOLD)的消息存储在长期记忆中。
  4. 检索记忆时:
    • 始终包括最近的消息。
    • 根据查询选择相关的重要记忆。

主要特点

  • 使用滑动窗口维护最近上下文。
  • 基于 GPT 的重要性评估。
  • 双存储机制:近期记忆和重要记忆。
  • 时间戳追踪时间上下文。
  • 长期记忆按重要性排序。

应用场景

  • 平衡近期上下文与重要的历史信息。
  • 需要同时考虑即时上下文和长期记忆的对话。
  • 在保持流畅性的同时优先处理关键信息。

实现 LLM 记忆系统的五种方式

关键词记忆 (Keyword Memory)

概述

该记忆系统使用自然语言处理技术基于关键词匹配对记忆进行索引和检索,无需调用API。

工作原理

  1. 文本处理:
    • 分词将文本分解为单词。
    • 停用词移除常见无意义单词。
    • 词形还原将单词还原为其基本形式。
  2. 记忆索引:
    • 从每条消息中提取关键词。
    • 消息按其关键词进行索引。
    • 每个关键词维护一个消息 ID 列表。
  3. 检索过程:
    • 从查询中提取关键词。
    • 评分包含查询关键词的消息。
    • 按关键词匹配频率对结果进行排名。

主要特点

  • 轻量化,无需依赖 API。
  • 使用 NLTK 进行文本处理。
  • 高效的关键词索引机制。
  • 可配置的关键词参数。
  • 基于评分的相关性排序。

应用场景

  • 快速的本地记忆搜索。
  • 基于关键词的检索。
  • 限制 API 访问时的场景。
  • 简单的模式匹配需求。

实现 LLM 记忆系统的五种方式

层级记忆 (Hierarchical Memory)

概述

这是最复杂的记忆系统,采用三层结构,结合即时上下文、短期摘要和长期嵌入记忆。

工作原理

  1. 三层记忆结构:
    • 即时上下文:保存最近几条消息(IMMEDIATE_CONTEXT_SIZE)。
    • 短期记忆:保存近期对话的摘要(SHORT_TERM_SIZE)。
    • 长期记忆:保存重要的嵌入记忆(LONG_TERM_SIZE)。
  2. 记忆流动:
    • 新消息进入即时上下文。
    • 即时上下文溢出时,转化为短期记忆摘要。
    • 重要的摘要会被嵌入并存储在长期记忆中。
  3. 检索过程:
    • 始终包括即时上下文。
    • 使用嵌入技术查找相关的长期记忆。
    • 使用 GPT 选择相关的短期摘要。
    • 结合所有相关信息并标注上下文来源。

主要特点

  • 全面的记忆管理。
  • 多种检索策略。
  • 自动在层级间流动记忆。
  • 基于重要性的过滤机制。
  • 支持语义搜索。

应用场景

  • 复杂且长时间运行的对话。
  • 需要同时保留近期上下文和历史信息的应用。
  • 对记忆组织要求较高的场景。

实现 LLM 记忆系统的五种方式

相关文章

氛围编程的下半场:你的 AI 编程 Agent 已经不需要你的电脑了
AI 编程开发
2026年5月17日
0 条评论
零重力瓦力

氛围编程的下半场:你的 AI 编程 Agent 已经不需要你的电脑了

氛围编程竞争焦点已从代码补全转向云端 Agent 独立完成工程任务。Cursor 推出 Cloud Agent 环境,支持多仓库挂载、环境配置即代码及严格的安全治理。开放 TypeScript SDK,使 Agent 可集成至 CI/CD 或内部产品,实现本地与云端部署对称。同时,Agent Harness 优化通过 Keep Rate 等指标提升模型表现。Mistral Vibe 和 Google Antigravity 亦印证此趋势:编程 Agent 脱离本地束缚,向自主执行、基础设施化演进。

#AI 编程#智能体工程
阅读全文
上下文工程:当提示词工程装不下整个智能体时,谁来接管 AI 的 “工作台”
智能体工程
2026年5月15日
0 条评论
零重力瓦力

上下文工程:当提示词工程装不下整个智能体时,谁来接管 AI 的 “工作台”

“上下文工程” 正取代 “提示词工程”,成为 AI Agent 开发的核心范式。随着模型能力提升、Agent应用普及及企业合规需求,交互重点从单轮指令转向多步骤工作流中的动态信息编排。该领域涵盖系统指令、用户输入、检索知识、对话历史及工具定义五层结构。由于上下文窗口资源有限且易出现中毒、分心等失败模式,需通过ACE框架实现上下文的自进化与增量更新。实操建议包括外部化状态、按需检索、压缩累积及隔离多Agent上下文。本质上,上下文工程是提示词工程的超集,标志着 AI 开发进入以系统架构和状态管理为主导的工程时代。

#上下文工程#智能体工程#提示词工程
阅读全文
AI 不够聪明?也许只是没有给对上下文!
AI 新闻资讯
2026年5月13日
0 条评论
小创

AI 不够聪明?也许只是没有给对上下文!

AI 输出质量差往往不是因为模型不行,而是缺乏有效的上下文。近期备受关注的 “上下文工程” 正是解决这一瓶颈。通过数据打通、知识层构建、精准检索和运行时治理,让 AI 获取与任务真正相关的信息。在检索环节,相比基础 RAG,智能体式 RAG 能迭代获取数据,GraphRAG 靠实体关系导航提升精度,上下文压缩则过滤噪音最大化信号。当模型能力边际放缓,上下文工程的质量将成为拉开 AI 应用差距的关键。

#RAG#上下文工程#智能体工程
阅读全文
互动讨论

评论区

围绕《实现 LLM 记忆系统的五种方式》展开交流,未登录用户可浏览评论,登录后可参与讨论。

评论数
0
登录后参与评论
支持发表观点与回复一级评论,互动后将同步到消息中心。
登录后评论
暂无评论,欢迎成为第一个参与讨论的人。