记忆系统是不是就是“把聊天记录存起来 + 向量检索”？

不是。聊天记录是原始日志，记忆是经过治理的可用信息。真正的记忆系统至少需要：写入策略（什么时候写）、结构化 schema（写什么）、权限隔离（谁能用）、召回策略（怎么取）与衰减/清理（怎么变干净）。

为什么很多 Agent 加了记忆反而变差？

常见原因是“脏写入 + 乱召回”：把临时信息/错误结论写进长期记忆，再在不相关任务里强行召回，造成上下文污染。解决要靠写入阈值、任务相关性排序与定期清理。

短期、长期、外部记忆有什么本质区别？

区别在“生命周期与可信度”：短期记忆随任务结束可丢弃；长期记忆是跨任务复用的稳定偏好/事实，需要严格治理；外部记忆是可追溯来源（文档/DB/知识库），以证据与权限为中心，适合事实类问题。

记忆系统需要怎么评测？

建议分三层：召回层（命中率/误召回率）、生成层（答案正确率/引用覆盖率）、系统层（token 成本/时延/污染回归）。不要只看“回答更像人”。

Agent记忆系统Context EngineeringRAG隐私

Agent 记忆系统 101：短期、长期与外部记忆的工程分层

“给 Agent 加记忆”最容易踩坑：什么都写、什么都召回，结果越用越脏、越聊越笨。本文用工程视角拆解记忆系统的三层分工（短期/长期/外部），给出写入阈值、召回排序、衰减规则与权限隔离的可落地方案，并提供可直接复用的记忆 schema 与评测指标。

2026年3月4日

Synthly 团队

预计阅读 16 分钟

📷 Photo by Eva Bronzini via Pexels

记忆不是“更长上下文”，而是“可控的信息复用”

长上下文模型越来越强，但现实仍会遇到：

会话跨天跨周，信息分散
任务需要引用历史偏好与约束
事实来自外部系统（工单、订单、知识库）

如果你把这些都塞进 prompt，只会得到三种后果：

成本飙升（token）
幻觉增加（信息噪声多）
权限失控（敏感信息混入）

所以记忆系统的目标是：在可控的范围内复用信息。

一、三层记忆的工程分工

把记忆分成三层，可以避免“什么都存”的失控。

1）短期记忆（Working Memory）

生命周期：当前任务/当前会话
内容：中间变量、计划步骤、工具回执摘要、临时偏好
目标：支持多步骤执行与一致性

典型实现：

会话状态（state machine state）
结构化缓存（例如 currentTask.plan, toolReceipts）

短期记忆最重要的一点：可丢弃。

2）长期记忆（Long-term Memory）

生命周期：跨会话、跨任务
内容：稳定偏好、长期约束、经验证的事实
风险：一旦写脏，会长期污染

长期记忆必须满足：

可追溯（为什么写入、来自哪里）
可更新（版本/时间戳）
可删除（用户可控、合规可控）

3）外部记忆（External Memory / Source-of-Truth）

生命周期：由外部系统决定
内容：文档、数据库、工单系统、知识库
特点：可引用、可审计、可权限控制

外部记忆适合回答“事实类问题”，而长期记忆更适合“偏好类信息”。

二、写入策略：什么时候写、写什么、写到哪

长期记忆的失败通常不是检索算法，而是写入策略。

1）写入阈值：不是什么都配得上进长期记忆

建议用三个条件控制写入：

稳定性：信息是否在多个回合被确认（或来自外部来源）
可复用性：未来任务是否可能需要（偏好/约束/常用实体）
风险等级：敏感信息默认不写，或加密/隔离写入

一个简单规则：

用户偏好（语言、格式、时区）→ 可写
临时目标（“这次帮我写个周报”）→ 不写
外部事实（订单金额、合同条款）→ 不写入长期记忆，应该存外部系统并引用

2）写入内容要结构化：别把一段话当记忆

建议定义一个可治理的 schema：

{
  "memoryId": "m_...",
  "scope": "user",
  "type": "preference",
  "key": "report.format",
  "value": "markdown",
  "confidence": 0.9,
  "source": {
    "kind": "user_confirmed",
    "eventId": "e_...",
    "timestamp": "2026-03-04"
  },
  "ttlDays": 365,
  "pii": false
}