前端转 AI Agent 面试必问:记忆系统怎么答到位(追问路径 + 评分点)
“你们的 Agent 记忆怎么做?”是转岗面试的高频题。多数候选人只会背短期/长期/向量库,但说不清写入策略、召回排序、隐私边界与线上评估。本文用面试官视角给出可复用的答题结构:先讲目标与边界,再讲分层与数据模型,最后讲观测与迭代;同时提供常见错答、追问链路与评分标准。

📷 Photo by Tara Winstead via Pexels
这道题在考什么:不是“你知道记忆”,而是“你能把记忆做成产品能力”
面试官问“记忆系统怎么做”,表面在聊架构,实质在考四件事:
- 边界:记忆要解决什么、不解决什么
- 数据:记忆是什么结构、怎么写入、怎么更新
- 检索:怎么召回、怎么排序、怎么避免误召回
- 闭环:怎么评估、怎么灰度、怎么止损
你只要围绕这四点组织答案,就不会跑偏。
如果你需要一篇“工程化基线”先补齐概念,可以先看:
一、答题模板(建议背下来):目标 → 分层 → 写入 → 检索 → 评估 → 风险
一句话开场(10 秒):我们的记忆系统目标是提升任务完成率与可控性,而不是无限积累聊天记录。我们做了分层(短期/长期/外部),并用写入阈值与检索重排控制污染,最后用离线评测 + 在线指标验证 ROI。
下面按模块展开。
1)目标与边界:先把“记忆”定义成系统资源
你可以这样说:
- 记忆的目标:减少重复提问、提升一致性、让 Agent 能复用经验
- 记忆的边界:
- 不把敏感信息跨用户复用
- 不把未验证的“模型猜测”写成事实
- 不把所有上下文都写入(成本与污染不可控)
这一步能把你和“只会背向量库”的候选人区分开。
2)分层架构:短期/长期/外部的职责划分
建议用三层回答:
- 工作记忆(Working Memory):当前会话窗口 + 最近若干轮摘要(低延迟、易失)
- 长期记忆(Long-term Memory):用户偏好、稳定事实、可复用经验(可更新、可过期)
- 外部记忆(External Memory):知识库/工单/CRM/文档(事实来源、可追溯)
关键点:长期记忆不是知识库。长期记忆更像“个性化与经验”,外部记忆才是“事实系统”。
二、写入怎么做:什么时候写、写什么、写到哪
面试官最常追问:写入策略。
1)写入触发:别“每轮都写”
可落地的写入触发条件(说其中 2-3 个即可):
- 用户明确声明偏好/约束(可复用)
- 任务完成后有可复用经验(例如成功流程、失败原因)
- 多轮对话收敛出稳定事实(经过验证)
相反,不建议写入:
- 模型推测、未验证的结论
- 一次性、强时效的信息
- 含敏感字段但未脱敏的内容
2)写入内容:从“段落”变成“条目”
面试里你可以强调:我们写入的不是原文,而是结构化条目,例如:
{
"type": "preference",
"subject": "user:123",
"key": "tone",
"value": "简洁直给",
"confidence": 0.9,
"source": "chat",
"createdAt": "...",
"expiresAt": "..."
}
这样做的好处:可检索、可更新、可过期、可审计。
3)去重与更新:幂等键 + 冲突策略
面试官一旦追问“写重复了怎么办”,你可以答:
- 记忆写入使用幂等键(例如 subject+key+hash)
- 冲突用规则合并:
- 以最新为准(但保留历史)
- 或保留多值并做权重衰减
- 每条记忆都有 TTL/过期策略
三、检索怎么做:多路召回 + 重排 + 反污染
候选人最容易在这里暴露:只会说“向量检索 top-k”。
你可以用“多路召回”来答:
1)多路召回(至少说出两路)
- 语义相似召回(向量)
- 最近优先召回(recency)
- 任务相关召回(按 taskType / tool / entity 标签)
然后强调:最终不是简单拼起来,而是要 融合排序。
2)重排(rerank):把“相关”变成“有用”
可落地的重排信号:
- 与当前任务类型的匹配度
- 记忆置信度、来源可靠性
- 新鲜度衰减
- 是否被用户纠正过(被纠正的降权或失效)
3)误召回治理:答得越像越危险
面试官非常爱问:“记忆召回错了怎么办?”
你可以答三个层次的治理:
- 预防:写入时结构化 + 置信度 + TTL
- 检测:在生成前做约束校验(例如必须有来源/证据)
- 止损:低一致性时触发追问或回退(关掉记忆、改用外部事实)
四、评估与可观测:用指标证明记忆有用
一句话:没有评估的记忆系统,最后都会变成污染源。
面试里建议说出两类指标:
1)离线评测
- 任务完成率(固定样本集)
- 记忆命中率(recall@k)
- 误召回率(irrelevant@k)
2)在线指标(产品视角)
- 返工率/追问轮数下降
- 用户手动纠正次数下降
- token 成本变化、p95 延迟变化
如果你能提到“灰度开关”和“回滚”,加分很大。
五、面试官追问清单(你要准备的反问)
下面这些追问经常出现,你可以主动带出答案:
- 记忆和知识库怎么区分?
- 记忆写入的触发条件是什么?
- 误召回怎么检测与止损?
- 隐私隔离怎么做(按用户/租户)?
- 如何证明记忆提升了任务完成率?
六、评分标准(面试官视角)
你可以把它当成自测:
- 初级:只会说“向量库 + top-k”
- 中级:能讲分层、写入与检索,但缺少评估与止损
- 高级:能讲闭环(评测/灰度/回滚/合规)并能给出指标
如果你能把“幂等、日志、预算、止损”讲清楚,基本就是高分答案。
常见问题
记忆系统必须用向量数据库吗?
不一定。偏好、配置、结构化事实更适合关系型或 KV;向量库更适合语义相似召回。面试里讲“按数据类型选存储”比“万能向量库”更可信。
如何把记忆和 ReAct/工具调用结合?
记忆负责提供先验与约束,工具调用负责拿事实与回执,二者都要落到事件日志里形成闭环。想看 ReAct 的工程化落地可读: