面试里讲“向量数据库 + RAG”就够了吗？

不够。面试官真正想听的是端到端闭环：什么时候写入、写什么、怎么脱敏；怎么检索、怎么重排、怎么去重；以及如何评估记忆是否提升任务完成率而不是带来污染。只说“用向量库”通常会被追问到崩。

一个最小可落地的记忆系统应该包含哪些模块？

最小建议包含：工作记忆（会话窗口/短期缓存）、记忆存储（向量库或结构化库）、写入器（摘要/提取/去重/脱敏）、检索器（多路召回+重排）、以及可观测与评测（命中率、误召回、对答案贡献）。

如何在回答里体现你“做过系统”而不是背概念？

用具体决策点和指标说话：例如写入阈值、TTL、分区键、幂等键、召回 top-k、重排策略、以及上线后用什么指标证明记忆带来收益（通过率提升、返工率下降、人工介入减少）。

面试官最喜欢的追问是什么？

“记忆写错了怎么办？”“隐私怎么隔离？”“误召回怎么治理？”“成本怎么控？”如果你能给出分层隔离、回滚/失效策略、评测与灰度开关，通常就能拿到高分。

INTERVIEWAgent Memory转岗面试工程化

前端转 AI Agent 面试必问：记忆系统怎么答到位（追问路径 + 评分点）

“你们的 Agent 记忆怎么做？”是转岗面试的高频题。多数候选人只会背短期/长期/向量库，但说不清写入策略、召回排序、隐私边界与线上评估。本文用面试官视角给出可复用的答题结构：先讲目标与边界，再讲分层与数据模型，最后讲观测与迭代；同时提供常见错答、追问链路与评分标准。

2026年3月4日

Synthly 团队

预计阅读 13 分钟

📷 Photo by Tara Winstead via Pexels

这道题在考什么：不是“你知道记忆”，而是“你能把记忆做成产品能力”

面试官问“记忆系统怎么做”，表面在聊架构，实质在考四件事：

边界：记忆要解决什么、不解决什么
数据：记忆是什么结构、怎么写入、怎么更新
检索：怎么召回、怎么排序、怎么避免误召回
闭环：怎么评估、怎么灰度、怎么止损

你只要围绕这四点组织答案，就不会跑偏。

如果你需要一篇“工程化基线”先补齐概念，可以先看：

Agent 记忆系统 101：短期、长期与外部记忆

一、答题模板（建议背下来）：目标 → 分层 → 写入 → 检索 → 评估 → 风险

一句话开场（10 秒）：我们的记忆系统目标是提升任务完成率与可控性，而不是无限积累聊天记录。我们做了分层（短期/长期/外部），并用写入阈值与检索重排控制污染，最后用离线评测 + 在线指标验证 ROI。

下面按模块展开。

1）目标与边界：先把“记忆”定义成系统资源

你可以这样说：

记忆的目标：减少重复提问、提升一致性、让 Agent 能复用经验
记忆的边界：
- 不把敏感信息跨用户复用
- 不把未验证的“模型猜测”写成事实
- 不把所有上下文都写入（成本与污染不可控）

这一步能把你和“只会背向量库”的候选人区分开。

2）分层架构：短期/长期/外部的职责划分

建议用三层回答：

工作记忆（Working Memory）：当前会话窗口 + 最近若干轮摘要（低延迟、易失）
长期记忆（Long-term Memory）：用户偏好、稳定事实、可复用经验（可更新、可过期）
外部记忆（External Memory）：知识库/工单/CRM/文档（事实来源、可追溯）

关键点：长期记忆不是知识库。长期记忆更像“个性化与经验”，外部记忆才是“事实系统”。

二、写入怎么做：什么时候写、写什么、写到哪

面试官最常追问：写入策略。

1）写入触发：别“每轮都写”

可落地的写入触发条件（说其中 2-3 个即可）：

用户明确声明偏好/约束（可复用）
任务完成后有可复用经验（例如成功流程、失败原因）
多轮对话收敛出稳定事实（经过验证）

相反，不建议写入：

模型推测、未验证的结论
一次性、强时效的信息
含敏感字段但未脱敏的内容

2）写入内容：从“段落”变成“条目”

面试里你可以强调：我们写入的不是原文，而是结构化条目，例如：

{
  "type": "preference",
  "subject": "user:123",
  "key": "tone",
  "value": "简洁直给",
  "confidence": 0.9,
  "source": "chat",
  "createdAt": "...",
  "expiresAt": "..."
}

这样做的好处：可检索、可更新、可过期、可审计。

3）去重与更新：幂等键 + 冲突策略

面试官一旦追问“写重复了怎么办”，你可以答：

记忆写入使用幂等键（例如 subject+key+hash）
冲突用规则合并：
- 以最新为准（但保留历史）
- 或保留多值并做权重衰减
每条记忆都有 TTL/过期策略

三、检索怎么做：多路召回 + 重排 + 反污染

候选人最容易在这里暴露：只会说“向量检索 top-k”。

你可以用“多路召回”来答：

1）多路召回（至少说出两路）

语义相似召回（向量）
最近优先召回（recency）
任务相关召回（按 taskType / tool / entity 标签）

然后强调：最终不是简单拼起来，而是要 融合排序。

2）重排（rerank）：把“相关”变成“有用”

可落地的重排信号：

与当前任务类型的匹配度
记忆置信度、来源可靠性
新鲜度衰减
是否被用户纠正过（被纠正的降权或失效）

3）误召回治理：答得越像越危险

面试官非常爱问：“记忆召回错了怎么办？”

你可以答三个层次的治理：

预防：写入时结构化 + 置信度 + TTL
检测：在生成前做约束校验（例如必须有来源/证据）
止损：低一致性时触发追问或回退（关掉记忆、改用外部事实）

四、评估与可观测：用指标证明记忆有用

一句话：没有评估的记忆系统，最后都会变成污染源。

面试里建议说出两类指标：

1）离线评测

任务完成率（固定样本集）
记忆命中率（recall@k）
误召回率（irrelevant@k）

2）在线指标（产品视角）

返工率/追问轮数下降
用户手动纠正次数下降
token 成本变化、p95 延迟变化

如果你能提到“灰度开关”和“回滚”，加分很大。

五、面试官追问清单（你要准备的反问）

下面这些追问经常出现，你可以主动带出答案：

记忆和知识库怎么区分？
记忆写入的触发条件是什么？
误召回怎么检测与止损？
隐私隔离怎么做（按用户/租户）？
如何证明记忆提升了任务完成率？

六、评分标准（面试官视角）

你可以把它当成自测：

初级：只会说“向量库 + top-k”
中级：能讲分层、写入与检索，但缺少评估与止损
高级：能讲闭环（评测/灰度/回滚/合规）并能给出指标

如果你能把“幂等、日志、预算、止损”讲清楚，基本就是高分答案。

常见问题

记忆系统必须用向量数据库吗？

不一定。偏好、配置、结构化事实更适合关系型或 KV；向量库更适合语义相似召回。面试里讲“按数据类型选存储”比“万能向量库”更可信。

如何把记忆和 ReAct/工具调用结合？

记忆负责提供先验与约束，工具调用负责拿事实与回执，二者都要落到事件日志里形成闭环。想看 ReAct 的工程化落地可读：

论文解读：ReAct 为什么改变了 Agent 工作流（以及如何工程化落地）

想看更多工程化文章见 /articles，也可以在 /apps/new 体验 Agent 能力。

返回文章列表