RAG vs Agent:什么时候用哪个(结合我们自己的实战)

一句话 — RAG 从文档里找答案。Agent 去做事。真实系统几乎都是两者结合:RAG 提供上下文,Agent 基于上下文行动。难点不是选哪个,而是分清楚你问题的哪一层属于哪种模式。 为什么这个对比在现在很重要 过去半年发生了两件事,让 RAG vs Agent 不再是纸上谈兵。 第一:coding agent 在 2025 年 11 月跨过了质量门槛。Simon Willison 在 PyCon 闪电演讲里把这个时刻总结为 agent 从"经常能用"到"基本都能用"——可以作为日常生产力工具了,不再只是 demo。同一个月里 Anthropic、OpenAI、Google 之间的"最强模型"头衔换手了 5 次。 第二:模型实验室自己在转型。Greg Brockman 直说:“模型本身已经不再是产品。” AI21 关闭了模型团队转去做 agent。DeepSeek 第一次组建了 “Harness 团队”。Latent Space 把这个趋势总结为 “所有模型实验室现在都是 agent 实验室”。 当训练模型的人都开始说"模型不是产品"的时候,怎么把模型接到系统里就成了真正的工程问题。RAG 和 Agent 是两个主流答案,解决的问题不一样,选错了会浪费大量 token。 心智模型 RAG:先检索,再生成 RAG 是固定的四步流水线: 用户提问 │ ▼ Embedding 模型 → 向量 │ ▼ 向量库 / 搜索索引 → 取最相关的 top-K 片段 │ ▼ 片段拼进 LLM prompt 作为上下文 │ ▼ LLM 基于检索内容写一次答案 一次检索,一次生成。便宜、确定性高、易于 debug。 ...

2026-05-25 · 5 分钟 · AI Brew