RAG | Tech Snippets - 嵌入式技术笔记

前言 2023 年被称为"大模型元年"，ChatGPT 的横空出世让全世界见识到了大语言模型的惊人能力。然而，当企业真正尝试将 LLM 落地到业务场景时，很快就遇到了三座大山：知识过时、幻觉严重、无法与内部系统集成。于是，RAG（检索增强生成）应运而生——通过将外部知识库的内容检索出来，与用户查询一起送入 LLM，既解决了知识时效性问题，又能在一定程度上减少幻觉。一夜之间，几乎所有的 AI 应用都声称"我们用了 RAG"。但好景不长。随着业务复杂度的提升，开发者们发现 RAG 也有明显的天花板：检索准确率的瓶颈：无论怎么优化分块策略、嵌入模型、重排序，总有 20%-30% 的查询无法检索到正确的上下文无法处理多步任务：“帮我分析上个月的销售数据并生成图表"这种需要多步骤操作的请求，RAG 根本无从下手缺乏状态管理：复杂对话中，上下文丢失、记忆混乱的问题时有发生工具集成困难：想要调用数据库、API、代码解释器时，RAG 架构显得力不从心正是在这样的背景下，LLM Agent 开始走进人们的视野。与 RAG 相比，Agent 的核心突破在于：从被动的"检索-回答"模式，转变为主动的"感知-规划-行动-反思"循环。一个优秀的 Agent 不仅能回答问题，还能分解目标、调用工具、执行任务、修正错误，最终完成复杂的工作流。本文将带你系统性地了解从 RAG 到 Agent 的完整演进路径，从基础概念到架构设计，从代码实现到性能优化，最后给出企业级落地的最佳实践。无论你是正在考虑从 RAG 升级到 Agent，还是想要从零构建一套 LLM 应用体系，这篇文章都将为你提供一份可操作的实战指南。一、RAG 的三代演进史 1.1 Naive RAG：最朴素的起点几乎所有开发者接触 RAG，都是从"三段式"架构开始的：索引阶段：文档加载 → 文档分割 → 向量化 → 存入向量数据库检索阶段：用户查询向量化 → 相似度搜索 → 返回 Top-K 相关文档生成阶段：查询 + 上下文 → Prompt Engineering → LLM 生成答案...