AI胡说八道，不是因为它“太聪明”，而是因为它“没知识”。RAG技术正在成为解决大模型幻觉的关键方案，让生成内容不再凭空捏造，而是有据可查。本文将从底层机制到产品应用，拆解RAG如何为AI注入真实认知。

什么是RAG？

RAG：检索增强生成，是AI领域非常重要的一种技术其核心作用是给LLM大模型外挂专门的知识库，指导大模型生成更准确的输出。

RAG是一种AI框架，它将传统信息检索系统（例如数据库）的优势与生成式大语言模型（LLM）的功能结合在一起。LLM通过将这些额外的知识与自己的语言技能相结合，可以撰写更准确、更具有时效性且更贴合具体需求的文字。

为什么大模型要做RAG？

存在幻觉问题

LLM大模型知识的底层原理是基于数学概率进行预测，模型输出本质上是一种概率预测的结果。所以LLM大模型有时候会出现胡言乱语，或生成一些似是而非的答案，在大模型并不擅长的领域，幻觉问题会更加严重。

缺乏对专业领域知识的理解

LLM大模型知识的获取严重依赖训练数据集的广度，但目前市面上大多数的数据训练集都来源于网络公开数据，对于企业内部数据、特定领域或高度专业化的知识，大模型无法学习到。

知识时效性不足

大模型的内在结构会被固化在其被训练完成的那一刻，但是当你询问大模型一些最新发生的事情，则难以给出答案。

缺乏对生成结果的可解释性

LLM大模型本身就是一个黑盒，这个模型使用了什么数据进行训练，对齐策略是怎么样的，使用者都无从得知。对于大模型生成的答案，更加难以追踪溯源，通过检索增强就可以直观了解到模型生成内容的依据所在。

RAG的技术原理

通过将大语言模型与外部信息源相整合，来提升模型的输出质量，RAG从外部知识库中检索相关的上下文（context），并将这些信息连同用户的问题一起传递给大语言模型，从而提高输出的准确性和可靠性。

工作流程

对知识库进行文本分块→文本块丢入嵌入模型（将文本块转变为向量）→向量嵌入模型（向量用一组数据表示）→向量存储于向量数据库→检索（找出与用户查询最为相关的内容）→进一步筛选出k个文本片段（系统将进一步从中筛选出，排名靠前的k个文本片段（top k text chunks–context））→重新排序→放入新的提示词模板里（上下文context+用户问题query）→发送给大模型生成答案→将答案输出给用户

首要步骤：针对知识库内各类格式的文档（如PD、Word、Wiki等）进行处理，文档分割（检索的准确性和生成模型的效果）。

文本分块：将文本分割成有意义的片段或块的过程（能显著改善信息检索和内容生成效果，提供更精准、相关的结果）。这些文本块将由embedding mode（嵌入模型-机器学习模型，可将高维输入数据如文本、图像，转换为低维向量）转换为向量（向量捕捉了文本的语意信息，从而可以在海量文本库中检索相关内容）。

向量嵌入模型（vector embedding）：使用一组数值表示的数据对象在多维空间中捕捉文本、图像或音频的语意和关联，可以让机器学习算法能够更轻松地应对其进行处理和解读。

向量搜索（相似性搜索）：在向量空间中来查找相似对象，查询向量（query）,在向量空间中寻找与之距离最近的邻居，这些邻居便是与查询向量最相似的对象。

向量数据库：是一种专门用于存储和检索高维向量数据库的知识库，它们主要用于处理与相似性搜索相关的任务。能够存储海量的高维向量，这些向量可以表示数据对象是特征，可以作为AI系统的长期记忆库。

向量存储在数据库中，这些向量主要是由非结构化数据（文本、视频和音频，占全球数据的大约80%，它们通常来源于人类生成的内容，不易以预定义格式存储，这类数据可以通过转换为向量嵌入，有效地存储在向量数据库中，以便进行管理和搜索）通过嵌入模型转化而来的结构化数据则以表格形式存在，与非结构化数据形成对比。对于这些非结构化数据可以基于语义相似度进行相似性搜索。在检索过程中，系统会从海量的文档或数据集中，找出与用户查询最为相关的内容，随后，系统将进一步从中筛选出，排名靠前的k个文本片段（top k text chunks），在检索出的top k文本片段基础上，进一步根据与用户查询的相关性和上下文适配度进行重新调整（reranking重新排序的步骤），这些重新排序过的文本之后将作为context被嵌入到提示词模板中与用户问题相结合，从而构建出一个全新的提示词，新的提示词将被发送给大语言模型以生成最终的答案，模型生成的答案再返回给用户。