天津做家政的网站做网站端口映射
- 作者: 五速梦信息网
- 时间: 2026年03月21日 08:19
当前位置: 首页 > news >正文
天津做家政的网站,做网站端口映射,app推广的网站,郑州建站多少钱第一篇#xff1a;Retrieval-Augmented Generation for Large Language Models: A Survey(同济/复旦) 论文链接 1.简介 这篇全面的综述论文详细研究了 RAG 范式的发展#xff0c;包括 Naive RAG、Advanced RAG 和 Modular RAG。介绍了 RAG 框架的三个基础技术#xff0c;…第一篇Retrieval-Augmented Generation for Large Language Models: A Survey(同济/复旦) 论文链接 1.简介 这篇全面的综述论文详细研究了 RAG 范式的发展包括 Naive RAG、Advanced RAG 和 Modular RAG。介绍了 RAG 框架的三个基础技术包括检索、生成和增强技术。本文重点介绍了这些关键组件中嵌入的最先进的技术从而深入了解 RAG 系统的进步。此外本文还介绍了最新的评估框架和基准。 大语言模型LLM已经取得了显著的成功但是在特定领域或知识密集型任务中特别是在处理超出训练数据或需要当前信息的查询时会产生“幻觉”。为了克服挑战检索增强生成 RAG 通过语义相似性计算从外部知识库中检索相关文档块来增强 LLM。通过参考外部知识RAG有效地减少了生成事实不正确内容的问题。它与 LLM 的集成被广泛采用使 RAG 成为推进聊天机器人和增强 LLM 实际应用的关键技术。 RAG在大模型时代的发展轨迹呈现出几个截然不同的阶段特征。 最初RAG的成立恰逢Transformer架构的兴起专注于通过预训练模型PTM整合其他知识来增强语言模型。这个早期阶段的特点是基础工作旨在完善预训练技术。随后 ChatGPT 的到来标志着一个关键时刻LLM 展示出了强大的上下文学习 ICL 能力。RAG研究转向为LLM提供更好的信息在推理阶段回答更复杂和知识密集型的任务从而促进了RAG研究的快速发展。随着研究的不断推进RAG的增强作用不再局限于推理阶段而是开始更多地与LLM微调技术相结合。
- RAG发展历程
本文展开如下第二部分介绍了RAG的主要概念和当前范式。三个部分分别探讨了核心组件——“检索”、“生成”和“增强”。第三部分重点介绍检索中的优化方法包括索引、查询和嵌入优化。第四部分集中讨论检索后过程和生成中的LLM微调。第五部分分析了三个增强过程。第六部分重点介绍RAG的下游任务和评估系统。第七节主要讨论RAG目前面临的挑战和未来发展方向。最后是本文总结。 RAG 应用于问答的例子。它主要由3个步骤组成。
1索引。文档被拆分为块编码为向量并存储在向量数据库中。2检索。根据语义相似性检索与问题最相关的前 k 个块。3生成。将原始问题和检索到的块一起输入到 LLM 中以生成最终答案。
本文将RAG分为三个阶段Naive RAG, Advanced RAG, and Modular RAG,也就是朴素RAG高级RAG模块化RAG。 RAG的三种范式之间的比较。
(左)朴素RAG主要由索引、检索和生成三部分组成。(中高级 RAG 在检索前和检索后提出了多种优化策略该过程类似于 Naive RAG仍然遵循类似链的结构。(右模块化 RAG 从以前的范式继承和发展总体上显示出更大的灵活性。这在引入多个特定的功能模块和替换现有模块时很明显。整个过程不限于顺序检索和生成它包括迭代和自适应检索等方法。
2.1 Naive RAG
朴素RAG遵循一个传统的处理过程包括indexing,retrieval,generation也被称为”Retrieve-Read“范式【如上图所示】。
索引阶段从清理和提取各种格式如 PDF、HTML、Word 和 Markdown的原始数据开始然后将其转换为统一的纯文本格式。为了适应语言模型的上下文限制文本被分割成更小的、易于理解的块。然后使用Embedding model 将块编码为向量表示并存储在向量数据库中。此步骤对于在后续检索阶段实现高效的相似性搜索至关重要。
检索阶段收到用户查询后RAG 系统采用与索引阶段相同的编码模型将查询转换为向量表示。然后它计算查询向量与索引语料库中块向量之间的相似性分数。系统优先处理并检索与查询具有最大相似性的前 K 个块。这些块随后被用作提示中的扩展上下文。
生成阶段提出的查询和选定的文档被合成为一个连贯的提示【prompt】大型语言模型的任务是制定响应。该模型的回答方法可能因特定于任务的标准而异允许它利用其固有的参数知识或将其响应限制在所提供文档中包含的信息上。在正在进行的对话的情况下任何现有的对话历史记录都可以集成到提示中使模型能够有效地参与多轮对话交互。
Naive RAG 缺点
检索挑战。检索阶段经常在精确度和召回率方面遇到困难导致选择未对齐或不相关的块以及丢失关键信息。生成困难。在生成响应时模型可能会面临幻觉问题即它产生的内容不受检索到的上下文的支持。这个阶段还可能受到输出的不相关或偏差的影响从而降低响应的质量和可靠性。增强障碍。将检索到的信息与不同的任务集成可能具有挑战性有时会导致输出脱节或不连贯。当从多个来源检索类似信息时该过程还可能遇到冗余从而导致重复响应。确定各个段落的重要性和相关性并确保风格和音调的一致性进一步增加了复杂性。面对复杂的问题基于原始查询的单个检索可能不足以获取足够的上下文信息。此外还有人担心生成模型可能过度依赖增强信息导致输出只是回显检索到的内容而不添加有洞察力或综合的信息。
2.2 Advance RAG
Advanced RAG 引入了特定的改进来克服 Naive RAG 的局限性。它专注于提高检索质量采用 pre-retrieval and post-retrieval策略。为了解决索引问题Advanced RAG 通过使用滑动窗口方法、细粒度分割和合并元数据来改进其索引技术。
预检索过程。在此阶段主要重点是优化索引结构和原始查询。优化索引的目的是提高被索引内容的质量。这涉及以下策略增强数据粒度、优化索引结构、添加元数据、对齐优化和混合检索。而查询优化的目标是让用户原来的问题更清晰更适合检索任务。常用的方法包括查询重写、查询转换、查询扩展等技术。
后检索过程。检索到相关上下文后将其与Query有效集成至关重要。检索后处理中的主要方法包括对块进行重新排序和上下文压缩。对检索到的信息进行重新排序将最相关的内容重新定位到提示的边缘是一个关键策略。这个概念已经在LlamaIndex2、LangChain3和HayStack等框架中实现。将所有相关文档直接输入 LLM 可能会导致信息过载从而用不相关的内容稀释对关键细节的关注。为了缓解这种情况检索后的工作集中在选择基本信息、强调关键部分和缩短要处理的上下文上。
2.3 Modular RAG
模块化 RAG 架构超越了前两种 RAG 范式提供了增强的适应性和多功能性。它结合了多种策略来改进其组件例如添加用于相似性搜索的搜索模块以及通过微调来改进检索器。为了应对特定挑战引入了重组的RAG模块和重新排列的RAG Pipeline等创新。向模块化 RAG 方法的转变正变得越来越普遍它支持跨组件的顺序处理和集成的端到端训练。尽管 Modular RAG 独树一帜但它建立在 Advanced 和 Naive RAG 的基本原则之上展示了 RAG 家族内部的进步和完善。
2.3.1 新模块-New Modules
模块化 RAG 框架引入了额外的专用组件以增强检索和处理能力。 Search module 适应特定场景使用LLM生成的代码和查询语言支持跨各种数据源如搜索引擎、数据库和知识图谱进行直接搜索。 RAG Fusion通过采用多查询策略来解决传统的搜索局限性该策略将用户查询扩展到不同的视角利用并行向量搜索和智能重新排序来发现显性和变革性知识。 Memory module 利用 LLM 的内存来指导检索创建一个无界内存池通过迭代自我增强使文本和和数据分布更紧密的对齐。 RAG系统中的 Routing 在不同的数据源中导航为查询选择最佳路径无论是涉及摘要、特定数据库搜索还是合并不同的信息流。 Predict 模块旨在直接通过 LLM 生成上下文来减少冗余和噪音从而确保相关性和准确性。
最后Task Adapter 模块 针对各种下游任务定制 RAG自动对零样本输入进行提示检索并通过少量查询生成 、创建特定于任务的检索器。这种综合方法不仅简化了检索过程而且显著提高了检索信息的质量和相关性以更高的精度和灵活性满足了各种任务和查询的需求。 2.3.2 新模式-New Patterns 模块化 RAG 通过允许模块替换或重新配置来应对特定挑战从而提供卓越的适应性。这超越了 Naive 和 Advanced RAG 的固定结构其特点是简单的“检索”和“读取”机制。此外模块化 RAG 通过集成新模块或调整现有模块之间的交互流程来扩展这种灵活性从而增强其在不同任务中的适用性。 Rewrite-Retrieve-Read 模型创新利用LLM的功能通过重写模块和LM-反馈机制来优化检索查询从而更新重写模型提高任务性能。类似地Generate-Read 用LLM生成的内容取代了传统的检索而ReciteRead 则强调从模型权重中检索增强了模型处理知识密集型任务的能力。 混合检索策略集成了关键字、语义和向量搜索以满足各种查询的需求。此外采用子查询和假设文档嵌入HyDE试图通过关注生成的答案和真实文档之间的 Embedding similarites 相似性来提高检索相关性。 模块排列和交互的调整如演示-搜索-预测 DSP 框架和 ITERRETGEN 的迭代检索-读取-检索-读取流程展示了模块输出的动态使用来增强另一个模块的功能说明了对增强模块协同作用的复杂理解。模块化 RAG Flow 的灵活编排展示了通过 FLARE 和 Self-RAG 等技术进行自适应检索的优势。这种方法超越了固定的 RAG 检索过程根据不同的场景评估检索的必要性。灵活架构的另一个好处是RAG系统可以更容易地与其他技术如微调或强化学习集成。例如这可能涉及微调检索器以获得更好的检索结果微调生成器以获得更个性化的输出或进行协作微调。 2.4 RAG vs Fine-tuning 在大模型的优化发展过程中RAG通常用来与Fine-Tuning(FT) 以及Prompt 工程作比较。使用一个二维象限图【外部知识需求和模型修改的需求】来描述三种方法之间的关系和区别。Prompt工程利用模型内在的能力最小化对外部知识和模型改造的需求。RAG可以视为为模型提供量身定制的信息检索教科书非常适合精确的信息检索任务。FT相当于一个学生随着时间推移内化知识适用于需要复制特定结构风格或格式的场景。 RAG通过提供实时知识更新和有效利用外部知识源在动态环境中表现出色具有高度的可解释性。但是它具有更高的延迟和有关数据检索的道德考虑。另一方面FT 更加静态需要重新训练才能进行更新但可以对模型的行为和风格进行深度定制。它需要大量的计算资源来准备和训练数据集虽然它可以减少幻觉但它可能会面临不熟悉数据的挑战。 在对它们在不同主题的各种知识密集型任务中的表现进行多次评估时发现虽然无监督微调【UFT】显示出了一些改进但RAG在现有知识和全新的知识方面的表现始终优于微调。此外还发现 LLM 很难通过无监督微调来学习新的事实信息。RAG 和 FT 之间的选择取决于应用程序上下文中对数据动态、定制和计算能力的特定需求。RAG 和 FT 不是相互排斥的可以相互补充在不同层面上增强模型的能力。在某些情况下它们的联合使用可能会带来最佳性能。涉及 RAG 和 FT 的优化过程可能需要多次迭代才能获得令人满意的结果。 - RETRIEVAL
在RAG上下文中从数据源高效检索相关文档是非常重要的这里包含几个关键因素
检索源检索粒度检索预处理对应的embedding model的选择
3.1 检索源
检索源通过外部知识来强化LLM然而检索源和检索粒度都会影响最终生成的结果。
1数据结构一开始文本是主要检索源随后还扩展到半结构化数据【PDF】和结构化数据【Knowledge GraphKG】用于增强。除了利用原始的外部数据源现在也有一种趋势利用LLM生成的内容用于检索和增强。 非结构化数据例如Text文件是最广泛使用的检索源主要从语料库进行收集。对于开放领域的问答任务主要检索源是是维基百科当前主要版本包括 HotpotQA 2017 年 10 月 1 日、DPR2018 年 12 月 20 日。除百科全书数据外常见的非结构化数据还包括跨语言文本和特定领域数据如医学和法律领域。 半结构化数据通常指包含文本和表格组合信息的数据例如PDF。由于两个主要原因处理半结构化数据给传统的 RAG 系统带来了挑战。首先文本拆分过程可能会无意中分隔表格从而导致检索过程中的数据损坏。其次将表合并到数据中会使语义相似性搜索复杂化。在处理半结构化数据时一种方法是利用LLM的代码功能对数据库中的表如TableGPT执行Text-2-SQL查询【这个应该是结构化数据查询可能arxiv上版本有问题】。或者可以将表格转换为文本格式以便使用基于文本的方法进行进一步分析。然而这两种方法都不是最佳解决方案这表明该领域存在大量研究机会。 结构化数据如知识图谱KGs通常经过验证可以提供更精确的信息。 KnowledGPT 生成知识库搜索查询并将知识存储在个性化库中增强了 RAG 模型的知识丰富度。针对LLM在理解和回答文本图问题方面的局限性G-Retriever集成了图神经网络LLM和RAG通过LLM的软提示增强图理解和问答能力并采用有奖收集斯坦纳树PCST优化问题进行有针对性的图检索。另一方面它需要额外的工作来构建、验证和维护结构化数据库。 LLM 生成的内容。针对RAG中外部辅助信息的局限性一些研究集中在利用LLM的内部知识上。 - SKR 将问题分类为已知或未知有选择地应用检索增强。GenRead 用 LLM 生成器替换了检索器发现 LLM 生成的上下文通常包含更准确的答案因为与因果语言建模的预训练目标更加一致。Selfmem是一种迭代创建无界记忆池的方法它利用增强检索的生成器和记忆选择器来工作。具体来说Selfmem通过一个记忆选择器挑选出与原始问题形成互补问题的回答作为双问题dual problems以此方式来自我增强生成模型。这种方法在RAGRetrieval-Augmented Generation增强检索生成框架下强调了创新性地利用数据源的重要性旨在提高模型的性能和任务的有效性。
2检索粒度。除了数据源之外的另一个重要因素粗粒度检索理论上可以提供对问题更相关的信息但是也可能包含冗余内容分散下游任务中检索和语言模型的注意力。另一方面细粒度检索会增加检索负担而且不保证语义完整性并满足需求的知识。在推理过程中选择适当的检索粒度可以成为提高密集检索器检索和下游任务性能的简单有效的策略。 在Text文本中检索粒度从细到粗包括标记Token、短语Phrase、句子sentence、命题Proposition、块chunks、文档Document。其中DenseX 提出了使用命题Proposition作为检索单元的概念。命题被定义为文本中的原子表达式每个命题都包含一个独特的事实片段并以简洁、独立的自然语言格式呈现。这种方法旨在提高检索的精确度和相关性。在知识图谱 KG 上检索粒度包括 Entity、Triplet 和 sub-Graph。检索的粒度也可以适应下游任务例如在推荐任务和句子对 中检索项目 ID 。详细资料见表一。
3.1 indexing 优化 在索引阶段文档将被处理、分割并转换为嵌入以存储在矢量数据库中。索引构造的质量决定了在检索阶段能否获得正确的上下文。 1分块策略分块策略是将文档按照固定的词数例如100、256或512个词切割成多个部分以便进行处理。使用较大块的分块方式能够捕获更多的上下文信息但是随之而来的是更多的噪声这会增加处理时间和成本。相比之下小块的分块方式虽然可能无法完整地传达所有必要的上下文但它产生的噪声较少。然而由于分块会导致句子内部的截断这就促使了递归分割和滑动窗口方法的优化。这两种方法允许在多次检索过程中通过合并全局相关信息来实现层次化的检索。 尽管如此这些方法依然难以在语义完整性和上下文长度之间找到一个平衡点。为解决这一问题提出了“小至大”Small2Big的策略。在这种策略下句子本身被视为检索的基本单位而前后的句子则作为上下文提供给大型语言模型LLMs以此来补充句子级信息的不足确保更全面的语境理解。 分块策略的选择对于检索增强生成RAG系统来说至关重要因为它直接影响到检索的准确性和效率。选择合适的块大小既能保证信息的完整性又能减少不必要的噪声对提升检索质量有显著影响。小至大的策略通过结合句子级别的精细检索与周边句子提供的宏观上下文能够在保持语义完整性的同时控制上下文长度为RAG系统提供了更灵活和高效的检索方案。 2元数据附件元数据附加是指在文档切片中加入如页码、文件名、作者、类别和时间戳等额外信息。这样做的好处在于检索过程可以根据这些元数据进行过滤从而缩小检索范围提高检索效率和准确性。通过在检索时赋予文档时间戳不同的权重可以实现时间敏感型的检索增强生成RAG确保获取的知识是最新的避免使用过时的信息。 除了从原始文档中提取元数据外还可以人工构建元数据。例如可以添加段落摘要或者引入假设性的问题这种方法被称为反向HyDEReverse HyDE。具体而言使用大型语言模型LLM来生成可以从文档中找到答案的问题然后在检索阶段计算原问题与假设问题之间的相似度以此来缩小问题与答案之间的语义差距。这种方式有助于更精准地匹配问题和答案提升检索的质量和相关性。通过这种方式不仅能够利用现有文档的元数据还能通过LLM生成额外的辅助信息进一步优化检索过程。 3结构索引 结构性索引Structural Index是增强信息检索效率和效果的一种方法主要通过建立文档的层次结构来实现。这种索引方式允许检索增强生成RAG系统快速定位和处理相关数据尤其在处理大量或复杂数据集时更为有效。以下是Structural Index的几个关键点 层级索引结构 文件按照父-子关系排列并链接到它们的块每个节点或“块”与特定信息关联。在每个节点存储数据摘要这有助于快速遍历数据并确定哪些部分需要被提取。这种结构能减轻由于块提取引起的幻觉问题确保检索到的信息片段更加连贯和准确。 知识图谱索引 利用知识图谱KG构建文档的层级结构有助于保持一致性并清晰描绘不同概念和实体之间的联系。知识图谱减少了语义幻觉的可能性即误解或错误的推理因为图谱提供了上下文和关系的明确表示。信息检索过程被转化为大型语言模型LLM可理解的指令提高了知识检索的精确性和上下文相关性的响应生成能力。为了捕捉文档内容与结构之间的逻辑关系KGP提出了一种利用知识图谱在多个文档间建立索引的方法。这个知识图谱由节点和边构成其中节点代表文档中的段落或结构如页面和表格边则表示段落间的语义或词汇相似性以及文档结构内部的关系。这种方法有效地解决了多文档环境下的知识检索和推理问题通过构建文档间的逻辑连接提高了信息检索的精准度和推理能力。 整体效率提升 结构性索引通过逻辑连接文档内容和结构显著提升了RAG系统的整体效率。它不仅优化了知识检索还使得LLM能够生成情境上一致的回应进而改善了整个RAG系统的性能。
结构性索引是RAG框架中的一个关键组成部分它通过创建和利用文档的层级和逻辑结构增强了检索的准确性和速度同时降低了信息处理过程中的误差率。通过结合知识图谱和其他高级策略结构性索引能够使检索系统更加智能和高效特别是在处理多文档和复杂数据集时。 3.2 Query 优化 查询优化在检索增强生成RAG系统中至关重要特别是对于基于用户原始查询直接检索的朴素RAG方法。由于用户提问可能不够精确或清晰且查询本身可能复杂且组织不良加上语言模型难以处理专业术语或含义模糊的缩写词如“LLM”可能指的是大型语言模型或法律硕士这些都导致了检索效果不佳。 为了解决这些问题RAG系统采用两种主要策略查询扩展和查询变换。 查询扩展通过将单个查询扩展成多个查询来丰富查询内容确保答案的相关性和准确性。具体有 多重查询利用提示工程通过大型语言模型LLM扩展查询并行执行非随机设计。子查询将复杂问题分解为一系列简单子问题结合使用最少到最多的提示方法。验证链CoVe通过LLM验证扩展后的查询减少幻觉效应提高可靠性。 查询变换的核心思想是基于变换后的查询进行检索而不是原始用户查询。包括 查询重写LLM或专门的小型语言模型如RRR用于重写查询Taobao实施的BEQUE方法显著提升了长尾查询的召回率增加了商品交易总额GMV。使用提示工程让LLM基于原查询生成新查询如HyDE构建假设文档关注答案间的嵌入相似性而非问题或查询的相似性。Step-back Prompting方法抽象原始查询生成高层次概念问题与原查询一起用于检索结果共同作为生成答案的基础。
此外还提出了查询路由的概念根据不同查询将其导向适合的RAG流程适用于应对多种场景的灵活RAG系统。这包括 元数据路由器/过滤器从查询中提取关键词根据关键词和块内元数据过滤缩小搜索范围。语义路由器利用查询的语义信息进行路由。可采用混合路由方法结合语义和元数据方式以增强查询路由性能。 通过这些优化策略RAG系统可以更准确地理解和响应用户的查询提供更相关、更可靠的信息。 3.4 Embedding 在检索增强生成RAG系统中通过计算问question embedding 和 document chunks embedding 之间的相似度例如余弦相似度来实现检索。嵌入模型的语义表示能力在此过程中扮演关键角色通常涉及稀疏编码器如BM25和密集检索器基于BERT架构的预训练语言模型。近年来出现了如AngIE、Voyage、BGE等优秀嵌入模型它们得益于多任务指导调优。Hugging Face的MTEB排行榜评估了跨8个任务、覆盖58个数据集的嵌入模型。同时C-MTEB专注于中文能力覆盖6个任务和35个数据集。选择哪种嵌入模型没有一概而论的答案但某些特定模型更适合特定的应用场景。 混合检索是一种结合稀疏和密集嵌入的方法两者捕获不同的相关性特征并能互相补充。稀疏检索模型可为密集模型提供初始搜索结果以供训练预训练语言模型PLM可用于学习词权重以增强稀疏检索。稀疏模型还能提升密集模型的零样本检索能力和处理罕见实体的能力从而增强其鲁棒性。 当上下文与预训练语料库显著偏离时尤其是在医疗、法律等专业领域需要对Embedding model进行微调以适应领域专有术语。除了补充领域知识外微调的另一个目的是使检索器和生成器对齐。例如利用大型语言模型LLM的结果作为监督信号进行微调称为LSRLM-supervised Retriever。 PROMPTAGATOR使用LLM作为少量示例查询生成器创建针对特定任务的检索器解决了数据稀缺领域监督微调的挑战。LLM-Embedder则利用LLM在多个下游任务中生成奖励信号细分为数据集的硬标签和来自LLM的软奖励这种双信号方法促进了更有效的微调过程使嵌入模型适应各种下游应用。REPLUG使用检索器和LLM计算检索文档的概率分布通过计算KL散度进行监督训练。这种方法通过使用LM作为监督信号增强了检索模型的性能无需特定的交叉注意力机制。 受到人类反馈强化学习RLHF的启发利用基于LM的反馈通过强化学习加强检索器的性能这一方法进一步提升了RAG系统的效能。总之嵌入模型在RAG中起着核心作用通过混合检索、模型微调和强化学习等技术不断优化和提升其性能。 3.5 Adapter 为了优化大型语言模型LLM的多任务处理能力研究者们提出了几种不同的方法包括使用适配器来解决模型微调中的挑战。具体来说微调模型可能会面临通过API集成功能的难题或是受限于本地计算资源的约束。因此一些策略选择加入外部适配器来辅助模型的对齐。 模型对齐Model Alignment 或 AI Alignment是指在人工智能AI系统特别是大型语言模型LLMs的设计和优化过程中确保这些模型的行为、输出和决策能够符合人类的价值观、伦理标准和社会期望的过程。这一概念在AI安全和伦理领域尤为重要因为随着模型能力的提升它们潜在的影响也越来越大因此需要确保这些影响是积极且有益的。 模型对齐的目标包括但不限于 避免幻觉问题减少模型生成不存在或不准确信息的可能性。防止有害行为确保模型不会生成鼓励或执行恶意行为的内容。遵守伦理准则使模型的决策和行为符合社会伦理和法律规范。提高可解释性使模型的决策过程对人类用户更加透明和可理解。价值一致性保证模型的目标和行为与人类用户的意图和价值观一致。 模型对齐涉及的技术和方法可以分为几个主要类别 外部对齐这通常涉及到模型与外部知识源的交互例如通过检索增强生成RAG允许模型访问和引用最新的事实信息或专业知识。内部对齐关注模型内部的语义表示和计算过程确保它们能够反映人类的语义理解和逻辑推理。可解释性增强开发技术来解析模型的决策过程使其对人类用户更加透明。目标对齐通过强化学习或其他机制来调整模型的目标函数使其输出与人类的期望和偏好对齐。细粒度控制允许用户或管理员通过接口或规则集来精细控制模型的行为。 实现模型对齐的挑战包括数据偏见、模型复杂性导致的“黑盒”效应、以及模型在现实世界应用中可能遇到的各种未预见情况。因此模型对齐是一个活跃的研究领域旨在开发新的算法、评估框架和基准以推动AI系统的安全、可靠和负责任的发展。 UPRISE[20]设计了一个轻量级的提示检索器该检索器可以从预建的提示池中自动提取适合零样本任务输入的提示。这种方法使得模型能够在没有先验知识的情况下执行特定任务。AAR增强型适应检索器[47]则引入了通用适配器旨在适应多种下游任务使模型能够灵活地应对不同场景。 PRCA[69]增加了一个可插拔的、奖励驱动的上下文适配器专门用于提升特定任务上的性能。通过这种方式模型能够学习到如何在特定任务中获得更好的结果。 BGM[26]则采取了不同的策略它固定了检索器和LLM但在二者之间训练了一个桥梁式的Seq2Seq模型。这个桥梁模型的作用是将检索到的信息转化为LLM可以有效处理的形式这样不仅可以重新排序检索结果还可以动态地为每个查询选择合适的段落甚至可能运用如重复等更高级的策略。 PKG10介绍了一种创新方法通过指令微调将知识融入到透明模型中。在这一方法中检索模块被直接替代根据查询生成相关文档。这种方法有助于克服微调过程中的困难并提高模型的性能使得模型在处理复杂任务时更加得心应手。 综上所述适配器技术为解决大型语言模型在微调和多任务处理方面的挑战提供了有力的支持通过引入外部组件或调整内部结构显著增强了模型的灵活性和性能。 - Generation
在检索增强生成RAG系统中直接将所有检索到的信息输入给大型语言模型LLM以回答问题并非明智之举。为了提高LLM生成的准确性和相关性需要从两个角度对检索到的内容进行调整一是对检索结果的处理二是调整LLM本身。
上下文精炼Context Curation
上下文精炼是必要的因为冗余信息会干扰LLM的最终生成而过长的上下文会使LLM陷入“中间遗忘”的问题即像人类一样LLM往往更关注文本的开头和结尾忽略中间部分。为解决这一问题RAG系统通常需要进一步处理检索出的内容。 重排序Reranking这是一种重新排列文档片段的方法确保最相关的结果优先展示从而有效地缩小文档池范围。重排序不仅增强了检索效果还起到了过滤作用为LLM提供更精准的输入。重排序可以使用基于规则的方法依赖预定义的指标如多样性、相关性和平均倒数排名MRR也可以采用基于模型的方法比如BERT系列的编码器-解码器模型例如SpanBERT、专门的重排序模型如Cohere重排序或bge-raranker-large以及通用的大型语言模型如GPT。 上下文选择与压缩Context Selection/Compression一个常见的误区是认为检索尽可能多的相关文档并将其拼接成一个长提示是有益的。然而过多的上下文会导致噪声增加降低LLM对关键信息的感知。为了解决这个问题(Long) LLMLingua利用小型语言模型SLMs如GPT-2 Small或LLaMA-7B来检测并移除不重要的词汇将其转换成虽然人类难以理解但LLM能理解的形式。这种方法直接且实用地压缩了提示无需额外训练LLM同时保持了语言完整性和压缩比率。PRCA通过训练信息提取器来解决这个问题而RECOMP则采取类似方法通过对比学习训练信息浓缩器。每个训练数据点包括一个正样本和五个负样本编码器在整个过程中使用对比损失进行训练。 此外减少文档数量也有助于提高模型答案的准确性。Ma等人提出的“Filter-Reranker”范式结合了LLM和SLM的优点其中SLM作为过滤器而LLM作为重排序者。研究显示指导LLM对SLM识别出的困难样本进行重排可以在各种信息抽取任务中取得显著改进。另一种简单有效的方法是让LLM在生成最终答案前评估检索到的内容这允许LLM通过自我批判来排除相关性差的文档。例如在Chatlaw中LLM被提示自我建议引用的法律条文以评估它们的相关性。
综上上下文精炼是RAG系统中不可或缺的步骤它通过重排序和上下文选择与压缩等技术提高了LLM生成结果的质量和效率。 LLM Fine-Tune 针对特定场景和数据特征对大型语言模型LLM进行微调能够产生更佳的结果。这是使用本地部署LLM的一大优势尤其是在模型缺乏某一领域数据时通过微调可以向LLM注入额外的知识。Huggingface提供的微调数据集可以作为初始训练的一个起点。 微调的另一个好处是能够调整模型的输入和输出。例如这可以使LLM适应特定的数据格式并按指令生成特定风格的响应。对于涉及结构化数据的检索任务SANTA框架实施了一个三阶段训练流程以有效捕捉结构和语义细节。初步阶段集中在检索器上通过对比学习优化查询和文档的嵌入表示。 将LLM的输出与人类或检索器的偏好对齐可以通过强化学习实现。例如手动标注最后生成的答案然后通过强化学习提供反馈。除了与人类偏好对齐也可以与已精细调整的模型和检索器的偏好对齐。当无法访问强大的专有模型或大参数开源模型时一种简单有效的方法是对更强的模型如GPT-4进行知识蒸馏。LLM的精细调整可以与检索器的精细调整同步进行以使两者偏好一致。RA-DIT就是一种典型方法它使用KL散度来对齐检索器和生成器之间的评分函数。
微调LLM不仅可以弥补其在特定领域知识上的不足还能让模型更好地适应不同场景的需求优化输入输出以及通过与人类和机器偏好的对齐提升模型的性能和实用性。 - Augmentation process in RAG 在检索增强生成RAG框架下迭代检索、递归检索和自适应检索是三种用于提升模型性能的关键技术它们分别在不同场景下优化了知识获取的过程从而改善了大型语言模型LLM的生成质量。 除了最常见的一次性检索外RAG 还包括三种类型的检索增强过程。 左迭代检索涉及在检索和生成之间交替进行从而允许在每个步骤中从知识库中获得更丰富、更有针对性的上下文。中递归检索涉及逐步细化用户查询并将问题分解为子问题然后通过检索和生成不断解决复杂问题。右自适应检索的重点是使 RAG 系统能够自主确定是否需要外部知识检索以及何时停止检索和生成通常利用 LLM 生成的特殊token进行控制。 A. 迭代检索Iterative Retrieval 迭代检索是一种动态的检索策略它允许RAG系统基于初始查询和已经生成的文本内容多次查询知识库。这种多轮次的检索有助于构建更全面的信息基础特别是在处理需要多步骤推理的复杂问题时能够提供更丰富的上下文和针对性更强的信息。通过迭代检索LLM能够在每次迭代中获得新的信息进一步优化后续的生成结果避免了一次性检索可能带来的信息局限性和不准确性。 B. 递归检索Recursive Retrieval 递归检索策略专注于深化检索深度和提高结果的相关性。它通过逐步细化用户查询将大问题分解成一系列子问题然后通过连续的检索和生成循环来解决复杂问题。这种检索方式特别适用于初始查询模糊不清或者所需信息高度专业化的情况通过逐步逼近和细化最终达到最佳的检索效果。递归检索能够帮助RAG系统逐步聚焦于最相关的信息从而提供更加精准的搜索结果。 C. 自适应检索Adaptive Retrieval 自适应检索技术赋予了RAG系统自主判断是否需要外部知识以及何时停止检索和生成的能力。这种机制通常依赖于LLM生成的特殊控制令牌来决定是否继续检索何时转入生成阶段。自适应检索提高了系统的灵活性和效率允许模型根据实际需求动态调整检索策略避免了不必要的计算资源浪费同时确保了信息的充分性和及时性。 迭代检索、递归检索和自适应检索分别针对不同的信息需求和场景通过优化检索流程提升了RAG系统处理复杂任务的能力增强了生成内容的准确性和实用性。这些技术的综合运用为RAG在各种应用领域提供了强大的支撑推动了RAG系统向着更加智能化和高效的方向发展。
- Task and Eval
RAG检索增强生成在自然语言处理NLP领域的快速发展和广泛应用使得评估RAG模型成为大型语言模型社区研究的焦点。评估的主要目标是理解并优化RAG模型在不同应用场景下的表现。RAG的核心任务是问答QA包括单跳/多跳QA、多项选择、特定领域的QA以及适合RAG的长篇幅场景。此外RAG正在扩展到信息抽取IE、对话生成、代码搜索等下游任务中。
评估RAG模型主要关注两个方面检索质量和生成质量。检索质量评估确定检索器组件提取上下文的有效性使用搜索引擎、推荐系统和信息检索系统的标准指标如命中率、平均精确率MRR和规范化折损累积增益NDCG。生成质量评估则关注生成器从检索到的上下文中合成连贯且相关答案的能力分为无标签和有标签内容的评价前者考察答案的忠实度、相关性和无害性后者侧重于信息的准确性。
当代RAG模型的评估实践强调三个质量分数和四种关键能力。质量分数包括上下文相关性、答案忠实度和答案相关性。上下文相关性确保检索内容的准确性和具体性答案忠实度保证答案与上下文一致避免矛盾答案相关性要求答案直接关联提问有效回应核心问题。
四种关键能力包括噪声鲁棒性、否定拒绝、信息整合和反事实鲁棒性。噪声鲁棒性衡量模型处理与问题相关但缺乏实质信息的文档的能力否定拒绝评估模型在没有必要知识时避免回答的能力信息整合评估模型从多文档中综合信息应对复杂问题的能力反事实鲁棒性测试模型识别和忽略已知不准确信息的能力。
RAG的评估还涉及一系列基准测试和工具例如RGB、RECALL和CRUD这些工具不仅提供量化指标评估模型性能也加深了对模型在各评估方面能力的理解。自动化工具如RAGAS、ARES和TruLens使用大型语言模型来评估质量分数共同构成了一个全面的RAG模型评估框架。
RAG模型的评估涵盖了从上下文检索到答案生成的各个环节通过质量分数和关键能力的评估结合定制的评估工具和基准形成了一套全面的RAG模型评估体系以促进其在NLP领域的持续进步和应用。
- 未来方向 尽管检索增强生成RAG技术取得了显著进展但仍存在一些需要深入研究的挑战。以下是RAG当前面临的挑战及未来研究方向 RAG与长上下文的关系 随着研究的深入大型语言模型LLM能够处理超过20万词的上下文。这意味着对于长文档的问答可以不再依赖RAG而直接将整篇文档作为提示。然而RAG仍然具有不可替代的作用它能提高操作效率并帮助用户验证生成的回答使推理过程变得可观察。此外RAG在超长上下文中处理更复杂的问题和需要大量阅读才能回答的总结性问题方面展现出新的潜力。 RAG的鲁棒性 在检索过程中遇到的噪音或矛盾信息会严重影响RAG的输出质量。提高RAG抵抗此类对抗性或反事实输入的能力正成为研究热点和性能指标。例如Cuconasu等人发现包含无关文档反而可能意外地增加准确性这表明需要进一步探索RAG的鲁棒性。 混合方法 将RAG与微调相结合是当前的一个主要策略如何最优地集成这两种方法以及如何利用参数化和非参数化的优点是未来研究的重点。 RAG的规模定律 虽然大型语言模型的规模定律已确立但RAG模型的参数数量和适用性仍需进一步研究。逆规模定律的可能性——小模型胜过大模型——尤其值得探索。 生产就绪的RAG 提升检索效率、改进大规模知识库中的文档召回以及确保数据安全是工程领域面临的关键挑战。例如防止LLM泄露文档来源或元数据是亟待解决的问题。 RAG生态系统的发展 RAG工具包正在向基础技术栈汇聚为高级企业应用奠定基础但完全集成的平台概念仍在发展中。 多模态RAG RAG已经超越了基于文本的问答开始涵盖多种模态数据如图像、音频、视频和代码。例如RA-CM3能检索和生成文本与图像而Vid2Seq则通过专门的时间标记增强了事件边界预测和文本描述。
未来的研究方向包括开发适用于超长上下文的新RAG方法、提升RAG的鲁棒性、探索混合RAG与微调的最佳策略、研究RAG的规模定律、实现生产环境下的RAG优化、推动RAG生态系统的集成发展以及拓展RAG至多模态应用领域。
- 上一篇: 天津做宠物饲料的网站wordpress修改 版权
- 下一篇: 天津做网站的公司怎么样重庆市建设信息网站
相关文章
-
天津做宠物饲料的网站wordpress修改 版权
天津做宠物饲料的网站wordpress修改 版权
- 技术栈
- 2026年03月21日
-
天津最好网站建设公司成都房产信息网 官网
天津最好网站建设公司成都房产信息网 官网
- 技术栈
- 2026年03月21日
-
天津招标信息网官网网站seo外包公司有哪些
天津招标信息网官网网站seo外包公司有哪些
- 技术栈
- 2026年03月21日
-
天津做网站的公司怎么样重庆市建设信息网站
天津做网站的公司怎么样重庆市建设信息网站
- 技术栈
- 2026年03月21日
-
天津做网站推广的网站小说网站开发猪八戒
天津做网站推广的网站小说网站开发猪八戒
- 技术栈
- 2026年03月21日
-
天峻县公司网站建设怎么做网站的内链外链
天峻县公司网站建设怎么做网站的内链外链
- 技术栈
- 2026年03月21日
