大连做企业网站的公司外贸如何选择wordpress主题
- 作者: 五速梦信息网
- 时间: 2026年03月21日 11:28
当前位置: 首页 > news >正文
大连做企业网站的公司,外贸如何选择wordpress主题,哪些行业适合做网络推广,北京有哪些网站建设如果说#xff0c;rerank能够让RAG的效果实现百尺竿头更进一步#xff0c;那么LLM微调应该是RAG效果提升的最后一步。 把召回的数据#xff0c;经过粗排#xff0c;重排序后#xff0c;送给模型#xff0c;由模型最后总结答案。LLM的确已经是RAG的最后一步了。 这里还是会… 如果说rerank能够让RAG的效果实现百尺竿头更进一步那么LLM微调应该是RAG效果提升的最后一步。 把召回的数据经过粗排重排序后送给模型由模型最后总结答案。LLM的确已经是RAG的最后一步了。 这里还是会遇到一个问题召回的正确的答案但是答案藏在比较长的上下文中。例如 top10的数据又或者是top20的数据中。这非常考验模型的能力。看到一篇论文非常好在分享如何微调LLM来做好这最后一步。 论文中提到一个观点我非常赞同“增强LLM的长上下文的排序能力有助于提升回答的效果” ps这个是我自己总结的观点 本篇文章主要介绍SFT微调的方法SFT数据的构建测试数据集测试指标以及最后的效果。 论文地址https://simg.baai.ac.cn/paperfile/68c487ed-fafd-4bac-81e0-f8be1b56e845.pdf 一、核心内容 提出在RAG中微调LLM的方法。用于提升同时对上下文进行排序和生成答案的能力。在70B的LLM上进行微调最终的能力能够比肩chatGPT4的能力。 在生物医学领域的 RAG 基准测试中RankRAG 表现出对新领域的出色泛化能力。 并且rerank能力能够超过BGE。 二、为什么要微调模型
2.1 RAG当前存在的问题 检索器容量有限 目前的RAG系统通常使用稀疏检索或中等大小的嵌入模型作为检索器这些模型由于效率考虑通常需要索引数以百万计的文档。这些模型独立地编码问题和文档并使用向量相似性度量来计算问题和文档之间的相似性但嵌入模型的有限容量和查询及文档的独立处理限制了它们估计问题和文档文本相关性的能力。 选择top-k上下文的权衡 尽管最新的长上下文LLM可以作为输入来生成答案但性能随着检索到的上下文数量k的增加而迅速饱和。较小的k可能无法捕获所有相关信息从而影响召回率而较大的k虽然提高了召回率但可能会引入不相关的内容从而影响LLM生成准确答案的能力。 专家排名模型的零样本泛化能力有限 虽然现有的一些研究通过指令微调LLM来增强其在RAG中的能力但如果初始检索结果不佳这些方法可能仍然无效。此外专家排名模型相比于多用途的LLM本身在零样本泛化能力上可能相对有限。 检索器的效率问题 由于需要处理大量的文档检索器的效率成为一个问题尤其是在需要快速响应的场景中。 上下文相关性不足 检索器可能难以在整个嵌入空间中学习有效的局部对齐以支持准确的匹配这限制了检索器在新任务或新领域中的有效性。 上下文重排的需求 尽管检索器能够检索到相关的上下文但可能需要一个额外的重排步骤来确保最相关的上下文被优先考虑这增加了处理的复杂性。 2.2 微调的目标 提高指令遵循能力通过监督微调SFT可以显著提升LLMs遵循给定指令的能力。这是因为在多种下游任务中能够准确理解和遵循指令对于提供有用和准确的回答至关重要。 优化RAG任务性能尽管LLMs在生成文本方面表现出色但它们在检索增强型生成RAG任务中的表现并不总是最优尤其是在从检索到的上下文中提取答案的能力方面。微调可以帮助LLMs更好地适应这类任务。 解决现有RAG流程的局限性当前的RAG系统存在一些限制例如检索器容量有限以及在挑选top-k上下文时存在的权衡问题。微调可以帮助LLMs更有效地处理这些问题提高检索到的上下文的相关性。 上下文排序能力在RAG中需要一种机制来确保检索到的上下文与问题高度相关。通过微调LLMs可以学习如何评估和排序检索到的上下文以选择最相关的信息。 数据效率论文中提到即使是在只有少量排序数据的情况下通过特定的微调方法RankRAG也能实现很好的性能。这说明微调可以提高模型对数据的利用效率。 零样本学习能力通过指令微调LLMs能够在没有额外训练数据的情况下对新任务或新领域展示出更好的零样本学习能力。 提升泛化能力微调可以帮助模型在不同的任务和领域中更好地泛化如论文中提到的在生物医学领域的RAG基准测试中即使没有在该领域的数据上进行微调RankRAG也展现出了良好的性能。 应对长尾知识问题微调可以帮助模型更好地处理长尾知识问题即那些在传统数据集中不常见但在实际应用中可能非常重要的问题。 三、如何微调模型 3.1 模型微调主要分为两个阶段 第一阶段监督微调Supervised Fine-Tuning, SFT 这个阶段的目的是提高大型语言模型LLMs遵循指令的能力从而在各种下游任务上获得更好的零样本结果。使用的数据集包括私有众包对话数据集、公共对话数据集、长形问答数据集、LLM生成的指令、以及一些特定的数据集如FLAN和Chain-of-thought数据集。此阶段确保了训练数据与评估任务的数据没有重叠。 第二阶段统一指令微调Unified Instruction-Tuning 这个阶段的目的是专门针对检索增强型生成RAG任务和上下文排序进行优化。指令微调的数据混合包括以下几部分 第一阶段的SFT数据以维持LLM的指令遵循能力。上下文丰富的问答QA数据增强LLM使用上下文生成答案的能力。检索增强型QA数据提高LLM在生成时对不相关上下文的鲁棒性。上下文排序数据使用MS MARCO通道passage排序数据集提高LLM的排序能力。检索增强型排序数据训练LLM确定给定问题下多个上下文的相关性。
微调过程中模型会接收到特定的指令模板这些模板会根据不同的数据集和任务类型进行调整。例如对于需要短答案的数据集指令会指示模型“用简短的片段回答问题”而对于需要长答案或涉及数学计算的数据集则会有相应的具体指令。
微调后模型在推理时采用“检索-重排-生成”的流程即首先检索器检索文档然后模型计算问题与检索到的文档之间的相关性得分并据此重排文档最后使用重排后的上下文生成最终答案。
这种微调方法使得RankRAG模型能够在多种知识密集型NLP任务中表现出色尤其是在上下文排序和答案生成方面。 3.2 如何构造SFT数据
Stage-I 的监督微调Supervised Fine-Tuning简称 SFT阶段使用了总共 128K即 128,000个 SFT 样本。这些样本来自于多种不同的数据集包括私有众包对话数据集、公共对话数据集、长形问答数据集、LLM 生成的指令以及一些特定的数据集如 FLAN 和 Chain-of-thought 数据集。这些数据集被用来增强模型遵循指令的能力从而在各种下游任务中获得更好的零样本结果。 数据配比 采用了以下步骤来构造微调数据 数据收集 收集多种类型的数据集包括对话数据集、长形问答数据集、阅读理解数据集、事实验证数据集等。 数据预处理 对收集的数据进行清洗和格式化以确保数据质量和一致性。这可能包括去除无关信息、修正错误和格式化文本。 任务特定指令设计 根据不同任务的需求设计特定的指令模板。例如对于需要短答案的QA任务设计简短的回答指令对于需要长答案或进行数学计算的任务设计相应的指令。 上下文丰富的QA数据 利用包含丰富上下文的QA任务数据增强模型使用上下文生成答案的能力。 检索增强型QA数据 结合检索到的上下文和正确答案构造检索增强型QA数据提高模型在面对不相关上下文时的鲁棒性。 上下文排序数据 使用如MS MARCO等排名数据集构造上下文排序任务训练模型评估查询和上下文之间的相关性。 检索增强型排名数据 结合检索到的多个上下文和正确答案构造检索增强型排名任务训练模型识别问题相关的所有上下文。 数据混合 将不同来源和类型的数据按照一定的比例混合形成统一的微调数据集。这有助于模型学习多样化的任务和提高泛化能力。 避免数据污染 确保训练数据与测试数据集没有重叠避免模型在测试时对训练数据产生记忆确保评估结果的有效性。 数据集的标准化 将不同来源的数据集转换为统一的格式以便于模型处理和学习。 数据集的平衡 确保数据集中各类样本的平衡避免某些类别的样本过多或过少影响模型的公平性和准确性。 数据集的标注 对于需要明确答案或评估标准的任务进行数据标注包括正确答案、相关性标签等。
通过这些步骤可以构造出适合模型微调的数据集这些数据集将用于提升模型在特定任务上的性能。在RankRAG的案例中这些数据集将特别针对上下文排序和检索增强型生成任务进行优化。 四、优化后的效果有哪些 4.1模型能力提升 性能提升通过RankRAG框架的指令微调LLMs在多个知识密集型基准测试中的表现显著优于现有的专家排名模型和其他强基线模型。 上下文排序能力增强RankRAG通过在训练中加入上下文排序数据使得模型在检索到的上下文中更有效地识别和排序最相关的信息。 数据效率RankRAG显示出了数据效率即使只用一小部分排序数据进行训练也能在RAG任务的评估中取得很好的效果超越了使用10倍多排序数据进行微调的LLMs。 泛化能力RankRAG在没有针对生物医学数据进行指令微调的情况下在生物医学领域的RAG基准测试中表现出色显示了其在新领域中的泛化能力。 检索增强型生成RAG改进RankRAG在RAG任务中通过引入额外的重排步骤提高了检索到的上下文的相关性从而提升了最终答案的准确性。 减少不相关上下文的影响通过重排步骤RankRAG能够过滤掉不相关或嘈杂的上下文减少这些上下文对LLM生成准确答案的干扰。 提高检索器的容量尽管检索器本身的容量有限但通过RankRAG的优化即使是在检索器检索结果不理想的情况下模型仍然能够通过上下文重排来提高性能。 零样本学习能力RankRAG在多个任务上的零样本学习能力得到了提升这表明微调后的模型能够更好地适应未见过的任务。 效率与性能的平衡尽管增加了重排步骤可能会带来额外的处理时间但研究表明这种时间开销相对较小并且可以通过调整重排的上下文数量来平衡效率和性能。 在不同上下文大小下的表现论文中的实验结果表明与没有排序的RAG方法不同RankRAG即使在较小的上下文大小如k5下也能表现良好这得益于重排步骤能够优先考虑最相关的上下文。
这些优化效果表明RankRAG框架通过指令微调能够显著提升LLMs在复杂问答任务中的性能尤其是在需要结合大量检索到的文档信息来生成准确答案的场景中。 4.2 rerank效果的提升
RankRAG 模型在重排rerank能力方面表现出色并且在某些方面优于现有的重排模型如BGEBi-Encoder with Gradient-based End-to-end optimization。 数据效率RankRAG 显示出了在仅有少量重排数据的情况下就能获得很好的性能。论文中提到即使只使用了约1%的MS MARCO数据集作为重排数据RankRAG 也能够实现非常引人注目的结果。这表明 RankRAG 在数据使用上非常高效。 性能比较在与BGE等其他重排模型的比较中RankRAG 在多数情况下即使使用的重排数据量是其他模型的十分之一也能取得更好的召回率Recall和其他评估指标如R5、R10、R20等。这表明 RankRAG 在重排任务上具有优势。 不同检索器的性能论文还展示了 RankRAG 在使用不同的检索器如DPR和Contriever时的性能。无论使用哪种检索器RankRAG 都能实现一致的性能提升这表明 RankRAG 对于检索器的选择具有很好的鲁棒性。 上下文大小对性能的影响在分析不同的上下文大小k值对性能的影响时RankRAG 显示出即使在较小的上下文大小如k5下也能表现良好这与没有重排步骤的常规RAG方法不同后者通常需要更多的上下文来获得较好的性能。 效率与性能的平衡论文还讨论了 RankRAG 在效率和性能之间取得的平衡。尽管增加了重排步骤可能会带来额外的处理时间但研究表明这种时间开销相对较小并且可以通过调整重排的上下文数量来平衡效率和性能。
总结来说RankRAG 在重排能力方面表现出了数据效率和性能上的优势即使在数据量较少的情况下也能实现良好的性能并且在不同的检索器和上下文大小下都能保持稳定的表现。这些特性使得 RankRAG 在实际应用中具有很大的潜力。 五、测评
5.1 评测指标是如何设计的
对于不同的任务类型作者设计了不同的评估指标来衡量 RankRAG 模型的性能。以下是根据论文内容评测指标的设计 开放域问答OpenQA任务 主要使用 Exact Match (EM) 作为主要评估指标即模型生成的答案与参考答案完全一致时才计为正确。对于 TriviaQA 和 PopQA除了 Exact Match 外还报告了 Accuracy即正确答案占总答案的比例。对于 HotpotQA 和 2WikimQA使用了 F1 分数这是一种综合考虑精确度和召回率的指标。 事实验证Fact verification任务 使用 Accuracy 作为评估指标即模型正确验证事实的比例。 对话问答Conversational QA任务 使用 F1 分数 作为评估指标这同样是一种综合考虑精确度和召回率的指标。 上下文排序Context Ranking任务 对于上下文排序任务设计了不同的评估指标如 Recall、R5、R10 和 R20这些指标衡量了在重排后检索到的前5、前10和前20个文档中相关文档的比例。 检索增强型生成RAG任务 在评估 RAG 任务时除了上述的 Exact Match、Accuracy 和 F1 分数外还可能考虑其他指标如答案的置信度或答案的相关性评分。 效率评估 论文还考虑了模型的效率通过评估重排步骤引入的额外处理时间来衡量。这涉及到检索、重排和生成每个步骤所需的时间并分析这些时间的增加对整体性能的影响。 数据效率 评估了模型在不同数量的排序数据下的的性能以确定模型在数据使用上的效率。 零样本学习能力 评估了模型在没有额外训练数据的情况下对新任务的适应能力。
这些评估指标的设计旨在全面衡量 RankRAG 模型在各种知识密集型 NLP 任务上的性能包括准确性、鲁棒性、泛化能力以及效率。通过这些指标研究者能够深入理解模型的优势和局限性并与其他基线模型进行比较。 5.2 测试数据集 测试数据集包括 开放域问答OpenQA: NQNatural Questions: 基于维基百科构建的问答数据集。TriviaQA: 包含由琐事爱好者提出的问题和独立收集的证据文档的问答数据集。PopQA: 集中在长尾实体上的实体中心问答数据集。HotpotQA: 需要理解和链接多个文档信息的多跳问答数据集。2WikimQA: 测试机器在两个不同的维基百科实体上的理解能力评估跨语言和跨文化检索及问答的能力。 事实验证Fact verification: FEVER: 旨在支持研究自动验证事实性声明的数据集。 对话问答Conversational QA: Doc2Dial: 一个文档基础的对话问答数据集涵盖多个领域。TopiOCQA: 需要代理搜索整个维基百科来回答用户问题的数据集。INSCIT: 研究用户问题不明确并需要澄清的情况的数据集。 生物医学领域的RAG基准测试Biomedical Benchmarks: MMLU-med: 包含生物医学相关问题的子集。MedQA: 来自美国医学执照考试的问答数据集。MedMCQA: 来自印度医学入学考试的多项选择题数据集。PubmedQA: 基于PubMed摘要的生物医学研究问答数据集。BioASQ: 从生物医学文献构建的问题不提供地面真实片段。
这些数据集覆盖了不同的任务类型和领域用于评估RankRAG模型在各种知识密集型任务上的表现。论文中还提到了使用不同的检索器如DPR和Contriever来测试RankRAG的上下文重排能力。通过在这些数据集上进行测试研究者能够全面评估RankRAG的性能和泛化能力。 六、prompt
论文是非常贴心的给里prompt。这个可以在给的论文链接中查看。
- 上一篇: 大连专业手机自适应网站建设商业网站设计制作公司
- 下一篇: 大连做网站 选领超科技晋江网站建设价格多少
相关文章
-
大连专业手机自适应网站建设商业网站设计制作公司
大连专业手机自适应网站建设商业网站设计制作公司
- 技术栈
- 2026年03月21日
-
大连优化网站课程管网建设网站
大连优化网站课程管网建设网站
- 技术栈
- 2026年03月21日
-
大连营销型网站建设做网站实训心得体会
大连营销型网站建设做网站实训心得体会
- 技术栈
- 2026年03月21日
-
大连做网站 选领超科技晋江网站建设价格多少
大连做网站 选领超科技晋江网站建设价格多少
- 技术栈
- 2026年03月21日
-
大连做网站qq群3模网站建设
大连做网站qq群3模网站建设
- 技术栈
- 2026年03月21日
-
大连做网站外包wordpress 获取页面标题
大连做网站外包wordpress 获取页面标题
- 技术栈
- 2026年03月21日






