免费模板网站下载上海电子通科技网站建设
- 作者: 五速梦信息网
- 时间: 2026年04月20日 10:23
当前位置: 首页 > news >正文
免费模板网站下载,上海电子通科技网站建设,科技创新可以被分成三种类型,dw做链接网站无法显示该页面计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-30 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-30目录1. Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning摘要研究背…计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-30 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-30目录1. Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning摘要研究背景问题与挑战如何解决创新点算法模型1. 步骤定义Step Definition2. 步骤引导生成Step Guidance Generation3. 推理生成Reasoning Generation4. 算法流程 实验效果包含重要数据与结论后续优化方向 2. Language Agents Meet Causality – Bridging LLMs and Causal World Models摘要研究背景问题与挑战如何解决创新点算法模型主要模块及用途1. 因果编码器Causal Encoder2. 文本编码器Text Encoder3. 因果转换模型Causal Transition Model4. 因果映射器Causal Mapper5. 状态描述生成器State Description Generator 实验效果包含重要数据与结论后续优化方向代码 3. LLMs Can Evolve Continually on Modality for X-Modal Reasoning摘要研究背景问题与挑战如何解决创新点算法模型1. Adapter-in-Adapter (AnA) 框架2. MoE-based Gating Module 实验效果后续优化方向 4. Rethinking the Uncertainty: A Critical Review and Analysis in the Era of Large Language Models摘要研究背景问题与挑战如何解决创新点算法模型1. 因果编码器Causal Encoder2. 文本编码器Text Encoder3. 因果转换模型Causal Transition Model4. 因果映射器Causal Mapper5. 状态描述生成器State Description Generator 实验效果后续优化方向 5. Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments摘要研究背景问题与挑战如何解决创新点算法模型1. 数据集准备2. 提示工程3. 模型微调4. 个体偏好建模 实验效果后续优化方向 后记 1. Step Guided Reasoning: Improving Mathematical Reasoning using Guidance Generation and Step Reasoning Authors: Lang Cao, Chao Peng, Yitong Li https://arxiv.org/abs/2410.19817 逐步引导推理使用引导生成和步骤推理改进数学推理 摘要 本文探讨了大型语言模型LLMs在数学推理方面的挑战并提出了一种新颖的方法——逐步引导推理Step Guidance Reasoning, SGR以提高LLMs的数学推理能力。SGR方法通过在推理阶段引入反思过程使LLMs能够从一步推理有效地引导到下一步。该方法在AMC23数据集上的准确率从30%提高到57.5%在MATH数据集的5级问题上相对准确率提高了55.8%从43%提高到67%。 研究背景 自链式推理Chain-of-Thought, CoT方法被引入LLMs以来复杂问题可以被分解为更小但更易管理的推理步骤。然而复杂的数学推理仍然是LLMs面临的重大挑战。尽管通过扩大模型参数和训练数据可以提高LLMs在数学推理中的准确性但高质量的CoT数据量成为了瓶颈。 问题与挑战 当前的方法要么需要大量的推理数据集作为训练数据要么依赖于少量样本方法这通常会牺牲准确性。此外对于更具挑战性的数学问题如竞赛级别的数学问题现有的方法表现不佳。 如何解决 SGR方法通过在每一步推理中引入自我提问和自我回答的过程使模型能够自我引导从一步到下一步的推理。具体来说在每一步中模型首先自我提问接下来应该做什么然后自我回答这个问题以帮助生成下一步的答案最后使用这种反思来指导后续的生成过程。 创新点 SGR方法的创新之处在于它不需要对模型进行进一步的微调而是在推理阶段引入了自我引导的步骤。这种方法使得模型能够在没有额外微调的情况下显著提高解决复杂问题的能力。 算法模型 SGR涉及多个思考步骤在推理时每一步由两个主要生成部分组成步骤引导生成和推理生成。模型首先生成与给定数学问题相关的步骤引导然后使用生成的步骤引导来得出当前步骤的单步答案。这个过程一直持续到模型生成最终答案或达到迭代预算。 详细算法模型包含如下几步
- 步骤定义Step Definition SGR方法不依赖于进一步的模型微调而是在推理过程中定义了“步骤”的概念。理论上步骤可以以不同的粒度定义如token级别、句子级别、段落级别或块级别。考虑到SGR不需要微调并且复杂的数学问题通常需要数千token的答案SGR选择使用一个段落作为一个步骤。在实践中对于英文输出“.\n\n”可以作为大多数指令/聊天模型如GPT-4和Qwen逻辑推理的有效分隔符。为了避免模型在每个“.\n\n”处重复分析第一步SGR引入了步长约束即每个由“.\n\n”指示的步骤需要一个最小数量的token。
- 步骤引导生成Step Guidance Generation 步骤引导生成过程包括两个部分 第一次迭代LLM被询问与查询相关的第一步引导问题包括相关知识。然后LLM独立回答这个问题生成步骤引导。后续迭代LLM直接回答下一步需要的相关知识。所有生成的步骤引导仅用于当前步骤并不保留到后续步骤。
- 推理生成Reasoning Generation 在推理阶段步骤引导和之前累积的推理结果被包含在提示中以促进持续推理。生成过程在达到带有最小长度的token“.\n\n”时停止标志着当前步骤的完成。这种方法类似于Reach-Augmented Generation但额外的上下文是由LLM自己生成的而不是预先存在的。
- 算法流程
SGR的算法流程可以概括为以下几个步骤
问题输入将数学问题作为查询输入到模型中。步骤引导生成模型生成与问题相关的步骤引导。单步推理使用生成的步骤引导模型进行单步推理得出当前步骤的答案。迭代重复步骤2和3直到模型生成最终答案或达到迭代预算。输出最终答案模型输出最终答案或在达到迭代预算后停止。
实验效果包含重要数据与结论 实验使用了三个具有代表性的挑战性数学基准数据集AMC23、MATH的5级测试案例和AIME24。结果显示SGR在所有三个数据集上的性能都优于标准CoT。具体来说在MATH测试集上相对提高了55.8%在AMC23上提高了62.5%在AIME24上提高了94.0%。与现有的数学特定开源模型相比SGR在不需要微调数据的情况下实现了可比的性能。 后续优化方向 尽管SGR方法取得了显著的改进但由于计算资源的限制实验中的测试数据只能从MATH的5级中抽取部分样本。此外GPT4的评估结果范围有限因此在AMC23和AIME测试数据集上使用了手动评估方法。未来的工作可以探索如何扩展SGR方法以处理更大规模的数据集并进一步优化模型以减少推理阶段的计算资源需求。 - Language Agents Meet Causality – Bridging LLMs and Causal World Models Authors: John Gkountouras, Matthias Lindemann, Phillip Lippe, Efstratios Gavves, Ivan Titov https://arxiv.org/abs/2410.19923 语言代理遇见因果关系——将大型语言模型与因果世界模型相桥接 摘要 大型语言模型LLMs在规划和推理应用中展现出巨大潜力。这些任务需要鲁棒的系统而因果理解对于环境至关重要。虽然LLMs能够从预训练数据中获取和反映常识性因果知识但这些信息往往是不完整的、错误的或不适用于特定环境。相比之下因果表示学习CRL专注于识别给定环境中的基本因果结构。我们提出了一个框架将CRL与LLMs集成以实现因果感知的推理和规划。该框架学习了一个因果世界模型将因果变量与自然语言表达式链接起来。这种映射为LLMs提供了一个灵活的接口用于处理和生成文本形式的动作和状态描述。实际上因果世界模型充当了一个模拟器LLM可以查询和与之交互。我们在不同时间尺度和环境复杂性上的因果推理和规划任务上评估了框架的有效性。实验表明因果感知方法在长期规划视野中优于基于LLM的推理器。 研究背景 LLMs已成为从自然语言理解到复杂问题解决等一系列任务的强大工具。最近的工作探索了LLMs作为规划和推理任务的行动代理显示出改善任务特定、下游性能的希望结果。这些方法主要依赖于模型从其训练数据中提取常识性因果信息的能力。尽管LLMs可以反映一般信念和相关性但这些信息可能是不完整的、错误的或不适用于特定环境。这在动态环境中对LLMs提出了挑战尤其是在准确建模行动后果至关重要的情况下。 问题与挑战 LLMs在新环境或复杂情况下面临挑战尤其是在动态环境中准确的行动后果建模至关重要。此外现有的CRL方法在将理论应用于具有视觉复杂性的现实环境时面临挑战。 如何解决 我们提出的框架通过将CRL与语言模型集成来解决这些问题以改善因果推理和规划任务的性能。CRL为LLMs提供了结构化的因果理解可以在规划期间推理干预措施及其后果。因果世界模型类似于模拟器但不是预定义的而是通过学习得到的允许LLM评估多种可能的未来情况从而指导其决策。 创新点 提出了第一个将CRL与LLMs集成的框架以实现交互环境中的因果感知推理和规划。探索了基于文本的动作表示在CRL中的有效性并在数据稀缺的情况下展示了其数据效率的改进。在静态和动态环境中展示了框架在一系列推理和规划任务中的有效性。 算法模型主要模块及用途 1. 因果编码器Causal Encoder 使用CRL模型实现将高维状态表示图像映射到其基本组成部分——因果变量。
- 文本编码器Text Encoder 将自然语言描述的动作编码为模型可以理解的格式。
- 因果转换模型Causal Transition Model 使用从图像和编码动作中获得的解耦潜在表示来模拟下一个状态。
- 因果映射器Causal Mapper 从学习到的解耦表示中提取因果变量。
- 状态描述生成器State Description Generator
将估计的因果变量映射到自然语言描述的状态。
实验效果包含重要数据与结论
实验在动态的8×8网格世界和静态的3D渲染厨房AI2-THOR环境中进行。结果表明因果世界模型在因果推理任务中一致优于基线模型即使在8步推理中也保持了75.8%的高准确率。在规划任务中因果模型在两个环境中均展现出更高的成功率、效率和可扩展性特别是在长期规划视野中。
后续优化方向 未来的工作可以探索将框架应用于现实世界环境提高学习到的因果世界模型的可解释性并开发独立于标记因果变量的技术。此外随着更强大的CRL方法的出现可以将它们集成到我们的框架中扩展到更复杂、更现实的场景。 代码 https://j0hngou.github.io/LLMCWM/ #!/bin/bashMODELS_URLhttps://zenodo.org/records/13992827/files/pretrained_models.zip?download1 TARGET_DIRpretrained_models/mkdir -p \(TARGET_DIRecho Downloading pretrained models... wget -O pretrained_models.zip \)MODELS_URLecho Extracting models… unzip pretrained_models.zip -d \(TARGET_DIRrm pretrained_models.zipecho Pretrained models have been downloaded and extracted to \)TARGET_DIR.3. LLMs Can Evolve Continually on Modality for X-Modal Reasoning Authors: Jiazuo Yu, Haomiao Xiong, Lu Zhang, Haiwen Diao, Yunzhi Zhuge, Lanqing Hong, Dong Wang, Huchuan Lu, You He, Long Chen https://arxiv.org/abs/2410.20178 代码 https://github.com/JiazuoYu/PathWeave LLMs 可以在 X-Modal 推理上不断进化于模态 摘要 多模态大型语言模型MLLMs因其在多模态理解中的能力而受到关注。然而现有方法依赖于大量的模态特定预训练和联合模态调优这在扩展到新模态时带来了显著的计算负担。本文提出了 PathWeave一个灵活且可扩展的框架具有模态路径切换和扩展能力使 MLLMs 能够不断进化于模态以进行 X-Modal 推理。我们利用持续学习的概念并在预训练的 MLLMs 上开发了增量训练策略使其能够使用单模态数据扩展到新模态而无需执行联合模态预训练。具体来说我们引入了一种新颖的 Adapter-in-Adapter (AnA) 框架将单模态和跨模态适配器无缝集成以促进高效的模态对齐和协作。此外我们在两种类型的适配器之间应用了基于 MoE 的门控模块以进一步增强多模态交互。为了验证提出的方法我们建立了一个具有挑战性的基准测试称为模态持续学习MCL包含来自五种不同模态的高质量 QA 数据图像、视频、音频、深度和点云。广泛的实验表明提出的 AnA 框架在持续学习中的学习可塑性和记忆稳定性方面是有效的。此外PathWeave 在减少参数训练负担 98.73% 的同时性能与最先进的 MLLMs 相当。 研究背景 随着人工智能的发展大型语言模型LLMs在语言理解和推理方面展现出了令人印象深刻的能力。这促使研究人员开发多模态 LLMsMLLMs通过整合额外的输入来处理多模态任务例如图像-文本理解、音频识别和 3D 问题回答。这些模型通常包括视觉编码器、冻结或可训练的 LLM以及用于视觉-语言对齐的投影模块。尽管如此这些模态特定的 LLMs 在感知不同模态方面存在挑战类似于人类的挑战。
问题与挑战 现有方法在扩展到新模态时需要重新访问所有历史数据并重复完整的训练过程这限制了 MLLMs 的持续扩展。此外这些方法依赖于联合模态优化这在资源需求上非常高。 如何解决 为了解决这些问题我们提出了 PathWeave一个基于持续学习CL概念的增量训练框架允许 MLLMs 通过单模态数据扩展到新模态无需联合模态预训练或微调。我们使用预训练的视觉 LLM 作为接口并提出了 AnA 框架允许其他模态的高效扩展和对齐。 创新点 提出了 PathWeave一个使 MLLM 能够逐步扩展到多个模态的高效且可扩展的框架无需联合模态预训练。引入了 AnA 框架将单模态和跨模态适配器无缝集成以增强增量学习中的模态对齐和交互。建立了具有挑战性的 MCL 基准测试并定义了评估指标。广泛的结果表明PathWeave 在持续学习中的模态可塑性和记忆方面是有效的并且在减少参数训练负担的同时性能与最先进的 MLLMs 相当。 算法模型 1. Adapter-in-Adapter (AnA) 框架 AnA 框架包含单模态和跨模态适配器以促进新模态对齐和跨模态集成。单模态适配器用于适应新模态而跨模态适配器通过插入一系列内适配器来形成允许有效整合历史知识和正在进行的模态。 - MoE-based Gating Module
在单模态和跨模态适配器之间实现的基于 MoE 的门控模块用于自适应地整合不同模态的输出。
实验效果
我们在 MCL 基准测试上进行了广泛的实验包括图像、视频、音频、深度和点云数据。结果表明PathWeave 在新模态学习方面的性能与最先进的 MLLMs 相当同时显著减少了参数训练负担。具体来说PathWeave 在减少参数训练负担 98.73% 的同时性能与最先进的 MLLMs 相当。
后续优化方向 尽管 PathWeave 在五个模态的扩展上表现出色但并未涵盖现实世界场景中的所有模态信息。此外我们的方法中的模态间隐式交互还无法以增量方式完成跨模态联合语言推理任务。未来的工作可以探索扩展到更多模态并改进模态间的交互机制以实现更复杂的跨模态任务。 - Rethinking the Uncertainty: A Critical Review and Analysis in the Era of Large Language Models
Authors: Mohammad Beigi, Sijia Wang, Ying Shen, Zihao Lin, Adithya Kulkarni, Jianfeng He, Feng Chen, Ming Jin, Jin-Hee Cho, Dawei Zhou, Chang-Tien Lu, Lifu Huang https://arxiv.org/abs/2410.20199
重新思考不确定性在大型语言模型时代的关键审查与分析
摘要
近年来大型语言模型LLMs在人工智能应用中扮演了基础性角色。随着LLMs应用的扩展准确估计其预测中的不确定性变得至关重要。当前方法往往难以准确识别、测量和解决真正的不确定性许多方法主要关注估计模型信心。这种差异主要是由于对不确定性在模型中何时、何地以及如何注入的理解不完整。本文介绍了一个专门设计的框架用于识别和理解与LLMs独特特征一致的不确定性类型和来源。该框架通过系统地分类和定义每种类型为开发能够精确量化这些不确定性的针对性方法奠定了基础。文章还详细介绍了相关概念并检验了当前方法在关键任务和安全敏感应用中的局限性。最后文章提出了未来方向的视角旨在增强这些方法在现实场景中的可靠性和实际采用。
研究背景
LLMs在复杂推理和问答任务中展现出了显著的能力。尽管如此LLMs在生成错误答案时仍面临重大挑战这在需要高精度和可靠性的领域尤其严重。LLMs决策过程中缺乏透明度和表达力是一个关键问题全面理解和估计模型的不确定性在这方面起着重要作用。例如在医疗领域医生在诊断像癌症这样的严重疾病时不仅需要模型的高预测准确性还需要了解与病例相关的不确定性。
问题与挑战 LLMs在新环境或复杂情况下面临挑战尤其是在动态环境中准确的行动后果建模至关重要。此外现有的CRL方法在将理论应用于具有视觉复杂性的现实环境时面临挑战。 如何解决 我们提出的框架通过将CRL与语言模型集成以改善因果推理和规划任务的性能。CRL为LLMs提供了结构化的因果理解可以在规划期间推理干预措施及其后果。因果世界模型类似于模拟器但不是预定义的而是通过学习得到的允许LLM评估多种可能的未来情况从而指导其决策。 创新点 提出了第一个将CRL与LLMs集成的框架以实现交互环境中的因果感知推理和规划。探索了基于文本的动作表示在CRL中的有效性并在数据稀缺的情况下展示了其数据效率的改进。在静态和动态环境中展示了框架在一系列推理和规划任务中的有效性。 算法模型 - 因果编码器Causal Encoder 使用CRL模型实现将高维状态表示图像映射到其基本组成部分——因果变量。
- 文本编码器Text Encoder 将自然语言描述的动作编码为模型可以理解的格式。
- 因果转换模型Causal Transition Model 使用从图像和编码动作中获得的解耦潜在表示来模拟下一个状态。
- 因果映射器Causal Mapper 从学习到的解耦表示中提取因果变量。
- 状态描述生成器State Description Generator 将估计的因果变量映射到自然语言描述的状态。 实验效果 实验在动态的8×8网格世界和静态的3D渲染厨房AI2-THOR环境中进行。结果表明因果世界模型在因果推理任务中一致优于基线模型即使在8步推理中也保持了75.8%的高准确率。在规划任务中因果模型在两个环境中均展现出更高的成功率、效率和可扩展性特别是在长期规划视野中。 后续优化方向 未来的工作可以探索将框架应用于现实世界环境提高学习到的因果世界模型的可解释性并开发独立于标记因果变量的技术。此外随着更强大的CRL方法的出现可以将它们集成到我们的框架中扩展到更复杂、更现实的场景。
- Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments Authors: Marharyta Domnich, Julius Valja, Rasmus Moorits Veski, Giacomo Magnifico, Kadi Tulver, Eduard Barbu, Raul Vicente https://arxiv.org/abs/2410.21131 迈向统一评估反事实解释利用大型语言模型进行以人为本的评估 摘要 随着机器学习模型的发展保持透明度要求更多的以人为本的可解释AI技术。反事实解释根植于人类推理识别获得给定输出所需的最小输入变化因此对支持决策至关重要。尽管它们很重要但这些解释的评估往往缺乏用户研究的基础并且仍然分散现有的指标没有完全捕捉到人的角度。为了解决这一挑战我们开发了一套多样化的30个反事实情景并从206名受访者那里收集了8个评估指标的评分。随后我们微调了不同的大型语言模型LLMs以预测这些指标上的平均或个人人类判断。我们的方法允许LLMs在零样本评估中达到高达63%的准确率并且在所有指标上微调后超过3类预测的准确率达到85%。微调模型预测人类评分提供了更好的可比性和可扩展性以评估不同的反事实解释框架。 研究背景 大型语言模型LLMs在多模态理解方面展现出了令人印象深刻的能力。然而现有方法严重依赖于广泛的模态特定预训练和联合模态调整这在扩展到新模态时带来了显著的计算负担。本文提出了PathWeave一个灵活且可扩展的框架具有模态路径切换和扩展能力使MLLMs能够持续在模态上发展以进行X模态推理。 问题与挑战 评估反事实解释时现有方法往往没有充分考虑人的角度依赖于不一致的定量指标或者依赖于用户研究这些研究关注特定子集的个体缺乏跨时间和方法的可比性。此外用户研究很少用于基准测试反事实解释部分原因是招募足够数量能够执行这些评估的专家存在困难和成本。 如何解决 为了解决这些问题研究者们开发了30个多样化的反事实情景并从206名受访者那里收集了8个评估指标的评分。然后他们微调了不同的大型语言模型LLMs以预测这些指标上的平均或个人人类判断。这种方法使得LLMs能够在零样本评估中达到高达63%的准确率并且在所有指标上微调后超过3类预测的准确率达到85%。 创新点 提出了PathWeave框架一个灵活且可扩展的框架使MLLMs能够持续在模态上发展以进行X模态推理。开发了一套多样化的30个反事实情景并从206名受访者那里收集了8个评估指标的评分。微调不同的LLMs以预测这些指标上的平均或个人人类判断提供了更好的可比性和可扩展性以评估不同的反事实解释框架。 算法模型 1. 数据集准备 收集和过滤问卷调查响应创建一个有用的数据集用于微调LLMs。
- 提示工程 开发三种提示结构以实现最佳可能的LLM性能。
- 模型微调 使用问卷数据作为输入数据集测试和微调大型语言模型以自动化评估反事实解释。
- 个体偏好建模 探索不同人对解释的偏好差异使用特定参与者的答案数据集进行实验。 实验效果 实验结果表明LLMs在零样本学习中表现出一定的评估反事实解释的能力GPT-4模型在指标分割上达到了63%的准确率。所有测试的模型都超过了随机猜测的平均准确率。微调显著提高了准确率Llama 3 70B Instruct模型在指标分割上达到了85%的准确率并且在问题分割上也表现出色。混淆矩阵显示在微调后表现最佳的模型在所有指标上都没有将“低”分类为“高”或反之的错误这表明对指标有高水平的理解。 后续优化方向 未来的工作应该旨在生成更大的数据集并使用最新的反事实算法。这些数据集应该以较小的子集形式呈现给参与者进行评估因为单个参与者只能认真评估有限数量的解释。此外主要的启示是微调的LLM应该被应用于评估各种反事实算法。此外模型可以随着更大更新和更强大的架构以及数据集的推出而进行迭代重训。随着LLMs的规模和能力的不断提升这可能会进一步改善模仿人类评估模式的能力。 后记 如果您对我的博客内容感兴趣欢迎三连击(点赞、收藏、关注和评论)我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享助力您更快更准更系统地了解 AI前沿技术。
- 上一篇: 免费模板网站都有什么区别廊坊百度优化
- 下一篇: 免费企业建站开源系统cms管理什么意思
相关文章
-
免费模板网站都有什么区别廊坊百度优化
免费模板网站都有什么区别廊坊百度优化
- 技术栈
- 2026年04月20日
-
免费模板网站都有什么wordpress连接阿里云oss
免费模板网站都有什么wordpress连接阿里云oss
- 技术栈
- 2026年04月20日
-
免费模板建站网站网站建设外包公司怎么样
免费模板建站网站网站建设外包公司怎么样
- 技术栈
- 2026年04月20日
-
免费企业建站开源系统cms管理什么意思
免费企业建站开源系统cms管理什么意思
- 技术栈
- 2026年04月20日
-
免费企业建站系统源码如何利用wordpress卖产品
免费企业建站系统源码如何利用wordpress卖产品
- 技术栈
- 2026年04月20日
-
免费企业名录网站网站仿制
免费企业名录网站网站仿制
- 技术栈
- 2026年04月20日
