拖拽式网站网页版qq为什么登录不了

当前位置: 首页 > news >正文

拖拽式网站,网页版qq为什么登录不了,网站外部链接添加方式,wordpress顶部工具栏Tool Learning with Foundation Models 论文笔记 文章目录 Tool Learning with Foundation Models 论文笔记摘要背景#xff1a;工作#xff1a; 引言工具学习的发展本文工作#xff08;大纲目录#xff09; 背景2.1 工具使用的认知起源2.2 工具分类#xff1a;用户界…Tool Learning with Foundation Models 论文笔记 文章目录 Tool Learning with Foundation Models 论文笔记摘要背景工作 引言工具学习的发展本文工作大纲目录 背景2.1 工具使用的认知起源2.2 工具分类用户界面视角2.3 基础模型的范式转变2.4 工具与基础模型的互补角色使用工具的好处使用 LLM 的好处 工具学习一般工具学习的框架Tool SetEnvironmentControllerPerceiver连接组件工作过程例子 一般流程从意图到计划理解用户的意图和工具理解用户的意图理解工具 计划与推理内省推理和外向式推理多工具、多子任务场景中的挑战解决多工具任务的未来方向 工具学习的训练策略示范学习监督学习半监督学习自监督学习 反馈学习环境反馈人类反馈 工具学习泛化泛化的基础API 统一语义接口GUI 接口编程接口挑战 工具学习泛化的策略元工具学习课程工具学习 应用与实验讨论知识冲突1. 模型知识与增强知识之间的冲突2. 不同工具之间的增强知识冲突 摘要 背景 现状LLM 有使用工具的潜力这一范式被称为用基础模型进行工具学习结合了专用工具和基础模型的优势以实现问题解决中更高的准确性、效率和自动化。困难缺乏对 LLM 使用工具的困难和挑战的全面理解 工作 介绍背景我们首先介绍工具学习的背景包括其认知起源、基础模型的范式转变以及工具与模型的互补角色。指定框架回顾现有的工具学习研究并制定了一个通用的工具学习框架 从理解用户指令开始模型应学习将复杂任务分解为几个子任务通过推理动态调整其计划并通过选择适当的工具有效地征服每个子任务。 讨论我们还讨论了如何训练模型以提高工具使用能力并促进工具学习中的泛化。实验对 18 种具有代表性的工具进行了实验并展示了当前基础模型在熟练使用工具方面的潜力讨论开发问题讨论了一些需要进一步研究的工具学习开放问题如确保安全和可信的工具使用、利用基础模型实现工具创建以及解决个性化挑战 引言 工具学习的发展 工具对人类有极大的帮助早期简单模型能力不足使用工具学习比较困难近期更具能力的基础模型的出现标志着能力大幅提升使得工具学习变得可行基础模型工具的范式出现但是主要集中在一些特殊任务或领域上对工具学习的理解仍然不够全面无法估计其特征和未来发展。所以审查和总结基于基础模型的工具学习的当前进展对于探索其潜力和挑战并为未来的技术进步铺平道路至关重要。 本文工作大纲目录 全面的调查工具学习的现状理解工具学习的挑战、机遇和方向 §2 介绍背景 §2.1 人类历史上工具使用的认知起源及其对人工智能系统中工具使用的潜在影响§2.2 随后从用户界面的角度对工具进行了分类§2.3 回顾了基础模型带来的人工智能范式转变强调了工具学习的出现及其重要性§2.4 讨论了工具和基础模型的互补作用并认为将两者整合可以带来多种优势 §3 现有工具学习探索的综合文献综述 §3.1 制定了一个通用的学习框架§3.2制定了整个工具学习的过程§3.3训练策略从示范中学习和从反馈中学习为了促进将学习到的工具使用技能转移到新工具和新情况即可推广的工具学习设计一个统一接口使模型能够以标准化的方式与不同工具互动是非常重要的。 §4 实验我们基于我们的框架对 18 种代表性工具进行了实验第 4 节§5 讨论开放问题讨论了我们的通用框架应用于现实世界场景所需关注的其他重要研究主题 §5.1 安全和可信的工具使用§5.2 针对大型复杂系统的工具学习§5.3 工具创造§5.4 个性化工具学习§5.5 具身学习与工具学习§5.6 工具学习中的知识冲突§5.7 其他未解决的问题
背景 在本节中我们首先讨论人类工具使用的认知起源§ 2.1接着通过用户界面的视角进行工具分类§ 2.2。然后我们回顾基础模型带来的近期人工智能范式转变§ 2.3及其在工具学习中的重要性。之后我们考察专业工具和基础模型在问题解决中的各自角色并讨论它们整合的优势和挑战§ 2.4。 2.1 工具使用的认知起源 工具在数千年的人类进化历史中扮演了至关重要的角色。 人类与动物使用工具不同人类能够制造出比其他动物更复杂的工具这种能力可能归因于我们对因果关系的深刻理解这使我们能进行技术推理 人类使用工具的神经基础 顶叶系统在工具使用研究中顶叶系统被认为是处理工具操作和观察的核心区域它协助我们理解物体的用途和与周围环境的关系。 例如当观察他人使用工具时顶叶系统会被激活帮助我们推测工具的功能以及如何使用。前上颞回前上颞回会被激活帮助我们理解工具的功能和使用方法猕猴并没有表现出这一点使用工具认知科学的整体趋势是将认知理解为一种强调与外部世界互动的活动过程Engel et al., 2013而观察、沟通和动手实践的反馈对于掌握工具使用非常重要。 工具使用的三种智力水平 Assistive tool : 使用通常是被动和无意识的 (例如在雨棚走廊中行走)Arbitrary tool : 任意工具使用需要主动互动例如驾驶、使用智能手机Free tool : 自由工具使用进一步需要理解和选择适合场景的工具例如烹饪新的菜肴在这个框架中这三种工具使用模式呈现出递进关系作者假设实现自由工具使用的关键认知过程是技术推理这使得某人能够通过观察他人使用、选择或制作工具而不是通过大量实践来学习新的动作。 从物理工具到概念工具的过渡 认知工具它指的是一种辅助工具促进更高阶的思维例如多步批判性分析、创造性解决问题方案的产生。认知工具可以根据其提供的功能进行分类Lajoie Derry, 2013。这些功能包括 (1) 支持认知过程例如记录中间推理结果(2) 减轻低级认知负荷以释放资源用于高级思维(3) 使学习者能够参与超出他们能力范围的活动(4) 允许学习者生成和测试假设例如为医学学生模拟诊断。 弥合人类使用工具与机器使用工具之间的差距 首先操控工具的能力深深植根于我们的认知和感知系统中并在数百万年的进化中形成。相比之下基础模型主要依赖于预训练数据的统计模式基础模型的工具使用能力与人类相对而言仍存在显著差距。人类能够感知工具的属性理解其功能并识别适合每个任务的工具。§3.2.1§讲解 LLM 该如何学习该过程其次人类擅长将复杂任务分解为更小的可管理子任务并灵活地操控工具以完成每个子任务。然而基础模型缺乏充分理解和利用工具所需的物理具身和感官体验。因此这些模型在需要更高阶推理和适应性任务时常常难以应对且无法有效整合多个知识和工具来源。§3.2.2§讲如何更好地利用大模型的推理能力制定可执行计划此外当前将基础模型适应于学习特定工具的算法通常需要大量的监督数据Nakano 等2021Reed 等2022这限制了其对更广泛工具或新情况的普适性和迁移能力。§ 3.3.1 和 § 3.3.2总结了工具学习的训练策略 § 3.3.3 讨论如何促进工具学习的普适性和迁移性)
2.2 工具分类用户界面视角 本文的重点特别是那些可以通过指令与基础模型结合操作的工具。我们介绍了一种根据工具的表达和交互方式进行分类的系统。 物理工具这类工具涉及与物理世界的直接交互如机器人、传感器和可穿戴设备等能够对环境产生实质影响。GUI 工具一些工具允许用户通过交互界面进行操作即工具的视觉表示以及预定义的操作。这些工具被定义为基于 GUI 的工具它们对物理世界没有直接影响。如像浏览器、Microsoft Office、Adobe PhotoShop 等经过良好开发的软件基于编程的工具用户可以访问的最内层工具是源代码为这些基于程序的工具的输入和输出提供了高度的灵活性。基于程序的工具是主要通过编程接口而非可视化接口设计的软件工具。它们可以有多种形式包括声明性语言、编程库、软件开发工具包SDK甚至基于神经网络的工具。 它们并不是严格互斥的而是相互交织的倾向。人类有能力通过灵活执行不同类型的工具来处理复杂任务。本文认为无论工具类型如何基本上都可以通过建立中介接口来利用基础模型来执行它们。我们将在§3.3.3 中介绍统一不同工具接口的方法。 2.3 基础模型的范式转变 PLM 的作用 PLM 出现利用 PLM 作为基础设施自然语言作为媒介统一执行各种任务所有自然语言理解和生成过程均通过对话交互完成。PLM 的强大泛化能力使我们能够使用自然语言作为媒介通过操控工具来完成这些任务。 工具学习可以被 PLM 支持的原因 本质上工具学习的关键在于将复杂任务分解为子动作以自然语言的形式对动作进行分词并将其转换为特定工具能够理解的可执行指令。语言模型充当“翻译者”使复杂任务对没有专业技术知识的个体更加可及。 然而仍然存在许多超出纯自然语言范围的任务。 例如生成演示文稿、通过 CAD 应用程序构建 3 D 模型以及通过分析团队成员日历安排会议这些都是传统人工智能尚未定义的复杂任务。 工具学习未来展望 因此虽然自然语言界面在语言领域内实现了统一Hao et al., 2022但非语言任务带来的挑战需要一种更先进的方法来利用自然语言和工具学习。通过利用自然语言的力量我们可以创建能够理解和适应我们周围复杂和动态世界的系统从而开启创新和发现的新途径。
2.4 工具与基础模型的互补角色 专业工具与基础模型的整合代表了一种有前景的方法以利用两者的独特优势。通过将基础模型的理解和推理能力融入专业工具中我们可以创建能够执行比专业工具或基础模型单独更复杂任务的智能工具。具体而言两者的结合带来了以下诸多好处。 使用工具的好处 减轻记忆负担 尽管基础模型在记忆方面表现出色Carlini et al., 2021, 2022, 2023但它们并不能记住每一条训练数据。单靠记忆并不能支持实时更新知识基础模型还被批评为会幻想知识 提升专业性更好的可解释性。提升鲁棒性LLM 的输入的轻微修改可以改变模型预测。这是因为这些模型在很大程度上依赖于训练数据中的统计模式。相反工具是专门为其预期用途而设计的这可能与输入扰动无关。 使用 LLM 的好处 改善决策和推理能力更好的用户体验 得益于基础模型强大的意图理解能力工具学习可能会彻底改变我们与机器的互动方式并减轻用户的认知负担使他们能够参与更高阶的思维和决策过程。这反过来又促进了一种无缝且更自然的基于语言的交互范式彻底改变了传统的图形用户界面GUI。用户只需提供高层次的指导和方向模型就能无缝理解用户的意图从而提供更个性化和准确的响应。降低了新用户的入门障碍还为创新和创造力开启了无尽的可能性。
工具学习 一般工具学习的框架 Tool Set T { T 1 , T 2 , … } T{T_1,T_2,\dots } T{T1​,T2​,…} 工具集 T 包含一系列具有不同功能的工具。在接下来的章节中我们主要以应用程序编程接口API作为例子来说明如何与工具互动。 在这里我们将 API 定义为任何可以将基础模型的输出作为输入的函数。例如对于一个天气 APIAPI 的输入可能是位置和时间而输出可能包含温度或风速。 Environment E \mathcal{E} E 环境 E \mathcal{E} E 是工具运行的世界 它向感知者提供工具的执行结果。它提供了工具执行所需的基础设施这可以是虚拟的也可以是真实的。 前者指的是一个模拟环境允许模型与工具的数字表示进行交互而真实环境则涉及与物理工具的实际互动。虚拟环境的优势在于易于访问和复制使得模型的培训更具成本效益。然而虚拟环境可能无法完全复制真实世界环境的复杂性导致过拟合和较差的泛化能力Hansen 等2021。真实环境提供了更真实的背景但可能更难以接触并且涉及更高的成本。
Controller C \mathcal{C} C 控制器 C \mathcal{C} C 作为工具学习框架的“大脑”通常使用基础模型进行建模。 控制器 C 的目的是提供一个可行且精确的计划以使用工具满足用户的请求制定计划为此C 应该理解用户意图以及意图与可用工具之间的关系然后制定一个计划以选择适当的工具来处理任务.分解子任务在查询复杂且针对高层次任务的情况下C 可能需要将任务分解为多个子任务这需要基础模型具备强大的规划和推理能力 Perceiver P \mathcal{P} P 感知者 P 负责处理用户和环境的反馈并生成一个摘要供控制器使用。 简单的反馈处理形式包括将用户和环境反馈进行连接或使用预定义模板格式化反馈。然后汇总的反馈被传递给控制器以协助其决策。通过观察这些反馈控制器可以确定生成的计划是否有效以及在执行过程中是否存在需要解决的异常情况。在更复杂的情境下感知者应能够支持多种模态如文本、视觉和音频以捕捉用户和环境反馈的多样性。 连接组件 工作过程 假设有一个工具集 T \mathcal{T} T, 在时间步 t \mathcal{t} t 的时候执行以下步骤 环境 E \mathcal{E} E 提供了工具执行的反馈 e t e_t et​感知者接受环境反馈 e t e_t et​ 和用户反馈 f t f_t ft​ 并生成一个反馈总结 x t x_t xt​ 通常感知者可以通过预定义的规则将 e t e_t et​ 与 f t f_t ft​ 连接起来或者使用神经网络建模 控制器 C \mathcal{C} C 生成计划 a t at at​ 从工具集 T \mathcal{T} T 中选择一个工具来执行 公式 p C ( a t ) p θ C ( a t ∣ x t , H t , q ) p{C}(a{t})p{\theta{C}}(a{t}\mid x{t},{\mathcal{H}}{t},q) pC​(at​)pθC​​(at​∣xt​,Ht​,q) θ C \theta_C θC​ 表示 C 的参数q 表示用户的查询或指令 H t { ( x s , a x ) } s 0 t − 1 \mathcal{H}_t { (x_s,ax)}^{t-1}{s0} Ht​{(xs​,ax​)}s0t−1​ 表示历史反馈和计划 C \mathcal{C} C 还可以将其推理过程与行动预测协同作用 子任务 1选择工具 T i T_i Ti​ ​从工具集合 T 中选择一个适合当前任务的工具。子任务 2制定具体计划 a t at at​ ​确定如何使用选择的工具执行动作。 p θ C ( a t ∣ x t , H t , q ) ∑ T i ∈ T p θ C ( a t ∣ T i , x t , H t , q ) × p θ C ( T i ∣ x t , H t , q ) , p{\theta{C}}(a{t}\mid x{t},{\mathcal{H}}{t},q)\sum{{\mathcal{T}}{i}\in{\mathcal{T}}}p{\theta{C}}(a{t}\mid{\mathcal{T}}{i},x{t},{\mathcal{H}}{t},q)\times p{\theta{C}}({\mathcal{T}}{i}\mid x{t},{\mathcal{H}}_{t},q), pθC​​(at​∣xt​,Ht​,q)Ti​∈T∑​pθC​​(at​∣Ti​,xt​,Ht​,q)×pθC​​(Ti​∣xt​,Ht​,q), 在生成计划 at 后它将在 E 中执行来自 E 的反馈 et1 将被传递给感知者。上述过程会重复多轮直到控制器完成任务。 总体目标是找到一个动作序列{at}最终实现用户指令 q 所指定的任务。请注意在工具执行后控制器可能还会将执行结果整合成一个合理的回应给用户 例子 例如给定“我想预定下周去北京的航班”这样的指令 控制器 C 首先推断出用户的目标是预定航班北京是目的地下周是旅行时间。然后模型选择航空公司预订系统作为工具。最后它将时间和目的地输入作为初步计划。在进行预订的过程中我们可能会面临意外情况比如下周前往北京的航班不可用。为应对这些异常情况我们可以进一步赋予 C 推理当前上下文的能力并生成替代计划。 一般流程从意图到计划 工具学习的总体过程需要不同组件之间的复杂交互。在本节中我们将进一步阐述这一过程中的关键问题。 理解用户的意图和工具 为了准确履行用户查询 q 指定的任务控制器需要理解两个方面 用户的根本意图这涉及识别和形式化自然语言 q 为高层次任务即意图理解工具集 T这意味着理解其中每个工具的功能和目标即工具理解。 理解用户的意图 指令微调在用人类指令模板化的数据集上对大型语言模型进行微调可以使模型甚至能够对未见任务的指令进行泛化挑战 理解模糊指令。第一个挑战是处理用户查询中固有的模糊性和歧义。许多用户查询天生不精确甚至可能是多义的这要求控制器依赖于上下文线索和背景知识来推断用户的真实含义。 一种可能的解决方案是主动与用户互动以澄清任何歧义例如询问用户对先前查询的进一步说明。 对多样化指令的泛化。另一个挑战是使模型能够对更具多样性的用户指令进行泛化。由于意图空间在理论上是无限的基础模型在训练期间几乎无法接触到每种现实世界的意图。 一种解决方案是引入更为多样化的训练数据这些数据涵盖了广泛的真实世界场景从而使模型能够学习不同指令的细微差别。另一种解决方案是利用用户反馈主动地使模型适应个别用户即个性化工具学习
理解工具 一般方法prompt-learning 零样本提示zero-shot prompting描述 API 的功能、输入/输出格式、可能的参数等。此方法允许模型理解每个 API 可以完成的任务。少样本提示few-shot prompting为模型提供具体的工具使用示例通过这些示例模仿人类行为模型可以学习如何使用工具。 挑战 提示的效果很大程度上取决于模型本身的能力能力较弱的模型可能无法很好地理解提示。提示受输入上下文长度的限制。当工具数量庞大且描述较长时在一个提示中包含所有可能的工具信息变得不可行。 解决方法 一种潜在的解决方案是增加一个中间阶段的工具选择首先检索一小部分最适合当前任务的工具。另一种解决方案是进行模型微调Fine-tuning优化模型以通过具体的工具使用案例来理解工具。 计划与推理 如何通过推理和规划在工具学习中提升基础模型的能力以及在复杂任务场景中的实现方法和挑战 现有的 LLM 有涌现出来的推理能力定义推理在基础模型中推理能力通常被描述为“将复杂问题分解为子问题并逐步解决这些子问题的能力。一般方法few-shot prompt learning、CoT 推理研究可以分为两类 内省式推理Introspective Reasoning生成静态计划不依赖环境交互。外向式推理Extrospective Reasoning通过与环境交互迭代生成计划并利用反馈调整计划。
内省推理和外向式推理 内省式推理 在执行任务之前生成一个静态的完整计划。不需要与环境或用户进行交互。优点规划过程明确适用于环境反馈较少的场景。局限性如果任务中出现意外或环境改变静态计划难以应对。 外向式推理 通过与环境交互逐步生成计划每一步根据上一步的反馈进行调整。优点能更好地处理动态变化的环境或任务中的意外情况。应用案例 Self-Ask 和 ReActYao et al., 2022b将任务分解为多个子问题通过 API 或工具逐步回答。Auto-GPT能够自动选择工具分步完成复杂任务同时优化计划。
多工具、多子任务场景中的挑战 任务分解复杂性 多工具、多子任务场景通常涉及多个步骤这些步骤之间可能存在依赖关系需要模型能够正确排序和选择工具。 模型要求 模型需要具备高水平的推理和环境适应能力。工具使用的切换成本较高因此需要优化工具选择和执行效率。 当前研究的限制 现有研究更多关注单工具或单子任务的场景对多工具、多步骤任务的探索较少。
解决多工具任务的未来方向 理解工具间依赖关系模型需要识别任务中工具的优先级和依赖关系以便合理安排工具调用顺序。任务优化和效率提升 优化模型在多工具任务中的执行效率例如并行执行独立的子任务。工具升级与动态适应工具可能会更新或发生变化模型需要具有适应能力能够实时调整任务规划。 工具学习的训练策略 示范学习通过观察标注数据掌握工具使用。反馈学习通过与环境和人类交互优化任务执行。 示范学习 数据集 D { ( q i , a i ∗ ) } i 0 N − 1 D { (q_i, ai^*) }{i0}^{N-1} D{(qi​,ai∗​)}i0N−1​ 用户查询 q i q_i qi​用户的输入或任务需求。人类标注 a i ∗ a_i^* ai∗​人类对如何处理该查询的示范。 优化目标 通过最大化以下公式来优化控制器参数 θ C \theta_C θC​ θ C ∗ arg ⁡ max ⁡ θ C E ( q i , a i ∗ ) ∈ D ∏ t 0 T i p θ C ( a i , t ∗ ∣ x i , t , H i , t , q i ) \thetaC^* \arg\max{\thetaC} \mathbb{E}{(q_i, ai^*) \in D} \prod{t0}^{Ti} p{\thetaC}(a{i,t}^* \mid x{i,t}, \mathcal{H}{i,t}, q_i) θC∗​argθC​max​E(qi​,ai∗​)∈D​t0∏Ti​​pθC​​(ai,t∗​∣xi,t​,Hi,t​,qi​)解释 目标使控制器在处理用户查询 qiq_i 时生成的人类标注 a i ∗ a_i^* ai∗​的概率最大化。公式中的变量 T i T_i Ti​处理 q i qi qi​ 的总迭代次数任务需要的步骤数。 a i , t ∗ a{i, t}^* ai,t∗​第 t t t 次迭代中的人类标注示范。 x i , t x_{i, t} xi,t​第 t t t 次的总结反馈来自环境的结果和用户的输入。 H _ i , t \mathcal{H}_{i, t} H_i,t历史记录包含此前的反馈和动作。
监督学习 传统上行为克隆在学习用于自主车辆和机器人应用的端到端或模块化感知-控制模型方面得到了广泛探索 例子 WebGPT 作者首先构建了一个由 Bing 支持的搜索界面然后微调 GPT-3Brown 等2020以克隆人类的网页搜索行为。作为一个在通用领域上预训练的语言模型原始的 GPT-3 在本质上并不依赖于有效的浏览器命令。因此首先收集人类与浏览器交互的示例然后学习状态到行动的映射是至关重要的。在微调后该模型在操作搜索引擎进行信息检索方面表现出卓越的能力甚至超过了人类专家。 WebShop: 提供了一个基于 web 的互动环境代理可以浏览和购买产品。通过行为克隆训练后的代理在根据人类指示购买正确产品方面表现出非平凡的性能。
半监督学习 有标签的数据比较难获得使用一个能力较弱的模型来为未标记数据标注伪标签并将其转化为弱监督的工具使用示范。 例如Baker 等人2022使用少量的种子标记数据训练模型以预测在 Minecraft 视频游戏中每个时间步采取的行动的伪标签。通过学习这些伪标签可以训练出一个更强大的模型而无需在目标环境中推理模型或进行大规模的黄金标准人类行为标注。
自监督学习 自监督学习。尽管减少了对人类行为标注的严格要求半监督学习仍然需要一个种子标记数据集来获取伪标签。 此外种子数据集中的偏差在训练过程中可能会被放大从而导致较差的泛化性能。 为此研究人员最近表明通过少量示例基础模型可以自我学习如何以自监督的方式使用工具Parisi et al., 2022Schick et al., 2023。 例如ToolformerSchick et al., 2023利用基础模型的上下文学习能力基于少量人工编写的示例迭代生成工具使用示例。这些自动生成的示例经过进一步过滤以减少噪声。最终的工具使用数据集包含足够的监督从而显著提高了 GPT-JWang Komatsuzaki, 2021的工具使用性能突显了自监督学习在增强工具使用能力方面的潜力。
反馈学习 手动收集和标注工具使用的示例可能包括完整的人类行为轨迹和最终答案既耗时又劳动强度高。此外所学的模型可能由于遵循记录下的人类行为而无法有效适应新环境。除此之外明确标注环境条件和代理行为的每一种可能场景也是不切实际的相比之下人类通过试错学习来纠正和修正他们的工具使用行为Allen et al., 2019。同样来自环境和人类的反馈能够让模型理解其行为的后果并适应其行为。 θ C ∗ arg ⁡ max ⁡ θ C E q i ∈ Q E { a i , t } t 0 T i ∼ p θ C [ R ( { a i , t } t 0 T i ) ] , \thetaC^* \arg\max{\thetaC} \mathbb{E}{qi \in Q} \mathbb{E}{{a{i,t}}{t0}^{Ti} \sim p{\thetaC}} \left[ R({a{i,t}}_{t0}^{T_i}) \right], θC∗​argθC​max​Eqi​∈Q​E{ai,t​}t0Ti​​∼pθC​​​[R({ai,t​}t0Ti​​)], 强化学习反馈来源环境反馈和人类反馈这可以被视为工具学习中的奖励信号来源。这两种反馈是互补的可以相互结合。 环境反馈 控制器与环境互动并接收有关其行为后果的反馈。模型随后根据这些反馈更新其策略以改善工具使用行为。 环境反馈的形式 结果反馈指示模型的行动是否成功完成了任务中间反馈指的是由一个动作触发的环境状态变化。通过观察状态变化基础模型可以学习每个动作是否有效和适当从而更好地调整其行为 人类反馈 人类可以根据模型生成的计划给予模型奖励和惩罚以调节其行为。 显式在 1 到 5 的评分标准上对模型生成的动作质量进行评分 隐式用户的比较Ouyang 等2022响应时间以及在接收到模型输出后采取的行动例如点击推荐链接 缺点 是标签密集型的并且具有较高的延迟 解决方法RLHF 挑战 任务特定性特定任务的相应评估标准需要预先定义为一个任务标注的偏好数据难以转移到其他设置这限制了 RLHF 在更广泛任务中的适用性。为此开发一个普适的奖励模型以适应各种任务至关重要偏见RL 代理优化朝向伪人类奖励模型因此可能受到人类偏好的上限和偏见。此外社会偏见或个人经验可能在 RLHF 过程中被放大因此必须仔细评估学习到的奖励模型是否存在任何偏见并采取措施进行缓解。 工具学习泛化 泛化也是工具学习的一个重要方面尤其考虑到存在大量迅速扩展的工具。 虽然对大量工具使用数据进行监督微调可以成为促进泛化的潜在解决方案但收集足够的监督工具使用数据并确保其质量和多样性既耗时又在实践中不可行。 抽象能力抽象是识别工具的基本特征的过程。抽象涉及识别工具的共性和模式以便模型能够合成和转移其知识和技能使其能够轻松使用新工具。 泛化的基础API 统一 该接口使模型能够以一致和标准化的方式操作各种工具通过统一的接口模型可以更容易地在统一的工具协议中识别和抽象工具的基本特征而不是费力地理解各种工具接口。 API 统一的三种方式语义接口、图形用户界面GUI接口和编程接口。 语义接口 构建自然语言与具体行动的映射 例子比如ReActYao等人2022年使用“Action:Search”作为触发器表示执行“搜索相关段落”这一功能。 优点简便直观自然 缺点 生成的文本和具体工具动作之间的映射需要事先定义这一过程非常繁琐尤其是当工具或系统的功能快速扩展时。模型可能无法准确生成触发特定动作的准确文本这可能导致误触发不相关的动作。 GUI 接口 GUI 已经被广泛优化了 但是有缺点 必须建立一个虚拟环境以便将预测的标记映射到类人鼠标移动和键盘输入上。这些环境将模型限制在一组有限的预定义鼠标选项和常见的键盘操作中。 发展 通过利用基础模型可以引入关于常见关键字和鼠标操作组合的先验知识从而扩大模型能够执行的潜在操作。 编程接口 这种接口允许模型超越纯自然语言使用程序指定其操作。这种统一要求模型熟悉函数调用的语法 当前的工作 最近的代码生成语言模型CLM如 IncoderFried 等2022和 CodeXChen 等2021提供了这种统一的可能性。编程接口得到了广泛应用。例如Code-as-PoliciesLiang 等2022 a发现使用 CLM 作为机器人控制的基础机器人可以利用代码语法执行复杂动作推广到新指令并以准确的参数值对函数进行精确控制。 优点 1复杂的工具学习逻辑可以使用编程语言的控制流进行建模2外部 API 的显式调用可以通过执行程序自然实现。 挑战 接口选择应与基础模型的能力和局限性相一致 语言基础模型训练用于生成文本因此可能更适合语义接口。结合视觉和文本信息的多模态基础模型可能更适合图形用户界面因为它可以理解和生成类人鼠标移动和键盘输入。代码基础模型可能更适合编程接口因为它训练用于理解代码语法和函数调用 工具的输出与模型输入格式不一致的挑战 解决办法 一个常见的做法是将模型和工具的功能组合在同一模态中 例如Zeng 等人2022通过将它们的输出转换为自然语言将各种模态的基础模型链在一起。这种简单的方法利用提示组合新的多模态能力而无需微调。 构建能够感知一般模态的多模态基础模型 GatoReed 等2022是一个典型的通用多体现代理经过庞大代理经验数据集的训练。Gato 可以通过不同的体现进行感知和行动例如玩雅达利游戏、为图像添加标题、聊天等。PaLM-EDriess 等2023将不同模态的连续输入纳入预训练语言模型。通过对多个体现任务的联合训练PaLM-E 能够在现实世界中做出基于事实的决策。
工具学习泛化的策略 仅仅统一 API 的是不够的。可泛化工具学习要求模型进一步适应、细化和专业化其学习的知识以满足特定任务或领域的需求 元工具学习 元认知Metacognition 是指个体反思自己思维过程的能力在面对陌生情境时能够调整自己的行为。 在工具学习中元认知指的是模型能够反思自己的学习过程并在需要时调整或改进工具使用策略。 元工具学习的核心思想是让模型能够根据之前的经验调整其工具使用策略从而迁移到新任务或新领域。 例如假设一个模型已经在Bing搜索引擎上进行过训练当该模型迁移到Google搜索引擎时它可以通过元认知能力识别出在搜索引擎使用中常见的策略模式如有效的搜索查询、相关的结果以及用户反馈并基于这些经验调整自己的搜索策略以适应新的搜索引擎的算法和用户界面。 优点这种能力使得模型能够在新的环境中更加智能地调整自己从而提高其在不同工具和任务之间的迁移能力。 课程工具学习 课程学习Curriculum Learning 是一种从简单到复杂的学习方法。它从基础工具入手逐步引导模型学习更复杂的工具从而使模型能够在先前知识的基础上逐渐建立对工具的更深理解。 课程工具学习的核心思想是从最简单的工具或基本概念开始逐步引入更复杂的工具或操作。这种方法确保模型先学习工具的基本特性再逐渐深入到更复杂的应用。 例如在教授一个模型使用Mathematica时首先可以从基础的加法和减法开始逐步引导模型学习更复杂的数学概念比如微积分和线性代数。通过这种方法模型能够理解复杂工具是如何建立在简单工具的基础上的并能够把简单工具的知识迁移到更复杂的工具上 优点 理解工具之间的关系课程工具学习不仅帮助模型掌握个别工具的使用还帮助模型理解复杂工具是如何通过多个基本工具组合而成的。这种理解可以帮助模型更好地识别工具之间的相似性和差异性从而在面对新工具时能够更有效地调整自己的策略。渐进式学习通过从简单到复杂的逐步引导课程学习确保了模型在面对更高阶的工具时不会感到过于复杂或困惑。模型可以基于以前学过的内容逐步建立对新任务的理解。
应用与实验 我们旨在探索工具学习的应用并调查最先进基础模型在使用工具方面的有效性和局限性。 “# APIs”表示每个工具对应的 API 数量。测试集是指我们在进行实验时使用的数据集。我们展示了三种设置的结果即无工具、零-shot、少-shot。Text-davinci-003 的结果以白色背景显示而 ChatGPT 的结果则以青色背景显示。 结论 在大多数情况下模型可以通过简单的提示有效地学习如何使用工具并提高其任务表现。 次优会产生负影响对于模型可以利用其内部知识解决的任务例如计算器和搜索引擎的案例使用零-shot 提示的工具有时会导致更差的性能这意味着非最佳的工具使用可能会对表现产生负面影响。 工具有用结合少量提示的工具仍然始终能带来优于未使用工具的表现。这强调了工具在问题解决中所能带来的具体好处前提是它们被有效地使用。 比较 ChatGPT 和 text-davinci-003 的表现我们观察到尽管 ChatGPT 经过了 RLHF 的微调但其结果并不优于 text-davinci-003。 原因猜测首先即 Ouyang 等人2022提到的 alignment tax 问题即在 RLHF 训练过程中特定任务技能和上下文学习能力受到损害猜测Chatgpt 规模比 text-davinci-003 小 工具使用效果检查 API 调用的成功率 我们观察到在少量提示设置下某些工具如地图、天气、幻灯片、表格、烹饪助手和 AI 绘画显示出令人满意的完成率。这些工具被认为比其他工具更容易。实际上我们通过实证发现无论是 ChatGPT 还是 text-davinci-003 都能熟练地使用这些工具尽管没有直接针对这些工具进行微调。对于一些工具如知识图谱、维基百科、在线购物和 3 D 模型构建即使在少量提示下模型的表现仍然远未令人满意。其原因可能是这些工具的使用不能通过少量示例轻易学习。例如要求生成可执行代码作为 API 参数的工具如知识图谱工具中的 search_by_query API详见附录A.9被发现明显更为困难。这意味着有必要训练基础模型使用工具。
讨论 安全问题复杂系统中工具学习自主工具创造从一般智能到个性化智能工具学习和具身智能整合工具后的知识冲突类似 RAG 的知识冲突 知识冲突

  1. 模型知识与增强知识之间的冲突 这种冲突是指模型本身的知识和通过外部工具增强的知识之间出现的不一致主要由以下三种原因导致 模型知识过时基础模型如语言模型通常在训练过程中使用的是某个时间点的数据而这些数据在模型训练后并不常更新。因此模型所拥有的知识可能已经过时。而大多数增强工具如搜索引擎或实时数据工具能够提供最新的知识这种新知识可能与模型中的旧知识发生冲突。 训练数据质量不高模型的训练数据可能并没有经过严格筛选甚至可能包含错误的知识比如人类的误解或错误的信仰。增强工具如维基百科等可靠的来源提供的知识可能会将这些错误信息放大导致模型和工具之间的知识冲突。 工具执行结果的误导性和偏差增强工具的执行结果可能存在偏差或误导性特别是在处理信息时工具可能根据某些算法或数据的局限性提供不完全或不准确的答案。因此用户必须谨慎判断知识来源的可信度以避免错误信息的影响。
  2. 不同工具之间的增强知识冲突 在实际应用中控制器例如一个智能系统可能会使用多个工具来获取更多全面和精准的知识。然而不同工具返回的信息可能会因为以下几个原因而产生冲突 工具的可信度差异不同工具的可信度存在显著差异某些工具可能在特定领域具有更高的可靠性。例如Google Scholar在科学研究领域的准确性远高于某些不那么权威的资源。因此如果使用多个工具可能会得到不同质量的信息造成知识冲突。 工具的偏见不同工具可能包含不同的偏见这会影响它们提供的信息。例如一个新闻聚合器可能为了吸引读者点击而优先展示耸人听闻的头条新闻而忽略了更准确的报道导致对某些事件的片面解读。 相同功能工具的不同表现即使是同类工具因其内部算法和实现方式的不同可能会得出不同的结论。例如Bing Translator和Google Translator对于同一文本的翻译结果可能有所不同因为它们的翻译模型和数据处理方法不同。这种差异可能导致相互矛盾的信息出现。