谈谈网站建设的主要内容河北品牌网站建设

当前位置: 首页 > news >正文

谈谈网站建设的主要内容,河北品牌网站建设,wordpress category id,sns有哪些著名的网站摘要 大型语言模型已经显示出令人惊讶的执行上下文学习的能力#xff0c;也就是说#xff0c;这些模型可以通过对由几个输入输出示例构建的提示进行条件反射#xff0c;直接应用于解决大量下游任务。然而#xff0c;先前的研究表明#xff0c;由于训练示例、示例顺序和提示… 摘要 大型语言模型已经显示出令人惊讶的执行上下文学习的能力也就是说这些模型可以通过对由几个输入输出示例构建的提示进行条件反射直接应用于解决大量下游任务。然而先前的研究表明由于训练示例、示例顺序和提示格式的变化上下文学习可能会受到高度不稳定性的影响。因此构建恰当的提示对于提高语境学习的表现至关重要。在本文中我们从预测偏差的角度重新审视这个问题。具体来说我们引入了一个度量来评估固定提示对标签或给定属性的预测偏差。实证结果表明偏差较大的提示往往导致预测质量不理想。基于这一观察我们提出了一种新的基于贪婪搜索的搜索策略以识别近乎最优的提示从而提高上下文学习的性能。我们使用最先进的主流模型(如GPT-3)对各种下游任务进行综合实验。结果表明我们的方法可以有效地提高模型的上下文学习性能并且具有可解释性。代码可从https://github.com/MaHuanAAA获得。 1 引言 大型语言模型LLMs如GPT-3 [1]和BLOOM [2]在执行下游任务的上下文学习ICL方面表现出了显著的能力。ICL是指利用由几个演示输入-输出对构建的提示即少数样本提示来调整LLM以解决各种下游任务的过程。尽管其表现令人印象深刻但先前的研究表明由于选择的上下文演示、演示顺序和提示格式的变化ICL存在高度不稳定性[4, 5]。因此构建适当的提示被确定为提高ICL性能的关键因素[6]。         先前的研究通常从两个方向研究这个问题1嵌入空间中的提示调整[7, 8, 9, 10, 11]2文本空间中的提示搜索[4, 12, 13, 14, 15, 16]。提示调整的关键思想是将特定于任务的嵌入注入隐藏层然后使用基于梯度的优化来调整这些嵌入[8, 15]。然而这些方法需要修改模型的原始推理过程这对于GPT3和ChatGPT [17]等黑盒LM服务的情况是不切实际的。此外提示调整引入了额外的计算和存储成本这对于LLM通常是昂贵的。一种更可行且有效的方法是通过在原始文本空间中搜索近似的演示样本和排序来优化提示[4, 15]。一系列工作提出了从“全局”或“局部”视角构建提示的方法。一方面基于全局视角的方法通常将提示的不同元素作为一个整体进行优化旨在实现更优的性能。例如一种方法[14]构建了一个利用演示整体多样性的搜索过程。另一种方法[4]试图优化整个演示集的排序以获得更好的性能。与全局视角相比基于局部视角的方法通过设计不同的启发式选择标准来优化每个单独的演示如先前的工作KATE [15]。这些方法在广泛的任务上取得了令人印象深刻的改进。然而它们中的大多数仍然存在以下限制1当前的大部分研究主要关注沿着单一维度搜索提示例如示例选择或顺序。然而各种维度对性能的整体影响尚不清楚。2这些方法通常基于启发式标准它们与实际性能之间存在差距。需要一个统一的视角来解释这些方法是如何工作的。3更重要的是现有方法全局或局部地优化提示这可能导致次优性能。         在本文中我们从预测偏差的角度重新审视了这个问题。我们发现一个关键的见解即给定提示的质量取决于其固有的偏差。基于这一见解我们提出了一个基于预测偏差的代理指标来评估提示的质量。这个指标允许我们在不需要额外开发集的情况下通过单一的前向过程评估提示。具体来说我们将给定的提示应用于一个“无内容”的输入并期望模型输出一个统一的预测分布一个无内容的输入不包含有用的信息。因此我们使用预测分布的统一性来刻画给定提示的偏差。这与先前的工作使用这个指标来校准模型输出[18]的想法相似。与主要关注在提示固定时使用此指标进行校准的工作不同我们进一步探索其在自动搜索近似提示中的用途。此外通过广泛的实验我们经验性地验证了给定提示的固有偏差与其在给定测试集上的平均任务性能见图2之间的相关性。 图2:准确率与公平性高度一致贪婪搜索可以找到一个好的提示符其中“Random”和“Oracle”表示所有提示符的平均准确率和根据公平性的性能上界。  此外这种基于偏差的指标允许我们以“局部到全局”的方式构建提示优化技术。我们提出了两种新颖的策略以偏见引导的方式高效地搜索高质量的提示1T-fair-Prompting2G-fair-Prompting。我们关注一个通用设置其中给定一个大小为N的标记集。我们策略的目标是执行组合优化以找到近优提示即选择演示及其顺序。具体来说T-fair-Prompting采用了一种直观的方法首先计算每个单一演示的偏差即单次提示然后选择前-k个公平的演示来形成最终的提示。这个策略可以以O(N)的复杂度高效完成。请注意T-fair-Prompting基于一个假设即最优提示通常是由偏差最小的演示构建的。然而这在实际情况中可能不成立并且常常导致次优解。因此我们进一步引入G-fair-Prompting来提高搜索质量。G-fair-Prompting遵循贪婪搜索的正常过程通过在每一步做出局部最优选择来找到最优解。在算法的每一步所选的演示是使更新后的提示达到最佳公平性分数的那个。这个策略在搜索质量与最坏情况时间复杂度之间进行权衡。通过接受更高的最坏情况时间复杂度O(N^2)搜索质量显著提高。请注意G-fair-Prompting从局部到全局的视角工作在早期阶段考虑单个样本的偏差而在后期阶段关注全局预测偏差的减少。         为了评估我们策略的有效性我们在当前主流模型如GPT-3 [1]进行了广泛的下游任务实验。我们的结果表明我们的方法可以显著提高模型在上下文学习方面的性能并且以一种有效且可解释的方式进行。总体贡献总结如下 我们引入了使用预测偏差来高效且独立于开发集地评估给定提示质量的方法并且这种指标的实证有效性得到了全面验证。基于上述想法我们提出了两种高效且有效的策略即T-fair-Prompting和G-fair-Prompting以优化提示。这两种策略的有效性已经在各种LLMs上得到了验证范围从GPT系列模型到Meta最近发布的LMaMA系列[19]。与现有最佳方法SOTA相比在不同的下游任务中观察到了超过10%的一致性相对改进。 与使用前校准的关系我们的论文与使用前校准[18]分享了类似的指标来评估给定提示的预测偏差。然而先前的方法旨在使用这个指标来校准输出这仍然容易受到所用提示质量的影响更多结果可以在表3中找到。相比之下我们的研究旨在在原始空间中找到一个近优提示以提高模型的性能而不需要对模型的输出进行任何后调整。此外我们首先在图2中经验性地验证了预测偏差与最终任务性能之间的联系这一点在[18]中尚未研究。通过实验我们发现即使没有校准我们方法选择的提示也可以优于随机选择的经过校准的提示。 2 相关工作  上下文学习 先前的研究如文献[1, 20]所述已经证明大型语言模型可以通过使用上下文学习完成零样本或少样本学习任务。LLMs在适当的提示下表现良好。然而最近的工作[4, 18]显示LLMs的性能受到所用提示的影响。因此确定最佳提示是一个重要且基础的研究领域。         原始空间搜索 确定最佳提示的一个更直观的方法是在原始空间中进行搜索通过选择或重新排序用户输入的提示句子。搜索可以从两个角度进行总结。 全局视角一个简单策略是枚举所有候选提示以找到在验证集上实现最佳性能的提示但这种策略计算成本高昂其复杂度为Σ{k1}^{n} C{n}^{k} k!。张等[12]发现错误经常落在同一簇中每个簇包含相似的问题因此他们提出了一个多样性引导的搜索策略来选择多样化的演示。除了演示选择[4]还确定了提示顺序对结果的影响。他们通过LLMs生成探测集找到在探测集上产生最多样化预测结果的最佳序列。然而这种方法计算成本同样高昂且难以确保生成的探测集足够平衡。局部视角先前的研究[13]表明减少模型的不确定性有助于提高模型的性能[14]提出了主动提示Active Prompting根据LLMs的不确定性来选择演示。KATE[15]基于嵌入之间的距离选择提示目标是选择最近的示例。 然而这种方法忽略了示例顺序的影响并且需要访问句子嵌入。[16]表明LLMs很容易被不相关的上下文分散注意力因此他们确定了几种方法来过滤掉上下文中的无关信息。         在原始空间搜索的领域中当前大多数方法倾向于仅关注单一因素如上所述对性能的影响使用启发式指标来选择根据这一标准表现良好的上下文演示。虽然这些研究无疑为社区带来了好处但它们缺乏对局部和全局视角的综合考虑。本文提出的方法提供了一个指标从预测偏差的角度选择上下文演示这自然促进了从局部视角到全局视角的转变。 3 重新审视跨演示的敏感性  在本节中我们将澄清本文中使用的符号和模板。然后我们将展示一些简要的实证结果以显示不同的示范构建因素(例如示例选择和顺序)如何影响绩效。我们进一步介绍了给定提示的预测偏差/公平性的定义并展示了其与不同下游任务的预测性能的联系。  3.1 符号  我们考虑一个由N个样本组成的训练集 其中 是句子 是第 i 个训练样本的标签而 Y 是任务所有标签的空间。我们使用一个模板 Γ(·) 将这些句子和标签转换成自然语言空间即提示构建。以 AGNews 数据集 [21] 中的一个实例为例我们有 Cubans Risking Life for Lure of America.;  World并且 Γ( ; ) 是 Article: Cubans Risking Life for Lure of America. Answer: World。我们将这些演示拼接起来形成一个提示 ρ默认情况下 ρ Γ(x1; y1) ⊕ · · · ⊕ Γ(xn; yn)。在测试时我们将提示 ρ 与 τ Article: test sentence. Answer: 连接起来并将其输入到一个大型语言模型 M 中。预测的类别由以下方式给出 其中 M(yjρ ⊕ τ ) 表示由LLM预测的概率并且这个概率被归一化以适应任务。我们用 ^P(x) : fp^(yjρ ⊕ τ )jy 2 Yg 来表示预测分布。在本文中我们专注于评估由演示引起的不稳定性并且我们按照先前的工作 [18] 固定提示模板。 3.2 少样本提示的稳定性 正如先前研究所示少样本提示技术对多种因素高度敏感包括演示的选择和顺序[4, 18]。在本研究中我们进一步深入探讨了少样本提示的稳定性特别是关注Meta最近发布的LLaMA系列[19]。此外我们还评估了使用当前最先进方法[12, 15]进行校准的LLaMA模型的稳定性。         为了阐明演示选择的影响我们为每个不同的种子选择了四个演示并为每个组合随机采样了一个顺序。随后我们以箱型图的形式展示了AGNews上的性能该图基于五个数字摘要最小值、第一四分位数[Q1]、中位数、第三四分位数[Q3]和最大值显示数据分布。如图1(a)(b)所示准确度在不同的演示之间表现出显著的可变性。 图1:ICL由于演示选择和顺序的高度变化而具有高度不稳定性即使在进行后校准时也是如此。  为了调查排列的影响我们检查了四个固定演示的所有可能排列产生了4!个不同的候选。图1©(d)也揭示了高度的可变性。虽然后校准有助于减轻不稳定性但重要的是要注意即使在校准之后模型仍然敏感。这一发现强调了精心选择演示的重要性。在随后的实验中我们发现我们的方法可以用来进一步提高校准模型的性能。 3.3 ICL的预测偏差  正如前面讨论的那样ICL的性能受到演示、排列和选择等各种因素的显著影响(参见附录A.4了解更多信息)。因此设计一种有效的方法来构建具有接近最优性能的适当提示是为各种下游任务部署LLM的关键一步。如引言所述许多研究旨在优化ICL中的提示语。本文通过预测偏差的视角进一步研究了这一问题预测偏差指的是目标类别之间的差异。为了实现这一目标我们首先引入了一种有效的技术来评估给定提示的固有预测偏差并从先前的工作中获得灵感[18]。我们构建了一个与训练集无关的度量来衡量预测偏差方法如下:首先我们将提供的提示与“无语义”的测试样本信息(例如“[N/ a]”用η表示)合并得到LLM对该样本的预测分布。理想情况下预测分布应该近似于均匀分布因为测试样本缺乏语义信息。在本文中我们使用熵作为预测偏差的度量定义为:  以前的研究已经利用这个度量来校准模型的输出。在本文中我们对预测偏差和整体表现之间的关系进行了全面的检查。具体来说在具有四个训练样本的场景中(由于枚举较大数量的所有提示案例的耗时性质)我们枚举各种数据集和llm的演示的所有可能组合和排列。随后我们根据公平性降序排列所有候选者其中“索引0”表示公平性最高的提示。我们使用五种不同的种子进行实验产生包含不同演示的训练集同时保持种子为0的测试样本。图2显示了不同模型的结果揭示了模型的性能与公平性得分之间的强相关性(即更公平的提示产生更好的性能)。被称为“Oracle”的红星表示最佳平均性能它始终与更高的公平性相关。这一观察结果提示我们通过识别最公平的提示来提高ICL性能。然而发现最公平的演示组合被证明是一项艰巨的挑战因为存在PN k1 C k N k!不同的候选人。随着训练集规模的增加这个任务变得棘手。为了解决这个问题我们提出了两种有效的策略以便在随后的部分中近似最合适的演示。 4 最公平的提示搜索  基于上述观察我们提出了两种旨在识别最公平提示的策略这些策略已经通过实证证明能够实现更优越的性能。让我们考虑一个包含n个样本的训练集S这些搜索策略的目标是从训练集中选择一个样本子集并以特定的顺序构建上下文以优化等式2中的公平性标准。         在理想情况下我们会考虑演示选择和顺序排列的因素通过检查PN k1 Ck N k!个不同的候选这枚举了所有可能的情况。在这里k代表选择的演示数量C表示组合函数。         然而评估每个候选是不切实际的当N8时产生的候选数量超过106个。在本文中我们引入了两种搜索策略来降低计算成本T-fair-Prompting和G-fair-Prompting。T-fair-Prompting策略将复杂度从Θ(PN k1 Ck N k!)降低到Θ(N)但其性能取决于k的选择并且当选择了不合适的k值时可能会不稳定。因此我们提出了另一种贪心搜索策略称为G-fair-Prompting它将复杂度降低到O(N2)并提供对oracle解决方案的更优近似。图8可视化了不同训练集大小下的计算成本。 4.1 T-fair-Prompting  T-fair-Prompting的中心思想是建立在启发式理解的基础上的即最公平的提示通常由个体偏见减少的示范样本组成。因此 T-fair-Prompting通过一个两阶段的过程构造提示。最初当使用个别演示制定提示时评估预测偏差。随后选择最公平的k个示范并使用来提示法学硕士。值得注意的是根据先前的研究[18]更公平的证明可能位于序列的末尾因为生成更受近似证明的影响。算法1给出了该过程的全面描述图3给出了可视化表示。具体来说当k等于训练集的大小时该方法降级为搜索演示的最优顺序。然而t -公平提示在很大程度上依赖于k的选择值。更重要的是t -公平提示通过纯粹的局部视角来解决这个问题从而忽略了从全局角度考虑问题这通常会导致次优结果。因此我们随后引入了g公平提示方法该方法以局部到全局的方式运行如下所述。  4.2 G-fair-Prompting  G-fair-Prompting算法遵循贪心搜索的标准程序该程序通过在每一阶段做出局部最优选择来寻求最优解。在算法的每一步中所选择的演示是使得更新后的提示达到最高公平性分数的那个。这种策略平衡了搜索质量与最坏情况时间复杂度。通过接受增加到O(N^2)的最坏情况时间复杂度搜索质量显著提高。重要的是要注意G-fair-Prompting算法是从局部到全局的视角进行操作的如算法所示。在初始阶段考虑了单个样本的偏差而后期阶段则专注于减少全局预测偏差。具体来说在每一步中我们从剩余的演示集S_0中插入一个新的演示Γ(xi; yi)到当前上下文ρ的开头确保演示不重复并选择最大化公平性改进的演示。正式地说在算法2的第9步中插入的演示应满足以下标准   5 实验  5.1 实验设置  模型。有大量可用的llm(附录a .2)包括开源模型和黑盒云API。最近Meta发布了他们强大的预训练大语言模型LLaMA。具有13B参数的LLaMA模型与具有更大模型尺寸的BLOOM和GPT-3相比可以达到相当的性能。在本文中我们对不同规模的BLOOM (176B)和LLaMA模型的有效性进行了评估。由于oepnai严格限制API进入某些区域我们在实验中选择了LLaMA (65B)作为GPT-3的替代品。 数据集。我们在不同的文本分类数据集[21]上进行了实验分别是SST-2、AGNews、CoLA、TREC和RTE。此外LLaMA的最大输入长度为512,RTE中的句子对于LLaMA来说太长了。表1提供了任务描述和统计信息。 5.2 结果  我们进行了不同设置下的实验并报告了五次运行的结果。我们将我们的方法与Zhang等人提出的多样性引导搜索策略[12]全球视角和Liu等人提出的相似性引导搜索策略[15]局部视角进行了比较。请注意基于局部视角的方法是耗时的因为它们需要为每个测试示例搜索不同的演示。表2显示了不同策略的性能其中“随机”表示枚举所有情况下的平均准确度“多样性”和“相似性”分别表示根据多样性和相似性选择演示。对于每个数据集我们将训练集的大小设置为4。“多样性”和“相似性”从16个演示中选择4个因为它们需要更多的候选。基准计算昂贵因为在BLOOM上的RTE中对4个演示进行所有候选的枚举将需要超过120个NVIDIA A100 GPU小时。我们在不同模型上的训练集上枚举了所有候选如图2所示。参数小于13B的模型的结果显示在表5中即GPT2-XL (1.5B)LLaMA (7B)和LLaMA (13B)。 G-fair-Prompting可以达到枚举的近似。为了评估G-fair-Prompting贪心方法是否可以近似枚举所有候选的最佳性能我们用绿色五角星标记了G-fair-Prompting的性能代表与G-fair-Prompting在线上平均准确度最接近的值。我们发现G-fair-Prompting可以实现非常接近枚举的近似。如图2所示G-fair-Prompting搜索的大多数提示达到了前20%的排名在BLOOM (176B)上G-fair-Prompting几乎找到了最公平的提示。G-fair-Prompting优于T-fair-Prompting。如表2所示尽管T-fair-Prompting与随机选择相比实现了更好的性能但G-fair-Prompting始终优于T-fair-Prompting。此外Top-2在大多数情况下超过5%显著优于Top-4表明选择的演示数量至关重要。总体而言结果表明G-fair-Prompting仅以轻微的额外成本就实现了满意的性能。与SOTA方法比较。我们将我们的方法与几种最先进的(SOTA)方法进行了比较包括多样性引导和相似性引导技术。我们观察到在大多数情况下我们的贪婪方法优于大多数SOTA方法并且在数据集TREC上观察到超过10%的改进。另一方面相似度引导方法在主题分类任务(AGNews)上取得了最好的性能。  这是因为它基于训练样本嵌入和测试示例之间的距离为每个不同的测试示例搜索独特的提示。这种策略选择标签与测试样本相同的演示而语言模型LLMs倾向于预测总是出现在上下文中的标签的偏见预测。然而当相似性引导方法应用于其他任务时可能会显得不足。具体来说与随机选择相比相似性引导策略在QC和可接受性任务中的性能较低。此外当模型对任务的敏感性不是立即显现时G-fair-Prompting方法偶尔也会失灵正如在BLOOM上的可接受性任务中所观察到的如图4所示。请注意与之比较的方法的训练集大小是我们的4倍。 与校准方法的比较。后校正[18]在大多数情况下可以提高给定提示的准确性。但是当选择的提示符质量较差时即使经过校准性能仍可能不足。我们比较了随机选择和校准的g -fair- prompt的性能(对所有候选者的平均值)发现g -fair- prompt在大多数情况下都优于校准的随机选择。例如在主题分类任务上g -fair- prompts在大多数模型上都达到了最佳性能。此外我们发现后校正会损害模型的性能并且这种情况发生的次数很多因此直接操纵模型的概率对模型性能的影响值得重新考虑。  后校准[18]可以提高某个提示符的准确性(大多数情况下)但当所选提示符很差时即使校准后性能仍然很差。我们进行了实验(表3)来比较g -fair- prompt和随机选择与校准的性能(“Average”和“Worst”表示在所有训练样例排列上的平均准确度和最差性能)并观察到g -fair- prompt在大多数情况下优于随机选择与校准。例如在CoLA上g -fair- prompt在大多数车型上表现优异。此外我们发现在许多情况下后校准可能会对模型的性能产生负面影响而有时甚至在选定的提示上也可以显着提高性能例如在BLOOM-TREC上观察到10%的改进。因此重新考虑直接操纵模型概率的影响是至关重要的。 6 结论  在本文中我们重新审视了大型语言模型跨提示的敏感性并从预测偏差的角度分析了这一问题。因此我们采用“无内容”策略作为公平性度量来评估固定提示的预测偏差并表明模型的性能与公平性高度一致。然后我们提出了在原始空间中搜索最公平提示符的两种策略。我们对当前著名的法学硕士进行了大量的实验并验证了所提出策略的有效性。此外除了本文采用的公平性之外未来还会有更多针对不同场景的提示搜索指标。