首页 - 技术栈

企业网站的作用和目的电子商务网站建设的步骤一般为

作者: 五速梦信息网
时间: 2026年03月21日 10:12

当前位置：首页 > news >正文

企业网站的作用和目的,电子商务网站建设的步骤一般为,石家庄网站设计公司排名,郑州发布文章目录摘要1 引言2 相关工作3 符号与定义4 我们的 KGA 框架4.1 KGA框架知识差距对齐目标 4.2 KGA在自然语言处理任务中的应用文本分类机器翻译响应生成 5 实验设置数据集评估指标参数设置比较方法 6 实验结果6.1 主要比较结果6.2 KGA 的优越性分析降低语言模型概率比较 6.3 … 文章目录摘要1 引言2 相关工作3 符号与定义4 我们的 KGA 框架4.1 KGA框架知识差距对齐目标 4.2 KGA在自然语言处理任务中的应用文本分类机器翻译响应生成 5 实验设置数据集评估指标参数设置比较方法 6 实验结果6.1 主要比较结果6.2 KGA 的优越性分析降低语言模型概率比较 6.3 NLP 中去学习的分析删除不同难度级别的实例去学习包含特定词语的实例进一步分析删除数量的影响基模型的影响 7 结论摘要最近关于“被遗忘权”的立法引发了对机器去学习的关注其中训练模型具备忘记特定训练实例信息的功能就好像这些实例从未存在于训练集中一样。之前的研究主要集中在计算机视觉场景上较少关注自然语言处理NLP领域的去学习要点而文本数据中包含比图像更明确和敏感的个人信息。在本文中我们提出了一种称为KGA的通用去学习框架以引导模型的遗忘。与之前的研究试图恢复梯度或强迫模型接近某一特定分布不同KGA保持了分布差异即知识差距这放宽了分布假设。此外我们首次将去学习方法应用于各种NLP任务即分类、翻译、响应生成并提出了一些具有针对性的去学习评估指标。在大规模数据集上的实验表明KGA在基准测试中表现出全面的改进广泛的分析进一步验证了KGA的有效性并为NLP任务的去学习提供了见解。 1 引言如今机器学习模型通常使用大量从个人用户收集的数据进行训练。这些个人数据本质上是敏感的因为它可能包含个人地址和医疗记录等信息。训练好的模型可能无意中侵犯用户隐私因为其参数永久编码了个人信息及其衍生信息。因此机器去学习Machine UnlearningMURomero et al., 2007Karasuyama和Takeuchi, 2009Cao和Yang, 2015在研究和工业界越来越受到关注其目标是使模型能够忘记训练集中某些特定的数据同时保持现有模型的性能。除了隐私方面的好处MU还可以解决忘记有害和不良数据的问题Welbl et al., 2021。虽然从后端数据库中删除数据是直接的但对于机器学习模型来说删除它们对数据的知识却是一个挑战。一种直观的去学习方法是从头开始重新训练模型同时将“待遗忘”的数据从训练集中删除。然而鉴于大型模型的繁荣这种重新训练方法在计算上是昂贵的在实际应用中频繁的数据删除请求使得持续重新训练变得不切实际。此外深度学习模型是基于大规模数据训练的黑箱函数。由于模型权重与数据之间的关系不明确知道在去学习中应该修正哪些权重部分是困难的。因此迫切需要开发一种高效的去学习方法。现有的机器去学习研究主要集中在计算机视觉应用上例如图像分类Golatkar et al., 2020a,bMehta et al., 2022而对自然语言处理NLP领域的去学习关注较少而文本数据中包含比图像更明确和敏感的个人信息例如家庭地址、电话号码、社交关系等。此外目前的去学习方法仅能高效处理少量的数据删除请求Bourtoule et al., 2021而NLP应用中的删除请求可能达到数百个。此外当前基于梯度计算的去学习方法Mehta et al., 2022难以应用于通常基于Seq2Seq框架的NLP生成模型这些模型在不同的时间戳之间包含复杂的注意力机制。考虑到去学习在NLP中的重要性和挑战我们提出了KGA——一种基于知识差距对齐的通用机器去学习方法并将KGA应用于NLP任务。KGA的灵感来自于一项通用的知识适应工作Khan和Swaroop, 2021其中采用权重和函数空间先验来重构模型的梯度。与Khan和Swaroop2021针对包括数据删除在内的适应任务的通用解决方案相比但难以扩展到复杂神经网络我们的方法KGA从知识差距对齐的角度专注于数据删除且易于推广到深度网络。本文中的知识差距定义为用不同数据训练的两个结构上相同模型的预测分布之间的距离。通过对齐知识差距我们迫使两组模型的行为相似。此外与只能处理少量删除请求Bourtoule et al., 2021、对模型输出持有强假设Chundawat et al., 2022或者不适用于复杂生成任务Mehta et al., 2022的现有去学习方法不同KGA能够高效处理大量删除请求同时保持准确性并且易于适用于各种模型和任务前提假设较为宽松。此外我们将KGA应用于各种NLP任务即分类、翻译和响应生成并定制特定于文本的评估指标。来自各方面的实验结果和进一步分析表明我们的KGA在性能维护和去学习效率方面通常优于基准同时在不同场景和模型之间保持一致性。为了更好地验证和分析去学习的有效性提供了模型在去学习前后如何将德语翻译成英语的有趣探索。简而言之本文的主要贡献包括我们提出了一种基于知识差距对齐的NLP任务去学习解决方案即KGA可以高效和有效地执行去学习。在三个大规模数据集上进行的实验以及新制定的特定于文本的评估指标验证了KGA的有效性。我们进行了广泛的实验和分析以确认KGA在不同场景下的去学习效果。 2 相关工作当前的去学习研究可以分为两类精确去学习和近似去学习。我们简要介绍如下。精确去学习精确去学习能够确保从模型中删除的数据的影响被彻底去除。Cao和Yang2015通过统计查询方法探讨了朴素贝叶斯分类器的精确去学习而Ginart等人2019研究了k-means聚类的删除算法但这些方法无法扩展到可能拥有数百万参数的深度神经网络。至于最近在神经模型去学习方面的努力Bourtoule等人2021提出了一种名为SISA的通用方法该方法首先将原始数据集划分为多个不重叠的部分然后设计有效的机制来聚合使用这些部分训练的模型。在处理数据删除时该方法只需重新训练受影响部分训练的模型。然而研究表明当删除请求数量较大时基于SISA的方法效果不佳并且我们必须在训练和去学习过程中维护整个数据集这在实际操作中是不可行的。近似去学习这一类别的方法试图使模型的行为尽可能接近精确去学习模型。近似去学习的受欢迎程度源于对更高效和成本更低的去学习的需求因此牺牲了精确性。Golatkar等人2020aGuo等人2019Koh和Liang2017Mehta等人2022主要通过计算模型在剩余数据上的正则化经验风险的扰动来处理去学习请求。然而这种方法需要计算训练数据上的海森矩阵和删除数据的梯度这仍然是耗时的。Chundawat等人2022假设去学习后的模型在遗忘数据上的表现应与随机初始化的模型相似这不恰当因为去学习的目标是去除遗忘数据的影响充当未见数据而不是让模型无法处理遗忘数据。然而现有的知识适应方法要么要求强假设要么在基于神经网络的模型上表现不佳Khan和Swaroop2021。与上述工作不同KGA并不强制模型在遗忘数据上接近某一特定分布而是保持两个模型对之间的分布差异即知识差距。这减弱了假设因为它适用于任何分布的遗忘数据从而也适用于更现实的场景同时仍然确保模型的性能。 3 符号与定义符号我们用 Z Z Z表示示例空间即数据实例或样本的空间。所有可能训练数据集的集合可以表示为 Z 2 Z Z 2^Z Z2Z。训练数据集 D ⊆ Z D \subseteq Z D⊆Z 被给定为输入。给定 D D D我们从假设空间 ( H ) 中训练一个机器学习模型。训练模型的过程是通过学习算法来实现的记作函数 A : Z → H A: Z \rightarrow H A:Z→H。训练好的模型记作 A ( D ) A(D) A(D)。接下来我们用函数 ( U ) 表示去学习机制它接受训练数据集 D ⊆ Z D \subseteq Z D⊆Z、一个遗忘集 D f ⊆ D D_f \subseteq D Df⊆D包含需要删除的数据以及模型 A ( D ) A(D) A(D)作为输入并返回一个去学习后的模型 U ( D ∖ D f , A ( D ) ) ∈ H U(D \setminus D_f, A(D)) \in H U(D∖Df,A(D))∈H。近似去学习定义接下来我们给出近似去学习的一个代表性定义特别是基于 Guo 等人2019的定义。给定 ϵ 0 \epsilon 0 ϵ0如果去学习机制 U U U 对学习算法 A A A 执行了认证删除那么对于所有 T ⊆ D T \subseteq D T⊆D 和 D f ⊆ D D_f \subseteq D Df⊆D都有 Pr ( U ( D ∖ D f , A ( D ) ) ∈ T ) Pr ( A ( D ∖ D f ) ∈ T ) ≤ ϵ , \frac{\text{Pr}(U(D \setminus D_f, A(D)) \in T)}{\text{Pr}(A(D \setminus D_f) \in T)} \leq \epsilon, Pr(A(D∖Df)∈T)Pr(U(D∖Df,A(D))∈T)≤ϵ, 近似去学习的目标可以总结为遗忘需要遗忘的数据同时保持模型的性能。 4 我们的 KGA 框架 KGA去学习方法受到一般知识适应工作的启发Khan和Swaroop2021在该工作中采用权重和函数空间先验来重构模型的梯度。与Khan和Swaroop2021不同的是如果将其应用于神经网络等非线性模型时无法准确恢复梯度而KGA可以从知识差距对齐的角度处理各种神经网络的数据删除请求。 4.1 KGA框架 KGA的输入可以分为两个部分数据和模型。输入数据包括之前的训练数据 ( D )、需要遗忘的数据 ( D_f )以及一小部分额外的数据 ( D_n ) 来协助去学习其中 D n ∩ D ∅ D_n \cap D \emptyset Dn∩D∅。除了数据外我们还有模型 A ( D ) A(D) A(D) 作为输入它是用数据 ( D ) 训练的原始模型该模型需要进行去学习在本文后续部分简写为 ( A_D )。KGA的输出是一个模型 ( A )其参数以 ( A_D ) 初始化并通过我们KGA去学习机制进一步更新以删除 ( D_f )。为了执行去学习我们首先分别基于数据 ( D_n ) 和 ( D_f ) 训练两个模型 ( A_n ) 和 ( A_f )。( A_D )、( A_n ) 和 ( A_f ) 的架构应该相同。( A_n )( A_f )可以通过将 ( D_n )( D_f )与一小部分 ( D_r D \setminus D_f ) 结合或者基于一些预训练的语言模型进行微调来确保性能因为在某些情况下需要遗忘的数据 ( D_f ) 可能很少。我们重新框定并总结了两个目标以实现第3节定义的近似去学习。这两个目标是目标1使输出模型 ( A ) 在 ( D_f ) 上的行为类似于其在任何看不见的数据即未用于训练的数据上的行为目标2维持模型 ( A ) 在 ( D_r ) 上的性能。知识差距对齐在本工作中知识差距被定义为两个具有相同架构但用不同数据训练的模型的预测分布之间的距离。通过对齐两个知识差距我们使得两组模型的性能相似。为了实现目标1我们期望目标模型 ( A ) 在数据 ( D_f ) 上的输出分布记作 ( A(D_f) )类似于 ( A_D(D_n) )其中 ( D_n ) 应该是与 ( D ) 外部的集合但具有相似的分布。由于 ( D_n ) 中的实例可能与 ( D_f ) 具有不同的标签和特征因此直接推导 ( A(D_f) ) 与 ( A_D(Dn) ) 的输出分布是困难的。因此我们转而模仿两组模型之间的知识差距 A arg ⁡ min ⁡ A dis ( D n ) ( A D A n ) dis ( D f ) ( A A f ) A \arg\min{A} \text{dis}(D_n)(A_D A_n) \text{dis}(D_f)(A A_f) AargAmindis(Dn)(ADAn)dis(Df)(AAf) 其中 dis ( D ) ( A 1 A 2 ) \text{dis}(D)(A_1 A_2) dis(D)(A1A2) 表示模型 A 1 A_1 A1 和 A 2 A_2 A2 在数据 ( D ) 上输出分布的差异可以通过KL散度、Bregman散度或其他分布距离测量来评估。由于 ( A_n ) 和 ( A_f ) 分别在 ( D_n ) 和 ( D_f ) 上训练我们期望在将 ( D_f ) 输入到 ( A ) 和 ( A_f ) 时知识差距应与将 ( D_n ) 输入到 ( A_D ) 和 ( A_n ) 时相似。这个假设是基于相同架构在处理具有相似分布的已知即用于训练和未知数据时可以观察到相似的知识缺失。我们认为成功的去学习方法应使目标模型 ( A ) 将 ( D_f ) 视为未见数据。对于目标2我们在处理剩余数据 ( D_r ) 时保持模型 ( A ) 的能力。我们将原始模型 ( A_D ) 视为老师直接最小化在 ( D_r ) 中输入样本到 ( A ) 和 ( A_D ) 时输出分布的距离。目标在我们的实现中我们使用KL散度来测量两个模型输出之间的分布距离。因此知识差距对齐目标定义为 L a ∑ ( y , z ) ∈ ( D f , D n ) K L [ P r ( A ) ( y ) ∣ ∣ P r ( A f ) ( y ) ] ∑ ( y , z ) ∈ ( D f , D n ) K L [ P r ( A D ) ( z ) ∣ ∣ P r ( A n ) ( z ) ] La \sum{(y,z) \in (D_f, D_n)} KL[Pr(A)(y) || Pr(Af)(y)] \sum{(y,z) \in (D_f, D_n)} KL[Pr(A_D)(z) || Pr(A_n)(z)] La(y,z)∈(Df,Dn)∑KLPr(A)(y)∣∣Pr(Af)(y)∈(Df,Dn)∑KL[Pr(AD)(z)∣∣Pr(An)(z)] 其中 ( Pr(A)(z) ) 是给定输入 ( z ) 的模型 ( A ) 的输出分布( KL(a || b) ) 测量分布 ( a ) 和 ( b ) 之间的KL散度。( y ) 和 ( z ) 分别来自 ( D_n ) 和 ( D_f )。我们随机抽样实例对 ( (y, z) ) 作为更新批次以减轻对特定样本的过拟合。保持 ( D_r ) 上性能的目标是另一个KL散度测量 ( A ) 和 ( A_D ) 在 ( D_r ) 上的输出分布 L r ∑ x ∈ D r K L [ P r ( A ) ( x ) ∣ ∣ P r ( A D ) ( x ) ] Lr \sum{x \in D_r} KL[Pr(A)(x) || Pr(A_D)(x)] Lrx∈Dr∑KL[Pr(A)(x)∣∣Pr(AD)(x)] 这两个目标在去学习期间共同优化以同时实现目标1和目标2。因此最终目标定义为 L L a L r L L_a L_r LLaLr 为了提高去学习效率我们需要找到模型 ( A ) 在去学习过程中达到所需性能的最早时间。然而与传统的机器学习算法不同我们很难找到合适的验证集来验证性能因为 ( D_f ) 也包含在训练过程中。为了解决这个问题我们使用一个超参数 ( 0 \beta 1 ) 来控制训练。具体来说我们将首先评估在训练前 ( \text{dis}(D_n)(A_D A_n) ) 和 ( \text{dis}(D_f)(A_D A_f) ) 之间的平均知识差距记作 ( G )。如果对应的平均知识差距达到 ( G )则训练停止。我们在算法1中总结了KGA。 4.2 KGA在自然语言处理任务中的应用我们并不限制模型 ( A() ) 的格式因为我们提出的去学习方法是通用的可以应用于各种神经网络架构。我们选择了三个自然语言处理任务即文本分类、机器翻译和响应生成来展示我们去学习方法的有效性。文本分类文本分类任务将文本句子作为输入并输出在预定义类别上的概率分布。我们遵循 Mehta 等人2022的研究对预训练模型 DistilBERTSanh 等人2019进行微调以完成文本分类。DistilBERT 是 BERTDevlin 等人2019模型的蒸馏版本包含多个 Transformer 编码器层以提取特征。其输入形式为 w c [ [ C L S ] ; w 1 ; w 2 ; … ; w C ] wc [[CLS]; w_1; w_2; \ldots; w_C] wc[[CLS];w1;w2;…;wC]。 C L S CLS CLS 标记的输出表示进一步馈入分类器以推导每个类别的概率。机器翻译机器翻译任务将一种语言中的句子作为输入并输出相应的翻译到另一种语言。我们遵循基于 Transformer 的一般编码器-解码器框架其中编码器总结源句子解码器将基于源表示以自回归的方式生成目标句子。除了 Transformer我们还验证了我们的去学习方法在其他架构中的有效性包括 LSTM 和预训练语言模型 BARTLewis 等人2020。响应生成响应生成和机器翻译都是生成任务其目标是根据给定的源内容生成文本。在响应生成中给定的源内容是两个对话者之间的对话期望预测下一个响应的内容。生成的模型与机器翻译的模型相似我们将上下文中的发言连接起来作为输入。 5 实验设置数据集我们在三个数据集上进行实验分别是 LEDGARTuggener 等人2020、IWSLT14 德英翻译Cettolo 等人2014以下简称 IWSLT和 PersonaChatZhang 等人2018。LEDGAR 是一个多标签文本分类数据集包含合同中的法律条款我们遵循 Mehta 等人2022的方法使用了 LEDGAR 的一个原型子集。IWSLT 来源于一个流行的翻译活动涵盖多种翻译方向我们选择了代表性的德英翻译方向。PersonaChat 是一个众包数据集包含基于给定个性信息的轮流对话。我们使用官方的训练/验证/测试划分来进行所有三个数据集的实验。这些数据集的统计信息列在表 1 中。评估指标对于每个数据集我们报告一个代表性的任务相关评分LEDGAR 的 Micro F1IWSLT 的 BLEU42 和 PersonaChat 的 PPL并附加去学习评估指标具体如下 Jensen–Shannon 散度JSD给定两个分布 ( p(x) ) 和 ( q(x) )其计算公式为 ( \text{JSD}(p(x) || q(x)) 0.5 , \text{KL}(p(x) || q(x)) 0.5 , \text{KL}(q(x) || p(x)) )。语言模型概率距离LPD给定两个语言概率即每个模型生成的目标句子的困惑度( x ) 和 ( y )其计算方式为 ( \text{LPD}(x, y) x - y )。语言模型概率下降PDLP计算在去学习后语言模型概率下降的实例所占的百分比。
参数设置对于 LEDGAR我们对 DistilBERT 进行微调。对于 IWSLT 和 PersonaChat我们均使用通用的编码器-解码器 Transformer 架构。我们使用 AdamKingma 和 Ba2015优化器并结合逆平方根学习率调度器进行模型训练。在 KGA 去学习过程中我们为所有三个数据集保持 16 的批量大小和 5e-5 的学习率并在公式 5 中设置 ( \beta ) 为 0.1。有关更多参数和训练细节请参见附录 A。比较方法我们将 KGA 方法在测试集和遗忘集上的性能与以下模型进行比较 ORIGINAL在完整训练集 ( D ) 上训练的原始模型没有进行任何遗忘。 RETRAIN使用保留数据 ( D_r )( D_r D \setminus D_f )重新训练模型。 SISABourtoule 等人2021首先将数据集划分为多个不重叠的部分然后汇总用不同部分训练的模型的输出。当处理数据删除时仅重新训练受影响部分的模型然后进行汇总。在我们的实验中我们随机将训练集划分为 5 个部分。 LCODECMehta 等人2022它与 Hessian 去学习一致基于损失函数的 Hessian 更新模型权重并识别一部分模型参数以降低计算成本。它适用于分类任务在生成任务中可能需要修改。 BADTEACHERChundawat 等人2022它强迫去学习模型在遗忘集 ( D_f ) 上的表现尽可能接近随机初始化的模型同时保持在剩余数据 ( D_r ) 上的性能。
6 实验结果在本节中我们首先在 6.1 节中比较 KGA 和基线模型的主要去学习分数。然后在 6.2 节中报告时间成本、成员推断攻击和语言模型概率比较结果以检验 KGA 的优越性。接着在 6.3 节深入探讨去学习对 NLP 任务的影响。最后在 6.4 节中进行更多分析。 6.1 主要比较结果我们探讨了测试集和遗忘集上的代表性分数以检验以下两个问题i去学习模型在测试集上的性能维持得如何ii在原始训练集中曾经存在的遗忘集上的性能变化如何我们在表 2 中报告了相应的分数可以得到以下观察结果我们的去学习方法能够更好地维持测试集上的性能。可以看出KGA 在三个数据集上的 F1、BLEU4 和 PPL 分数均优于其他去学习基线无论是精确方法还是近似方法。这表明 KGA 相较于其他方法的一个优越性。我们的 KGA 去学习模型在遗忘集上的表现和预测分布更接近 RETRAIN 模型。我们可以看到在遗忘集上KGA 方法得到的 F1BLEU4 和 PPL分数与 RETRAIN 模型的分数更接近并且维持了更小的 JSDLPD分数这意味着在遗忘集上实例的输出分布也与 RETRAIN 模型更加接近。这表明 KGA 在所有基线中实现了最佳的遗忘效果符合公式 1 的定义。从原始模型中遗忘数据并不意味着去学习模型无法处理这些实例。我们发现 RETRAIN 在遗忘集上的性能相较于 ORIGINAL 模型有所下降但仍表现出良好的性能接近测试集的结果。这与我们的假设一致成功的去学习模型在遗忘集上的性能应该与未见数据例如测试集相似。我们的 KGA 方法的表现与 RETRAIN 一致而 BADT 完全丧失了分类和生成的能力这不符合定义。
6.2 KGA 的优越性分析在本小节中我们考察去学习的效率即时间成本和效果即成员推断攻击和语言模型概率检查。时间成本我们在图 1(a) 中报告了去学习模型的时间成本。可以看出尽管重新训练和精确去学习方法如 SISA可以保证完美的去学习但它们的时间成本远超其他近似去学习方法如 LCODEC、BADT、KGA。成员推断攻击MiA在机器学习环境中MiA 出现于对手试图找出目标数据实例是否被用于训练模型的情况。我们遵循 Salem 等人2018和 Golatkar 等人2020b的研究进行黑箱 MiA其中对手只能访问模型输出分布。我们以 IWSLT 数据集为例首先训练一个与原始训练集同分布的浅层翻译模型实际上简化为使用原始训练集的 30% 实例。浅层模型的训练集数据标记为“1”而其他未见数据即原始训练集的其余部分标记为“0”。然后我们使用带有“1/0”标签的数据训练攻击模型以训练的浅层模型的输出分布作为输入。之后我们将无学习模型即 RETRAIN、KGA 等的输出馈入攻击者模型并检查 MiA 结果。
我们在图 1(b) 中报告了 MiA 结果其中更高的 F1 分数和更低的假阴性率FNR表示攻击者能更好地推断实例的成员身份。可以看出攻击者在 ORIGINAL 上的表现最佳而在去学习后表现较差这是我们所期望的。在所有无学习模型中我们也发现攻击者在经历精确去学习即 RETRAIN 和 SISA后无法很好地推测成员身份。作为一种近似去学习方法KGA 的结果接近精确去学习显示了其有效性。降低语言模型概率比较除了在 6.1 节中报告的语言模型距离外我们还评估了一种新的去学习评估分数称为相对于原始模型的语言模型概率下降比例PDLP。目标序列的语言模型概率下降意味着去学习模型倾向于不生成需要遗忘的句子这与去学习的目标一致。我们在表 3 中报告了测试集和遗忘集的 PDLP 比较结果。从 RETRAIN 模型的结果来看我们可以看到测试集中的实例在 RETRAIN 去学习后保持稳定波动即约 50% 的 PDLP而遗忘集中的实例则显示出较大的语言模型概率下降即 96% 的 PDLP这表明遗忘集的去学习效果良好。我们很容易发现我们的 KGA 去学习方法与 RETRAIN 模型的表现最为接近这验证了 KGA 相较于其他比较模型的优越性。 6.3 NLP 中去学习的分析以往关于去学习的大多数研究主要集中在计算机视觉任务上对 NLP 任务尤其是生成任务关注较少。在这里我们设计了两个针对 NLP 的特定实验并提出了一些有趣的讨论。删除不同难度级别的实例在这里我们研究我们的去学习方法是否能够处理翻译任务中不同难度级别的遗忘实例。我们使用 BLEU 分数来衡量实例的难度较高的 BLEU 分数表示该实例对当前模型来说更容易。为了准备 5 组不同难度的实例我们采用 ORIGINAL 模型对训练集中的实例进行推断然后根据生成句子的 BLEU 分数对它们进行排序。我们根据 BLEU 将训练集分成 5 个部分每部分选择 100 个实例作为遗忘集。之后我们分别对这些实例应用我们的 KGA 去学习。我们在图 2 中报告了去学习结果。图 2(a) 显示了 ORIGINAL 模型和去学习模型即 RETRAIN 和 KGA在遗忘集5 组不同 BLEU 范围上的 BLEU 分数。我们可以很容易地发现去学习导致 RETRAIN 在遗忘集上的某些性能下降而我们的 KGA 在 R1 和 R2 组上却获得了性能提升。这可能是因为 KGA 倾向于强迫遗忘数据的性能接近未见数据而不管 BLEU 的范围。因此在 KGA 去学习之后表现较差的实例可能会得到提升而高表现的实例则可能会下降。从图 2(b) 中我们意外地发现 RETRAIN 后在测试集上的性能甚至比 ORIGINAL 模型更好尤其是在遗忘极易实例的情况下即 R5虽然 R1 略微更高这可能是由于随机效应。这可能是因为极易的实例对模型性能的提升影响较小。这一观察结果也激发了去学习的进一步应用——去学习某些特定数据点可能会带来性能提升。我们将其留待未来探索。去学习包含特定词语的实例与分类任务不同我们无法删除某个特定标签的所有数据以探索去学习的有效性翻译任务和大多数生成任务并不包含如此简单的标签来精确分类实例。因此我们转向选择在翻译任务中包含某些特定词语的实例以分析去学习前后的输出。例如我们删除目标序列中包含“sister”一词的所有实例从而得到一个去学习模型预期它会遗忘“sister”一词。表 4 展示了原始模型和去学习模型在三种情况下的输出。我们可以看到在从训练集中删除所有包含“sister”的实例后去学习模型不再能够生成“sister”。然而去学习模型仍然能够生成其他内容。进一步分析删除数量的影响我们研究了去学习模型在处理不同删除数量时如何维持测试集上的性能以及遗忘集上的信息结果如图 3 所示。从图 3(a) 可以看出RETRAIN 模型在处理不同数量的删除时能够维持在测试集上的性能这意味着它对删除数据的规模不敏感。而 KGA 在删除不超过 200 个对话约 2000 个实例时能够维持性能而 SISA 即使在删除数量较少的情况下也表现不佳。图 3(b) 显示了 RETRAIN 和 KGA 在遗忘集上的 LPD。我们可以发现随着删除数量的增加KGA 维持了较低的 LPD这表明 KGA 在遗忘选定数据时表现始终良好。基模型的影响我们进一步展示了 KGA 应用于不同模型结构时的去学习结果。除了传统的 Transformer 结构外这里我们还对 LSTM 和 BART一个预训练的语言模型进行了实验。表 5 显示了结果。可以看到KGA 在使用不同结构时在测试集上的性能下降百分比保持相似并且在遗忘集上的 LPD 和 PDLP 分数也相似这表明 KGA 在不同模型结构下均有效。 7 结论本文提出了 KGA一种通用的近似机器去学习框架并探讨其在多个 NLP 任务中的应用。KGA 利用两组模型之间的分布差异使得去学习模型在遗忘数据上的表现类似于其在未见数据上的表现。对三个大规模数据集的实验以及进一步的实验验证了 KGA 的有效性。