有了空间和域名 网站容易做吗浦口区网站建设售后保障
- 作者: 五速梦信息网
- 时间: 2026年03月21日 06:53
当前位置: 首页 > news >正文
有了空间和域名 网站容易做吗,浦口区网站建设售后保障,深圳营销型网站建设-龙华信科,贵州建设项目门户网站探索GLM#xff1a;一种新型的通用语言模型预训练方法
随着人工智能技术的不断进步#xff0c;自然语言处理#xff08;NLP#xff09;领域也迎来了革命性的发展。OpenAI的ChatGPT及其后续产品在全球范围内引起了广泛关注#xff0c;展示了大型语言模型#xff08;LLM一种新型的通用语言模型预训练方法
随着人工智能技术的不断进步自然语言处理NLP领域也迎来了革命性的发展。OpenAI的ChatGPT及其后续产品在全球范围内引起了广泛关注展示了大型语言模型LLM的强大能力。在这一背景下GLMGeneral Language Model作为一种创新的预训练语言模型以其独特的自编码和自回归结合的训练方法为NLP领域带来了新的视角。
GLM的核心特点
GLM模型结合了自编码和自回归两种预训练方法的优点通过随机MASK输入中连续跨度的token并使用自回归空白填充的方法重新构建这些跨度中的内容。此外GLM还采用了二维编码技术以更好地表示跨间和跨内的信息。这种独特的结合使得GLM在处理多种NLP任务时都能展现出优异的性能。
预训练目标自回归空白填充
GLM的预训练目标是通过自回归空白填充来优化的。具体来说给定一个输入文本模型会从中采样多个文本片段并将这些片段用[MASK]符号替换形成一个损坏的文本。模型随后以自回归的方式从损坏的文本中预测缺失的词。为了捕捉不同片段之间的相互依赖关系GLM会随机打乱片段的顺序类似于排列语言模型。
架构与实现
GLM的架构设计巧妙地结合了双向编码器和单向解码器。在模型的输入部分文本被分为两部分Part A是损坏的文本Part B是被遮盖的片段。Part A的词可以相互看到但不能看到Part B中的任何词而Part B的词可以看到Part A和Part B中的前置词但不能看到Part B中的后续词。这种设计使得模型能够在统一的框架内同时学习双向和单向的注意力机制。
GLM预训练方法分析
输入文本处理
输入文本给定一个输入文本 x [ x 1 , … , x n ] \bm{x} [x_1, …, x_n] x[x1,…,xn]模型从中采样多个文本片段 { s 1 , … , s m } { \bm{s}_1, …, \bm{s}_m } {s1,…,sm}。文本片段每个片段 s i \bm{s}i si 对应于输入文本中的一系列连续的词 [ s i , 1 , … , s i , l i ] [s{i,1}, …, s_{i,l_i}] [si,1,…,si,li]。
损坏文本的生成
[MASK]替换每个采样的文本片段 s i \bm{s}i si 被一个单独的 [MASK] 符号替换形成一个损坏的文本 x corrupt \bm{x}{\text{corrupt}} xcorrupt。
自回归预测
预测方式模型以自回归的方式从损坏的文本 x corrupt \bm{x}_{\text{corrupt}} xcorrupt 中预测缺失的词。这意味着在预测一个片段中的缺失词时模型可以访问损坏的文本和之前已经预测的片段。
片段顺序的随机打乱
打乱顺序为了充分捕捉不同片段之间的相互依赖关系模型随机打乱片段的顺序类似于排列语言模型。排列集合令 Z m Zm Zm 为长度为 m m m 的索引序列 [ 1 , 2 , … , m ] [1, 2, …, m] [1,2,…,m] 的所有可能排列的集合。片段表示令 s z i ∈ [ s z 1 , … , s z i − 1 ] \bm{s}{zi} \in [\bm{s}_{z1}, …, \bm{s}{z_{i-1}}] szi∈[sz1,…,szi−1]表示在排列 z z z 中索引小于 i i i 的片段。
GLM的预训练方法
通过自回归空白填充目标进行优化这是一种结合了自编码和自回归特性的创新方法。下面是对这一过程的详细分析 输入文本处理 给定一个输入文本 x [ x 1 , … , x n ] \bm{x} [x_1, …, x_n] x[x1,…,xn]模型从中采样多个文本片段 { s 1 , … , s m } { \bm{s}_1, …, \bm{s}_m } {s1,…,sm}。每个片段 (\bm{s}i) 对应于输入文本中的一系列连续的词 [ s i , 1 , … , s i , l i ] [s{i,1}, …, s_{i,l_i}] [si,1,…,si,li]。 损坏文本的生成 每个采样的文本片段 s i \bm{s}i si被一个单独的 [MASK] 符号替换形成一个损坏的文本 x corrupt \bm{x}{\text{corrupt}} xcorrupt。 自回归预测 模型以自回归的方式从损坏的文本 (\bm{x}_{\text{corrupt}}) 中预测缺失的词。这意味着在预测一个片段中的缺失词时模型可以访问损坏的文本和之前已经预测的片段。 片段顺序的随机打乱 为了充分捕捉不同片段之间的相互依赖关系模型随机打乱片段的顺序类似于排列语言模型。 $$令 (Zm) 为长度为 (m) 的索引序列 ([1, 2, …, m]) 的所有可能排列的集合。令 s z i ∈ [ s z 1 , … , s z i − 1 ] \bm{s}{zi} \in [\bm{s}_{z1}, …, \bm{s}{z{i-1}}] szi∈[sz1,…,szi−1]表示在排列 (z) 中索引小于 (i) 的片段。 预训练目标函数 预训练目标函数可以表示为最大化期望即最大化模型在所有可能的片段排列下预测缺失词的对数概率之和。数学表达式为 max θ E z ∼ Z m [ ∑ i 1 m log p θ ( s z i ∣ x corrupt , s z i ) ] \underset{\theta}{\text{max}} \space \mathbb{E}{z\sim Zm} \left[ \sum{i1}^{m} \text{log} \space p{\theta} \left( \bm{s}{zi} | \bm{x}{\text{corrupt}}, \bm{s}{z{i}} \right) \right] θmax Ez∼Zm[i1∑mlog pθ(szi∣xcorrupt,szi)]这里 p θ ( s z i ∣ x corrupt , s z i ) p{\theta} \left( \bm{s}{zi} | \bm{x}{\text{corrupt}}, \bm{s}{z{i}} \right) pθ(szi∣xcorrupt,szi) 表示在给定损坏的文本和之前预测的片段条件下模型预测当前片段 s z i \bm{s}_{z_i} szi 的概率。
按照从左到右的顺序生成每个空白中的词即生成片段 s i \bm{s}i si 的概率可以分解为 p θ ( s i ∣ x corrupt , s z i ) ∏ j 1 l i p ( s i , j ∣ x corrupt , s z i , s i , j ) (2) p{\theta}\left( \bm{s}i|\bm{x}{\text{corrupt}},\bm{s}{z{i}} \right) \prod_{j1}^{li}p\left( s{i,j}|\bm{x}{\text{corrupt}},\bm{s}{z{i}},\bm{s}{i,j} \right) \tag{2} pθ(si∣xcorrupt,szi)j1∏lip(si,j∣xcorrupt,szi,si,j)(2)
使用以下方式实现了自回归空白填充目标。
输入 x \bm{x} x 被分成两部分Part A 是损坏的文本 x corrupt \bm{x}_{\text{corrupt}} xcorruptPart B 是被遮盖的片段。Part A 的词可以相互看到但不能看到 Part B 中的任何词。Part B 的词可以看到 Part A 和 Part B 中的前置词但不能看到 Part B 中的后续词。为了实现自回归生成每个片段都用特殊的符号 [START] 和 [END] 进行填充分别用于输入和输出。这样模型就自动地在一个统一的模型中学习了一个双向编码器用于 Part A和一个单向解码器用于 Part B。
在GLM模型中原始文本 x [ x 1 , x 2 , x 3 , x 4 , x 5 , x 6 ] \bm{x} [x_1, x_2, x_3, x_4, x_5, x_6] x[x1,x2,x3,x4,x5,x6] 被随机地进行连续的掩码处理。假设我们掩码掉了 [ x 3 ] [x_3] [x3] 和 [ x 5 , x 6 ] [x_5, x_6] [x5,x6]这些跨度的长度遵循泊松分布参数 λ 3 \lambda 3 λ3这一策略与BART模型相似。
具体操作是将 [ x 3 ] [x_3] [x3] 和 [ x 5 , x 6 ] [x_5, x6] [x5,x6] 替换为特殊的 [M] 标志代表 [MASK]。接着我们将这些被掩码的片段Part B的顺序打乱以捕捉跨度之间的内在联系。这种随机交换跨度顺序的做法有助于模型学习到更丰富的上下文信息。
GLM模型采用自回归的方式来生成Part B的内容。在输入时每个片段前面会加上 [S] 标志代表 [START]而在输出时每个片段后面会加上 [E] 标志代表 [END]。这种做法有助于模型明确每个片段的开始和结束。
为了更好地表示不同片段之间以及片段内部的位置关系GLM引入了二维位置编码。这种编码方式使得模型能够更精确地理解文本的结构和语义。
在自注意力机制中使用了特定的掩码策略。灰色区域表示被掩盖的部分。Part A的词语可以相互看到如图2(d)中的蓝色框所示但不能看到Part B中的任何内容。相反Part B的词语可以看到Part A和Part B中位于它们之前的词语如图2(d)中的黄色和绿色框所示分别对应两个不同的片段。这种设计确保了模型在生成文本时能够考虑到正确的上下文信息。
通过这种方式GLM模型不仅能够学习到文本中的上下文信息还能够捕捉到不同文本片段之间的复杂依赖关系从而在多种NLP任务中展现出优异的性能。这种结合了自编码和自回归特性的预训练方法为语言模型的预训练提供了新的思路和方法。
GLM模型架构与微调方法分析
模型架构
GLM采用了一个单一的Transformer架构并对其进行了一些关键的修改
层归一化和残差连接的重新排列这种调整对于避免大规模语言模型中的数值错误至关重要。单一的线性层用于输出词预测简化了输出层提高了模型的预测效率。GeLU激活函数替换ReLUGeLUGaussian Error Linear Unit激活函数在许多现代神经网络模型中表现更好。
二维位置编码
GLM引入了二维位置编码以更好地处理自回归空白填充任务中的位置信息。每个词使用两个位置ID进行编码
第一个位置ID表示词在损坏文本 x corrupt \bm{x}{\text{corrupt}} xcorrupt 中的位置。第二个位置ID表示区域内的位置Part A的词此ID为0Part B的词此ID从1到区域长度。
这种编码方法确保模型在重建被遮盖的跨度时不知道其长度与其他模型如XLNet和SpanBERT相比这是一个显著的区别。
微调GLM
NLU分类任务
GLM将自然语言理解NLU分类任务重新制定为填空生成任务遵循PETPattern Exploiting Training方法。例如情感分类任务可以被表述为“{SENTENCE}。这真的是 [MASK]”。标签如“positive”和“negative”分别映射到单词“good”和“bad”。
文本生成任务
对于文本生成任务GLM可以直接应用预训练模型进行无条件生成或者在条件生成任务上进行微调。给定的上下文构成了输入的Part A末尾附加了一个mask符号模型自回归地生成Part B的文本。
通过这些创新的方法和架构调整GLM在处理各种自然语言处理任务时展现出了卓越的性能和灵活性。
应用与展望
GLM模型的出现不仅为NLP领域提供了新的研究方向也为实际应用带来了新的可能性。无论是在文本分类、翻译、问答还是文本生成等任务中GLM都展现出了其独特的优势。随着模型的进一步优化和应用场景的拓展GLM有望在未来的AI领域中扮演更加重要的角色。
总之GLM作为一种结合了自编码和自回归优点的预训练语言模型为NLP领域带来了新的活力。通过其独特的预训练方法和架构设计GLM在多个NLP任务中都展现出了卓越的性能预示着其在未来的广阔应用前景。
- 上一篇: 有了空间和域名 网站容易做吗广州可信网站认证服务器
- 下一篇: 有了网站 域名然后么做dw怎么用模板
相关文章
-
有了空间和域名 网站容易做吗广州可信网站认证服务器
有了空间和域名 网站容易做吗广州可信网站认证服务器
- 技术栈
- 2026年03月21日
-
有了ddns怎么建设网站2018网站内容和备案
有了ddns怎么建设网站2018网站内容和备案
- 技术栈
- 2026年03月21日
-
有口碑的郑州网站建设开公司怎么做网站
有口碑的郑州网站建设开公司怎么做网站
- 技术栈
- 2026年03月21日
-
有了网站 域名然后么做dw怎么用模板
有了网站 域名然后么做dw怎么用模板
- 技术栈
- 2026年03月21日
-
有了域名 网站建设网站图片批量上传
有了域名 网站建设网站图片批量上传
- 技术栈
- 2026年03月21日
-
有了域名建设网站运营哪里学的比较专业
有了域名建设网站运营哪里学的比较专业
- 技术栈
- 2026年03月21日
