有哪些建设网站公司国外酷网站
- 作者: 五速梦信息网
- 时间: 2026年03月21日 06:54
当前位置: 首页 > news >正文
有哪些建设网站公司,国外酷网站,滨江专业网页制作哪家好,画册设计及制作PaperWeekly 原创 作者 | 苏剑林 单位 | 科学空间 研究方向 | NLP、神经网络 预训练刚兴起时#xff0c;在语言模型的输出端重用 Embedding 权重是很常见的操作#xff0c;比如 BERT、第一版的 T5、早期的 GPT#xff0c;都使用了这个操作#xff0c;这是因为当模型… ©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 科学空间 研究方向 | NLP、神经网络 预训练刚兴起时在语言模型的输出端重用 Embedding 权重是很常见的操作比如 BERT、第一版的 T5、早期的 GPT都使用了这个操作这是因为当模型主干部分不大且词表很大时Embedding 层的参数量很可观如果输出端再新增一个独立的同样大小的权重矩阵的话会导致显存消耗的激增。 不过随着模型参数规模的增大Embedding 层的占比相对变小了加之《Rethinking embedding coupling in pre-trained language models》[1] 等研究表明共享 Embedding 可能会有些负面影响所以现在共享 Embedding 的做法已经越来越少了。 本文旨在分析在共享 Embedding 权重时可能遇到的问题并探索如何更有效地进行初始化和参数化。尽管共享 Embedding 看起来已经“过时”但这依然不失为一道有趣的研究题目。 共享权重 在语言模型的输出端重用 Embedding 权重的做法英文称之为 “Tied Embeddings” 或者 “Coupled Embeddings”其思想主要是 Embedding 矩阵跟输出端转换到 logits 的投影矩阵大小是相同的只差个转置并且由于这个参数矩阵比较大所以为了避免不必要的浪费干脆共用同一个权重如下图所示 ▲ 共享 Embedding 权重的 Transformer 示意图 共享 Embedding 最直接的后果可能是——它会导致预训练的初始损失非常大。这是因为我们通常会使用类似 DeepNorm 的技术来降低训练难度它们都是将模型的残差分支初始化得接近于零。换言之模型在初始阶段近似于一个恒等函数这使得初始模型相当于共享 Embedding 的 2-gram 模型。接下来我们将推导这样的 2-gram 模型损失大的原因以及分析一些解决方案。 准备工作 在正式开始推导之前我们需要准备一些基础结论。 首先要明确的是我们主要对初始阶段的结果进行分析此时的权重都是从某个“均值为 0、方差为 ”的分布中独立同分布地采样出来的这允许我们通过期望来估计某些求和结果。比如对于 我们有 因此可以取 。那么误差有多大呢我们可以通过它的方差来感知。为此我们先求它的二阶矩 如果采样分布是正态分布那么可以直接算出 所以 这个方差大小也代表着 的近似程度也就是说原本的采样方差 越小那么近似程度越高。特别地常见的采样方差是 对应 即单位向量那么代入上式得到 意味着维度越高近似程度越高。此外如果采样分布不是正态分布可以另外重新计算 或者直接将正态分布的结果作为参考结果反正都只是一个估算罢了。 如果 是另一个独立同分布向量那么我们可以用同样的方法估计内积结果是 以及 同样地取 的话那么方差是 维度越高近似程度越高。以上两个结果可以说是《n维空间下两个随机向量的夹角分布》[2]、《让人惊叹的Johnson-Lindenstrauss引理理论篇》中的结论的统计版本。 损失分析 对语言模型来说最终要输出一个逐 token 的 元分布这里 是词表大小。假设我们直接输出均匀分布也就是每个 token 的概率都是 那么不难计算交叉熵损失将会是 。这也就意味着合理的初始化不应该使得初始损失明显超过 因为 代表了最朴素的均匀分布明显超过 等价于说远远不如均匀分布就好比是故意犯错并不合理。 那么为什么共享 Embedding 会出现这种情况呢假设初始 Embedding 是 前面已经说了初始阶段残差分支接近于零所以输入输入 token 模型输出就是经过 Normalization 之后的 Embedding 。常见的 Normalization 就是 Layer Norm 或者 RMS Norm由于初始化分布是零均值的所以 Layer Norm 跟 RMS Norm 大致等价因此输出是 接下来重用 Embedding内积然后 Softmax所建立的分布实质是 对应的损失函数就是 语言模型任务是为了预测下一个 token而我们知道自然句子中叠词的比例很小所以基本上可以认为 那么根据结果 (4) 就有 。所以初始损失函数是 后面的 再次用到了式1和式4。常见的初始化方差 或者是一个常数或者是 此时 不管是哪一种当 较大时都导致 占主导于是损失将会是 级别这很容易就超过了均匀分布的 。 一些对策 根据上述推导结果我们就可以针对性地设计一些对策了。比较直接的方案是调整初始化根据式9我们只需要让 那么初始损失就是变成 级别的也就是说初始化的标准差要改为 。 一般来说我们会希望参数的初始化方差尽量大一些这样梯度相对来说没那么容易下溢而 有时候会显得过小了。为此我们可以换一种思路很明显式9之所以会偏大是因为出现了 由于两个 相同它们内积变成了模长从而变得很大如果能让它们不同那么就不会出现这一个占主导的项了。 为此最简单的方法自然是干脆不共享 Embedding此时是 而不是 用4而不是1作为近似于是式9渐近于 。如果还想保留共享 Embedding我们可以在最后的 Normalization 之后再接一个正交初始化的投影层这样 变成了 根据 Johnson-Lindenstrauss 引理经过随机投影的向量近似于独立向量了所以也近似于不共享的情况这其实就是 BERT 的解决办法。特别地这个投影层还可以一般化地加上 bias 和激活函数。 如果一丁点额外参数都不想引入那么可以考虑在 Normalization 之后“打乱” 的各个维度 这里的 是拼接操作那么 和 也接近正交了内积自然也约等于0。这相当于在初始阶段将原来的 的 Embedding 矩阵劈开为两个 的矩阵然后构建不共享 Embedding 的 2-gram 模型。另外我们还可以考虑其他打乱操作比如 ShuffleNet [3] 中的先 reshape然后 transpose 再 reshape 回来。 在笔者的实验中直接改初始化标准差为 收敛速度是最慢的其余方法收敛速度差不多至于最终效果所有方法似乎都差不多。 文章小结 本文重温了语言模型输出端共享 Embedding 权重的操作推导了直接重用 Embedding 来投影输出可能会导致损失过大的可能性并探讨了一些解决办法。 参考文献 [1] https://arxiv.org/abs/2010.12821 [2] https://kexue.fm/archives/7076 [3] https://arxiv.org/abs/1707.01083 更多阅读 #投 稿 通 道# 让你的文字被更多人看到 如何才能让更多的优质内容以更短路径到达读者群体缩短读者寻找优质内容的成本呢答案就是你不认识的人。 总有一些你不认识的人知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁促使不同背景、不同方向的学者和学术灵感相互碰撞迸发出更多的可能性。 PaperWeekly 鼓励高校实验室或个人在我们的平台上分享各类优质内容可以是最新论文解读也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个让知识真正流动起来。 稿件基本要求 • 文章确系个人原创作品未曾在公开渠道发表如为其他平台已发表或待发表的文章请明确标注 • 稿件建议以 markdown 格式撰写文中配图以附件形式发送要求图片清晰无版权问题 • PaperWeekly 尊重原作者署名权并将为每篇被采纳的原创首发稿件提供业内具有竞争力稿酬具体依据文章阅读量和文章质量阶梯制结算 投稿通道 • 投稿邮箱hrpaperweekly.site • 来稿请备注即时联系方式微信以便我们在稿件选用的第一时间联系作者 • 您也可以直接添加小编微信pwbot02快速投稿备注姓名-投稿 △长按添加PaperWeekly小编 现在在「知乎」也能找到我们了 进入知乎首页搜索「PaperWeekly」 点击「关注」订阅我们的专栏吧 · ·
- 上一篇: 有哪些建设网站的大公司三星网上商城app官方版
- 下一篇: 有哪些建设网站公司台州千寻网站建设公司
相关文章
-
有哪些建设网站的大公司三星网上商城app官方版
有哪些建设网站的大公司三星网上商城app官方版
- 技术栈
- 2026年03月21日
-
有哪些好的网站建设公司国外网站网页设计
有哪些好的网站建设公司国外网站网页设计
- 技术栈
- 2026年03月21日
-
有哪些vue做的网站游戏落地页网站建设
有哪些vue做的网站游戏落地页网站建设
- 技术栈
- 2026年03月21日
-
有哪些建设网站公司台州千寻网站建设公司
有哪些建设网站公司台州千寻网站建设公司
- 技术栈
- 2026年03月21日
-
有哪些可以在网上做兼职的网站开建筑公司需要什么条件
有哪些可以在网上做兼职的网站开建筑公司需要什么条件
- 技术栈
- 2026年03月21日
-
有哪些设计网站linux 网站搬家
有哪些设计网站linux 网站搬家
- 技术栈
- 2026年03月21日
