首页 - 技术栈

淘客网站是怎么做的郑州哪有做网站的汉狮

作者: 五速梦信息网
时间: 2026年06月19日 08:26

当前位置：首页 > news >正文

淘客网站是怎么做的,郑州哪有做网站的汉狮,有实力的网站建设推广,重庆自助模板建站一、前言 2017年#xff0c;谷歌团队推出一篇神经网络的论文#xff0c;首次提出将“自注意力”机制引入深度学习中#xff0c;这一机制可以根据输入数据各部分重要性的不同而分配不同的权重。当ChatGPT震惊世人时#xff0c;Transformer也随之进入大众视野。一夜之间…一、前言 2017年谷歌团队推出一篇神经网络的论文首次提出将“自注意力”机制引入深度学习中这一机制可以根据输入数据各部分重要性的不同而分配不同的权重。当ChatGPT震惊世人时Transformer也随之进入大众视野。一夜之间AI创业公司层出不穷掌握算力的互联网巨头们争相推出自己的大语言模型。这些模型都基于Transformer神经网络架构比如ChatGPT只使用了其中的解码器DeBERTa只使用了其编码器Flan-UL2则编码解码全都使用。而对于用户来说大语言模型还是一个黑盒用户只知道输入一些简单指令模型便会产出一些输出这些输出可能满足用户的需求也可能不满足于是用户通过调整指令的方式得到不同输出的结果。从笼统、抽象的概括到指令精确的下发这也推进了提示词工程的发展。很难评价是机器在学习人类还是人类在适应机器亦或两者都有。开发者的世界中可能了解得更多比如使用LangChain或LlamaIndex构建RAG检索增强生成系统使用提示词工程优化输出结果设置temperature等各类参数控制大模型创新性等……虽然比用户更接近黑盒但依然存在很多无法解答的问题为什么大语言模型会有上下文的限制为什么现阶段的模型没有长期记忆为什么要使用Transformer作为基础对于科学家来说上述问题可能很好回答但大部分表述都是一些晦涩难懂的专业名词谈论得更多的是方向嵌入层层归一化矩阵乘积……以及一堆复杂的数学公式。在学术界热热闹闹讨论AGI通用人工智能未来的同时这些专业名词构建出的壁垒让普通人难以望其项背无疑于在黑盒之上又蒙了一层神秘的面纱。这当然不是科学家有意为之但也从侧面反映出人工智能领域的复杂性一个包含计算机科学、数学、认知科学、心理学等众多学科的领域要解释起来确实颇有难度。本篇文章目的意在使用通俗语言解释这些专业名词并通过数据流向的方式描绘“自注意力机制”在训练时的过程但不会事无巨细地解释其中每一个细节。二、向量当我们谈论向量的时候我们具体谈论的是哪一领域的‘向量’是数学物理学还是其他自然科学中的基本概念是理论数学中的定义任何在称为向量空间的代数结构中的元素并同时满足具有大小和方向两个性质的几何对象即可认为是向量。还是物理领域中的定义向量是空间中的箭头它指向三维空间其中一点以三元数组代表某个特定的对象这个对象可以代表任意东西。无论使用哪一领域的向量定义最终都要回到一个根本性问题如何让机器识别某一信息代表的具体意义对于机器而言人类世界的语言并没有什么意义无论是使用中文的他还是英文中的he机器能识别和处理的只能是数值例如0,1。为了让机器更好地识别人类语言及真实世界科学家们使用向量将文本转化为数据使得机器可以对文本进行数学运算向量也可以包含多种特征如词性上下文等这有助于提高模型对语言的理解能力。假设使用一个二维坐标轴将人类语言词汇分布在上面英文的he和中文的他可能会分布在不同轴上。“番茄”和“西红柿”只是两种不同叫法指向的是同一种植物果实却需要占据两个向量即使它们可能无比接近。如果将一个二维空间升维成三维空间番茄这一含义代表着三维空间的某个坐标(x,y,z)意义相近的词依旧分布在其附近。看似好像没有什么区别但描述同一对象的方式却发生了改变。事实上向量可以是任意维度的这取决于数据的复杂性和所需特征数量不同维度承载的特征数量是不一样的。通俗一点讲就是向量的维度越高代表的含义也就越多。高维向量可以捕捉更多的细节和信息但这也导致了计算的复杂性。向量是一切的基础无论是模型训练还是使用AI应用第一步都是将输入的文本/图片/音频等信息转换为向量一般情况下我们将这些输入/输出的向量统称 token。为了方便理解我们暂时将一个单词对应一个向量即一组数字。三、嵌入矩阵通常情况下模型会包含一个预设的词汇库它被称为“嵌入矩阵”。以ChatGPT-3为例这个嵌入矩阵中包含了50257个token12288个维度里面可以是单词或标点符号……它们的初始值随机但将基于数据进行学习。这是故意为之如果所有嵌入向量都初始化为相同的值那么模型在训练时无法区分不同的输入。使用随机值可以打破均匀性避免训练开始时的梯度相似同时也可以避免模型陷入局部最优解。早在Transformer出现前将单词转化为向量已经是机器学习中常见的做法到如今Transformer几乎成为自然语言处理视觉处理多模态处理的基础模型。可见将人类所有语言词汇转变为向量并不能一蹴而就这就像拥有一座铁矿并不意味着得到好钢但它为接下来的淬炼奠定了基础。这非常重要举一个3Blue1Brown提出的例子当模型在训练阶段调整权重时以确定不同单词将如何被嵌入向量它们最终的嵌入向量在空间中的方向往往具备某种语义意义。就像在谈论向量时那样描述的意义相近的向量会分布得较为接近。如果取[女人]和[男人]的向量之差从一个向量的尖端指向另一个尖端便会发现这个向量差与[父亲]和[母亲]的向量差非常相似。假设你并不知道[母亲]这一词在向量空间中的分布但是可以通过[父亲]这一词汇加上[女人]减去[男人]的方向然后搜寻最接近该点的词向量来找到它。上述例子足以说明空间中的方向能够承载语义。反复强调它的重要性是因为嵌入矩阵中的向量不能仅仅将其视为单个单词它编码了单词的位置信息还结合了上下文语境。在现实世界不同的语境下同一词也代表不同的含义“model”这一词是指艺术领域中展示服装的人类是指计算机领域的数据结构还是我们现在谈论的机器学习模型假如对模型提出一个问题“the greatest thinker in China is ?” greatest这个词向量会被网络中各个模块拉扯最终指向一个更具象的方向或对象。如下图中所示上下文中的China指明了向量被拉扯的方向最终指向的方向范围可能会包含孔子这一具体的向量词。一个训练得好的注意力模块的目的就是能计算出给初始的词向量加入什么样的向量才能将它移动到上下文对应的具体方向上。四、自注意力机制本文开篇中提到过注意力机制可以按输入数据各部分重要性的不同而分配不同的权重但在深度学习中模型的实际行为很难解释且其多数计算都是矩阵向量乘法注意力机制在矩阵中填满了可调的权重这些权重由模型学习数据来进行调整最终计算点积层归一化后得到输出的token。自注意力的本质如果本文剩余篇幅只是列举公式那么似乎很难让人理解也违背了本文最初的承诺。这就像把向量矩阵呈现在读者面前让读者自己计算token一样荒诞。作者将沿用上述列举的方式尽可能避开公式的细节抽象出机制的行为并绘制整个流程可能尽管没有公式那么精确但更容易帮助我们了解到底发生了什么。在训练之初输出文本创建向量组时每个向量都是直接从嵌入矩阵中提取出来的。然后这个向量组会流向三个向量矩阵 1、Query [查询矩阵] 的维度要比嵌入矩阵小很多。它由随机向量组做初始化具体的行为模式是从数据中习得的。从数学的角度来看它们只是在做矩阵乘积如果抽象成一个具体的行为这更像是对输入的单词提出一系列问题。试想一下一个优秀的读者在读某本书籍某篇文章时一定会对自己所读的内容提出一系列问题这有助于快速理解内核和作者想要表达出的思想。训练也是如此通过一系列预设的随机数值让模型在训练中抽象出那些系统问题。 2、Key [键矩阵] 与查询矩阵相同也会与嵌入向量相乘而产生。如果[查询矩阵]是对 token 提出一系列问题那么[键矩阵]则代表“想要回答的结果”。衡量每个[键]与每个[查询]的匹配程度得到的查询矩阵会与键矩阵相乘最终得到的点积如下图所示。如果圆点越大代表点积也就越大。用机器学习的术语来描述就是greatest 注意到了 China 。如果按照现实意义进行概括就是从各种问题和答案中选出匹配度最相符的。下图源于GPT是什么直观解释Transformer 为了数值的稳定性所有的点积将会除以(键-查询空间维度的平方根得到的结果将会被softmax函数处理后乘V矩阵。在训练过程中示例文本经过模型处理时模型会根据正确预测出下一次的概率高低来进行奖惩并稍微调整各个权重。为了让训练的效率最大化在初始化token时让它同时预测这样一次训练样本就能提供多次训练机会。在引入注意力机制后这意味着不能让后词影响到前词不能让[答案]影响到[问题]从点积矩阵中反映出来便是左下方的数值都会影响到右上方。通常情况下在使用softmax之前都会将左下方的数值设置为负无穷这样通过softmax函数后它们就会都变成0这一过程叫做掩码。在注意力模式下掩码的大小等于上下文长度的平方。扩大上下文长度则需要更多的计算资源这就是为什么上下文长度会成为大语言模型的瓶颈所在。如果想要将一串数字作为概率分布那么每个值都必须介于0到1之间并且总和为1。在深度学习中所有的操作都是在做矩阵向量乘法那么得出的结果并不在0到1之间总和也不为1。Softmax 函数主要作用就是将一组任意实数转换为表示概率分布的实数据然后让这组实数符合概率分布的特征。 “the greatest thinker in China is ?” 这个例子中最有可能输出Confucius一词但人们不希望在提出同一类型问题时模型输出的都是同一结果这可能会陷入某些局部最优解。 Temperature 参数用于控制生成文本的随机性和创造性当该参数较大时会给低值赋予更多权重让概率分布得更均匀一些。如果该参数较小那么较大的数值就会更占优一些。极端情况下将该参数设置为 0意味着所有权重都给到最大值。通过调整该参数同一问题可能得到不同的结果当该参数较大时Mencius和Sun Tzu将被更容易命中。 3、Value [值矩阵] 相比查询矩阵和键矩阵值矩阵要多个数量级。当算出点积就能让模型推断出每个词与其他哪些词有关比如greatest会与china有关。用chain这个词向量乘以值矩阵便会得到一个值向量这个向量与嵌入向量处于同一个高维空间。上文中提到过初始的词向量加入什么样的向量才能将它移动到上下文对应的具体方向上。向网格中每一列中都会乘该列的对应权重 (点积*值向量)最后计算所有列的和就是那个“拉扯”向量空间中的机制通过这个机制就能得到一个更精准的向量编码了更丰富的上下文信息所得到的输出 token也指向了某一范围。五、计算过程输入token如单词字符或其他类型。通过嵌入层被转换为词向量。每个词向量分别计算查询矩阵键矩阵和值矩阵。得到查询值键和值向量。向量q1分别与k1,k2,k3做点积运算得到初始的注意力值at1。使用softmax函数对注意力值at1进行归一化处理得到st1。最后将st1与值向量v1相乘得到新的向量wt1。将所有wt向量相加得到输出向量。下图来源于《ChatGPT原理与架构》自注意力机制是Transformer模型的核心组成部分它计算输入中元素之前的权重以捕获序列中的关键信息。通过该机制能直接对序列中任意两个元素计算出它们之间的关系这提供了可观察性和解释性对模型调试和优化也提供了依据。但自注意力机制也存在局限性如上下文问题。虽然它能有效捕捉元素之间的依赖关系但面对极长的上下文时计算和内存开销会变得巨大。在训练时尤其明显通常情况下需要大量训练数据以达到最佳性能这会增加很多成本。同时在小型数据集比如移动端AI嵌入式等特定领域匹配度会降低。六、多头注意力机制作为自注意力机制的一种扩展多头注意力机制的主要目标是让模型能并行关注输入中多种不同类型信息。这样模型可以学习到更丰富且多元化的表达从而提升模型能力与性能。通过增加注意力头的数量扩大了模型的容量使其能够处理更加复杂的任务。现在我们熟知的多模态大语言模型既能处理图片也能处理文本等任务。 Transformer内完整的注意力模块就是由多头注意力组成大量并行执行这些操作每个头都有不同的键查询值矩阵……虽然根据Transformer的原论文中的实验结果表明注意力头数量为8时可以达到最佳的效果增加到16或32时并未显著提升性能。但ChatGPT-3中每个模块内依然使用了96个注意力头这意味着在训练过程中将会产生96种不同的注意力模式每个注意力头都有独特的值矩阵产生不同的值向量序列……按照本文描述自注意力机制最终会有96个向量值“拉扯”最初的嵌入向量。多头注意力机制的参数规模较大为了优化这些问题也提出了一系列优化策略来进行改进比如局部多头注意力稀疏多头注意力分层多头注意力等。但这些不在文本讨论范围内感兴趣的读者可以自行查阅相关资料。注意力机制的成功的主要原因并不在于它能实现什么特定的行为而是它的可并行性这样使用GPU在短时间内可以进行大量计算。了解深度学习历史的读者可能会理解仅依靠扩大模型规模就能为模型性能带来质的飞跃。七、总结本文详解了自注意力机制的流程同时也对深度学习中部分专有名词进行了解释。如今Transformer模型已经在NLP领域占据了重要地位但Transformer不仅仅只包含注意力机制还包含了前馈神经网络残差连接和位置编码等。训练出一个大语言模型也不仅仅只依靠Transformer就够了还包括了预训练人类反馈微调评估等。这也申明了人工智能领域的复杂性虽然本篇文章不能打破黑盒一探究竟但能掀开面纱一角也足够了。参考资料 1.《ChatGPT原理与架构》 2.《GPT是什么直观解释Transformer 》 3.《直观解释注意力机制Transformer的核心》 4.https://transformers.run/c1/transformer/ 作者王凯| 后端开发工程师欢迎关注“神州数码云基地”公众号回复“AI合集”领取最新整理100AI报告合集版权声明文章由神州数码武汉云基地团队实践整理输出转载请注明出处。

上一篇：淘客网站免费开源源码移动广告公司网站建设
下一篇：淘客网站添加到桌面适合做外链的网站

淘客网站是怎么做的郑州哪有做网站的汉狮

相关文章

淘客网站免费开源源码移动广告公司网站建设

淘客网站seo怎么做wordpress动态效果

淘宝做网站站长网站查询工具

淘客网站添加到桌面适合做外链的网站

淘客网站咋做许昌建网站

淘客网站怎么做代理怎样创建网站赚钱

成都网站开发收费定制网站制作广州

成都网站开发培训网站上的百度地图标注咋样做

成都网站开发工资百度竞价产品

成都网站建设招标企业网络推广运营技巧

成都网站建设优点项目

成都网站建设赢展网络架构种类