首页 - 技术栈

建网站吧开原铁岭网站建设

作者: 五速梦信息网
时间: 2026年05月20日 10:43

当前位置：首页 > news >正文

建网站吧,开原铁岭网站建设,天津做网站找哪家公司,江苏设计网站电话第十一周周报摘要Abstract机器学习1. 注意力机制#xff08;下#xff09;1.1 multi-head self-attention#xff08;多头注意力机制#xff09;1.2 Positional Encoding#xff08;位置编码#xff09;1.3 truncated self attention#xff08;截断式注意力机制#… 第十一周周报摘要Abstract机器学习1. 注意力机制下1.1 multi-head self-attention多头注意力机制1.2 Positional Encoding位置编码1.3 truncated self attention截断式注意力机制1.4 CNN v.s. self-attention RNN v.s. self-attention1.6 self-attention在garph中的应用GNN 2. Recurrent Neural NetworkRNN循环神经网络2.1 词汇vector的编码方式2.2 RNN的变形2.3 Long Short Term MemoryLSTM,长短期记忆网络2.3.1 LSTM最终形态 Pytorch学习1. 优化器代码实战总结摘要本周周报主要讲述了注意力机制中更加细节的内容周报讲述了相关的复杂性如果通过多头注意力机制解决的方法并讲述了注意力机制如果通过位置编码方式解决先后位置的问题。此外本周周报在注意力机制的章节中将self-attention与CNN和RNN进行了比较以及其在实际场景的应用。在RNN的章节中本周报详细描述了RNN的概念、RNN的变形拓展、以及LSTM。然后本周报在Pytorch的章节讲述了优化器的概念以及原理并在最后展示了优化器使用的代码。 Abstract This week’s weekly report mainly discusses the more detailed content of attention mechanism. The report discusses the methods to solve the related complexity through multi-head attention mechanism, and discusses how attention mechanism can solve the problem of sequential positions through position encoding. In addition, the report compared self attention with CNN and RNN in the attention mechanism section and showed the self-attention’s application in practical scenarios. In addition, this report provides a detailed description of the concept of RNN, and shows its variant derivatives as well as LSTM. Then, the chapter on Pytorch explains the concept and principles of optimizers, and finally presents the code used by optimizers. 机器学习

注意力机制下在继续学习注意力机制之前先做一个简短的复习上一周我们求了b1这一周来求b2进行复习 b3、b4的求法同理。我们可以从另外一个角度——矩阵的角度来学习。我们将a₁、a₂、…拼接成一个矩阵I将q₁、q₂、…拼接成一个矩阵Q。于是便有了下图所示的关系接下来我们对其进行矩阵化的应用将k¹、k²、…当成列、q₁、q₂、…当作是行相乘得到α的矩阵。再将这个矩阵经过soft-max函数最终得到α’。再将下图的做一个矩阵的运算就得到了b¹、b²、…。
1.1 multi-head self-attention多头注意力机制从标题中我们就可以看出这是一个很多head的self-attention模型。为什么我们会需要比较多的head呢我们在做self-attention的时候我们是用q找相关的k 但是相关这件事情有很多种不同的形式有很多种不同的定义。所以也许我们不能只有一个q我们应该要有多个q不同的q负责不同的不同种类的相关性。你会怎么操作呢 1、先把a呢乘上一个矩阵得到q
2、接下来再把q乘上另外两个矩阵分别得到q¹跟q² 同理k和v进行相同的操作得到k¹、k²与v¹、v² 另外一个位置也是同理总体情况如下图所示
3、接下来就是对应位置相乘即qⁱ ¹对应kⁱ ¹求出来的结果又对应vⁱ ¹等到bⁱ ¹ bⁱ ²的计算也是同理 3、接下来再将计算到的bⁱ ¹、bⁱ ²接起来再与一个矩阵Wº相乘得到最终的bⁱ
1.2 Positional Encoding位置编码到目前为止啊这个layer它少了一个很重要的信息这个信息是什么呢这个信息是位置的信息其实我们仔细思考可以得出对self-attention而言那个位置1、位置2、位置3、位置4其实完全没有任何差别所有的位置之间的距离都是一样的没有任何一个位置距离比较远也没有任何位置距离比较近也没有谁在整个sequence的最前面也没有谁在整个sequence的最后面。因为这四个位置的操作其实是一模一样的。这样会出现一些问题我们在做这个POS tagging词性标记的时动词比较不容易出现在句首所以如果某一个词汇它是放在句首的那它是动词的可能性可能就比较低。可是在我们到目前为止的操作里面它根本就没有位置的信息。所以我们要用到 Positional Encoding位置编码技术来把位置的信息加进去这个技术的说明如下为每一个位置设定一个vector叫做positional vector这边用eⁱ 来表示上标i代表的是位置不同的位置都有一个它专属的vector。如果他看到说aⁱ 好像有被加上eⁱ 就知道现在出现的位置应该是在i这个位置。那eⁱ长什么样子呢如下图每一个color就代表一个e第一个位置就是e¹第二个位置就是e²第三个位置就是e³以此类推。这样子的positional vector是人为设计的那人设的这个vector有很多问题假设现在定这个vector的时候只定到128那我现在sequence的长度如果是129怎么办呢但是今天的论文的研究实验中就不存在这个问题了这个vector是透过某一个规则所产生的是通过sin、cos方程所产生的但是不一定非要用这种方式产生hand-craft positional vector只是提供一种方法 positional encoding 依然是一个尚待研究的问题如下图中有些是把positional encoding里面的数值当做network参数的一部分直接learn出来也可以右上方的图示。
1.3 truncated self attention截断式注意力机制 self-attention还可以应用在许多的问题上比如在做语音的时候也可以用self-attention 不过在做语音的时候用self attention你可能会希望对self-attention做一些小小的改动因为要把一段声音信号表示成一排向量的话这排向量可能会非常的长。之前的学习中在做语音辨识的时候要把声音序号表示成一排向量而每一个向量其实只代表了10 ms毫秒的长度而已所以如果今天是1s的声音讯号它就有100个向量了5s的声音讯号就500个向量了。也就是说你随便讲一句话都是上千个向量了。所以要描述一段声音信号的时候ector的sequence的长度是非常可观的。因此在计算这个attention matrix的时候它的complexity是长度L的平方因为attention matrix的计算其实就是每个a与其他的a相乘获得的包括其自身那随便讲一句话所产生的这个attention matrix可能会太大大到你根本就不容易处理。不容易训练所以怎么办呢在做语音的时候有一招叫做truncated self attention ‌Truncated Self-Attention‌ 是一种在处理长序列数据时为了限制计算复杂度和提高计算效率而对Self-Attention机制进行的一种优化。在标准的Self-Attention机制中每个位置都需要计算与序列中所有其他位置的注意力分数这在处理长序列时会导致计算量呈平方级增长从而成为瓶颈。为了解决这个问题Truncated Self-Attention通过限制每个位置注意力的计算范围即只考虑序列中的一部分位置来减少必要的计算量。这种优化特别适用于需要处理长序列数据的场景如自然语言处理和计算机视觉任务其中序列可能非常长如长篇文章或视频帧序列。truncated self attention做的事情就是我们今天在做self attention的时候不要看一整句话我们就只看一个小的范围就好。那至于这个范围应该要多大这个是人为设定的我们并不需要看整句话因为只要看这句话跟他前后一定范围之内的信息就可以做出判断。所以如果在做语音辨识的时候也许没有必要看过一整个句子。这样就可以加快运算的速度。 self-attention还可以用在图像识别中我们都说self-attention的使用的范围是输入是一排向量的时候输入或者说是一个vector set的时候之前在学习CNN的时候我们也学习到了一张图片我们把它看作是一个很长的向量。那其实换一个观点把它看作是一个vector set。例子如下这张图可以看作是一个tensor 这个tensor的大小是5×10×33代表rgb这3个channel 可以把每一个位置的pixel像素看作是一个3维的向量x1x2x3那整张图片其实就是5×10个向量所以我们其实可以换一个角度来看影像图像其实也是一个vector set 具体要怎么在图片上使用self-attention呢例子如下可以看到一个卷积后生成
1.4 CNN v.s. self-attention RNN v.s. self-attention CNN v.s. self-attention 在之前的学习中我们学习到了CNN是只考虑receptive filed感受野的信息但是感受野的范围始终是图像的一部分但是self-attention因为覆盖了全图所以我们可以称CNN为简化版的self-attention或者说self-attention是复杂化的CNN。如下图所示对CNN而言我们要人为的去设置receptive field但对于Self-attention来说似乎receptive field是自主学习的** 因为我们用self-attention去找出相关的pixel就好像是自动被学出来的。**network自己决定receptive field的形状比如以上图这个pixel为中心去找哪些pixel是我们真正需要考虑的哪些pixel。是相关的所以receptive field的范围不再是人工划定而是让机器自己学出来。如下图在这篇paper里面会用数学的方式严谨的告诉我们其实CNN就是self-attention的特例self -attention只要设定合适的参数它可以做到跟CNN一模一样的事情 self-attention是flexible的CNN CNN是有受限制的self-attention 那么我们可以延伸到我们之前学习的知识我们之前按说过越复杂的模型越是需要更多数据的train才不会导致overfitting如果你data不够就有可能overfitting。而简单的模型则不需要太多的data也可以trian它适合在data小的少的时候它可能比较不会overfitting。下面是google的paper其实把一张图片拆成16×16个patch然后他把每一个patch就想象成是一个word 横轴是训练的图像的量 paper会发现随着资料量越来越多self attention的结果就越来越好最终在资料量最多的时候self attention可以超过CNN但在资料量少的时候CNN它是可以比self attention得到更好的结果这也印证了我们之前的理论越复杂的model需要越多的数据才能更好因为self-attention就是复杂化的CNN 那CNN与self-attention谁比较好呢 RNN v.s. self-attention 什么是RNN ‌循环神经网络‌RNN是一种深度学习架构专门用于处理序列数据如时间序列或顺序数据。‌RNN通过其内部状态来展示动态时序行为利用记忆来处理任意时序的输入序列从而能够捕捉序列中的时序信息和语义信息。这种网络结构使得模型能够利用过去的信息来提高处理当前和未来输入的性能特别适合处理长度不同的顺序数据以及解决自然信号分类、语言处理和视频分析等问题。如下如所示 RNN与self-attention一样都是要处理input是一个sequence/vector set的情况假设有一个memory的vector和一个input vector然后你有一个RNN的block RNN就和结合这两个vector然后output一个vector 再进行fully connected再做prediction 如果sequence里面第二个vector作为input的时候会把第二个vector当做input也会把前一个时间点吐出来当做下一个时间点的输入再丢进RNN里面然后再产生新的vector再拿去给fully connecting network做你想要做的事情以此类推。。。这就是RNN RNN其实也可以考虑全部vector但是其要放在memory里面一步一步传下去不是平行的。 self-attention可以考虑全部vector且是平行的所以其效果会更好。所以self-attention是由于RNN的
1.6 self-attention在garph中的应用GNN self-attention也可以用在graph中但不同上面的是graph中的edge以及提示了node与node之间的关联性自带关联性因此不需要我们使用self-attention再去计算attention score 所以当把self attention用在graph上面的时候在做这个attention match计算的时候只计算有edge相连的node就好了。比如在这个图上哦node 1跟node 8有相连那我们只需要计算node 1跟node 8这两个向量之间的attention分数以此类推。那如果两个node之间没有相连那其实就暗示我们这两个node之间没有关系既然没有关系我们就不需要再去计算它的attention score直接把它设为零就好了。就类似与我们学习数据结构时的graph时需要的二维图表来表示图中各节点的关系。其实把self-attention按照我们这种限制用在graph上面的时候其实就是一种graph neural never也就是一种gnn 如下图 self-attention的变形现在都叫做xx former 往右代表它运算的速度这个纵轴代表是performer 所以有很多各式各样新的former他们的速度会比原来的transformer快但是快的速度带来的就是performer变差
Recurrent Neural NetworkRNN循环神经网络槽填充(Slot Filling) 什么是slot filling 如下图所示比如有一个智慧订票系统顾客输入他的行程需求智慧系统就要提取关键词填入到slot目的地、到达时间那这个问题要怎么实现呢我们可以用一个feedforward neural network前馈神经网络来完成。 input就是一个词汇
2.1 词汇vector的编码方式 1-of-N encoding 词汇肯定要变成vector来表示那么我们有最经典的表达方式 1-of-N encoding 即有多少个词汇就有多少个向量向量的维度等同于词汇的数量每个词汇表达的方式如下图所示又或者我们对1-of-N encoding的编码方式做出一些改进改进方式1Dimension for “other” 因为我们的词汇实在是太多了更何况还有一些人名之类的。把所有词汇按照上述方式编排vector的维度和数量是不敢想象的。因此我们可以设置一个other来表示其他没有见过的词汇通过拓展一个dimension来表示other 改进方式2word hashing字串比对可以用某一个词汇的字母来表示它的vector 如果你用某一个词汇的字母的来表示那个vector的话呢你就不会有某一个词汇不在词典中的问题。 word hashing字串比对仅用于英文中。具体以bool这个单词为例分为三个步骤 1.在bool两端添加临界符#bool# 2.采用n-gram的方式分成多个部分如果是trigrams那么结果是[#bo, boo, ool, ol#] 3.最终bool将会用[#bo, boo, ool, ol#]的向量来表示不难发现hashing后的结果[#bo, boo, ool, ol#] 每个letter长度都是3个字母因此成为tri-letter。单词词表很大很容易出现OOVOOV(Out-Of-Vocabulary)是指在自然语言处理中遇到的未知单词。但是word hashing后词表不再是单词而是每个letter也就是词根这样词表规模就会小很多。无论我们用以上哪一种方式我们都可以将词汇转化为vector作为feedforward neural network的input。然后output是一个probability distribution概率分布这个probability distribution代表是我们现在input的这个词汇属于每一个slot的几率。这样就完成了slot filling的任务。比如TaiBei属于destination的几率或属于time of departure的几率但是如果单纯的使用feedforward neural network会出现一些问题如下图所示这种有记忆的network叫做RNNRecurrent Neural Network循环神经网络在RNN中hidden layer的输出不会被遗忘而是会被记住。在下一次输出的时候会连同input与这些hidden layer 的 output一同考虑最后再输出。所以即使是相同的内容在RNN里面受memory里面一些hidden layer output的影响也会有不同的输出假设现在这个下图中的这个network它所有的weight呢都是1然后所有的neuron都没有任何的bias所有的activation function都是linear。那现在假设我们的input是一个sequence i n p u t s e q u e n c e [ 1 1 ] [ 1 1 ] [ 2 2 ] … … {\color{Red} input\space sequence \begin{bmatrix}1 \1\end{bmatrix}\begin{bmatrix}1 \1\end{bmatrix}\begin{bmatrix}2 \2\end{bmatrix}\dots\dots} input sequence[11][11][22]…… 例子如下一开始的memory是没东西的算作是0 0 RNN的特别之处就来了刚刚得出的绿色部分的2会被写入memory中。然后会被当做input的一部分然后[6,6]放入memory 以上个结果的计算过程如下具体将其运用到我们刚刚的智慧订票系统如下注这里不是3个network而是同1个network在3个不同的时间点被使用了3次所以即使是同一个Taipei的输入但是由于memory的内容不同所以其output的结果也不同。 9 RNN也是可以deep 我们只需把每层的hidden layer的记录在memory然后再与对应层的input相关联即可不过input也可能是某一个hidden layer的output罢了。注这里不是3个network而是同一个network在3个不同的时间点被使用了3次
2.2 RNN的变形 1.Jordan Network recurrent neural network有不同的变形我们刚刚学习的是Elman Network就是记忆hidden layer的值而Jordan Network就是把最后output的值记忆下来然后再倒过去影响input的值。相比于Elman Network 在Jordan Network里面这个y它是有target的所以可以比较清楚我们放在memory里面的是什么样的东西。 2.Bidirectional RNN双向性RNN 你input一个句子的话它就是从句首一直读到句尾但是它的读取方向也可以是反过来的可以同时train一个正向的recurrent neural network又同时train一个逆向的recurrent network 把这两个recurrent neural network的hidden layer拿出来都接给一个output layer得到最后的y 以此类推产生y(t1) 与y(t2)
2.3 Long Short Term MemoryLSTM,长短期记忆网络刚才的memory是最简单的即我们随时都可以把值呢存到memory里面去也可以随时把值呢从memory里面读出来但现在比较常用的memory呢称之为long short term memory长短期记忆网络 LSTM通过引入记忆单元memory cell和门控机制gate mechanism有效地捕捉序列数据中的长期依赖关系。具体如下更详细的结构如下图所示在要被存到cell里面的input叫做z 操控input gate signal叫做zi。操控Forget Gate 叫做zf 注意Forget Gate有点反直觉因为我们说等于1的时候一般是开启等于0的时候一般是关闭。这里的zf 1时表示任然记住原来的值保留zf 0的时候则忘记原来的值。操作Output Gate 叫做zo。假设我们现在cell里面在有这个四个输入之前它里面已经存了值c zi、zf跟zo即控制阀门的input通过的activation function通常我们会选择sigmoid function。选择sigmoid方程的意义就是sigmoid方程只是记在0到1之间而这个0到1之间的值代表了这个gate被打开的程度。如果activation function的output是1代表gate是处于被打开的状态反之代表这个gate是被关起来的。举个例子说明 network 只有一个LSTM cell input都是三维的vector output都是一维的vector 如下如所示我们带入到刚刚的memory cell模型中实际做一下运算 3个input值再乘上3个weight的再加上bias得到activation function 的 input 其实我们在学习LSTM的使用无非就是把neuron换成LSTM就可以了但是又有所差别对于LSTM来说这四个input都不一样因为weight和bias不同。一般的neural network只需要部分的参数但LSTM还要操控另外三个gate所以它需要四倍的参数。但是我们还是无法深刻的体会到Recurrent Neural network的模型。假设一整排的LSTM里面每一个memory里面都存了一个scalar值把所有的scalar接起来就变成了一个vector写为ct-1 每一个memory里面存的scalar就代表这个vector里面的一个dimension 在时间点t时input一个vector xt把xt乘上一个matrix变成z z个vector的每一个dimension就代表了操控每一个LSTM的input就正好是LSTM的memory cell的数量第一维就丢给第一个cell第二维就丢给第二个cell以此类推。 xt 也会乘上一个transform 得到zi 同z一样zi的每一个dimension都会去操控一个memory不过是操控其input gate 经过xt乘上不同的transform求出来的zf、zo也同理分别操控forget gate与output gate 这四个vector合起来就会去操控这些memory cell的运作注意这四个z其实都是vector丢到memory里面的值其实只是每一个vector的一个dimension 因为每一个input的dimension都是不一样的所以每一个cell input值都会是不一样但是所有的值是可以共同一起被运算计算过程如下这个process就反复的继续下去在下一个时间点input xt1 重复上述操作即可。
2.3.1 LSTM最终形态但是这个不是LSTM的最终形态这个只是一个si3plified version简化版本真正的LSTM会把hidden layer的输出呢接进来当做下一个时间点的input。也就是说下一个时间点操控这些gate的值不是只看那个时间点的input xt1还看前一个时间点的output ht。其实还不止这样还会加一个东西叫做peephole(窥视孔) peephole(窥视孔)就是把存在memory cell里面的值也拉过来作为input 所以在操纵LSTM的四个gate的时候同时考虑了x、同时考虑了h、同时考虑了c 把这三个vector并在一起乘上4个不同的transform得到这四个不同的vector再去操控LSTM。通常不会只有一层一般要叠个五六层如下图所示非常复杂当用RNN做了什么事情的时候其实就是用LSTM。
Pytorch学习
优化器代码实战上一周我们学习了反向传播算法了解到了使用backward()可以计算出grad为更新参数提供依据这个依据可以为我们的优化器提供优化的方向因此这一周我们开始学习优化器的代码实战。优化器的定义方式如下说到学习率和动量我们就有必要做一个简短的复习了动量点击进入第五周周报动量链接所谓动量就是用来对抗遇到saddle point和local minima的方法之一下图为local minima与saddle point 其原理类似于我们的物理的惯性在我们真实的物理世界中小球的下落伴随着有一定的惯性遇到一个凹面如果其下落的速度足够快就可能冲出这个凹面。解释如下
学习率点击进入第六周周报学习率链接在之前的周报学习中遇到critical point也是一件不容易的事情来引入对学习率的学习我们遇到的训练卡顿多数时候training在还没有走到critical point的时候就已经停止了说不定就是一直在反复横跳而并非遇到了critical point 特制化的learning rate怎么做呢从刚才的例子里面其实我们可以学习到一个原则 1、如果在某一个方向上我们的gradient的值很小即在某一个方向上非常的平坦那我们会希望learning rate调大一点。 2、如果在某一个方向上我们的gradient的值很大即在某一个方向上非常的非常的陡峭那我们那我们会希望learning rate可以调小一点。 θ i t 1 ← θ i t − η σ i t g i t {\color{Red} \boldsymbol{\theta}{i}^{\boldsymbol{t}\mathbf{1}} \leftarrow \boldsymbol{\theta}{i}^{\boldsymbol{t}}-\frac{\eta}{\sigma{i}^{t}} \boldsymbol{g}{i}^{\boldsymbol{t}}} θit1←θit−σitηgit σ与η组合叫做Parameter dependent参数依赖于是便有了 1、Root Mean SquareRMS均方根、 RMSProp 2、Learning Rate Scheduling学习率调整策略例如 learning rate decay学习率衰减随着时间不断的进行随着参数不断的update让η越来越小。这个也是合理的。因为一开始我们距离终点很远。随着参数不断update我们距离终点越来越近所以我们把learning rate减小让参数的更新踩一个刹车让我们参数的更新能够慢下来。 Warm up学习率预热 learning rate要先变大再后变小。具体点击链接进行复习即可接下来我们开始优化器的代码实战 import torch import torchvision from torch import nn from torch.utils.data import DataLoader from torch.utils.tensorboard import SummaryWriterdatasets torchvision.datasets.CIFAR10(root./datasets, trainFalse, transformtorchvision.transforms.ToTensor(),downloadTrue)dataloader DataLoader(datasets, batch_size1)class Net(nn.Module):def init(self):super(Net, self).init()self.model1 nn.Sequential(nn.Conv2d(3, 32, 5, 1, 2),nn.MaxPool2d(2, 2),nn.Conv2d(32, 32, 5, 1, 2),nn.MaxPool2d(2, 2),nn.Conv2d(32, 64, 5, 1, 2),nn.MaxPool2d(2, 2),nn.Flatten(),nn.Linear(1024, 64),nn.Linear(64, 10),)def forward(self, x):x self.model1(x)return xnet Net()

引入交叉熵损失函数

loss_cross nn.CrossEntropyLoss()

定义优化器Learning rate 不能太大\太小因为训练效果会很差\很慢一般先大再慢慢减小

optimizer torch.optim.SGD(net.parameters(), lr0.01)# 一个epoch为一轮如果我们只跑一轮没什么效果因为只是把不同的图片给过了一遍 for epoch in range(20):# 每一轮都把running_loss设置为0running_loss 0.0for data in dataloader:images, labels dataoutputs net(images)# 让结果经过一次损失函数result_loss loss_cross(outputs, labels)optimizer.zero_grad()result_loss.backward()optimizer.step()# 把一轮中每一次计算到的loss求和running_loss result_loss.item()# 最后输出每一轮的总lossprint(running_loss) 可以看到我们的优化器再不断的优化参数减少我们的loss
总结本周学习的内容还是比较丰富的具体表现在理论学习方面中并且在其中也进行了较多的复习回顾但是下周开始进入校内课程的学习所以进度会有所减缓。在机器学习的部分中主要对上一周的注意力机制进进行进行了学习。通过提出相关的复杂性问题引入了multi-head self-attention多头注意力机制通过设置更多的相关性参数来完成更加精确的判断。然后又学习了Positional Encoding位置编码用了一个词性辨析的案例来解释位置在注意力机制的重要性。如果没有位置编码那么对所有的input来说它们的计算都没有先后顺序就没有任何差别了。然后还学习了截断式注意力机制主要是为了解决在语音辨析中vector过长的问题通过截断简化防止overfitting。最后对Self-attention与CNN和RNN进行了比较通过比较我们得知CNN其实就是特殊化或者简化版的Self-attentionself-attention能比RNN的表现更好。最后我们还将注意力机制引入到图表中也就是所谓的RNN。除此之外本周我还学习了RNN通过一个智慧订票系统了解了vector的编码方式例如1-of-N encoding以及其改进版Dimension for “other”、word还有hashing字串比对的编码方式。最后还学习了RNN中的核心——LSTM其有4个input和一个output其中有三个input分被控制3个gateinput gate、output gate、forget gate这三个input的activation function都是sigmoid范围在0~1表示打开的程度一个input就是输入memory cell的 output就是从memory cell的输出结果最后学习了LSTM的完全体学习到了peephole等概念。在pytorch的部分中主要对优化器中的参数例如学习率η、动量m是如何影响gradient descent的过程的以及其原理进行了回顾。然后对优化器的代码进行了学习了解了各个参数的意义以及其是如何跟backward联动起来的最后对CIFAR-10的图片进行了20轮的训练发现在优化器的帮助下loss也一直在减少。下一周计划学习李宏毅机器学习视频继续学习RNN并开始学习GNN模型此外还要学习B站Pytorch中的网络模型修改以及其使用尽量在后面的学习中加快学习的脚步。

建网站吧开原铁岭网站建设

引入交叉熵损失函数

定义优化器Learning rate 不能太大\太小因为训练效果会很差\很慢一般先大再慢慢减小

相关文章

建网站pc版签名设计在线

建网站主流软件网上定制西装

建网站主流软件wordpress转hexo

建网站备案南宁seo外包要求

建网站的步骤和方法企业官方网站建设方案

建网站的公司浩森宇特乐云seo商城网站建设

wamp 设置多个网站wordpress更改域名打不开了

vue做网站如何优化seowordpress图片搬家

vue做网站前端平面设计公司调研报告

vue做网站看不到htmI吗wordpress怎么做分页

vue做网站导航wordpress标签描述代码

vue做电商网站WordPress可视化编辑器启动不了

建网站吧开原铁岭网站建设

引入交叉熵损失函数

定义优化器Learning rate 不能太大\太小因为训练效果会很差\很慢一般先大再慢慢减小

相关文章

建网站pc版签名设计在线

建网站 主流软件网上定制西装

建网站 主流软件wordpress转hexo

建网站备案南宁seo外包要求

建网站的步骤和方法企业官方网站建设方案

建网站的公司浩森宇特乐云seo商城网站建设

wamp 设置多个网站wordpress更改域名打不开了

vue做网站如何优化seowordpress图片搬家

vue做网站前端平面设计公司调研报告

vue做网站看不到htmI吗wordpress怎么做分页

vue做网站导航wordpress标签描述代码

vue做电商网站WordPress可视化编辑器启动不了

建网站主流软件网上定制西装

建网站主流软件wordpress转hexo