什么网站利于优化制作伪装网站
- 作者: 五速梦信息网
- 时间: 2026年04月20日 09:17
当前位置: 首页 > news >正文
什么网站利于优化,制作伪装网站,网站建设制作德州,网站解析记录值文章目录 1.应用现状2.发展历史3.基本结构4.LSTM和RNN的差异 1.应用现状
长短期记忆神经网络#xff08;LSTM#xff09;是一种特殊的循环神经网络(RNN)。原始的RNN在训练中#xff0c;随着训练时间的加长以及网络层数的增多#xff0c;很容易出现梯度爆炸或者梯度消失的问… 文章目录 1.应用现状2.发展历史3.基本结构4.LSTM和RNN的差异 1.应用现状
长短期记忆神经网络LSTM是一种特殊的循环神经网络(RNN)。原始的RNN在训练中随着训练时间的加长以及网络层数的增多很容易出现梯度爆炸或者梯度消失的问题导致无法处理较长序列数据从而无法获取长距离数据的信息。
LSTM应用的领域包括文本生成、机器翻译、语音识别、生成图像描述和视频标记等。
2009年, 应用LSTM搭建的神经网络模型赢得了ICDAR手写识别比赛冠军。2015年以来在机械故障诊断和预测领域相关学者应用LSTM来处理机械设备的振动信号。2016年, 谷歌公司应用LSTM来做语音识别和文字翻译其中Google翻译用的就是一个7-8层的LSTM模型。2016年, 苹果公司使用LSTM来优化Siri应用。
2.发展历史
1997年Sepp Hochreiter 和 Jürgen Schmidhuber[1]提出了长短期记忆神经网络(LSTM)有效解决了RNN难以解决的人为延长时间任务的问题并解决了RNN容易出现梯度消失的问题。
1999年Felix A. Gers等人[2]发现[1]中提出的LSTM在处理连续输入数据时如果没有重置网络内部的状态最终会导致网络崩溃。因此他们在文献[1]基础上引入了遗忘门机制使得LSTM能够重置自己的状态。2000年Felix A. Gers和Jiirgen Schmidhuber[3]发现通过在LSTM内部状态单元内添加窥视孔Peephole连接可以增强网络对输入序列之间细微特征的区分能力。2005年Alex Graves和Jürgen Schmidhuber[4]在文献[1] [2] [3]的基础上提出了一种双向长短期记忆神经网络BLSTM也称为vanilla LSTM是当前应用最广泛的一种LSTM模型。2005年-2015年期间相关学者提出了多种LSTM变体模型此处不多做描述。2016年Klaus Greff 等人[5]回顾了LSTM的发展历程并比较分析了八种LSTM变体在语音识别、手写识别和弦音乐建模方面的能力实验结果表明这些变体不能显著改进标准LSTM体系结构并证明了遗忘门和输出激活功能是LSTM的关键组成部分。在这八种变体中vanilla LSTM的综合表现能力最佳。另外还探索了LSTM相关超参数的设定影响实验结果表明学习率是最关键的超参数其次是网络规模网络层数和隐藏层单元数而动量梯度等设置对最终结果影响不大。在GRU被提出后Junyoung Chung等人[6]比较了LSTM和GRU在复音音乐和语音信号建模方面的能力实验结果表明GRU和LSTM表现相当。GRU被提出至今2019年也只有几年时间关于它的一些应用利弊到目前还未探索清楚。不过相对于LSTM架构GRU的的参数较少在数据量较大的情况下其训练速度更快。LSTM是深度学习技术中的一员其基本结构比较复杂计算复杂度较高导致较难进行较深层次的学习例如谷歌翻译也只是应用7-8层的LSTM网络结构。另外在训练学习过程中有可能会出现过拟合可以通过应用dropout来解决过拟合问题这在Keras等框架中均有实现。LSTM在当前应用比较的结构是双向LSTM或者多层堆叠LSTM这两种结构的实现在Keras等框架中均有对应的API可以调用。 下图展示一个堆叠两层的LSTM结构图 下图展示了一个双向LSTM的结构图
3.基本结构
本节首先回顾一下RNN的基本结构然后说明LSTM的具体原理下面要介绍的LSTM即为vanilla LSTM。 原始的RNN基本结构图如下图所示。 由上图可知RNN展开后由多个相同的单元连续连接。但是RNN的实际结构确和上图左边的结构所示是一个自我不断循环的结构。即随着输入数据的不断增加上述自我循环的结构把上一次的状态传递给当前输入一起作为新的输入数据进行当前轮次的训练和学习一直到输入或者训练结束最终得到的输出即为最终的预测结果。 LSTM是一种特殊的RNN两者的区别在于普通的RNN单个循环结构内部只有一个状态。而LSTM的单个循环结构(又称为细胞)内部有四个状态。相比于RNNLSTM循环结构之间保持一个持久的单元状态不断传递下去用于决定哪些信息要遗忘或者继续传递下去。 包含三个连续循环结构的RNN如下图每个循环结构只有一个输出 包含三个连续循环结构的LSTM如下图每个循环结构有两个输出其中一个即为单元状态 一层LSTM是由单个循环结构结构组成既由输入数据的维度和循环次数决定单个循环结构需要自我更新几次而不是多个单个循环结构连接组成即当前层LSTM的参数总个数只需计算一个循环单元就行而不是计算多个连续单元的总个数。 下面将由一组图来详细解释LSTM细胞的基本组成和实现原理。LSTM细胞由遗忘门、输入门、输出门和单元状态组成。
遗忘门( f t f_t ft)决定上一时刻的单元状态有多少需要保留到当前时刻。 (清理记忆垃圾只保留考试相关内容)输入门( i t i_t it): 更新门决定了当前时刻有多少新的信息要被存储到单元状态中。(吸收新重点加入到当前记忆)输出门( o t ot ot)控制当前单元状态有多少需要输出到当前的输出值。(考试时根据题目提取相关知识点作答)
更通俗的解释 遗忘门 (Forget Gate) 功能决定过去的信息中哪些需要保留哪些需要丢弃。 • 比喻遗忘门像你的大脑在复习时选择丢弃的内容。例如高数考试时你已经知道某些知识点不会考如绪论部分于是选择不再复习这些内容。 • 原理根据当前输入考试重点提示和过去的记忆已掌握的知识评估重要性决定哪些内容不再需要权值接近 0 的部分被遗忘。 输入门 (Input Gate) 功能决定当前时刻有多少新的信息需要被记住并加入到记忆中。 • 比喻输入门像你的大脑在吸收新的知识。例如在老师讲解考试重点时你决定哪些内容是需要认真记忆的重点。 • 原理根据当前的输入老师强调的重点和上下文评估新信息的价值选择性地将有用信息写入到记忆中。 输出门 (Output Gate) 功能决定当前单元状态中的多少内容需要被输出用于生成当前时刻的输出值。 • 比喻输出门像你在考试答题时的记忆提取过程。例如考试时你只需要提取与题目相关的知识点而不需要将整本书的内容全部回忆出来。 • 原理基于单元状态你储存的知识和当前输入具体的考试题目决定需要输出的信息量。
下图展示了应用上一个时刻的输出 h t − 1 h{t-1} ht−1和当前的数据输入 x t x_t xt通过遗忘门得到 f t ft ft的过程。 下图展示了应用上一个时刻的输出 h t − 1 h{t-1} ht−1和当前的数据输入 x t x_t xt通过输入门得到 i t i_t it以及通过单元状态得到当前时刻暂时状态 C ~ t \tilde{C}t C~t的过程。 下图展示了应用上一个细胞结构的单元状态 C t − 1 C{t-1} Ct−1、遗忘门输出 f t f_t ft、输入门输出 i t i_t it以及单元状态的输出 C ~ t \tilde{C}_t C~t得到当前细胞的状态 C t Ct Ct的过程。 下图展示了应用上一个时刻的输出 h t − 1 h{t-1} ht−1和当前的数据输入 x t x_t xt通过输出门得到 o t o_t ot的过程以及结合当前细胞的单元状态 C t C_t Ct和 o t o_t ot得到最终的输出 h t h_t ht的过程。 看看里面的步骤 解释
三个 σ \sigma σ代表三个门其输入均有上一层的隐藏状态 h t h_t ht以及输入数据 x t x_t xt g t g_t gt C ~ t \tilde{C}t C~t其他参数 W W W初始化权重 b b b偏置向 c t − 1 c{t-1} ct−1在经历过一次乘法和一次加法后的流动方向有两个一个是直接输出另一个是经过 t a n h tanh tanh后和 o t o_t ot汇合输出 h t h_t ht h t h_t ht也有两个流向一个是流到下一个时刻另一个是输出 y t W y h h t b y yt W{yh}h_t b_y ytWyhhtby
4.LSTM和RNN的差异
RNN把所有信息都记住不管有用的没用的。 LSTM设计一个记忆细胞具备选择性记忆的功能可以选择记忆重要信息过滤掉噪声信息减轻记忆负担解决了RNN上的问题梯度爆炸和梯度消失 通俗讲差异在期末复习周的时候比如要考高数老师已经给划定了重点RNN还是会把整本书复习一遍这会导致记忆负担重会遗忘掉一些重要的信息导致记忆效果差而LSTM过滤掉了不考的信息只记重点 名词解释 梯度消失 现象在训练过程中反向传播时梯度逐渐变小导致网络的早期层权重更新很少甚至停滞使模型无法捕捉长期 依赖的信息。 原因在时间序列长度较长的情况下RNN 的反向传播会涉及到多次链式求导如 ∂ L ∂ W \frac{\partial L}{\partial W} ∂W∂L中的链式规则。如果激活 函数的导数值小于 1如 sigmoid会使得梯度逐步衰减最终趋近于 0。 梯度爆炸 现象在训练过程中反向传播时梯度逐渐变大导致权重更新幅度过大模型失控。 原因与梯度消失类似但激活函数导数值较大或权重初始化不当会导致梯度不断放大。
参考文献
[1] S. Hochreiter and J. Schmidhuber, “Long Short-Term Memory,” Neural Comput, vol. 9, no. 8, pp. 1735–1780, Nov. 1997.
[2] F. A. Gers, J. Schmidhuber, and F. A. Cummins, “Learning to Forget: Continual Prediction with LSTM,” Neural Comput., vol. 12, pp. 2451–2471, 2000.
[3] F. A. Gers and J. Schmidhuber, “Recurrent nets that time and count,” Proc. IEEE-INNS-ENNS Int. Jt. Conf. Neural Netw. IJCNN 2000 Neural Comput. New Chall. Perspect. New Millenn., vol. 3, pp. 189–194 vol.3, 2000.
[4] A. Graves and J. Schmidhuber, “Framewise phoneme classification with bidirectional LSTM and other neural network architectures,” Neural Netw., vol. 18, no. 5, pp. 602–610, Jul. 2005.
[5] K. Greff, R. K. Srivastava, J. Koutník, B. R. Steunebrink, and J. Schmidhuber, “LSTM: A Search Space Odyssey,” IEEE Trans. Neural Netw. Learn. Syst., vol. 28, no. 10, pp. 2222–2232, Oct. 2017.
[6] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, “Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling,” ArXiv14123555 Cs, Dec. 2014.
- 上一篇: 什么网站可以做长图攻略h5直播网站
- 下一篇: 什么网站免费做简历模板策划案例网站
相关文章
-
什么网站可以做长图攻略h5直播网站
什么网站可以做长图攻略h5直播网站
- 技术栈
- 2026年04月20日
-
什么网站可以做试卷通讯设备东莞网站建设
什么网站可以做试卷通讯设备东莞网站建设
- 技术栈
- 2026年04月20日
-
什么网站可以做市场分析呢网站设计师薪资参考
什么网站可以做市场分析呢网站设计师薪资参考
- 技术栈
- 2026年04月20日
-
什么网站免费做简历模板策划案例网站
什么网站免费做简历模板策划案例网站
- 技术栈
- 2026年04月20日
-
什么网站能找到做展览的工人网站推广软件破解版
什么网站能找到做展览的工人网站推广软件破解版
- 技术栈
- 2026年04月20日
-
什么网站有教做变蛋的网页设计师培训方法
什么网站有教做变蛋的网页设计师培训方法
- 技术栈
- 2026年04月20日
