网站建设与会展wordpress 关键词链接插件

当前位置: 首页 > news >正文

网站建设与会展,wordpress 关键词链接插件,做一个店铺小程序多少钱,seo是什么意思 部门#x1f308;个人主页: 鑫宝Code #x1f525;热门专栏: 闲话杂谈#xff5c; 炫酷HTML | JavaScript基础 ​#x1f4ab;个人格言: 如无必要#xff0c;勿增实体 文章目录 CNN的基本架构模块1. 引言2. 卷积层2.1 基本原理2.2 卷积层的特性2.3 卷积层的超… 个人主页: 鑫宝Code 热门专栏: 闲话杂谈 炫酷HTML | JavaScript基础 ​个人格言: 如无必要勿增实体 文章目录 CNN的基本架构模块1. 引言2. 卷积层2.1 基本原理2.2 卷积层的特性2.3 卷积层的超参数2.4 输出大小计算 3. 池化层3.1 目的和作用3.2 常见的池化方法3.3 池化层的超参数 4. 激活函数4.1 作用4.2 常用的激活函数4.3 激活函数的选择 5. 全连接层5.1 作用5.2 数学表示5.3 特点 6. Dropout层6.1 原理6.2 数学表示 7. 批归一化层Batch Normalization7.1 目的7.2 数学表示 8. 残差连接Residual Connection8.1 动机8.2 数学表示 9. 注意力机制Attention Mechanism9.1 原理9.2 自注意力Self-Attention 10. 高级CNN架构10.1 Inception模块10.2 DenseNet10.3 SENetSqueeze-and-Excitation Network 11. 结论 CNN的基本架构模块

  1. 引言 卷积神经网络Convolutional Neural NetworkCNN是深度学习中一种强大的神经网络架构特别适用于处理具有网格状拓扑结构的数据如图像和时间序列。CNN的成功源于其独特的架构设计包含了多个精心设计的基本模块。本文将详细介绍CNN的基本架构模块包括卷积层、池化层、激活函数、全连接层等以及一些高级组件和优化技术。
  2. 卷积层 2.1 基本原理 卷积层是CNN的核心组件负责提取输入数据的局部特征。卷积操作可以表示为 ( f ∗ g ) ( t ) ∫ − ∞ ∞ f ( τ ) g ( t − τ ) d τ (f * g)(t) \int{-\infty}^{\infty} f(\tau)g(t-\tau)d\tau (f∗g)(t)∫−∞∞​f(τ)g(t−τ)dτ 在离散情况下二维卷积可以表示为 ( I ∗ K ) ( i , j ) ∑ m ∑ n I ( m , n ) K ( i − m , j − n ) (I * K)(i,j) \sum{m}\sum_{n} I(m,n)K(i-m,j-n) (I∗K)(i,j)m∑​n∑​I(m,n)K(i−m,j−n) 其中 I I I是输入 K K K是卷积核或称为滤波器。 2.2 卷积层的特性 局部连接每个神经元只与输入数据的一个局部区域相连。权值共享同一个特征图内的神经元共享相同的权重。平移不变性卷积操作对输入的平移具有不变性。 2.3 卷积层的超参数 卷积核大小常见的有3x35x5等。步长Stride控制卷积核移动的步长。填充Padding在输入周围添加额外的像素。 2.4 输出大小计算 对于输入大小为 W × H W \times H W×H卷积核大小为 F × F F \times F F×F步长为 S S S填充为 P P P 的卷积层输出大小为 O W W − F 2 P S 1 , O H H − F 2 P S 1 O_W \frac{W - F 2P}{S} 1, \quad O_H \frac{H - F 2P}{S} 1 OW​SW−F2P​1,OH​SH−F2P​1
  3. 池化层 3.1 目的和作用 池化层用于降低特征图的空间分辨率减少参数数量和计算量同时提高模型对小的位移和失真的鲁棒性。 3.2 常见的池化方法 最大池化Max Pooling y i j max ⁡ ( a , b ) ∈ R i j x a b y{ij} \max{(a,b)\in R{ij}} x{ab} yij​(a,b)∈Rij​max​xab​ 平均池化Average Pooling y i j 1 ∣ R i j ∣ ∑ ( a , b ) ∈ R i j x a b y{ij} \frac{1}{|R{ij}|} \sum{(a,b)\in R{ij}} x{ab} yij​∣Rij​∣1​(a,b)∈Rij​∑​xab​
    其中 R i j R
    {ij} Rij​表示池化窗口 ∣ R i j ∣ |R_{ij}| ∣Rij​∣是窗口中元素的数量。 3.3 池化层的超参数 池化窗口大小常见的有2x23x3等。步长通常与窗口大小相同以避免重叠。
  4. 激活函数 4.1 作用 激活函数引入非线性增强网络的表达能力。 4.2 常用的激活函数 ReLU (Rectified Linear Unit) f ( x ) max ⁡ ( 0 , x ) f(x) \max(0, x) f(x)max(0,x) Sigmoid f ( x ) 1 1 e − x f(x) \frac{1}{1 e^{-x}} f(x)1e−x1​ Tanh f ( x ) e x − e − x e x e − x f(x) \frac{e^x - e^{-x}}{e^x e^{-x}} f(x)exe−xex−e−x​ Leaky ReLU f ( x ) { x , if  x 0 α x , otherwise f(x) \begin{cases} x, \text{if } x 0 \ \alpha x, \text{otherwise} \end{cases} f(x){x,αx,​if x0otherwise​ 其中 α \alpha α 是一个小的正常数。
    4.3 激活函数的选择 ReLU 是目前最常用的激活函数因为它计算简单能缓解梯度消失问题。Sigmoid 和 Tanh 在某些特定任务中仍有应用如二分类问题。Leaky ReLU 等变体旨在解决 ReLU 的死亡 ReLU问题。
  5. 全连接层 5.1 作用 全连接层通常位于CNN的末端用于将学到的特征映射到样本标记空间。 5.2 数学表示 全连接层的操作可以表示为 y f ( W x b ) y f(Wx b) yf(Wxb) 其中 W W W 是权重矩阵 b b b 是偏置向量 f f f 是激活函数。 5.3 特点 参数数量大易导致过拟合。可以学习特征的全局组合。
  6. Dropout层 6.1 原理 Dropout是一种正则化技术在训练过程中随机丢弃一部分神经元防止过拟合。 6.2 数学表示 对于dropout率为 p p p 的层其输出可表示为 y f ( r ∗ ( W x b ) ) / ( 1 − p ) y f(r * (Wx b)) / (1-p) yf(r∗(Wxb))/(1−p) 其中 r r r 是一个由0和1组成的随机二元掩码1的概率为 1 − p 1-p 1−p。
  7. 批归一化层Batch Normalization 7.1 目的 批归一化通过标准化每一层的输入来加速训练过程提高模型的稳定性。 7.2 数学表示 对于输入 x x x批归一化的操作为 y γ x − μ B σ B 2 ϵ β y \gamma \frac{x - \mu_B}{\sqrt{\sigma_B^2 \epsilon}} \beta yγσB2​ϵ ​x−μB​​β 其中 μ B \mu_B μB​ 和 σ B 2 \sigma_B^2 σB2​ 分别是批次的均值和方差 γ \gamma γ 和 β \beta β 是可学习的参数 ϵ \epsilon ϵ 是一个小常数。
  8. 残差连接Residual Connection 8.1 动机 残差连接解决了深层网络的梯度消失问题使得训练更深的网络成为可能。 8.2 数学表示 对于输入 x x x残差块的输出为 y F ( x ) x y F(x) x yF(x)x 其中 F ( x ) F(x) F(x) 是残差函数通常由几个卷积层组成。
  9. 注意力机制Attention Mechanism 9.1 原理 注意力机制允许模型在处理输入时关注最相关的部分提高模型的性能。 9.2 自注意力Self-Attention 自注意力机制的计算过程可以表示为 Attention ( Q , K , V ) softmax ( Q K T d k ) V \text{Attention}(Q, K, V) \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)softmax(dk​ ​QKT​)V 其中 Q Q Q、 K K K、 V V V 分别是查询、键和值矩阵 d k d_k dk​ 是键的维度。
  10. 高级CNN架构 10.1 Inception模块 Inception模块并行使用不同大小的卷积核以捕获不同尺度的特征。 10.2 DenseNet DenseNet通过密集连接提高了特征的重用减少了参数数量。 10.3 SENetSqueeze-and-Excitation Network SENet引入了通道注意力机制自适应地调整特征通道的重要性。
  11. 结论 CNN的基本架构模块是深度学习在计算机视觉领域取得巨大成功的关键。从最基本的卷积层和池化层到高级的残差连接和注意力机制每个组件都在不断演进以提高模型的性能和效率。理解这些基本模块及其工作原理对于设计和优化CNN模型至关重要。 随着研究的深入我们可以期待看到更多创新的架构组件出现进一步推动CNN在各个领域的应用和发展。同时如何有效地组合这些模块以构建高效、鲁棒的网络架构仍然是一个值得深入研究的方向。未来自动化神经架构搜索NAS等技术可能会在这方面发挥重要作用帮助我们发现更优的网络结构。