网站建设要哪些人网站备案号省份

当前位置: 首页 > news >正文

网站建设要哪些人,网站备案号省份,小程序模板多少钱,2023年建筑项目招标信息CH3 3.1 几种损失函数 3.2 激活函数性质 3.3 哪几种激活函数会发生梯度消失 3.4 为什么会梯度消失 3.5 如何解决梯度消失和过拟合 3.6 梯度下降的区别 3.6.1 梯度下降#xff08;GD#xff09; 全批量#xff1a;在每次迭代中使用全部数据来计算损失函数的梯度。计算成本…CH3 3.1 几种损失函数 3.2 激活函数性质 3.3 哪几种激活函数会发生梯度消失 3.4 为什么会梯度消失 3.5 如何解决梯度消失和过拟合 3.6 梯度下降的区别 3.6.1 梯度下降GD 全批量在每次迭代中使用全部数据来计算损失函数的梯度。计算成本高对于大数据集来说每次迭代的计算成本非常高。稳定收敛由于每次都利用全部数据因此梯度的估计非常准确收敛路径平滑。 3.6.2 随机梯度下降SGD 单个样本在每次迭代中随机选择一个数据样本来计算梯度。计算成本低每次只处理一个样本大大减少了计算量。收敛波动大由于每次只用一个样本更新梯度估计的方差较大导致收敛过程中有较多波动。 3.6.3 Mini-batch梯度下降 小批量样本在每次迭代中使用一小部分数据样本例如32或64个样本来计算梯度。计算成本适中平衡了全批量的计算效率和随机梯度的更新速度。收敛相对稳定小批量的使用减少了梯度估计的方差使得收敛过程比随机梯度下降更稳定但又比全批量梯度下降更灵活。 3.7 DNN 3.7.1 反向传播算法过程 将输出误差以某种形式反传给各层所有的单元各层按本层误差修正各单元连接权值。
3.7.2 训练步骤 3.8 CNN 3.8.1 CNN的组成 由卷积层、子采样层、全连接层交叉堆叠而成 3.8.2 对比DNN 3.9 GNN 3.9.1 基本GNN和GCN的公式对比 3.9.1.1 基本GNN的公式 h v k σ ( W k ∑ u ∈ N ( v ) h u k − 1 ∣ N ( v ) ∣ B k h v k − 1 ) h_v^k \sigma \left( Wk \sum{u \in \mathcal{N}(v)} \frac{h_u^{k-1}}{|\mathcal{N}(v)|} B_k h_v^{k-1} \right) hvk​σ ​Wk​u∈N(v)∑​∣N(v)∣huk−1​​Bk​hvk−1​ ​ 核心思想 聚合节点 v v v 的邻居节点特征 h u k − 1 h_u^{k-1} huk−1​ 的平均值。使用两个不同的权重矩阵 W k W_k Wk​ 和 B k B_k Bk​ 分别对邻居特征和节点自身特征进行线性变换。通过激活函数 σ \sigma σ例如 ReLU 或 tanh引入非线性。 特点 对所有邻居进行简单的平均即 1 ∣ N ( v ) ∣ \frac{1}{|\mathcal{N}(v)|} ∣N(v)∣1​没有对邻居节点的重要性加权。参数共享较少特征变换对邻居和节点自身分开处理。 3.9.1.2 GCN的公式 h v k σ ( W k ∑ u ∈ N ( v ) ∪ { v } h u k − 1 ∣ N ( u ) ∣ ∣ N ( v ) ∣ ) h_v^k \sigma \left( Wk \sum{u \in \mathcal{N}(v) \cup {v}} \frac{h_u^{k-1}}{\sqrt{|\mathcal{N}(u)||\mathcal{N}(v)|}} \right) hvk​σ ​Wk​u∈N(v)∪{v}∑​∣N(u)∣∣N(v)∣ ​huk−1​​ ​ 改进点 归一化 替代简单的平均聚合GCN引入对称归一化因子 1 ∣ N ( u ) ∣ ∣ N ( v ) ∣ \frac{1}{\sqrt{|\mathcal{N}(u)||\mathcal{N}(v)|}} ∣N(u)∣∣N(v)∣ ​1​减小高度节点高度数节点对结果的影响。 参数共享 同一权重矩阵 W k W_k Wk​ 用于邻居特征和节点自身特征变换减少参数数量提高模型泛化能力。 自环Self-loop 邻域中加入节点自身即 N ( v ) ∪ { v } \mathcal{N}(v) \cup {v} N(v)∪{v}保证每层节点都能保留自身信息。 特点 更好的参数共享减少了过拟合的风险。归一化权重避免了高度数节点的特征主导问题。 3.9.2 GNN池化的概念 池化可以理解为图卷积过程中特征和节点的降维操作。以下是两种池化方式的相关描述 3.9.2.1 全局池化 汇总整个图的节点特征用于生成固定维度的图表示。常见方式 平均池化取所有节点特征的平均值。最大池化取节点特征的最大值。加权池化根据任务需求对节点特征加权后聚合。
3.9.2.2 局部池化 在每一层中通过选择部分重要节点逐层减少图中节点的数量同时保留主要的结构信息。常见方式 Top- k k k池化根据节点重要性评分选择得分最高的节点。可微分池化DiffPool通过学习分配矩阵动态生成池化结果。 3.9.3 GCN的改进特点 参数共享More parameter sharing GCN使用相同的权重矩阵 W k W_k Wk​ 对邻居节点和自身节点的特征进行线性变换。减少参数数量提升模型训练稳定性。 削弱高度节点的影响Down-weights high degree neighbors 通过对称归一化因子 1 ∣ N ( u ) ∣ ∣ N ( v ) ∣ \frac{1}{\sqrt{|\mathcal{N}(u)||\mathcal{N}(v)|}} ∣N(u)∣∣N(v)∣ ​1​减小度数大的节点对目标节点的特征贡献。防止高度数节点主导聚合特征造成模型偏差。
3.9.4 总结 基本GNN通过简单平均的方式聚合邻居特征参数较多但未对邻居节点的贡献权重进行优化。GCN引入对称归一化和参数共享机制使模型更稳定、高效同时减少过拟合。GNN池化可以进一步通过全局或局部池化操作提取图或节点的高层次特征适应更复杂的任务需求。 3.9.5 邻接节点个数不确定如何解决 邻居信息聚合 核心思想将目标节点的特征更新为其自身特征和邻居特征的组合。 参数共享 GNN采用共享的权重矩阵如图中的 W k W_k Wk​ 和 B k B_k Bk​即在同一层中所有节点使用相同的参数。 邻接节点特征聚合 对每个节点的邻域进行聚合生成一个固定维度的邻域表示如 W k h k − 1 W_kh^{k-1} Wk​hk−1。 实心节点蓝色圆点代表的是实心结点实际节点它们是对应的实心结点的邻接结点聚集。 在原始图结构(左图)中每个节点都有其自然的邻接关系(通过灰色线连接)对于层次 h k h^k hk 到 h k − 1 h^{k-1} hk−1 之间的信息传递 设定了锚点实心节点使用注意力机制或聚合函数图中通过 W k W_k Wk​ 和 B k B_k Bk​ 表示来学习和聚集信息将相邻节点的信息聚集到这些锚点上 具体的聚集过程 通过权重矩阵 W k W_k Wk​ 来计算注意力分数或重要性权重使用 B k B_k Bk​ 来转换或投影特征最终将邻域节点的信息加权聚合到固定数量的锚点上
3.9.6 GNN训练卷积步骤 在最后一层K层得到每个结点的表示后可以根据任务将其代入任何损失函数然后用梯度下降法训练参数。
3.10 RNN DNN、CNN 输入、输出定长处理输入、输出变长问题效率不高。而自然语言处理中的语句通常其长度不固定。单一DNN、CNN 无法处理时序相关序列问题 RNN核心思想 将处理问题在时序上分解为一系列相同的“单元”单元的神经网络可以在时序上展开且能将上一时刻的结果传递给下一时刻整个网络按时间轴展开。即可变长。
3.10.1 训练中的问题以及解决方式 会出现和深度前馈神经网络类似的梯度消失问题。在训练循环神经网络时更经常出现的是梯度消失问题训练较难
距当前节点越远的节点对当前节点处理影响越小无法建模长时间的依赖 3.10.2 BPTT和BP的区别 参考链接 3.10.3 LSTM, GRU 3.10.4 设计题参考结构 补充 反向传播算法中第 L-1 层的误差项表达式 δ ( L − 1 ) σ ′ ( Z ( L − 1 ) ) ⋅ ( W ( L ) ) ⊤ δ ( L ) \delta^{(L-1)} \sigma(Z^{(L-1)}) \cdot (W^{(L)})^{\top} \delta^{(L)} δ(L−1)σ′(Z(L−1))⋅(W(L))⊤δ(L) 其中 σ ′ \sigma σ′ 表示激活函数的导数 Z ( l ) Z^{(l)} Z(l) 是第 l 层的加权输入 W ( l ) W^{(l)} W(l) 是第 l 层的权重矩阵 δ ( l ) \delta^{(l)} δ(l) 是第 l 层的误差项 推导步骤 前向传播定义 第 l 层的输出 A ( l ) A^{(l)} A(l) 表示为 A ( l ) σ ( Z ( l ) ) σ ( W ( l ) A ( l − 1 ) b ( l ) ) A^{(l)} \sigma(Z^{(l)}) \sigma(W^{(l)}A^{(l-1)} b^{(l)}) A(l)σ(Z(l))σ(W(l)A(l−1)b(l)) 损失函数定义 使用均方误差(MSE)作为损失函数 J J 1 2 ∥ A ( L ) − Y ∥ 2 J \frac{1}{2} |A^{(L)} - Y|^2 J21​∥A(L)−Y∥2 计算输出层误差项 δ ( L ) \delta^{(L)} δ(L) δ ( L ) ∂ J ∂ Z ( L ) ( A ( L ) − Y ) ⋅ σ ′ ( Z ( L ) ) \delta^{(L)} \frac{\partial J}{\partial Z^{(L)}} (A^{(L)} - Y) \cdot \sigma(Z^{(L)}) δ(L)∂Z(L)∂J​(A(L)−Y)⋅σ′(Z(L)) 递推计算隐藏层误差项 对于第 l 层 (l L-1, L-2, …, 1) δ ( l ) ∂ J ∂ Z ( l ) ( W ( l 1 ) ) ⊤ δ ( l 1 ) ⋅ σ ′ ( Z ( l ) ) \delta^{(l)} \frac{\partial J}{\partial Z^{(l)}} (W^{(l1)})^{\top} \delta^{(l1)} \cdot \sigma(Z^{(l)}) δ(l)∂Z(l)∂J​(W(l1))⊤δ(l1)⋅σ′(Z(l))
具体到 l L-1 δ ( L − 1 ) ( W ( L ) ) ⊤ δ ( L ) ⋅ σ ′ ( Z ( L − 1 ) ) \delta^{(L-1)} (W^{(L)})^{\top} \delta^{(L)} \cdot \sigma(Z^{(L-1)}) δ(L−1)(W(L))⊤δ(L)⋅σ′(Z(L−1)) 通过链式法则详细推导 误差项 δ ( l ) \delta^{(l)} δ(l) 可表示为 δ ( l ) ∂ J ∂ Z ( l ) ∂ J ∂ A ( l ) ⋅ ∂ A ( l ) ∂ Z ( l ) \delta^{(l)} \frac{\partial J}{\partial Z^{(l)}} \frac{\partial J}{\partial A^{(l)}} \cdot \frac{\partial A^{(l)}}{\partial Z^{(l)}} δ(l)∂Z(l)∂J​∂A(l)∂J​⋅∂Z(l)∂A(l)​ 其中 ∂ A ( l ) ∂ Z ( l ) σ ′ ( Z ( l ) ) \frac{\partial A^{(l)}}{\partial Z^{(l)}} \sigma(Z^{(l)}) ∂Z(l)∂A(l)​σ′(Z(l)) ∂ J ∂ A ( l ) ( W ( l 1 ) ) ⊤ δ ( l 1 ) \frac{\partial J}{\partial A^{(l)}} (W^{(l1)})^{\top} \delta^{(l1)} ∂A(l)∂J​(W(l1))⊤δ(l1) 最终得到第 L-1 层的误差项 δ ( L − 1 ) σ ′ ( Z ( L − 1 ) ) ⋅ ( W ( L ) ) ⊤ δ ( L ) \delta^{(L-1)} \sigma(Z^{(L-1)}) \cdot (W^{(L)})^{\top} \delta^{(L)} δ(L−1)σ′(Z(L−1))⋅(W(L))⊤δ(L)
第 L-1 层的误差是由第 L 层的权重矩阵和误差项传递并与第 L-1 层激活函数的导数相乘得到的。