首页 - 技术栈

网站对联广告html代码用哪个程序做网站收录好

作者: 五速梦信息网
时间: 2026年04月20日 08:09

当前位置：首页 > news >正文

网站对联广告html代码,用哪个程序做网站收录好,简单的网页制作代码,手机怎样建立自己网站基于 Levenberg - Marquardt 法的 BP 网络学习改进算法详解一、引言 BP#xff08;Back Propagation#xff09;神经网络在众多领域有着广泛应用#xff0c;但传统 BP 算法存在收敛速度慢、易陷入局部最优等问题。Levenberg - Marquardt#xff08;LM#xff09;算法作…基于 Levenberg - Marquardt 法的 BP 网络学习改进算法详解一、引言 BPBack Propagation神经网络在众多领域有着广泛应用但传统 BP 算法存在收敛速度慢、易陷入局部最优等问题。Levenberg - MarquardtLM算法作为一种有效的优化算法被应用于改进 BP 网络学习能够显著提高训练效率和网络性能。本文将深入阐述基于 Levenberg - Marquardt 法的 BP 网络学习改进算法包括其原理、实现步骤和详细的代码示例。二、传统 BP 网络学习算法回顾一网络结构与前向传播 BP 神经网络一般由输入层、隐藏层和输出层构成。设输入层有 n n n 个神经元输入向量为 x ( x 1 , x 2 , ⋯ , x n ) \mathbf{x}(x_1,x_2,\cdots,x_n) x(x1,x2,⋯,xn)隐藏层有 m m m 个神经元输出向量为 h ( h 1 , h 2 , ⋯ , h m ) \mathbf{h}(h_1,h_2,\cdots,h_m) h(h1,h2,⋯,hm)输出层有 p p p 个神经元输出向量为 y ( y 1 , y 2 , ⋯ , y p ) \mathbf{y}(y_1,y_2,\cdots,yp) y(y1,y2,⋯,yp)。在前向传播过程中对于输入层到隐藏层隐藏层神经元的输入为 n e t j ∑ i 1 n w i j 1 x i b j 1 net{j}\sum{i 1}^{n}w{ij}^{1}x{i}b{j}^{1} netj∑i1nwij1xibj1 其中 w i j 1 w{ij}^{1} wij1 是输入层到隐藏层的连接权重 b j 1 b{j}^{1} bj1 是隐藏层的偏置。隐藏层神经元的输出通常经过激活函数如 Sigmoid 函数 h j 1 1 e − n e t j h{j}\frac{1}{1 e^{-net{j}}} hj1e−netj1处理。从隐藏层到输出层输出层神经元的输入为 u k ∑ j 1 m w j k 2 h j b k 2 u{k}\sum{j 1}^{m}w{jk}^{2}h{j}b{k}^{2} uk∑j1mwjk2hjbk2 输出层神经元的输出 y k 1 1 e − u k y{k}\frac{1}{1 e^{-u{k}}} yk1e−uk1这里以 Sigmoid 函数为例。二误差计算与反向传播对于训练样本集 { ( x ( μ ) , t ( μ ) ) } μ 1 N {(\mathbf{x}^{(\mu)},\mathbf{t}^{(\mu)})}{\mu 1}^{N} {(x(μ),t(μ))}μ1N其中 x ( μ ) \mathbf{x}^{(\mu)} x(μ) 是第 μ \mu μ 个输入样本 t ( μ ) \mathbf{t}^{(\mu)} t(μ) 是对应的目标输出。常用的误差函数是均方误差 E 1 2 ∑ μ 1 N ∑ k 1 p ( y k ( μ ) − t k ( μ ) ) 2 E\frac{1}{2}\sum{\mu 1}^{N}\sum{k 1}^{p}(y{k}^{(\mu)}-t{k}^{(\mu)})^{2} E21∑μ1N∑k1p(yk(μ)−tk(μ))2 在反向传播过程中根据误差函数对权重的梯度来更新权重。以输出层到隐藏层的权重 w j k 2 w{jk}^{2} wjk2 为例其梯度计算为 ∂ E ∂ w j k 2 ∑ μ 1 N ( y k ( μ ) − t k ( μ ) ) y k ( μ ) ( 1 − y k ( μ ) ) h j ( μ ) \frac{\partial E}{\partial w{jk}^{2}}\sum{\mu 1}^{N}(y{k}^{(\mu)}-t{k}^{(\mu)})y{k}^{(\mu)}(1 - y{k}^{(\mu)})h{j}^{(\mu)} ∂wjk2∂E∑μ1N(yk(μ)−tk(μ))yk(μ)(1−yk(μ))hj(μ) 然后根据梯度下降法更新权重 w j k 2 ( t 1 ) w j k 2 ( t ) − η ∂ E ∂ w j k 2 w{jk}^{2}(t 1)w{jk}^{2}(t)-\eta\frac{\partial E}{\partial w_{jk}^{2}} wjk2(t1)wjk2(t)−η∂wjk2∂E 其中 η \eta η 是学习率 t t t 表示训练次数。类似地可以计算输入层到隐藏层的权重更新公式。三、传统 BP 算法的问题分析一收敛速度问题学习率的影响在传统 BP 算法中学习率的选择至关重要且困难。若学习率过大权重更新可能会过度导致网络在误差曲面上跳过最小值点甚至使训练过程发散若学习率过小权重更新缓慢需要大量的训练迭代才能使误差降低到可接受的水平尤其在处理复杂的高维数据或复杂函数逼近问题时收敛速度会非常慢。梯度下降的局限性传统 BP 基于梯度下降方法每次权重更新仅沿着当前梯度的负方向进行。在复杂的误差曲面中如存在狭长的峡谷或平坦区域梯度方向可能并不直接指向全局最小值这会导致在这些区域收敛效率低下。二局部最优问题由于传统 BP 算法沿着梯度下降方向更新权重容易陷入局部最优解。在误差曲面中当达到局部最优点时梯度为零或接近零此时权重更新停止但这个局部最优点可能并非全局最优解使得网络的性能无法进一步提升。四、Levenberg - Marquardt 法原理一基本思想 Levenberg - Marquardt 法是一种结合了梯度下降法和牛顿法优点的优化算法。它在接近最优解时具有牛顿法的二次收敛速度在远离最优解时表现得像梯度下降法一样稳定。对于目标函数 E ( w ) E(\mathbf{w}) E(w)这里 w \mathbf{w} w 表示网络的所有权重和偏置组成的向量牛顿法的迭代公式为 w t 1 w t − [ ∇ 2 E ( w t ) ] − 1 ∇ E ( w t ) \mathbf{w}^{t 1}\mathbf{w}^{t}-[\nabla^{2}E(\mathbf{w}^{t})]^{-1}\nabla E(\mathbf{w}^{t}) wt1wt−[∇2E(wt)]−1∇E(wt) 其中 ∇ E ( w t ) \nabla E(\mathbf{w}^{t}) ∇E(wt) 是目标函数在 w t \mathbf{w}^{t} wt 处的梯度向量 ∇ 2 E ( w t ) \nabla^{2}E(\mathbf{w}^{t}) ∇2E(wt) 是目标函数在 w t \mathbf{w}^{t} wt 处的 Hessian 矩阵。然而计算 Hessian 矩阵及其逆矩阵在实际中计算量很大。 Levenberg - Marquardt 法使用一个近似的 Hessian 矩阵。它将目标函数 E ( w ) E(\mathbf{w}) E(w) 在当前点 w t \mathbf{w}^{t} wt 处进行二阶泰勒展开 E ( w ) ≈ E ( w t ) ∇ E ( w t ) T ( w − w t ) 1 2 ( w − w t ) T H ( w − w t ) E(\mathbf{w})\approx E(\mathbf{w}^{t})\nabla E(\mathbf{w}^{t})^{T}(\mathbf{w}-\mathbf{w}^{t})\frac{1}{2}(\mathbf{w}-\mathbf{w}^{t})^{T}\mathbf{H}(\mathbf{w}-\mathbf{w}^{t}) E(w)≈E(wt)∇E(wt)T(w−wt)21(w−wt)TH(w−wt) 其中 H \mathbf{H} H 是对 Hessian 矩阵的近似。在 LM 算法中这个近似的 Hessian 矩阵为 H J T J λ I \mathbf{H}\mathbf{J}^{T}\mathbf{J}\lambda\mathbf{I} HJTJλI 其中 J \mathbf{J} J 是雅可比矩阵它的元素是误差函数对权重的一阶偏导数 λ \lambda λ 是一个可调参数 I \mathbf{I} I 是单位矩阵。当 λ \lambda λ 很大时算法接近梯度下降法当 λ \lambda λ 很小时算法接近牛顿法。二参数更新公式权重更新公式为 w t 1 w t − ( J T J λ I ) − 1 J T e \mathbf{w}^{t 1}\mathbf{w}^{t}-(\mathbf{J}^{T}\mathbf{J}\lambda\mathbf{I})^{-1}\mathbf{J}^{T}\mathbf{e} wt1wt−(JTJλI)−1JTe 其中 e \mathbf{e} e 是误差向量。通过调整 λ \lambda λ 的值可以控制算法的收敛速度和稳定性。在每次迭代中如果误差减小则减小 λ \lambda λ如果误差增大则增大 λ \lambda λ。五、基于 Levenberg - Marquardt 法的 BP 网络学习改进算法步骤一初始化网络参数初始化初始化 BP 网络的权重和偏置可将权重随机初始化为较小的值例如在区间 [ − 0.5 , 0.5 ] [-0.5,0.5] [−0.5,0.5] 内。同时初始化参数 λ \lambda λ通常初始化为一个较小的值如 0.01、雅可比矩阵 J \mathbf{J} J初始化为相应大小的零矩阵和其他相关变量。训练参数初始化设置训练的相关参数如最大训练次数、误差阈值等用于控制训练过程的终止条件。二训练过程前向传播对于每个训练样本按照传统 BP 算法的前向传播方式计算网络的输出。误差计算与雅可比矩阵计算计算当前样本的误差向量 e \mathbf{e} e并通过反向传播计算雅可比矩阵 J \mathbf{J} J。雅可比矩阵的计算涉及到误差函数对每个权重的偏导数。近似 Hessian 矩阵构建与权重更新根据当前的雅可比矩阵 J \mathbf{J} J 和参数 λ \lambda λ构建近似 Hessian 矩阵 H J T J λ I \mathbf{H}\mathbf{J}^{T}\mathbf{J}\lambda\mathbf{I} HJTJλI。然后求解线性方程组 ( J T J λ I ) Δ w J T e (\mathbf{J}^{T}\mathbf{J}\lambda\mathbf{I})\Delta\mathbf{w}\mathbf{J}^{T}\mathbf{e} (JTJλI)ΔwJTe得到权重更新量 Δ w \Delta\mathbf{w} Δw并更新网络的权重和偏置 w t 1 w t − Δ w \mathbf{w}^{t 1}\mathbf{w}^{t}-\Delta\mathbf{w} wt1wt−Δw。参数调整计算更新权重后的误差。如果误差减小则减小 λ \lambda λ例如 λ λ / 10 \lambda\lambda/10 λλ/10如果误差增大则增大 λ \lambda λ例如 λ 10 λ \lambda 10\lambda λ10λ。停止准则判断检查是否满足停止准则如达到最大训练次数或者当前误差小于设定的误差阈值。如果满足则停止训练否则返回步骤 1 继续下一次迭代。六、代码示例以下是使用 Python 实现的基于 Levenberg - Marquardt 法的 BP 网络学习改进算法的代码示例 import numpy as np# Sigmoid 激活函数 def sigmoid(x):return 1 / (1 np.exp(-x))# Sigmoid 函数的导数 def sigmoid_derivative(x):return x * (1 - x)class NeuralNetwork:def init(self, input_size, hidden_size, output_size):self.input_size input_sizeself.hidden_size hidden_sizeself.output_size output_size# 随机初始化权重self.W1 np.random.rand(self.input_size, self.hidden_size)self.b1 np.zeros((1, self.hidden_size))self.W2 np.random.rand(self.hidden_size, self.output_size)self.b2 np.zeros((1, self.output_size))self.lambda_value 0.01 # 初始lambda值def forward_propagation(self, X):self.z1 np.dot(X, self.W1) self.b1self.a1 sigmoid(self.z1)self.z2 np.dot(self.a1, self.W2) self.b2self.a2 sigmoid(self.z2)return self.a2def back_propagation(self, X, y):m X.shape[0]dZ2 (self.a2 - y) * sigmoid_derivative(self.z2)dW2 np.dot(self.a1.T, dZ2)db2 np.sum(dZ2, axis0, keepdimsTrue)dZ1 np.dot(dZ2, self.W2.T) * sigmoid_derivative(self.z1)dW1 np.dot(X.T, dZ1)db1 np.sum(dZ1, axis0, keepdimsTrue)return dW1, db1, dW2, db2def jacobian_matrix(self, X, y):m X.shape[0]J np.zeros((m * self.output_size, (self.input_size * self.hidden_size) self.hidden_size (self.hidden_size * self.output_size) self.output_size))for i in range(m):sample_X X[i].reshape(1, -1)sample_y y[i].reshape(1, -1)dW1, db1, dW2, db2 self.back_propagation(sample_X, sample_y)start_idx_W1 0end_idx_W1 self.input_size * self.hidden_sizestart_idx_b1 end_idx_W1end_idx_b1 end_idx_W1 self.hidden_sizestart_idx_W2 end_idx_b1end_idx_W2 end_idx_b1 self.hidden_size * self.output_sizestart_idx_b2 end_idx_W2end_idx_b2 end_idx_W2 self.output_sizeJ[i * self.output_size:(i 1) * self.output_size, start_idx_W1:end_idx_W1] dW1.flatJ[i * self.output_size:(i 1) * self.output_size, start_idx_b1:end_idx_b1] db1.flatJ[i * self.output_size:(i 1) * self.output_size, start_idx_W2:end_idx_W2] dW2.flatJ[i * self.output_size:(i 1) * self.output_size, start_idx_b2:end_idx_b2] db2.flatreturn Jdef levenberg_marquardt_update(self, X, y):output self.forward_propagation(X)error output - yJ self.jacobian_matrix(X, y)H np.dot(J.T, J) self.lambda_value * np.eye(J.shape[1])gradient np.dot(J.T, error.flat)update_vector np.linalg.solve(H, gradient)self.W1 - update_vector[:self.input_size * self.hidden_size].reshape(self.input_size, self.hidden_size)self.b1 - update_vector[self.input_size * self.hidden_size:self.input_size * self.hidden_size self.hidden_size].reshape(1, self.hidden_size)self.W2 - update_vector[self.input_size * self.hidden_size self.hidden_size:self.input_size * self.hidden_size self.hidden_size self.hidden_size * self.output_size].reshape(self.hidden_size, self.output_size)self.b2 - update_vector[self.input_size * self.hidden_size self.hidden_size self.hidden_size * self.output_size:].reshape(1, self.output_size)new_error np.mean((self.forward_propagation(X) - y) ** 2)old_error np.mean((output - y) ** 2)if new_error old_error:self.lambda_value self.lambda_value / 10else:self.lambda_value self.lambda_value * 10def train(self, X, y, epochs):for epoch in range(epochs):self.levenberg_marquardt_update(X, y)if epoch % 100 0:output self.forward_propagation(X)error np.mean((output - y) ** 2)print(fEpoch {epoch}: Error {error}, Lambda {self.lambda_value})以下是一个简单的测试示例

示例用法

X np.array([[0, 0], [0, 1], [1, 0], [1, 1]]) y np.array([[0], [1], [1], [0]]) neural_network NeuralNetwork(2, 3, 1) neural_network.train(X, y, 1000)七、总结基于 Levenberg - Marquardt 法的 BP 网络学习改进算法通过巧妙地近似 Hessian 矩阵结合了梯度下降法和牛顿法的优点。这种算法在 BP 网络训练中能够更快地收敛并且在一定程度上减少了陷入局部最优解的可能性。代码示例详细展示了该算法在 Python 中的实现过程在实际应用中可以根据具体的问题和数据集进一步优化算法如更精细地调整 λ \lambda λ 的调整策略、改进雅可比矩阵的计算方法等以提高网络的训练效果和泛化能力。该算法在函数逼近、数据分类等需要高效训练神经网络的场景中具有重要的应用价值。