广西专业网站建设企业申请完域名以后 怎么把网站运行起来
- 作者: 五速梦信息网
- 时间: 2026年04月20日 11:07
当前位置: 首页 > news >正文
广西专业网站建设,企业申请完域名以后 怎么把网站运行起来,南阳网站推广公司,wordpress收费下载模板机器学习的基本要素包括模型、学习准则#xff08;策略#xff09;和优化算法三个部分。机器学习方法之间的不同#xff0c;主要来自其模型、学习准则#xff08;策略#xff09;、优化算法的不同。
模型
机器学习首要考虑的问题是学习什么样的模型#xff08;Model策略和优化算法三个部分。机器学习方法之间的不同主要来自其模型、学习准则策略、优化算法的不同。
模型
机器学习首要考虑的问题是学习什么样的模型Model。在监督学习中给定训练集学习的目的是希望能够拟合一个函数 f ( x ; θ ) f({\bm x}; {\bm \theta}) f(x;θ)来完成从输入特征向量 x {\bm x} x到输出标签的映射。这个需要拟合的函数 f ( x ; θ ) f({\bm x}; {\bm \theta}) f(x;θ)称为模型它由参数向量 θ {\bm \theta} θ决定。 θ {\bm \theta} θ称为模型参数向量 θ {\bm \theta} θ所在的空间称为参数空间Parameter Space。一般来说模型有两种形式一种形式是概率模型条件概率分布另一种形式是非概率模型决策函数。决策函数还可以再分为线性和非线性两种对应的模型称为线性模型和非线性模型。在实际应用中将根据具体的学习方法来决定采用概率模型还是非概率模型。
将训练得到的模型称为一个假设从输入空间到输出空间的所有可能映射组成的集合称为假设空间Hypothesis Space。在监督学习中模型是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。例如假设决策函数是输入特征向量 x {\bm x} x的线性函数那么模型的假设空间是所有这些线性函数构成的函数集合。假设空间中的模型一般有无穷多个而机器学习的目的是从这个假设空间中选择出一个最好的预测模型即在参数空间中选择一个最优的估计参数向量 θ ^ \hat{{\bm \theta}} θ^。
学习准则策略
在明确了模型的假设空间之后接下来需要考虑的是按照什么样的准则策略从假设空间中选择最优的模型即学习准则或策略问题。
机器学习最后都归结为求解最优化问题为了实现某一目标需要构造出一个“目标函数”Objective Function然后让目标函数达到极大值或极小值从而求得机器学习模型的参数。如何构造出一个合理的目标函数是建立机器学习模型的关键一旦目标函数确定可以通过优化算法来求解。
对于监督学习中的分类问题与回归问题机器学习本质上是给定一个训练样本集 T { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T {({\bm x}_1, y_1), ({\bm x}_2, y_2), \ldots, ({\bm x}_N, y_N)} T{(x1,y1),(x2,y2),…,(xN,yN)}尝试学习 x i → y i {\bm x}_i \rightarrow y_i xi→yi的映射函数 f ( x i ; θ ) f({\bm x}_i; {\bm \theta}) f(xi;θ)其中 θ {\bm \theta} θ是模型的参数向量使得给定一个输入样本数据 x {\bm x} x即便这个 x {\bm x} x不在训练样本中也能够为 x {\bm x} x预测出一个标签值 y ^ \hat{y} y^。 损失函数 10-1 损失函数 0-1 损失函数0-1 Loss Function是最直接地反映模型正确与否的损失函数对于正确的预测损失函数值为 0对于错误的预测损失函数值为 1。其数学表达式为 L ( y i , f ( x i ; θ ) ) { 0 , f ( x i ; θ ) y i 1 , f ( x i ; θ ) ≠ y i L(y_i, f({\bm x}_i; {\bm \theta})) \begin{cases} 0, f({\bm x}_i; {\bm \theta}) y_i \ 1, f({\bm x}_i; {\bm \theta}) \neq y_i \end{cases} L(yi,f(xi;θ)){0,1,f(xi;θ)yif(xi;θ)yi 可见0-1 损失函数不考虑预测值与实际值的误差大小只要预测错误损失函数值均为 1。虽然 0-1 损失函数能够直观地反映模型的错误情况但是它的数学性质并不是很好——不连续也不可导因此在优化时很困难。通常会选择其他相似的连续可导函数来替代它。 2平方损失函数 平方损失函数Quadratic Loss Function是模型输出的预测值与实际观测值之差的平方其数学表达式为 L ( y i , f ( x i ; θ ) ) [ y i − f ( x i ; θ ) ] 2 L(y_i, f({\bm x}_i; {\bm \theta})) [y_i - f({\bm x}_i; {\bm \theta})]^2 L(yi,f(xi;θ))[yi−f(xi;θ)]2 从直觉上理解平方损失函数只考虑预测值与实际观测值之间误差的大小不考虑其正负。但由于经过平方运算与实际观测值偏差较大的预测值会比偏差较小的预测值受到更严重的惩罚。平方损失函数具有良好的数学性质——连续、可微分且为凸函数是机器学习回归任务中最常用的一种损失函数也称为 L 2 L_2 L2损失函数。
当模型输出预测值与实际观测值之间的误差服从高斯分布的假设成立时最小化均方误差损失函数与极大似然估计本质上是一致的在此情形下如回归任务均方误差损失函数是最优的选择。
3绝对损失函数
绝对损失函数Absolute Loss Function是模型输出的预测值与实际观测值之差的绝对值其数学表达式为 L ( y i , f ( x i ; θ ) ) ∣ y i − f ( x i ; θ ) ∣ L(y_i, f({\bm x}_i; {\bm \theta})) |y_i - f({\bm x}_i; {\bm \theta})| L(yi,f(xi;θ))∣yi−f(xi;θ)∣
绝对损失函数也称为 L 1 L_1 L1损失函数。与平方损失函数类似绝对损失函数也只考虑预测值与实际观测值之间误差的大小不考虑其正负。所不同的是由于绝对损失与绝对误差之间是线性关系平方损失与误差之间是平方关系当误差非常大的时候平方损失会远大于绝对损失。因此当样本中出现一个误差非常大的离群样本Outlier时平方损失会产生一个非常大的损失对模型的训练会产生较大的影响。所以与平方损失函数相比绝对损失函数对于离群样本更加鲁棒即不易受到离群样本的影响。
另一方面当使用梯度下降算法时平方损失函数的梯度为 [ y i − f ( x i ; θ ) ] [y_i - f({\bm x}_i; {\bm \theta})] [yi−f(xi;θ)]而绝对损失函数的梯度为 ± 1 \pm 1 ±1即平方损失函数的梯度的幅度会随误差大小变化而绝对损失函数的梯度的幅度则一直保持为 1即便在绝对误差 ∣ y i − f ( x i ; θ ) ∣ |y_i - f({\bm x}_i; {\bm \theta})| ∣yi−f(xi;θ)∣很小时绝对损失函数的梯度的幅度也同样为 1这实际上是非常不利于模型的训练的。当然也可以通过在训练过程中动态调整学习率来缓解这个问题但是总的来说平方损失函数通常比绝对损失函数可以更快地收敛。
4对数损失函数
其定义为 L ( y i , f ( x i ; θ ) ) − log P ( y i ∣ x i ) L(y_i, f({\bm x}_i; {\bm \theta})) -\log P(y_i \mid {\bm x}_i) L(yi,f(xi;θ))−logP(yi∣xi)
对数损失函数Logarithmic Loss Function或负对数似然损失函数Negative Log Likelihood Loss Function源于极大似然估计的思想——极大化对数似然函数而通常习惯于最小化损失函数因此将它转变为最小化负对数似然函数。取对数是为了方便计算极大似然估计因为在极大似然估计中直接求导比较困难所以通常都是先取对数再求导寻找极值点。 P ( y i ∣ x i ) P(y_i \mid {\bm x}_i) P(yi∣xi)是指当前模型对于输入样本 x i {\bm x}_i xi的预测值为 y i y_i yi的概率即预测正确的概率。因为对数函数是单调递增的所以在公式中加上负号之后表示预测正确的概率越高其损失函数值越小即最大化 P ( y i ∣ x i ) P(y_i \mid {\bm x}i) P(yi∣xi)等价于最小化损失函数。对数损失函数通常用于逻辑斯谛回归Logistic Regression模型的推导中。
5交叉熵损失函数
交叉熵Cross Entropy是 Shannon 信息论中一个重要概念用于衡量同一个随机变量中的两个不同概率分布的差异程度。假设一个样本集中有两个概率分布 p p p和 q q q其中 p p p表示真实概率分布 q q q表示非真实概率分布。假如按照真实概率分布 p p p来衡量表示一个样本所需要的编码长度的期望为 H ( p ) − ∑ i p i log p i H(p) -\sum{i} p_i \log pi H(p)−i∑pilogpi
但是如果按照非真实概率分布 q q q来衡量表示服从真实概率分布 p p p的一个样本所需要的平均编码长度则应该是 H ( p , q ) − ∑ i p i log q i H(p, q) -\sum{i} p_i \log q_i H(p,q)−i∑pilogqi
此时将 H ( p , q ) H(p, q) H(p,q)称为交叉熵。
在机器学习中交叉熵可作为损失函数。交叉熵损失函数Cross-Entropy Loss Function定义为 L ( y i , f ( x i ; θ ) ) − [ y i log f ( x i ; θ ) ( 1 − y i ) log ( 1 − f ( x i ; θ ) ) ] L(y_i, f({\bm x}_i; {\bm \theta})) -[y_i \log f({\bm x}_i; {\bm \theta}) (1 - y_i) \log (1 - f({\bm x}_i; {\bm \theta}))] L(yi,f(xi;θ))−[yilogf(xi;θ)(1−yi)log(1−f(xi;θ))]
6合页损失函数
对于一个二分类的问题数据集的标签取值是 { 1 , − 1 } {1, -1} {1,−1}预测值是一个连续型实数值函数那么合页损失函数Hinge Loss Function的定义为 L ( y i , f ( x i ; θ ) ) max ( 0 , 1 − y i f ( x i ; θ ) ) L(y_i, f({\bm x}_i; {\bm \theta})) \max(0, 1 - y_i f({\bm x}_i; {\bm \theta})) L(yi,f(xi;θ))max(0,1−yif(xi;θ))
在机器学习中软间隔支持向量机SVM模型的原始最优化问题等价于最小化合页损失。只有当样本被正确分类且函数间隔大于 1 时合页损失才等于 0否则损失是 1 − y i f ( x i ; θ ) 1 - y_i f({\bm x}_i; {\bm \theta}) 1−yif(xi;θ)只能大于 0。
除了上述几种损失函数外还有其他针对特定任务的损失函数。总而言之没有一个适合所有机器学习问题的损失函数损失函数的设计是以能够更好地解决具体问题为目的的。针对特定问题选择损失函数涉及许多因素例如所选机器学习模型的类型、是否易于计算导数以及训练样本集中离群样本所占比例等。
- 期望风险 模型的输入 X {\bm X} X和输出 Y Y Y都可以看作是输入和输出联合空间的随机变量服从联合概率分布 P ( x , y ) P({\bm x}, y) P(x,y)称损失函数在该联合概率分布上的期望为 期望风险Expected Risk其数学表达式为 R exp ( θ ) E ( X , Y ) ∼ P ( x , y ) [ L ( y , f ( x ; θ ) ) ] ∫ L ( y , f ( x ; θ ) ) P ( x , y ) d x d y R{\exp}({\bm \theta}) E{({\bm X}, Y) \sim P({\bm x}, y)}[L(y, f({\bm x}; {\bm \theta}))] \int L(y, f({\bm x}; {\bm \theta})) P({\bm x}, y) \, {\rm d}{\bm x} {\rm d}y Rexp(θ)E(X,Y)∼P(x,y)[L(y,f(x;θ))]∫L(y,f(x;θ))P(x,y)dxdy 期望风险是损失函数的期望用来度量平均意义下模型预测的性能好坏。
- 经验风险 一个好的模型应当有较小的期望风险。机器学习的目标在于从假设空间中选取最优模型而选取最优模型的准则是期望风险最小化。显然要使期望风险 R exp ( θ ) R_{\exp}({\bm \theta}) Rexp(θ)最小化需要知道联合概率分布 P ( x , y ) P({\bm x}, y) P(x,y)在模式分类问题中即必须已知先验概率和条件概率密度。但是在实际的机器学习问题中无法得知真实的联合概率分布函数因此也没有办法直接计算期望风险。事实上如果知道数据的联合概率分布 P ( x , y ) P({\bm x}, y) P(x,y)可以直接利用贝叶斯公式求得条件概率 P ( y i ∣ x i ) P(y_i \mid {\bm x}_i) P(yi∣xi)也没必要学习模型了。 然而从另一个方面来看可以利用训练样本集中的 N N N个观测样本近似地求出经验风险。给定一个训练样本数据集 T { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x i , y i ) , ⋯ , ( x N , y N ) } T {({\bm x}_1, y_1), ({\bm x}_2, y_2), \cdots, ({\bm x}_i, y_i), \cdots, ({\bm x}_N, yN)} T{(x1,y1),(x2,y2),⋯,(xi,yi),⋯,(xN,yN)} 很容易计算出模型的经验风险Empirical Risk或经验损失Empirical Loss即根据训练样本集的平均损失。 R emp ( θ ) 1 N ∑ i 1 N L ( y i , f ( x i ; θ ) ) R{\text{emp}}({\bm \theta}) \frac{1}{N} \sum_{i1}^{N} L(y_i, f({\bm x}i; {\bm \theta})) Remp(θ)N1i1∑NL(yi,f(xi;θ)) 由于 R emp ( θ ) R{\text{emp}}({\bm \theta}) Remp(θ)是用已知训练样本即经验数据定义的因此称为经验风险。在假设空间、损失函数以及训练样本集确定的情况下经验风险可以确定。根据大数定律当训练样本集中的样本数量 N N N趋向于无穷大时经验风险收敛于期望风险。这样可用经验风险 R emp ( θ ) R{\text{emp}}({\bm \theta}) Remp(θ)来逼近期望风险 R exp ( θ ) R{\exp}({\bm \theta}) Rexp(θ)。使得经验风险最小的模型是最优的模型这是经验风险最小化Empirical Risk Minimization, ERM准则。按照经验风险最小化准则求解模型的最优参数估计是求解如下的最优化问题 θ ^ arg min θ R emp ( θ ) arg min θ 1 N ∑ i 1 N L ( y i , f ( x i ; θ ) ) \hat{{\bm \theta}} \arg \min{{\bm \theta}} R{\text{emp}}({\bm \theta}) \arg \min{{\bm \theta}} \frac{1}{N} \sum{i1}^{N} L(y_i, f({\bm x}_i; {\bm \theta})) θ^argθminRemp(θ)argθminN1i1∑NL(yi,f(xi;θ))
- 结构风险 当训练集中的样本数量足够大时经验风险最小化ERM准则能保证有很好的效果在现实中被广泛采用。例如极大似然估计Maximum Likelihood Estimation是经验风险最小化的一个例子。当模型是条件概率分布、损失函数是对数损失函数时经验风险最小化等价于极大似然估计。然而通常情况下由于训练样本集中的样本数量是有限的而且训练集中的样本数据包含了各种噪声因此实际所用的训练集不能很好地反映样本数据的真实分布。在这种情况下如果利用经验风险最小化准则则会导致模型产生“过拟合”Overfitting现象。 导致“过拟合”发生的因素有很多最主要的原因是训练样本数量不足以及模型过于复杂。为了解决这一问题需要引入结构风险函数即对经验风险函数进行矫正即在经验风险上加上表示模型复杂度的正则Regularization项或惩罚Penalty项。在假设空间、损失函数以及训练样本集确定的情况下结构风险函数定义为 R str ( θ ) 1 N ∑ i 1 N L ( y i , f ( x i ; θ ) ) λ φ ( θ ) R{\text{str}}({\bm \theta}) \frac{1}{N} \sum{i1}^N L(y_i, f({\bm x}_i; {\bm \theta})) \lambda \varphi ({\bm \theta}) Rstr(θ)N1i1∑NL(yi,f(xi;θ))λφ(θ) 式中 λ ( λ 0 ) \lambda (\lambda 0) λ(λ0)为正则化系数也称惩罚因子用以权衡经验风险和模型复杂度 φ ( θ ) \varphi ({\bm \theta}) φ(θ)代表模型函数的复杂度是定义在假设空间上的泛函简单来说是函数的函数。模型函数的复杂度越高 φ ( θ ) \varphi ({\bm \theta}) φ(θ)也越大。一般使用模型参数向量 θ {\bm \theta} θ的 ℓ 2 \ell_2 ℓ2范数或 ℓ 1 \ell1 ℓ1范数来近似模型的复杂度。通过设置正则化系数 λ \lambda λ来权衡经验风险和正则项减小参数规模达到模型简化的目的从而使模型具有更好的泛化能力。因此结构风险函数强制使模型的复杂度不应过高这种学习准则策略称为结构风险最小化Structural Risk Minimization, SRM准则。正则化可以看成结构风险最小化的实现是为了防止过拟合而提出来的策略。 结构风险小意味着经验风险小、模型复杂度低。结构风险小的模型通常对训练样本以及新的测试样本都有较好的预测性能。结构风险最小化的策略认为结构风险最小的模型是最优的模型。所以按照结构风险最小化准则求解模型的最优参数估计是求解如下的最优化问题 θ ^ arg min θ R str ( θ ) arg min θ [ 1 N ∑ i 1 N L ( y i , f ( x i ; θ ) ) λ R ( θ ) ] \hat{{\bm \theta}} \arg \min{{\bm \theta}} R{\text{str}}({\bm \theta}) \arg \min{{\bm \theta}} \left[ \frac{1}{N} \sum_{i1}^N L(y_i, f({\bm x}_i; {\bm \theta})) \lambda R({\bm \theta}) \right] θ^argθminRstr(θ)argθmin[N1i1∑NL(yi,f(xi;θ))λR(θ)] 优化算法 在获得了训练样本集、确定了假设空间以及选定了合适的学习准则之后要根据准则策略从假设空间中选择最优模型需要考虑用什么样的计算方法来求解模型参数估计。 机器学习模型的训练和学习的过程实际上是求解最优化问题的过程。如果最优化问题存在显式的解析解则这个最优化问题比较简单可以求出它的闭式解。但是如果不存在解析解则需要通过数值计算的方法来不断逼近。在机器学习中很多优化函数是凸函数因此如何高效地寻找到全局最优解是一个值得研究的问题。 目前常用的优化算法有梯度下降法Gradient Descent, GD、随机梯度下降法Stochastic Gradient Descent, SGD、批量梯度下降法Mini-Batch Gradient Descent, MBGD、牛顿法、拟牛顿法、坐标下降法等。
- 上一篇: 广西住建局官方网站河南省财政厅经济建设网站
- 下一篇: 广元百度做网站多少钱网站建设 中企动力 顺德
相关文章
-
广西住建局官方网站河南省财政厅经济建设网站
广西住建局官方网站河南省财政厅经济建设网站
- 技术栈
- 2026年04月20日
-
广西住房与城乡建设厅网站做网站需要多钱
广西住房与城乡建设厅网站做网站需要多钱
- 技术栈
- 2026年04月20日
-
广西住房和城乡建设厅培训中心官方网站成都 html5网站
广西住房和城乡建设厅培训中心官方网站成都 html5网站
- 技术栈
- 2026年04月20日
-
广元百度做网站多少钱网站建设 中企动力 顺德
广元百度做网站多少钱网站建设 中企动力 顺德
- 技术栈
- 2026年04月20日
-
广元建设厅官方网站一级造价工程师报名网站
广元建设厅官方网站一级造价工程师报名网站
- 技术栈
- 2026年04月20日
-
广元市规划和建设局网站wordpress 自适应 汉化
广元市规划和建设局网站wordpress 自适应 汉化
- 技术栈
- 2026年04月20日
