网站建设华威公司怎么样黑客软件

当前位置: 首页 > news >正文

网站建设华威公司怎么样,黑客软件,清风室内设计培训学校,网站建设规划书范文500字目录安装 scikit-learn术语理解1. 特征#xff08;feature #xff09;和样本#xff08; sample / demo#xff09;的区别#xff1f;2. 关于模型的概念一、机械学习概念1. 监督学习总结#xff1a;2. 非监督学习总结#xff1a;3. 强化学习总结#xff1a;三种学习的… 目录安装 scikit-learn术语理解1. 特征feature 和样本 sample / demo的区别2. 关于模型的概念一、机械学习概念1. 监督学习总结2. 非监督学习总结3. 强化学习总结三种学习的特点总结scikit-learn 说明二、机械学习的基本实操逻辑1. 采集数据2. 数据预处理(Preprocessing)预处理算法归一化1.normalize()3. 数据降维处理 (Dimensionality reduction)4. 分类(Classification)、回归(Regression)、聚类(Clustering)处理 三选一5. 模型选择 (Model selection)三、数据预处理 —— 数据分析数据规范化详解 —— 归一化 / 标准化如何区分归一化和标准化数据归一化 —— 范围缩放(scale)及映射1. 最大最小规范化(归一化)(Min-Max Normalization) [0,1] / 范围缩放Scaling功能2. Mean normalization (均值归一化)[-1,1]前两种归一化方法应用场景前两种归一化方法不适用场景3. 小数定标规范化(归一化) normalization by decimal scaling功能什么时候用归一化数据标准化 std1. 零-均值规范化 (标准化)z-score standardization/ 均值移除(Mean removal)功能意义应用场景什么时候用标准化归一化 与 标准化资料链接下一章节跳转链接安装 scikit-learn 记得在虚拟环境下安装这里推荐 Virtualenv pip install scikit-learn链接Windows 10 - Python 的虚拟环境 Virtualenv - 全局 python 环境切换问题 在这里 scikit-learn框架的核心模块 —— sklearn而不是 scikit import sklearn测试环境请注意这里是虚拟环境 Virtualenv 操作系统 Window 10 工具Pycharm Python: 3.7 scikit-learn: 1.0.2 numpy: 1.21.6 scipy: 1.7.3 threadpoolctl: 3.1.0 joblib: 1.1.0术语理解

  1. 特征feature 和样本 sample / demo的区别 一个样本由多个特征组成而特征是一个样本的元素对于数据的处理通过设置轴参数axis 为 0 或 1 可以选择对样本们进行特征向量运算(纵向)或样本特征运算(横向)样本指横向的元素特征指纵向的元素。这句话的意思是当你设置axis 0 或 axis 1时那么当为 0 时指向纵向的特征元素为 1 时则指向横向的样本元素举个例子假如有样本 A 和 样本 B其中样本 A 和样本 B 都有特征 a、b、c 那么当axis 0 时则按顺序取样本 A 和 样本 B 的特征 [Aa, Ba][Ab, Bb][Ac, Bc]当 axis 1 时则按顺序取样本 A 的特征 [Aa, Ab, Ac] 然后再取样本 B 的 [Ba, Bb, Bc] 具体演示 0|1 a b c
    样本 A Aa Ab Ac 样本 B Ba Bb Bc 某个矩阵内的所有的输入值 x ,最终经过算法转换得到输出值特征 y
  2. 关于模型的概念 所谓的机器学习模型本质上是一个函数其作用是实现从一个样本 XXX 到样本的标记值 f(x)→xf(x) \rightarrow xf(x)→x 的映射 通俗概括可以从数据中学习到的可以实现特定功能映射的函数。 进一步专业性概括模型是在指定的假设空间中确定学习策略通过优化算法去学习到的由输入 到输出的映射。 现实中我们可以看到一些用塑料制造出来的人物、机器等模型这就是相当于一个映射从脑海里的想法 x 中映射为塑料模型 y 还有3D模型也是同理通过构建模型 y映射出脑海里的 x 但是机械学习的模型也是一样的吗 那是自然通过已知的数据 x 映射出未知的数据 y 来构建出一个预测模型该模型是通过监督、非监督、强化等学习策略以算法为工具来构建一个模型。 实际理解编程语言的函数f(x)f(x)f(x)输入矩阵XXX 也就是样本 XXX返回值是一个模型对样本的转换后的映射 YYYYYY 是一个预测值。 一、机械学习概念 机械学习共分为三种学习 监督学习非监督学习强化学习
  3. 监督学习 监督学习Supervised Learning的任务是学习一个模型使模型能够对任意给定的输入对其相应的输出做出一个好的预测。 即利用训练数据集学习一个模型再用模型对测试样本集进行预测。 通俗理解每个数据点都被标记或关联一个类别或者分值。 例类别输入一张图片判断该图片中的动物是猫还是狗 例分值通过大量数据预测一辆二手车的出售价格 监督学习的目的就是学习大量的样本称作训练数据从而对未来的数据点做出预测称作测试数据。 分类和回归从根本上来说分类是预测一个标签回归是预测一个数量。 分类是给一个样本预测离散型类别标签的问题。 回归是给一个样本预测连续输出量的问题。 这段引用笔者个人理解是模型是具备输入值和输出值的即 XXX 和 YYY 当统计完这个模型内的一般规律就可以用这个统计出来的一般规律来预测其他的输入值 XXX 的可能性即输出值 YYY当然这一点其实就很麻烦现实世界可无法仅仅通过一个模型的规律就能预测的了结果所以只能说模型多多益善。 对于分类笔者认为是点状预测一个点一个点的预测出来而不是像一条线那样 回归则是线性预测例如可以预测股票的线性变化笔者个人大致是这样认为的。 总结 监督学习需要人去找模型去喂给它还要多多观察该模型的准确性也就是要监督并观察该算法的性能及准确度就好比如有的小孩子需要我们大人去监督它们的学习这样它们会在我们的监督下认真学习并提高成绩这里指的是提升算法的性能和模型的准确度。 所以哪些需要模型的都是监督学习。 2. 非监督学习 非监督学习Unsupervised Learning为直接对数据进行建模。没有给定事先标记过的训练范例所用的数据没有属性或标签这一概念。事先不知道输入数据对应的输出结果是什么。 自动对输入的资料进行分类或分群以寻找数据的模型和规律。 例聚类 总结 非监督学习孩子需要靠自己自学成才不应该需要我们去监督它们学习这样才能独立自主由于现实生活中的变化我们不太可能拥有全部的现实模型在某种情况下我们不太可能一直监督它们学习所以需要它拥有自学的能力通过自主收集现实的样本特征自动的对自己进行变量输入从而获取一个又一个的模型然后对于模型进行一个性能或准确度的评估等等。 3. 强化学习 强化学习Reinforcement Learning是机器学习中的一个领域强调如何基于环境而行动以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论即有机体如何在环境给予的奖励或惩罚的刺激下逐步形成对刺激的预期产生能获得最大利益的习惯性行为。 总结 强化学习孩子在学会了自主学习后对它们进行一个激励的学习奖励措施那么其会有可能形成一个应激性的行为然后孩子就会容易去做某种对自己有利的事比如设计一个撞墙的强化学习算法那么对于撞墙就会执行一个闪避的有利选择所以我们可以利用这一点设计出一个符合该设想的机器学习算法即强化学习。 三种学习的特点总结 有监督学习、无监督学习、强化学习具有不同的特点 监督学习是有一个label标记的这个label告诉算法什么样的输入对应着什么样的输出常见的算法是分类、回归等 无监督学习则是没有label标记常见的算法是聚类 强化学习强调如何基于环境而行动以取得最大化的预期利益。 scikit-learn 说明 scikit-learn库主要功能分六大部分分类回归聚类降维模型选择数据预处理 分类、回归 —— 监督学习 聚类 —— 非监督学习 二、机械学习的基本实操逻辑
  4. 采集数据 这里先不介绍采集数据笔者还没涉猎。 2. 数据预处理(Preprocessing) 在真实的世界中经常需要处理大量的原始数据这些原始数据是机器学习算法无法理解的为了让机器学习算法理解原始数据需要对数据进行预处理。 所谓的预处理也叫规范化其实就是提取复杂数据里的有价值的内容这里用到了归一化或标准化 数据归一化/标准化 —— 将原始数据分为训练用数据和测试数据测试数据是从原始数据中抽出一部分充当测试用的数据 这在监督学习中很常见 预处理算法 归一化 1.normalize() 3. 数据降维处理 (Dimensionality reduction) 通常而言做机器学习时你的数据量越大维度越多考虑的因素越多你的分类、回归的预测就会越准确但也因为是考虑的太多了你的计算也就会越慢所以在这里就会考虑要怎么权衡预测的准确度和计算速度。 在保证最大信息量的情况下减少维度降低计算的时间。 减少维度可以更好的可视化超过了三维人就会难以理解所以降维可以将数据更好的可视化还有提升计算的效率(机器学习最根本的一点) 降维算法 4. 分类(Classification)、回归(Regression)、聚类(Clustering)处理 三选一 分类算法 回归算法 聚类算法 5. 模型选择 (Model selection) 三、数据预处理 —— 数据分析 数据规范化详解 —— 归一化 / 标准化 数据规范化处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲数值见的差别可能很大不进行处理可能会影响到数据分析的结果。为了消除指标之间的量纲不同的物理量和取值范围差异的影响需要进行标准化处理(对数据进行预处理)将数据按照比例进行缩放(归一化处理)使之落入一个特定的区域便于进行综合分析。如将工资收入属性值映射到[−1,1][-1,1][−1,1]或者[0,1][0, 1][0,1]内 这是归一化例子 数据规范化对于基于距离的挖掘算法尤为重要。这里的基于距离指的是变量输出值之间的距离 规范化 指归一化 或 标准化 如何区分归一化和标准化 归一化和标准化都是对数据做变换的方式将原始的一列数据转换到某个范围或者某种形态具体的 归一化(Normalization)数据归一化用于需要对特征向量的值进行调整时以保证每个特征向量的值都缩放到相同的数值范围将一列数据变化到某个固定区间(范围)中通常这个区间是 [0,1][0, 1][0,1]广义的讲可以是各种区间比如映射到 [0,1][0,1][0,1]一样可以继续映射到其他范围图像中可能会映射到 [0,255][0,255][0,255]其他情况可能映射到 [−1,1][-1,1][−1,1] 标准化(Standardization)将数据变换为均值为0标准差为1的分布[0,1][0, 1][0,1]切记并非一定是正态的 中心化另外还有一种处理叫做中心化也叫零均值处理就是将每个原始数据减去这些数据的均值。(其实也就是上面的标准化) 有时候会看到标准归一化其实也差不多说是标准化其实这个定义早就被归一化的概念给覆盖了标准化归一化都可以这么叫但是具体到它们的实现公式就得考虑清楚名字随意实现它们时就得看看是怎么个处理方法。 一个是等比例缩放、一个是去均值中心化缩放。 数据归一化 —— 范围缩放(scale)及映射 scale n. 天平磅秤刻度标度标尺刻度尺v 缩放 广义的说标准化和归一化同为对数据的线性变化所以我们没必要规定死归一化难道就必须到[0,1][0,1][0,1]之间我到 [0,1][0,1][0,1] 之间后然后再乘一个255你奈我何所以切记不要被概念所束缚住常见的有以下几种 1. 最大最小规范化(归一化)(Min-Max Normalization) [0,1] / 范围缩放Scaling 功能 归一化的最通用模式Normalization也称线性归一化、最小-最大规范化也称为离散标准化是对原始数据的线性变换将数据值映射到 [0,1][0, 1][0,1] 之间 转换公式如下 XnewXi−XminXmax−XminX{new}\frac{X{i}-X{min}}{X{max}-X{min}}Xnew​Xmax​−Xmin​Xi​−Xmin​​ 范围 [0,1][0,1][0,1] XiX{i}Xi​ : 指的是要归一化的数据通常是二维矩阵XmaxX{max}Xmax​ : 每列中的最大值组成的行向量XminX{min}Xmin​ : 每列中的最小值组成的行向量XnewX{new}Xnew​ : 指的是占比结果到了这一步其实还不算完整看下面的公式中的 XscaledX{scaled}Xscaled​ 或 XstdX−X.min(axis0)X.max(axis0)−X.min(axis0)X{std}\frac{X{}-X{.}min(axis0)}{X{.}max(axis0)-X{.}min(axis0)}Xstd​X.​max(axis0)−X.​min(axis0)X​−X.​min(axis0)​ XscaledXstd×(max−min)minX{scaled}X{std}\times(max-min)minXscaled​Xstd​×(max−min)min 范围 [0,1][0,1][0,1] 乍看一下很懵逼解释一下 XXX:要归一化的数据通常是二维矩阵例如 [[4,2,3] [1,5,6]]X.min(axis0)X.min(axis0)X.min(axis0)每列中的最小值组成的行向量如上面的例子中应该是[1,2,3] X.max(axis0)X.max(axis0)X.max(axis0)每列中的最大值组成的行向量如上面的例子中应该是[4,5,6] maxmaxmax: 要映射到的区间最大值默认是1 可以根据情况更改不要被束缚住 minminmin要映射到的区间最小值默认是0 可以根据情况更改不要被束缚住 XstdX{std}Xstd​ : 占比结果 XscaledX{scaled}Xscaled​: 最终的归一化结果映射到范围 [0,1][0,1][0,1]而已借助XstdX{std}Xstd​ 完成最后一步的 XscaledX{scaled}Xscaled​ minminmin 为 0.
    再用朴实的语言描述一下上面公式所做的事 第一步求每个列中元素到最小值距离占该列最大值和最小值距离的比例这实际上已经是将数据放缩到了 [0,1][0,1][0,1] 区间上第二步将占比结果数据按同等比例缩放映射到指定的 [min,max][min,max][min,max] 区间 2. Mean normalization (均值归一化)[-1,1] 若要转换到 [−1,1][-1,1][−1,1] 之间则 XstdX−XmeanXmax−XminX
    {std}\frac{X-X{mean}}{X{max}-X{min}}Xstd​Xmax​−Xmin​X−Xmean​​ XscaledXstd×(max−min)minX{scaled}X{std}\times(max-min)minXscaled​Xstd​×(max−min)min 范围 [−1,1][-1,1][−1,1] XstdX{std}Xstd​ : 去除均值的占比结果XmeanX{mean}Xmean​ 代表了 XXX的每一列的均值X.min(axis0)X.min(axis0)X.min(axis0)每列中的最小值组成的行向量X.max(axis0)X.max(axis0)X.max(axis0)每列中的最大值组成的行向量XscaledX{scaled}Xscaled​: 最终的归一化结果所谓的映射本质是放大了 XstdX{std}Xstd​ 的数值映射到范围 [−1,1][-1,1][−1,1]而已maxmaxmax: 要映射到的区间最大值默认是1 可以根据情况更改不要被束缚住minminmin要映射到的区间最小值默认是0 可以根据情况更改不要被束缚住 前两种归一化方法应用场景 在不涉及距离度量、协方差计算、数据不符合正太分布的时候可以使用该方法或其他归一化方法不包括Z-score方法。比如图像处理中将RGB图像转换为灰度图像后将其值限定在 [0−255][0 - 255][0−255] 的范围 前两种归一化方法不适用场景 原始数据存在小部分很大或很小的数据时会造成大部分数据规范化后接近于 0 或 1区分度不大比如 ( 1 1.2 1.3 1.4 1.5 1.68.4这组数据。若将来遇到超过目前属性[min, max]取值范围的时候会引起系统报错需要重新确定 minminmin 和 maxmaxmax —— 将这组数据标准化(归一化)然后得到的一组规范化后各值接近于0的数据假如以后加入新的数据会有可能超过该数据标准化后的最大最小的范围就需要重新确定 minminmin 和 maxmaxmax 3. 小数定标规范化(归一化) normalization by decimal scaling 功能 通过移动属性值的小数位数将属性值映射到[-1, 1]之间移动的小数位数取决于属性值绝对值的最大值。 转化公式为 原始值 / 10^k XnewX10kX{new}\frac{X}{10^k}Xnew​10kX​ k 取决于 XXX 内的属性取值中的最大绝对值小数定标规范化就是通过移动小数点的位置来进行规范化。小数点移动多少位取决于 XXX 内的属性的取值中的最大绝对值。 这里的 XXX 内的属性代指样本实例的某种属性比如长度、宽度、数量等。 也就是说找的是矩阵内绝对值化后的最大的输入值元素x并且使用恰当的对数函数方法 log10 以10为底值为该绝对值化的最大值 max(x) 即 log10max(X)klog{10} max(X) klog10​max(X)k 得到 k 值还要注意的一点是 kkk 值必须是向上取整这里提供一个方法是numpy模块的 ceil(k)方法向上取整方法注意不是四舍五入而是整个小数点后的值都被舍去了。完整公式Xnewceil(log10max(abs(X)))X{new} ceil(log_{10} max(abs(X)))Xnew​ceil(log10​max(abs(X))) abs() 是绝对值函数 什么时候用归一化 如果对输出结果范围有要求用归一化。如果数据较为稳定不存在极端的最大最小值用归一化。 数据标准化 std
  5. 零-均值规范化 (标准化)z-score standardization/ 均值移除(Mean removal) 通常我们会把每个特征的平均值移除以保证特征均值为0(即标准化处理)。这样做可以消除特征彼此之间的偏差bias)。 功能 零-均值规范化也称标准差标准化经过处理的数据的均值为0标准差为1是当前用得最多的数据标准化方式。 转化公式为 原始值 - 均值/ 标准差 XnewX−XmeanXstdX{new}\frac{X-X{mean}}{X{std}}Xnew​Xstd​X−Xmean​​ 符号解释 XnewX{new}Xnew​ 为标准化后的值 XmeanX{mean}Xmean​ 为 XXX 的均值 XstdX{std}Xstd​ 为 XXX 的标准差 意义 变换后数据的 均值为0方差为1结果没有实际意义仅用于比较 应用场景 在分类、聚类算法中需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候Z-score standardization表现更好。 什么时候用标准化 如果数据存在异常值和较多噪音用标准化可以间接通过中心化避免异常值和极端值的影响。 归一化 与 标准化资料链接 如何理解归一化normalization? 最大最小化标准化 标准化和归一化请勿混为一谈透彻理解数据变换 常用数据规范化方法: min-max规范化零-均值规范化等 数据挖掘实验一数据规范化【最小-最大规范化、零-均值规范化、小数定标规范化】 【机器学习】数据归一化——MinMaxScaler理解 python中axis0 axis1的理解 参考链接 6_Python机器学习库Scikit-Learn介绍 下一章节跳转链接 机械学习 - scikit-learn - 数据预处理 - 2