稳定的网站建设网站建设质量管理定义
- 作者: 五速梦信息网
- 时间: 2026年04月20日 07:14
当前位置: 首页 > news >正文
稳定的网站建设,网站建设质量管理定义,king 主题WordPress,制作网站的成本规划接上期#xff0c;上篇介绍了 NumPy#xff0c;本篇介绍 pandas。 目录 pandas 入门pandas 的数据结构介绍基本功能汇总和计算描述统计处理缺失数据层次化索引 pandas 入门
Pandas 是基于 Numpy 构建的#xff0c;让以 NumPy 为中心的应用变的更加简单。 Pandas是基于Numpy…接上期上篇介绍了 NumPy本篇介绍 pandas。 目录 pandas 入门pandas 的数据结构介绍基本功能汇总和计算描述统计处理缺失数据层次化索引 pandas 入门
Pandas 是基于 Numpy 构建的让以 NumPy 为中心的应用变的更加简单。 Pandas是基于Numpy的专业数据分析工具, 可以灵活高效的处理各种数据集
它提供了的数据结构有DataFrame和Series等
我们可以简单粗的把DataFrame理解为Excel里面的一张表而Series就是表中的某一列
pandas 的数据结构介绍
1、Series
由一组数据各种 NumPy 数据类型和一组索引组成
Values 和 index 属性
给所创建的 Series 带有一个可以对各个数据点进行标记的索引 与普通 NumPy 数组相比可以通过索引的方式选取 Series 中的单个或一组值 可将 Series 看成是一个定长的有序字典它是索引值到数据值的一个映射它可以用在许多原本需要字典参数的函数中。
如果数据被存放在一个 python 字典中可以直接通过这个字典来创建 Series
如果只传入一个字典则结果 Series 中的索引就是原字典的键有序排列上面的 states。
Series 最重要的一个功能是在算数运算中自动对齐不同索引的数据 Series 对象本身及其索引都有一个 name 属性
Series 的索引可以通过赋值的方式就地修改
2、DataFrame
是一个表格型的数据结构。既有行索引也有列索引。DataFrame 中面向行和面向列的操作基本是平衡的。DataFrame 中的数据是以一个或多个二维块存放的。用层次化索引将其表示为更高维度的数据。
构建 DataFrame直接传入一个由等长列表或 NumPy 数组组成的字典。
会自动加上索引但指定列序列则按指定顺序进行排列 和 Series 一样如果传入的列在数据中找不到就会产生 NA 值 通过赋值的方式进行修改 通过类似字典标记的方式或属性的方式可以将 DataFrame 的列获取为一个Series 行也可以通过位置或名称的方式进行获取比如用索引字段 ix。
将列表或数组赋值给某个列时其长度必须跟 DataFrame 的长度相匹配。如果赋值的是一个 Series就会精确匹配 DataFrame 的索引所有的空位都将被填上缺失值 给不存在的列赋值会创建出一个新列关键字 del 用于删除列
通过索引方式返回的列是相应数据的视图并不是副本对返回的 Series 做的任何修改都会反映到源 DataFrame 上通过 series 的 copy 方法即可显式地复制列。
另一种常见的数据形式是嵌套字典如果将它传给 DataFrame解释为——外层字典的键作为列内层键作为行索引。 对结果进行转置 指定索引按序列 由 Series 组成的字典差不多也是一样的用法
设置了 DataFrame 的 index 和 columns 的 name 属性这些信息也会被显示 values 属性以二维 ndarray 的形式返回 DataFrame 中的数据 如果 DataFrame 各列的数据类型不同值数组的数据类型就会选用能兼容所有列的数据类型如 dtype object。
3、索引对象
pandas 的索引对象管理轴标签和其他元数据如轴名称等。
构建 Series 或 DataFrame 时所用到的任何数组或其他序列的标签都会被转换成一个 Index且 Index 对象是不可修改的 Index 的功能类似一个固定大小的集合
基本功能 1、重新索引
方法 reindex创建一个适应新索引的新对象。
调用该 Series 的 reindex 将会根据新索引进行重排。如果某个索引值当前不存在 就引入缺失值。 对于时间序列这样的有序数据重新索引时可能需要做一些差值处理 对于 DataFrame reindex 可以修改行、列索引或两个都修改。如果仅传入一列则会重新索引行 使用 columns 关键字可重新索引列 同时对行、列进行索引 ix 标签索引功能 丢弃制定轴上的项
drop 方法返回的是一个在指定轴上删除了指定值的新对象 对于 DataFrame可以删除任意轴上的索引值 2、索引、选取和过滤
Series 索引的工作方式类似于NumPy 数组的索引但Series 的索引值不只是整数
利用标签的切片运算其包含闭区间与普通Python的切片运算不同
对 DataFrame 进行索引就是获取一个列 或多个列 这种索引方式的特殊情况通过切片或布尔型数组选取行。 另一种用法是通过布尔型 DataFrame 进行索引在语法上更像 ndarray 专门的索引字段 ix是一种重新索引的简单手段
3、算术运算和数据对齐
pandas 最重要的一个功能是对不同索引的对象进行算术运算。对不同的索引对取并集 自动的数据对齐操作在不重叠的索引出引入了 NA 值即一方有的索引另一方没有运算后该处索引的值为缺失值。
对 DataFrame对齐操作会同时发生在行和列上。
4、在算术方法中填充值
对运算后的 NA 值处填充一个特殊值比如 0 否则 e 列都是 NaN 值。
类似在对 Series 和 DataFrame 重新索引时也可以指定一个填充值 用这几个特定字的叫算术方法add/ sub/ div/ mul 即加减除乘。
5、DataFrame 和 Series 之间的运算 计算一个二维数组与其某行之间的差
这个就叫做广播下面的每行都做这个运算了。
默认情况下DataFrame 和 Series 之间的算术运算会将 Series 的索引匹配到 DataFrame 的列然后沿着行一直向下广播
得到 做加法 frameseries2找不到的值就并集为 NaN。
如果你希望匹配行且在列上广播则必须使用算术运算方法
传入的轴号就是希望匹配的轴。
6、函数的应用和映射
NumPy 的 ufuncs 可用于操作 pandas 对象以 abs 为例 DataFrame 的 apply 方法将函数应用到各列或行所形成的一维数组上 许多最为常见的数据统计功能都被封装为 DataFrame 的方法无需使用 apply 方法。
除标量值外传递给 apply 的函数还可以返回由多个值组成的 Series 用 applymap 得到 frame 中各个浮点值的格式化字符串 Series 有一个用于应用元素级函数的 map 方法 7、排序和排名
sort_index 方法返回一个已排序的新对象 对于 DataFrame可以根据任意一个轴上的索引进行排序 指定了 axis1是对列进行排序。
默认按升序降序用 ascendingFalse 对 Series 进行排序可用方法 sort_values() 在排序时任何缺失值默认都会被放到 Series 末尾。在 DataFrame 上用 by 根据列的值进行排序 根据多个列
rank 方法默认情况下rank 是通过“为各组分配一个平均排名”的方式破坏平级关系的。
根据值在原数据中出现的顺序给出排名 按降序进行排名 DataFrame 可以在行或列上计算排名 8、带有重复值的轴索引
虽然许多 pandas 函数都要求标签唯一如 reindex但这不是强制性的。带有重复索引的 Series 索引的 is_unique 属性可以判断它的值是否唯一。带有重复索引的 DataFrame
在 Pandas 中DataFrame.ix[i] 和 DataFrame.iloc[i] 都可以选取 DataFrame 中第 i 行的数据那么这两个命令的区别在哪里呢
ix 可以通过行号和行标签进行索引而 iloc 只能通过行号索引即 ix 可以看做是 loc 和 iloc 的综合。
汇总和计算描述统计
pandas 对象拥有一组常用的数学和统计方法用于从 Series 中提取单个值或从 DataFrame 的行或列中提取一个 Series。
跟 Numpy 数组方法相比它们都是基于没有缺失数据的假设而构建的。 传入 axis1 将会按行进行求和运算
NA 值会自动被排除如 1.40NaN1.40, NaNNaN0.00。
通过 skipna 选项可以禁用该功能得到 1.40NaNNaN, NaNNaNNaN
返回间接统计输出了值所在的行名
累计型的样本值的累计和 一次性产生多个汇总统计 对于非数值型数据describe 会产生另外一种汇总统计
1、相关系数与协方差
Series 和 DataFrame corr 方法 相关系数cov 方法协方差 DataFrame 的 corrwith 方法计算其列或行跟另一个 Series 或 DataFrame 之间的相关系数。传入一个 DataFrame 计算按列名配对的相关系数传入 axis1 即可按行进行计算。
2、唯一值、值计数以及成员资格从一维 Series 的值中抽取信息。 unique 函数得到 Series 中的唯一值数组
value_counts用于计算一个 Series 中各值出现的频率
Series 按降序排列。value_counts 是一个顶级 pandas 方法可用于任何数组或序列。
isin用于判断矢量化集合的成员资格可用于选取 Series 或 DataFrame 列中数据的子集 处理缺失数据
pandas 的设计目标之一就是让缺失数据的处理任务尽量轻松。
pandas 使用浮点值 NaN(Not a Number) 表示浮点和非浮点数组中的缺失数据。它只是一个便于被检测出来的标记而已。
python 内置的 None 值也会被当做 NA 处理如 string_data[0]None。
1、滤掉缺失数据
对于一个 Series, dropna 返回一个仅含非空数据和索引值的 Series 通过布尔型索引也可以达到这个目的 对于 DataFrame 对象dropna 默认丢弃任何含有缺失值的行
丢弃全为 NA 的那些行axis1 则丢弃列 只想留下一部分参数用 thresh 参数 thresh3保留至少 3 个非空值的行即一行中有 3 个值是非空的就保留.
2、填充缺失数据
fillna 方法通过一个常数调用 fillna 就会将缺失值替换为那个常数值。 通过一个字典调用 fillna可以实现对不同的列填充不同的值
fillna 默认会返回新对象副本但也可以对现有对象进行就地修改 插值方法对 reindx 有效的也可用于 fillna 你可以用 fillna 实现许多别的功能比如传入 Series 的平均值或中位数 层次化索引 在一个轴上用多个2 个以上索引级别即以低维度形式处理高维度数据。
MultiIndex 索引的 Series 的格式化输出形式 选取数据子集 在“内层”中进行选取 层次化索引在数据重塑和基于分组的操作中很重要。比如说上面的数据可以通过其 unstack 方法被重新安排到一个 DataFrame 中它的逆运算是 stack 对于一个 DataFrame每条轴都可以有分层索引 各层都可以有名字可以是字符串也可以是别的 Python 对象。注意不要将索引名称跟轴标签混为一谈。 有了分部的列索引可以轻松选取列分组。
可以单独创建 MultiIndex 然后复用。上面的 DataFrame 中的分级列可以这样创建
1、重排分级顺序
重新调整某条轴上各级别的顺序或根据指定级别上的值对数据进行排序。
swaplevel接受两个级别编号或名称返回一个互换了级别的新对象数据不发生改变
sortlevel根据单个级别中的值对数据进行排序得到的最终结果是有序的 2、根据级别汇总统计
level 选项用于指定在某条轴上求和的级别。
如下所示分别根据行或列上的级别来对行、对列进行求和
3、使用 DataFrame 的列
将DataFrame 的一个或多个列当做行索引来用或将行索引变成DataFrame 的列 set_index 函数将其一个或多个列转换为行索引并创建一个新的 DataFrame。默认情况下那些列会从 DataFrame 中移除也可以将其保留下来 reset_index将层次化索引的级别转移到列里面和 set_index 相反 不足之处欢迎指正。
- 上一篇: 文字字体是什么网站网站建设伍金手指下拉3
- 下一篇: 稳稳在哪个网站做的消防直播cms开发是什么意思
相关文章
-
文字字体是什么网站网站建设伍金手指下拉3
文字字体是什么网站网站建设伍金手指下拉3
- 技术栈
- 2026年04月20日
-
文章类网站程序如何通过阿里云自己做网站
文章类网站程序如何通过阿里云自己做网站
- 技术栈
- 2026年04月20日
-
文学类网站怎么做网站建设建站网
文学类网站怎么做网站建设建站网
- 技术栈
- 2026年04月20日
-
稳稳在哪个网站做的消防直播cms开发是什么意思
稳稳在哪个网站做的消防直播cms开发是什么意思
- 技术栈
- 2026年04月20日
-
问答系统网站模板网页是网站的什么颜色好看
问答系统网站模板网页是网站的什么颜色好看
- 技术栈
- 2026年04月20日
-
汶上网站开发给网站app做后台的公司
汶上网站开发给网站app做后台的公司
- 技术栈
- 2026年04月20日
