首页 - 技术栈

养老院网站建设的好处南京做网站南京乐识权威

作者: 五速梦信息网
时间: 2026年06月19日 07:05

当前位置：首页 > news >正文

养老院网站建设的好处,南京做网站南京乐识权威,成都html5网站建设,dw8网页设计教程文章目录前言一、Pandas简介1.1 什么是Pandas1.2 Pandas应用二、Series结构2.1 Series简介2.2 基本使用三、DataFrame结构3.1 DataFrame简介3.2 基本使用四、Pandas-CSV4.1 CSV简介4.2 读取CSV文件4.3 数据处理五、数据清洗5.1 数据清洗的方法5.2 清洗案例总结前言大家好我是初心很高兴再次和大家见面。这篇文章主要讲解Python数据分析三剑客之一——Pandas的数据分析运算收录于初心的《大数据》专栏。个人主页初心%个人主页个人简介大家好我是初心一名正在努力的双非二本院校计算机专业学生座右铭理想主义的花终究会盛开在浪漫主义的土壤里欢迎大家这里是CSDN我记录知识的地方喜欢的话请三连有问题请私信一、Pandas简介 1.1 什么是Pandas Pandas 是基于NumPy 的一种工具该工具是为了解决数据分析任务而创建的。官方对它的解释是 “强大的Python数据分析支持库” Pandas 名字衍生自术语 “panel data”面板数据和 “Python data analysis”Python 数据分析。Pandas官网 Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。 1.2 Pandas应用 Pandas 的主要数据结构是 Series 一维数据与 DataFrame二维数据这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。 Series 是一种类似于一维数组的对象它由一组数据各种Numpy数据类型以及一组与之相关的数据标签即索引组成。 DataFrame 是一个表格型的数据结构它含有一组有序的列每列可以是不同的值类型数值、字符串、布尔型值。DataFrame 既有行索引也有列索引它可以被看做由 Series 组成的字典。二、Series结构 2.1 Series简介 Pandas Series 类似表格中的一个列column类似于一维数组可以保存任何数据类型。 Series 由索引index和列组成构造函数如下 pandas.Series( data, index, dtype, name, copy)参数说明data一组数据(ndarray 类型)index数据索引标签如果不指定默认从 0 开始dtype数据类型默认会自己判断name设置名称copy拷贝数据默认为 FalseSeries简单示例代码和输出结果如下 import pandas as pd# 数据 a [1,2,3]

Series对象会将列表数据转化为一列

myvar pd.Series(a) print(myvar)2.2 基本使用根据索引值读取数据

下标

print(myvar[0])

切片

print(myvar[:3])设置索引 myvar pd.Series(a,index[x,y,z])使用字典创建Series对象 sites {1: Google, 2: Edge, 3: Firefox} myvar pd.Series(sites) print(myvar)设置Series名称 myvar pd.Series(sites,namePandas Test)三、DataFrame结构 3.1 DataFrame简介 DataFrame 是一个表格型的数据结构它含有一组有序的列每列可以是不同的值类型数值、字符串、布尔型值。 DataFrame 的每一行数据都可以看成一个 Series 结构只不过DataFrame 为这些行中每个数据值增加了一个列标签。因此 DataFrame 其实是从 Series 的基础上演变而来。可以这么说掌握了 DataFrame 的用法你就拥有了学习数据分析的基本能力。 3.2 基本使用 DataFrame 构造方法如下 pandas.DataFrame( data, index, columns, dtype, copy)参数的含义和 Series 类似column 表示列标签默认为 RangeIndex (0, 1, 2, …, n) 。 DataFrame 简单示例代码和输出结果如下 import pandas as pd# 数据 data [[apple,10],[banana,12],[orange,31]]

指定列索引

df pd.DataFrame(data,columns[type,number],dtypefloat) print(df)使用 ndarrays 创建-键是列索引值是数据 import pandas as pd# ndarrays 数据 data {type:[apple,banana,orange],age:[10,12,31]}

创建dataframe对象

df pd.DataFrame(data) print(df)字典列表创建-一个字典是一行

字典列表

data1 [{a:1,b:2},{a:10,b:20,c:30}] df pd.DataFrame(data1) print(df)loc 属性返回行 data {calories: [420, 380, 390],duration: [50, 40, 45] } df pd.DataFrame(data)

返回第一行

print(df.loc[1]) print(**20)

切片返回前2行

print(df.loc[:1])四、Pandas-CSV 4.1 CSV简介 CSVComma-Separated Values 逗号分隔值有时也称为字符分隔值因为分隔字符也可以不是逗号其文件以纯文本形式存储表格数据数字和文本。 4.2 读取CSV文件在 Pandas 中用于读取文本的函数有两个分别是 read_csv() 和 read_table() 它们能够自动地将表格数据转换为 DataFrame 对象。其中 read_csv 的语法格式如下 pandas.read_csv(filepath_or_buffer, sep,, delimiterNone, headerinfer,namesNone, index_colNone, usecolsNone)这里要用到一个CSV文件nba.csv放在文末扫码可以领取。 read_csv() 函数简单示例代码和输出结果如下 import pandas as pddf pd.read_csv(nba.csv) print(df)返回数据打印 dataframe 对象默认返回数据的前后5行中间部分以点代替如上图所示。要返回全部数据需要使用 to_string()函数。存储 csv 文件使用 to_csv() 方法将 dataframe 对象存储为 csv 文件。 import pandas as pddf pd.read_csv(nba.csv) print(df.head(3))

存储前三行数据到 test.csv 文件

df.to_csv(test.csv)4.3 数据处理 head() 函数 head(n) 函数用于读取前 n 行如果不填写 n 默认返回5行。 print(df.head(3))tail() 函数 tail(n) 函数用于读取后 n 行如果不填写 n 默认返回5行。 print(df.tail(3))info() 函数 info() 函数用于返回表格的一些基本信息。 print(df.info())五、数据清洗数据清洗是对一些没有用的数据进行处理的过程。很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况如果要使数据分析更加准确就需要对这些没有用的数据进行处理。我们可以利用 Pandas包来进行数据清洗。 5.1 数据清洗的方法异常类型处理方法重复值一般采取删除法来处理但有些重复值不能删除例如订单明细数据或交易明细数据等。缺失值可以采取直接删除法替换法或者插值法常用的替换法有均值替换、前向、后向替换和常数替换异常值偏离正常范围的值不是错误值异常值往往采取盖帽法或者数据离散化错误值指的是数据格式错误往往采取转换为相同格式的数据 5.2 清洗案例清洗空值如果我们要删除包含空字段的行可以使用 dropna() 方法语法格式如下 DataFrame.dropna(axis0, howany, threshNone, subsetNone, inplaceFalse)参数说明axis默认为 0表示逢空值剔除整行如果设置参数 axis1 表示逢空值去掉整列。how默认为 ‘any’ 如果一行或一列里任何一个数据有出现 NA 就去掉整行如果设置 how‘all’ 一行或列都是 NA 才去掉这整行。thresh设置需要多少非空值的数据才能保留。subset想要检查的列。如果是多个列可以使用列名的 list 作为参数inplace如果设置 True将计算得到的值直接覆盖之前的值并返回 None修改的是源数据。使用 isnull() 函数判断各个单元格是否为空。 import pandas as pd# 读取csv文件 df pd.read_csv(../csv/nba.csv) temp df.head(6)

判断各个单元格是否为空

print(temp[College].isnull())Pandas 将 NAN 当作空值处理我们也可以再定义空值。

定义当作空值处理的数据

missing_data [n/a,na,–]

读取csv文件

df pd.read_csv(../csv/nba.csv,na_valuesmissing_data)我们可以用 fillna() 函数来替换一些空值。

替换所有

df2 df.fillna(123456)

替换某一列

df2 df[College].fillna(12345)Pandas使用 mean()、median() 和 mode() 方法计算列的均值所有值加起来的平均值、中位数值排序后排在中间的数和众数出现频率最高的数。

临时dataframe对象

temp df.head(6)

计算平均值

mean temp[Age].mean()

中位数

median temp[Age].median()

众数

mode temp[Age].mode()

使用中位数替换空值

print(temp[College].fillna(mean))清洗格式错误数据数据格式错误的单元格会使数据分析变得困难甚至不可能。我们可以通过包含空单元格的行或者将列中的所有单元格转换为相同格式的数据。 to_datetime() 是格式化日期的函数。清洗异常数据我们可以对异常的数据进行替换或者移除。 import pandas as pd# 异常数据1823 person {name: [xiaoguo, xiaojiang],age: [20, 1823] } df pd.DataFrame(person)

修改异常数据

df.loc(1)[age] 18 print(df)清洗重复数据如果我们要清洗重复数据可以使用 duplicated() 函数判断和 drop_duplicates() 函数删除。

判断是否重复

sign df.duplicated(age)

删除重复行

temp df.drop_duplicates(age)总结以上就是本次要分享给大家的内容啦本文简单介绍了 Pandas中的两种数据类型——Series和DataFrame以及 csv 文件的读取利用Pandas进行数据清洗。初心致力于打造软件开发和大数据领域最通俗易懂的文章希望能帮助到你。当你真正喜欢做一件事时自律就会成为你的本能。本文由初心原创首发于CSDN博客喜欢的话记得点赞收藏哦我们下期再见