数据分析之Pandas基础二

发表于 2020-03-06 | 分类于大数据分析 | 热度: ℃ |

字数统计: 671 | 阅读时长 ≈ 2

pandas基础二

基本功能

基本功能

介绍Series和DataFrame的数据的基本操作

重新索引

pandas对象的一个重要方法是reindex,其作用是创建一个新对象,它的数据符合新的索引

索引会根据reindex进行重排.如果某个索引值不存在,引入缺失值

对于时间序列的有序数据,重新索引需要一些插值处理.method选项可以操作,ffill是使用前面的值填充，bfill是使用后面的值填充。

如果使用dataFrame,reindex可以修改行索引和列.只传递一个序列时,会重新索引结果的行

同样的可以用column重新索引

丢弃指定轴上的项

丢弃某条轴上面的一个或多个项很简单,只要有一个索引数组和列表即可

针对series

针对DataFrame

索引,选取和过滤

Series索引的工作方式类似numpy的索引,不过Series索引不只是整数

切片运算有一些不同,其尾部是包含的

针对DataFrame进行索引就是获取一个或者多个列

通过布尔类型

用loc和iloc进行选取

对于dataFrame的行的标签索引可以使用loc和iloc,从DataFrame选择行和列的子集

通过2个方法选择一行和多列

同样适用于一个标签或者多个标签的切片

一些方法

算术预算和数据对齐

pandas重要的功能可以对不同索引的对象进行算术运算.对象相加时,存在不同的索引对.结果的索引就是该索引对的并集.

注意:Dataframe相加,没有共用的列或者行标签.结果都会是空

在算术方法中填充值

现在出现了na值,我填充一个特殊值怎么做

可用的方法

同理

DataFrame和Series之间的运算

先看一个二维数组和一维数组相加

同理,2者相加也一样

如果某个索引值找不到,则形成并集

函数应用和映射

Numpy的ufuncs也可以用于操作pandas对象

附上重新对二维数组的理解

排序和排名

根据条件对数据集进行排序也是一种重要的内置计算,对行和列索引进行排序可以使用sortindex,返回一个已排序的新对象

升序或者降序

按值对series排列使用sortvalues

排序DataFrame时,可以根据一个或者多个列中的值,使用sorvalues中的by即可

rank方法

rank是通过为各组分配一个平均排名的方式破坏平级关系

针对dataframe