数据分析之Pandas基础二

pandas基础二

  1. 基本功能

基本功能

介绍Series和DataFrame的数据的基本操作

重新索引

pandas对象的一个重要方法是reindex,其作用是创建一个新对象,它的数据符合新的索引

索引会根据reindex进行重排.如果某个索引值不存在,引入缺失值

IMAGE

对于时间序列的有序数据,重新索引需要一些插值处理.method选项可以操作,ffill是使用前面的值填充,bfill是使用后面的值填充。

IMAGE

如果使用dataFrame,reindex可以修改行索引和列.只传递一个序列时,会重新索引结果的行

IMAGE

同样的可以用column重新索引

IMAGE

丢弃指定轴上的项

丢弃某条轴上面的一个或多个项很简单,只要有一个索引数组和列表即可

针对series

IMAGE

针对DataFrame

IMAGE

索引,选取和过滤

Series索引的工作方式类似numpy的索引,不过Series索引不只是整数

IMAGE

切片运算有一些不同,其尾部是包含的

IMAGE

针对DataFrame进行索引就是获取一个或者多个列

IMAGE

通过布尔类型

IMAGE

用loc和iloc进行选取

对于dataFrame的行的标签索引可以使用loc和iloc,从DataFrame选择行和列的子集

通过2个方法选择一行和多列

IMAGE

同样适用于一个标签或者多个标签的切片

IMAGE

一些方法

IMAGE

算术预算和数据对齐

pandas重要的功能可以对不同索引的对象进行算术运算.对象相加时,存在不同的索引对.结果的索引就是该索引对的并集.

IMAGE

IMAGE

注意:Dataframe相加,没有共用的列或者行标签.结果都会是空

在算术方法中填充值

IMAGE

现在出现了na值,我填充一个特殊值怎么做

IMAGE

可用的方法

IMAGE

同理

IMAGE

DataFrame和Series之间的运算

先看一个二维数组和一维数组相加

IMAGE

同理,2者相加也一样

IMAGE

如果某个索引值找不到,则形成并集

IMAGE

IMAGE

函数应用和映射

Numpy的ufuncs也可以用于操作pandas对象

IMAGE

IMAGE

附上重新对二维数组的理解

排序和排名

根据条件对数据集进行排序也是一种重要的内置计算,对行和列索引进行排序可以使用sortindex,返回一个已排序的新对象

IMAGE

IMAGE

升序或者降序

IMAGE

按值对series排列使用sortvalues

IMAGE

排序DataFrame时,可以根据一个或者多个列中的值,使用sorvalues中的by即可

IMAGE

rank方法

rank是通过为各组分配一个平均排名的方式破坏平级关系

IMAGE

针对dataframe

IMAGE

IMAGE

IMAGE