pandas基础二
- 基本功能
基本功能
介绍Series和DataFrame的数据的基本操作
重新索引
pandas对象的一个重要方法是reindex,其作用是创建一个新对象,它的数据符合新的索引
索引会根据reindex进行重排.如果某个索引值不存在,引入缺失值

对于时间序列的有序数据,重新索引需要一些插值处理.method选项可以操作,ffill是使用前面的值填充,bfill是使用后面的值填充。

如果使用dataFrame,reindex可以修改行索引和列.只传递一个序列时,会重新索引结果的行

同样的可以用column重新索引

丢弃指定轴上的项
丢弃某条轴上面的一个或多个项很简单,只要有一个索引数组和列表即可
针对series

针对DataFrame

索引,选取和过滤
Series索引的工作方式类似numpy的索引,不过Series索引不只是整数

切片运算有一些不同,其尾部是包含的

针对DataFrame进行索引就是获取一个或者多个列

通过布尔类型

用loc和iloc进行选取
对于dataFrame的行的标签索引可以使用loc和iloc,从DataFrame选择行和列的子集
通过2个方法选择一行和多列

同样适用于一个标签或者多个标签的切片

一些方法

算术预算和数据对齐
pandas重要的功能可以对不同索引的对象进行算术运算.对象相加时,存在不同的索引对.结果的索引就是该索引对的并集.


注意:Dataframe相加,没有共用的列或者行标签.结果都会是空
在算术方法中填充值

现在出现了na值,我填充一个特殊值怎么做

可用的方法

同理

DataFrame和Series之间的运算
先看一个二维数组和一维数组相加

同理,2者相加也一样

如果某个索引值找不到,则形成并集


函数应用和映射
Numpy的ufuncs也可以用于操作pandas对象


排序和排名
根据条件对数据集进行排序也是一种重要的内置计算,对行和列索引进行排序可以使用sortindex,返回一个已排序的新对象


升序或者降序

按值对series排列使用sortvalues

排序DataFrame时,可以根据一个或者多个列中的值,使用sorvalues中的by即可

rank方法
rank是通过为各组分配一个平均排名的方式破坏平级关系

针对dataframe


