高阶pandas
背景和目标
一个列经常会包含重复值,汇聚成了一个小型的不同值的集合。通过unique和values_counts,允许从一个数组中提取不同的值,并计算这些不同值的频率
在数据库的操作中,使用维度表示一种最佳实践,维度包含了不同的值,并将主要观测值存储为引用维度表的整数键
这种按照整数展现的方式成为分类或者字典编码的实现
pandas中的Categorical类型(可分类类型)
通过函数转为categorical对象
其他方式
使用categorical对象进行计算
使用分类获得更高性能
分类方法
创建虚拟替换变量
高阶的groupby应用
在分组操作中有一个内建方法叫做transform,可以达到:
- 产生一个标量值,广播到个分组的尺寸数据中
- 产生一个与输入分组尺寸相同的对象
- 不可改变它的输入
分组的时间重新采样
其他方式
注:还有一个pipe管道的方法暂时没有用.后续代码有涉及到在进行查阅