高阶pandas
背景和目标
一个列经常会包含重复值,汇聚成了一个小型的不同值的集合。通过unique和values_counts,允许从一个数组中提取不同的值,并计算这些不同值的频率

在数据库的操作中,使用维度表示一种最佳实践,维度包含了不同的值,并将主要观测值存储为引用维度表的整数键

这种按照整数展现的方式成为分类或者字典编码的实现
pandas中的Categorical类型(可分类类型)

通过函数转为categorical对象

其他方式

使用categorical对象进行计算

使用分类获得更高性能

分类方法


创建虚拟替换变量

高阶的groupby应用
在分组操作中有一个内建方法叫做transform,可以达到:
- 产生一个标量值,广播到个分组的尺寸数据中
- 产生一个与输入分组尺寸相同的对象
- 不可改变它的输入


分组的时间重新采样

其他方式

注:还有一个pipe管道的方法暂时没有用.后续代码有涉及到在进行查阅