数据分析之高阶pandas

高阶pandas

背景和目标

一个列经常会包含重复值,汇聚成了一个小型的不同值的集合。通过unique和values_counts,允许从一个数组中提取不同的值,并计算这些不同值的频率

image-20200927110638900

在数据库的操作中,使用维度表示一种最佳实践,维度包含了不同的值,并将主要观测值存储为引用维度表的整数键

image-20200927110935427

这种按照整数展现的方式成为分类或者字典编码的实现

pandas中的Categorical类型(可分类类型)

image-20200927111800297

通过函数转为categorical对象

image-20200927130954583

其他方式

image-20200927131403599

使用categorical对象进行计算

image-20200927132408678

使用分类获得更高性能

image-20200927133450474

分类方法

image-20200927134537131

image-20200927134554599

创建虚拟替换变量

image-20200927134717366

高阶的groupby应用

在分组操作中有一个内建方法叫做transform,可以达到:

  1. 产生一个标量值,广播到个分组的尺寸数据中
  2. 产生一个与输入分组尺寸相同的对象
  3. 不可改变它的输入

image-20200927135545587

image-20200927135852507

分组的时间重新采样

image-20200927140302739

其他方式

image-20200927141652657

注:还有一个pipe管道的方法暂时没有用.后续代码有涉及到在进行查阅