时间序列
说明
- 时间序列的数据是比较重要的结构化数据形式,在多个时间观测或者测量的数据形成了时间序列
- 许多的时间序列是固定频率的,也就表明数据是根据相同规则出现的.同样的时间序列可以是不规则的,没有固定的时间单位和偏移量
- 标记时间的方式可能有时间戳;固定的时间区间;时间间隔;实验时间或消耗时间
日期和时间数据的类型以及工具
在python的标准库中包含了日期和时间数据的类型.有datetime,time,calendar等
字符串和datetime互相转换
使用pd中的to_datetime进行格式转换
时间序列基础
pandas的基础时间序列是由时间戳索引的Series,通常表示为字符串或者是datetime对象
索引,子集,选择
含有重复索引的时间序列
在某些情况下,可能会有多个数据观察值落在特定的时间戳上.
日期范围,频率和移位
时间序列的频率不是固定的,但是经常有需要处理固定频率的场景,例如每日,每月.这意味着在必要的时候向时间序列引入缺失值。比如通过resample方法将样本时间序列转换为固定的每日频率数据
频率和日期偏置
pandas中频率是由基础频率和倍数组成的.基础频率通常会有字符串别名.
移位日期
在Serise和DataFrame中都有一个shift方法进行简单日期前后位移
使用偏移进行移位日期
时区处理
时间区间和区间算术
时间区间表示的是时间范围,Period类表示的正式这种数据类型
示例
重新采样和频率转换
重新采样指的是将时间序列从一个频率转换到另一个频率的过程,将高频率聚合到低频率为向下采样,反之为向上采样
向下采样
开端-峰值-谷值-结束
向上采样
使用区间进行重新采样
移动窗口函数
统计和其他通过移动窗口或指数衰减而运行的函数是用于时间序列操作的数组变换的一个重要类别。这些函数称作为移动窗口函数。函数会自动排除缺失数据
指数加权函数
指定一个常数衰减因子以向更多近期观测值提供更多权重值,可以替代使用具有相等加权观察值的静态窗口尺寸的方法