数据的时间序列

时间序列

说明

  1. 时间序列的数据是比较重要的结构化数据形式,在多个时间观测或者测量的数据形成了时间序列
  2. 许多的时间序列是固定频率的,也就表明数据是根据相同规则出现的.同样的时间序列可以是不规则的,没有固定的时间单位和偏移量
  3. 标记时间的方式可能有时间戳;固定的时间区间;时间间隔;实验时间或消耗时间

日期和时间数据的类型以及工具

在python的标准库中包含了日期和时间数据的类型.有datetime,time,calendar等

image-20200924111529527

字符串和datetime互相转换

image-20200924122533490

使用pd中的to_datetime进行格式转换

image-20200924122835232

时间序列基础

pandas的基础时间序列是由时间戳索引的Series,通常表示为字符串或者是datetime对象

image-20200925100223177

索引,子集,选择

image-20200925100611997

image-20200925101106079

image-20200925101651782

image-20200925102625533

含有重复索引的时间序列

在某些情况下,可能会有多个数据观察值落在特定的时间戳上.

image-20200925103954285

日期范围,频率和移位

时间序列的频率不是固定的,但是经常有需要处理固定频率的场景,例如每日,每月.这意味着在必要的时候向时间序列引入缺失值。比如通过resample方法将样本时间序列转换为固定的每日频率数据

image-20200925104955378

image-20200925105846336

频率和日期偏置

pandas中频率是由基础频率和倍数组成的.基础频率通常会有字符串别名.

image-20200925112737059

移位日期

在Serise和DataFrame中都有一个shift方法进行简单日期前后位移

image-20200925113638466

使用偏移进行移位日期

image-20200925114716564

时区处理

image-20200925115647627

时间区间和区间算术

时间区间表示的是时间范围,Period类表示的正式这种数据类型
image-20200925123909605

示例

image-20200925124505804

重新采样和频率转换

重新采样指的是将时间序列从一个频率转换到另一个频率的过程,将高频率聚合到低频率为向下采样,反之为向上采样

image-20200925124953715

向下采样

image-20200925130523640

开端-峰值-谷值-结束

image-20200925130719301

向上采样

image-20200925131305982

使用区间进行重新采样

image-20200925132008194

移动窗口函数

统计和其他通过移动窗口或指数衰减而运行的函数是用于时间序列操作的数组变换的一个重要类别。这些函数称作为移动窗口函数。函数会自动排除缺失数据
image-20200925134253670

image-20200925134309212

image-20200925134324416

image-20200925134517202

指数加权函数

指定一个常数衰减因子以向更多近期观测值提供更多权重值,可以替代使用具有相等加权观察值的静态窗口尺寸的方法

image-20200925135940944

二元移动窗口函数

image-20200925140716378