In [1]: import numpy as np
In [2]: import pandas as pd
时间序列的概念在日常生活中十分常见,但对于一个具体的时序事件而言,可以从多个时间对象的角度来描述。例如2020年9月7日周一早上8点整需要到教室上课,这个课会在当天早上10点结束,其中包含了哪些时间概念?
- 第一,会出现时间戳(Date times)的概念,即’2020-9-7 08:00:00’和’2020-9-7 10:00:00’这两个时间点分别代表了上课和下课的时刻,在
pandas
中称为Timestamp
。同时,一系列的时间戳可以组成DatetimeIndex
,而将它放到Series
中后,Series
的类型就变为了datetime64[ns]
,如果有涉及时区则为datetime64[ns, tz]
,其中tz是timezone的简写。 - 第二,会出现时间差(Time deltas)的概念,即上课需要的时间,两个
Timestamp
做差就得到了时间差,pandas中利用Timedelta
来表示。类似的,一系列的时间差就组成了TimedeltaIndex
, 而将它放到Series
中后,Series
的类型就变为了timedelta64[ns]
。 - 第三,会出现时间段(Time spans)的概念,即在8点到10点这个区间都会持续地在上课,在
pandas
利用Period
来表示。类似的,一系列的时间段就组成了PeriodIndex
, 而将它放到Series
中后,Series
的类型就变为了Period
。 - 第四,会出现日期偏置(Date offsets)的概念,假设你只知道9月的第一个周一早上8点要去上课,但不知道具体的日期,那么就需要一个类型来处理此类需求。再例如,想要知道2020年9月7日后的第30个工作日是哪一天,那么时间差就解决不了你的问题,从而
pandas
中的DateOffset
就出现了。同时,pandas
中没有为一列时间偏置专门设计存储类型,理由也很简单,因为需求比较奇怪,一般来说我们只需要对一批时间特征做一个统一的特殊日期偏置。
通过这个简单的例子,就能够容易地总结出官方文档中的这个 表格 :
概念 | 单元素类型 | 数组类型 | pandas数据类型 |
---|---|---|---|
Date times | Timestamp |
DatetimeIndex |
datetime64[ns] |
Time deltas | Timedelta |
TimedeltaIndex |
timedelta64[ns] |
Time spans | Period |
PeriodIndex |
period[freq] |
Date offsets | DateOffset |
None |
None |
由于时间段对象 Period/PeriodIndex
的使用频率并不高,因此将不进行讲解,而只涉及时间戳序列、时间差序列和日期偏置的相关内容。