1. Введение
ARMA:auto regressive moving average model,自回归移动平均模型,简称arma模型。
该模型是研究时间序列的重要方法。
时间序列最大的用处就是用来预测未来的事情,各种手段也都是为了提高预测的精度。
该模型由2部分构成:ar(auto regressive自回归模型)和ma(moving average移动平均模型)
做时间序列,主要时间都消耗在把不平稳的时间序列,转成平稳的时间序列,也就是ARIMA中的I的参数,接着当然就是AR和MA的参数p和q。
2/AR авторегрессионная модель
ar:auto regressive自回归
ar模型的思想很简单,任务当前时间的结果xt和之前各个时间的结果相关。
简单来说就是当前的结果等于历史数据的加权平均,然后再加上当前时间t的一个扰动εt,
我们只需要计算出各个时刻的权重参数ϕ即可,公式如下:
xt=ϕ0+ϕ1xt−1+ϕ2xt−2+......ϕpxt−p+εt
公式中的xt-1,xt-2,....xt-p,都是之前时间的值,p参数是我们需要确定的值。
Модель скользящей средней 3/MA
MA模型的思想也非常的朴素,认为当前的结果xt与之前的扰动相关,简单的来说就是认为xt主要受过去q期的误差项影响,
即当前的结果等于历史扰动的加权平均,然后再加上历史结果的均值μ,
我们也是只需要算出各个参数ϕ就可以了。
这个也非常好理解,如果咱们的数据是在均值附近不断波动的,是什么让数据波动的呢?就是扰动项,扰动使得数据不断的变化,最终变成当前的数据。
xt=μ+εt−θ1εt−1−θ2εt−2−......θpεt−q
q参数是我们需要确定的值。
4/ARMA модель
ARMA模型是最常用的`平稳序列拟合模型`,xt不仅与以前p期的序列值有关,还与前q期的随机扰动有关。
也就是说ARMA模型的公式是把AR模型的公式和MA模型的公式组合起来。
在这个公式中,我们需要计算
xt=ϕ0+ϕ1xt−1+ϕ2xt−2+......ϕpxt−p+εt−θ1εt−1−θ2εt−2−......θpεt−q
5/определение заказа модели ARIMA
我们需要计算以上的几个参数,这几个参数使得我们的模型的预测误差越小,我们的模型就越好。
6/ Показатели для измерения плюсов и минусов моделей прогнозирования временных рядов
AIC
BIC
通常来讲,akaike information criterion(AIC)和bayesian information criterion(BIC)是评价模型优良的两个指标。这两种评价指标不仅适用于事件序列模型,还广泛广泛运用于其他数学模型中。
AIC=−2ln(L)+2k
BIC=−2ln(L)+ln(n)∗k
让我们来理解AIC的含义,AIC由两部分组成,一部分是对数极大似然函数,另一部分则是参数的个数。
极大似然函数是评价模型拟合优劣性的指标,值越大说明拟合的效果越好。
然而使用过多的参数可以拟合的很好却会出现过度拟合的情况,这样的模型泛化能力很差,因此加上参数的个数实际上是对极大似然函数进行”惩罚“。
选取AIC值最小的模型作为最优模型,实质上是平衡了欠拟合和过拟合。
# 创建训练数据
train_start = datetime(2019,10,1)
train_end = datetime(2020,10,1)
train_data = df[train_start:train_end]
#定阶
warnings.filterwarnings("ignore") # specify to ignore warning messages
pmax,qmax,dmax,smax = 8 ,8 ,2 ,7
# p是AR阶数,q是MA阶数, d是差分次数, s是周期
pdq = itertools.product(range(1,pmax+1),range(1,dmax+1),range(1,qmax+1),[smax])
aic_matrix = {} #aic矩阵
for p,d,q,s in pdq:
try:
model = SARIMAX(endog=train_data['cnt'],order=(p,d,q,s))
results = model.fit(disp=True)
aic_matrix['{},{},{}'.format(p,d,q)] = results.aic
print('ARIMA p:{} d:{} q:{} - AIC:{}'.format(p, d, q, results.aic))
except:
continue
p,d,q = sorted(aic_matrix.items(), key=lambda x: x[1])[0][0].split(',')
print('AIC最小的p : {}, d : {}, q : {}'.format(p,d,q),end='\r')
#ARIMA p:8 d:1 q:8 - AIC:9138.284284512645
#ARIMA p:8 d:2 q:1 - AIC:9165.776270275972
#ARIMA p:8 d:2 q:2 - AIC:9166.238801899044
#ARIMA p:8 d:2 q:3 - AIC:9166.731346671577
#ARIMA p:8 d:2 q:4 - AIC:9169.846039297874
#ARIMA p:8 d:2 q:5 - AIC:9167.21095209448
#ARIMA p:8 d:2 q:6 - AIC:9145.26033882199
#ARIMA p:8 d:2 q:7 - AIC:9129.24423753544
#ARIMA p:8 d:2 q:8 - AIC:9132.197927380188
#AIC最小的p : 6, d : 2, q : 7
7/Разница между ARMA и ARIMA
Объекты приложения отличаются
AR,MA,ARMA都是运用于原始数据是平稳的时间序列。
ARIMA运用于原始数据差分后是平稳的时间序列。
Различные временные ряды
AR(自回归模型),AR ( p) ,p阶的自回归模型。
MA(移动平均模型),MA(q),q阶的移动平均模型。
ARIMA(差分自回归移动平均模型)。
Разница стационарности
ARMA模型的平稳性要求y的均值、方差和自协方差都是与时间无关的、有限的常数。
可以证明,ARMA(p, q)模型的平稳性条件是方程()0Lφ=的解的模都大于1,可逆性条件是方程()0Lθ=的解的模都大于1。
ARMA模型只能处理平稳序列,因此对于平稳序列,可以直接建立AR、MA或者ARMA模型。
但是,常见的时间序列一般都是非平稳的。必须通过差分后转化为平稳序列,才可以使用ARMA模型。
ARIMA模型 (autoregressive integrated moving average) 定义:
如果非平稳时间序列yt经过k次差分后的平稳序列zt=△kyt服从ARMA(p, q)模型,
那么称原始序列yt服从ARIMA(p, k, q)模型。
也就是说,原始序列是I(k)序列,k次差分后是平稳序列I(0)。平稳序列I(0)服从ARMA模型,而非平稳序列I(k)服从ARIMA模型。
8/ Стационарные и нестационарные временные ряды
当时间序列的每期数据都具有相同的`概率分布`时,我们称这个时间序列是平稳的。
如果时间序列的概率分布是随着时间变化而变化的,那么这个时间序列就是不平稳的。
在AR模型中,只要自回归系数的绝对值都是小于1的,那么序列就是平稳的。
所以如果一个序列,自回归系数等于1,就是不平稳的序列了。
9/ Что такое дифференциал
差分是非平稳序列转平稳序列的方法。
非平稳序列往往一次到两次差分之后,就会变成平稳序列。
什么是差分呢?就是后一时间点的值减去当前时间点的值,也就是yt - yt-1。
10/Как определить, является ли ряд стационарным
Как просматривать изображения
分析:什么样的图不平稳。先说什么是平稳。
平稳就是围绕着一个常数在上下波动。
上面这个图,很明显是增长趋势,所以是不平稳的。
Коэффициент автокорреляции и коэффициент частичной корреляции
还以上面的序列为例:用eviews得到自相关和偏相关图,Q统计量和伴随概率。
分析:判断平稳与否的话,用自相关图和偏相关图就可以了。
平稳的序列的自相关图和偏相关图不是拖尾就是截尾。
拖尾:拖尾就是有一个`衰减`的趋势,但是不都为 0 。以上的图的自相关是一个三角对称的形式
截尾:截尾就是在某阶之后,系数都为0或者趋于0 。
怎么理解呢,看上面偏相关的图,当阶数为1的时候,系数值还是很大,是0.914.
二阶的时候突然就变成了0.050.
后面的值都很小,认为是趋于0 ,这种状况就是截尾。
自相关图既不是拖尾也不是截尾。以上的图的自相关是一个三角对称的形式,这种趋势是单调趋势的典型图形。
下面是通过自相关的其他功能
如果自相关是拖尾,偏相关截尾,则用 AR 算法
如果自相关截尾,偏相关拖尾,则用 MA 算法
如果自相关和偏相关都是拖尾,则用 ARMA 算法, ARIMA 是 ARMA 算法的扩展版,用法类似 。
11/ Что делать, если он нестабилен?
我们通过一些办法判定,某个时间序列是不平稳的,那么怎么办呢?
通过‘差分’的方式,把不平稳的序列变平稳。
依次进行1阶、2阶、3阶...差分,直到平稳位置。先来个一阶差分,看下图:
从下图中看,一阶差分的效果不错,看着是平稳的。