对镇江市近几年降雨量数据进行时间序列分析及预测
一、引言
最早的时间序列分析可以追溯到7000年前的古埃及。当时,为了发展农业生产,古埃及人一直在密切关注尼罗河泛滥的规律。把尼罗河涨落的情况逐天记录下来,就构成了所谓的时间序列。对这个时间序列长期的观察使他们发现尼罗河的涨落非常有规律。天狼星第一次和太阳同时升起的那一天之后,再过200天左右,尼罗河就开始泛滥,泛滥期将持续七八十天,洪水过后,土地肥沃,随意播种就会有丰厚的收成。由于掌握了尼罗河泛滥的规律,古埃及的农业迅速发展,解放出大批的劳动力去从事非农业生产,从而创建了古埃及灿烂的史前文明。
像古埃及人一样,按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。由此可见,时间序列分析在我们生活中将扮演着一个十分重要的角色。
于是,我们先进行时间序列的定义。在统计研究中,常用按时间顺序排列的一组随机变量
……,X1,X2,……,Xt,……
来表示一个随机事件的时间序列,简记为{Xt,t∈T}或{Xt}
用x1,x2,……,xn或{xt,t=1,2,…,n}
表示该随机序列的n个有序观察值,称之为序列长度为n的观察值序列。
二、文献综述及数据来源
为充分了解时间序列在生活中的应用,本例就取镇江市近几年的降雨量数据进行时间序列分析,并在进行模型建设及检验完毕后,对2010年的月降雨量进行预测,并进行真实值的校对,以确认时间序列在生活中的有效应用。本例数据来源于江苏省统计年鉴2000—2009年,其中参考文献为中国人民大学出版社出版的《应用时间序列分析》。
关键字:时间序列 模型建设 检验 预测
三、数据展示及描述性分析
数据来源于江苏省统计年鉴2000—2009,选取的是镇江市从2000年到2009年的月降雨量。
由描述统计量表得出,镇江市近几年的月降雨量在90.7925间波动,且极小值与极大值之间的差距还是挺大的,说明降雨量是一个具有季节性的数据。
四、时间序列数据的预处理
①对原数据进行时序图检验和自相关图检验:
图一1
图一2
由时序图显示该序列具有一个周期长度为一年的平稳的季节变动。同时查看数据的自偏相关系数图及P值检验,得知此数据为平稳的相对随机数据,除几个数值的P值>0.05外,其余的P值均<0.05。所以对原序列先做一阶差分,提取线性长期趋势。
②一阶差分运算
在Eiews中Genr里输入dx=d(x),得到一阶差分后的时序图和自相关图:
图二1
图二2
图二1显示,一阶差分后线性信息被提取,1阶差分序列具有稳定的季节波动和不随机波动。故对1阶差分后序列再进行12步的周期差分,提取季节波动信息。
③一阶12步差分运算
在Genr里输入ds=d(x,1,12),得到周期差分后序列时序图和自相关图:
图三1
图三2
图三1显示,周期差可以非常好的地提取周期信息。至此,差分运算已经比较充分地提取了原序列中蕴含的季节效应和长期趋势效应等确定性信息。差分后显示序列呈现典型的随机波动特征。
同时考察差分后序列的自相关图,如图三2显示,自相关图显示除了延迟2阶的自相关系数在2倍标准差范围之外,其他阶数的自相关系数都在2倍标准差范围内波动,根据自相关系数的这个特点可以判断该序列具有短期相关性,进一步确定序列平稳。同时,可以认为该序列自相关系数2阶截尾。偏自相关系数显示出非截尾的性质。
于是此时可以开始对数据进行模型建设。
五、平稳序列建模
(一)逐步剔除法
①首先在equation中输入:
Ds ar(1) ma(1) ma(2) ma(3) ma(4) sma(12) sar(12),得到EQ03为
选取P值>0.05,从P值最大的开始逐一剔除,中间省略一些方程式,
最终得到在equation中输入
Ds ma(1) sma(12) sar(12),得
此时,P值均小于0.05,符合条件。同时记录
AIC=11.48958
SC=11.57023
②为了数据更为精确,将由图形中疑似数据进行再一次模型建设,
在equation中输入
ds ar(1) ar(2) ma(1) ma(2) ma(3) ma(4) ma(5) sma(12) sar(12)
得:
逐步剔除P值大于0.05的因子,得到最终模型在equation中输入:
Ds ar(1) ar(2) ma(1) ma(2) sma(12)
得:
此时,P值均小于0.05,符合要求。同时记录
AIC=11.35586 SC=11.48224
较之第一个模型的AIC和SC数值,第二个模型的AIC和SC数值来的要小,说明第二个模型比第一个模型要好。
(二)逐步添加法
为更好的选取模型,我又选用了另一种方法进行建模,在equation中先输入:
ds c ar(1) ma(1) sar(12) sma(12)
得:
观察自偏相关图,并进行逐个添加因子,中间省略许多拟合建模方程,得到最终最优方程为:
Equation中输入为DS AR(1) AR(2) MA(1) SAR(12) SMA(12) SMA(24)
在各系数P值都通过检验的情况下,比较两种方法最终三个方程的AIC和SC:
由图中分析可以得出,第三个方程的建模是最好的,且初步了解到逐步添加法比逐步添加法来的更实用,更精确。
(四)最终模型确立
写出方程如下:
1+MA(1) 1+SMA(12)+SMA(24)
(1-B)(1-B4)Xt=C+─────────*───────────*εt
1-AR(1)-AR(2) 1—SAR(12)
引入数据,方程的具体模型为:
1—0.736814 1—0.659630—0.200378
(1-B)(1-B4)Xt=C+───────────*─────────────*εt
1+0.282376+0.213553 1+0.368128
即
(1-B)(1-B4)Xt=0.01798εt
六、模型检验
1、残差自相关检验
检验原理:确定模型拟合好之后,我们要对该模型的拟合效果进行检验。如果残差序列显示出纯随机的性质,即E(εt,εt-j)=0,дj≥1
就说明确定性模型拟合得非常好,已经能够充分提取序列中的相关信息了,我们不需要再对残差序列进行二次信息提取了,即分析结束。反之,如果残差序列显示出显著的自相关性,即E(εt,εt-j)≠0,дЗj≥1
那就说明确定性模型拟合得不够精确,序列中的相关信息没有得到充分提取,我们应该对残差序列再次拟合,提取其中残存的相关信息,以提高模型拟合的精度。
由此,进行模型的残差自相关性检验,观察图四如下:
得知,此模型拟合的非常好,且P值均通过了检验。
2.异方差自相关性检验
通常,我们对残差序列有一个重要的假定——残差序列{εt}为零均值白噪声序列。换言之,残差序列要满足如下三个假定条件。
㈠零均值E{εt}=0;
㈡纯随机性Cov(εt,εt-i)=0,дj≥1;
㈢方差齐性
Var(εt)=σt2;
如果方差齐性假定不成立,即随机误差序列的方差不再是常数了,它会随着时间的变化而变化,可以表示为时间的某个函数:Var(εt)=h(t) 这种情况被称作异方差。
在残差序列的这三个假定中,零均值假定最容易实现,只要对序列进行中心化处理就可以实现。所以这个假定通常无需检验。
纯随机假定一直是我们重点监控的对象。如果这个假定不满足就说明残差序列中还蕴含着值得提取的自相关信息。为了有效检验这个假定条件是否成立,统计学家们构造了许多适用于不同场合的自相关检验统计量,比如说Q统计量、LB统计量、DW统计量等,为此我们先进行纯随机性检验,
Q—statistics检验
显然,此模型通过了纯随机检验。
只有第三个假定——方差齐性假定,在此之前我们没有进行任何检验。在缺省检验的情况下就默认残差序列一定满足这个条件。但实际上,这个假定条件并不总是满足。忽视异方差的存在会导致残差的方差被严重低估,继而参数显著性检验容易犯纳伪错误错误,这使得参数的显著性检验失去意义,最终导致模型的拟合精度受影响。所以为了提高模型拟合的精度,我们需要对残差序列进行方差齐性检验,并且对异方差序列进行深入分析。
①直观图
②拉格朗日乘子检验(LM检验)
由残差的直观图进行诊断,当残差序列{εt}方差齐性时,它应该在零值附近随机波动,不带任何趋势,否则就显示出异方差的性质了。故此,我们由图可以得出此模型显然通过了检验,即不具有异方差性,而且拟合程度很好。
七、数据预测
对数据进行建模及通过检验后,我们进行对数据的预测,预测镇江市2010年一年的月降雨量。首先我们在eview中将时间范围改至2010年12月,分别进行动态和静态预测,得:
上图为动态预测,下图为静态预测
并且我们分别得到ds和x 的2010年1月份到12月份的动/静态预测值:
八、总结
查看预测数据,得知预测的数据挺集中的,但总体预测数值除个别省份外,其它均与现实意思差距不大,并查询统计年鉴2010,对其中的镇江市2010年数据进行比较分析得,预测的数据在平均水平上相对来说还是比较准确的,可见模型建立的有效性。
通过《时间序列》课程的学习及相关软件Eviews的操作,我对时间序列的建模知识理解的更加深刻了,我了解到时间序列分析是一个关于动态数据的处理统计方法,是用于解决实际性的现实问题。时间序列分析就是用已有的数据,运用统计学的方法加以处理,预测未来事物的发展,这种方法简单、有效、实际。
本文来源:https://www.2haoxitong.net/k/doc/e79fb226bcd126fff7050b11.html
文档为doc格式