时间序列理论在财政收入预测中的应用# 刘一鸣,姜梦晶,赵学靖** 基金项目:(1)教育部“留学回国人员科研启动基金(第44批)”资助(2)兰州大学“中央高校基本科研业务费专项资金”资助(No lzujbky-2012-15) 作者简介:刘一鸣(1988-),男,在读硕士,主要研究方向:高维数据统计分析、统计预测 通信联系人:赵学靖(1972-),男,副教授,主要研究方向:高维数据统计分析. E-mail: zhaoxj@lzu.edu.cn (兰州大学数学与统计学院,兰州 730000) 5 摘要:本文通过利用我国1950至2009年共计60年的财政收入数据预测2010, 2011及2012年的财政收入。在R语言环境下,首先运用扩展的自相关函数法(EACF)方法选择模型阶数,Ljung-Box检验法诊断模型,然后利用通过检验的多个ARIMA模型对2010,2011和2012年的财政收入进行预测,再运用2010,2011年的实际数据检验各个模型的预测效果,最后选择出预测误差最小的模型作为预测的最优模型。 关键词:经济预测;财政收入;ARIMA模型;EACF方法;R软件 10 中图分类号:F201 Application of time series theory in financial revenue analysis LIU Yiming, JIANG Mengjing, ZHAO Xuejing 15 (School of mathematics and statistics, Lanzhou University, Lanzhou 730000) Abstract: This paper is to forecast China’s financial revenue in 2010, 2011 and 2012 by using the financial revenue data of China from 1950 to 2009, 60 years in total. Application EACF code in R, the step number of a model is selected, then the model is diagnosed by Ljung-Box test, the financial revenue in 2010, 2011 and 2012 are predicted by the ARIMA models which have been successfully 20 tested. Thereafter, utilizing the specific data in both 2010 and 2011 as the test data, we verify the model predictions and choose the model which has a minimum prediction error as the optimum model. Key words: Economic forecasts; financial revenue; ARIMA model; EACF; R 0 引言 25 财政收入是衡量一个国家或地区政府财力的重要指标,它能反映一个国家或地区的经济发展总体水平,对财政收入进行较为准确的预测可以为各类经济部门或企业制定相关政策、制定发展规划提供可靠的理论参考。 1 ARIMA模型的结构 ARIMA( p, d, q)模型是1970年由美国统计学家GEP.Box和GM.Jenkins提出的,是一种30 用来预测精度相对较高的动态数据建模方法[1]。如果一个时间序列 tY 的 d 次差分 dttWY 服从ARMA(p, q)模型,则我们称 tY 是ARIMA( p, d, q)过程。通常取d=1或最多为2[2]。ARIMA( p, d, q)模型定义如下[3]: 2()()0,(),()0,()0,dtttttsstBXBEVarEstEXst 式中, 1()1ppBBB 为平稳可逆ARMA(p, q)模型的自回归系数多项式;35 1()1qqBBB 为平稳可逆ARMA(p, q)模型的滑动平均系数多项式; (1)ddB , B 为后移算子, 1ttBxx , 为差分算子, (1)B ; t 为零均值白噪声序列[4]。 2 ARIMA模型预测的基本步骤 2.1 时间序列的预处理 40 首先通过时间序列的散点图或折线图来初步判断时间序列的平稳性,为了更加精确起见,一般采用ADF单位根检验来判断时间序列的平稳性。对于非平稳的时间序列,如果时间序列图显示出明显的增长或下降趋势,则需对数据进行差分处理;如果序列存在异方差性质,则需对数据进行对数转换或者是BoxCox幂变换处理[5],同时分析处理后序列的平稳性,直至得到一个平稳的序列。然后对得到的平稳序列进行白噪声检验,白噪声序列是一个纯随45 机性序列,对其进行分析没有意义,而对于平稳的非白噪声序列可以进行ARMA(p, q)模型拟合。 2.2 模型识别 观察经处理后所得的平稳时间序列的自相关函数图和偏自相关系数图,如果自相关函数拖尾而偏自相关函数截尾,可判断该平稳序列适合用AR(p)模型进行拟合;如果自相关函数50 截尾而偏自相关函数拖尾,可判断该平稳序列适合用MA(q)模型进行拟合;如果自相关函数和偏自相关函数均拖尾,则可判断此平稳序列适合用ARMA(p, q)模型进行拟合。 2.3 参数估计与检验 参数的估计方法主要有矩估计、最小二乘估计、极大似然估计与无条件最小二乘等,使用时要注意每种估计方法的模型适用范围,不可乱用,否则会产生较大的误差。而参数的检55 验就是要检验每个参数是否显著,通常应剔除不显著的参数所对应的自变量,然后重新拟合模型以构造出结构更精炼的拟合模型。 2.4 模型诊断与优化 模型诊断主要是诊断模型对原时间序列的拟合效果,就是检验整个模型对信息的提取是否充分,即检验残差序列是否为白噪声序列。如果残差序列不是白噪声序列[6],就要重新选60 择模型进行拟合;如果残差序列是白噪声序列,就认为拟合模型是有效的。模型优化认为即使拟合模型通过检验,我们仍应该转向以上两个步骤,充分考虑各种可能以建立多个拟合模型,从所有通过检验的拟合模型中选择最优模型。 2.5 预测 利用拟合得到的ARIMA(p, d, q)模型对序列进行预测,所得的预测误差较小,就可以考65 虑接受该模型,并运用该模型进行预测[7]。 3 实证分析 首先从《2012中国统计年鉴》和国家统计局网站搜集我国1950年至2011年间的财政收入数据,运用R软件编程得到1950-2009年的时间序列图,其中2010及2011年的数据留待 图1 1950-2009年我国财政收入走势图 75 运用R软件对原始数据进行先取对数再差分的平稳化处理,得到的新序列如下图所示: 图2 经对数差分后的时间序列图 从图中可以看出对数差分后的序列已无明显的趋势,但是为了可靠地判断该序列是否真80 的平稳还需进行单位根检验。运用R软件对对数差分序列进行ADF单位根检验,检验结果如下表所示: 表1 对数差分序列的ADF单位根检验表 85 从表1可以看出P值=0.01,在置信度 0.05 条件下显著拒绝原假设,认为序列已经 平稳,可以针对该序列进一步做ARIMA模型拟合。因此运用R软件对对数差分后的序列做出自相关系数图及偏自相关系数图,所得图形如下所示: 90 图3 自相关系数图 图4 偏自相关系数图 由以上两图可以看出自相关系数与偏自相关系数均是拖尾的,故而我们选用ARIMA(p, 95 1, q)模型对模型进行拟合。为了确定ARIMA(p, 1, q)模型的阶数p和q,我们使用扩展的自相关函数法(EACF)(Tsay 和Tiao,1984)[5]。运用R软件,我们可以得到如下的财政收入对数差分的EACF汇总表,该表建议了设定ARIMA(0, 1, 10),ARIMA(1, 1, 6),ARIMA(2, 1, 6),ARIMA(3, 1, 6),ARIMA(5, 1, 4),ARIMA(6, 1, 5)等模型。 100 表2 财政收入对数差分的EACF 首先对拟合的ARIMA(0, 1, 10)模型进行残差分析,得到的诊断展示图如下所示,从上到下依次是标准残差散点图、残差的自相关系数图、Ljung-Box检验的P值散点图。可以看105 到Ljung-Box检验中有少数P值处在虚线下方,说明不是所有的残差项都通过了自相关检验。 图5 对财政收入对数序列ARIMA(0, 1, 10)模型的诊断展示 110 使用同样的方法,我们分别对拟合的ARIMA(1, 1, 6),ARIMA(2, 1, 6),ARIMA(3, 1, 6),ARIMA(5, 1, 4),ARIMA(6, 1, 5)模型进行残差分析,得到的诊断展示图依次如下所示: 图6 对财政收入对数序列ARIMA(1, 1, 6)模型的诊断展示 115 图7 对财政收入对数序列ARIMA(2, 1, 6)模型的诊断展示 120 图8 对财政收入对数序列ARIMA(3, 1, 6)模型的诊断展示 125 图9 对财政收入对数序列ARIMA(5, 1, 4)模型的诊断展示 图10 对财政收入对数序列ARIMA(6, 1, 5)模型的诊断展示 130 从以上图中可以看出模型ARIMA(3, 1, 6),ARIMA(5, 1, 4),ARIMA(6, 1, 5)的拟合效果较好,拟合模型的残差满足纯随机性假设,说明已将有用的信息充分提取。在此三种模型下,使用极大似然估计法,分别估计模型的参数,所得结果如下所示: 表3 财政收入对数序列ARIMA(3, 1, 6)模型的估计结果 135 表4 财政收入对数序列ARIMA(5, 1, 4)模型的估计结果 表5 财政收入对数序列ARIMA(6, 1, 5)模型的估计结果 140 分别运用以上三个模型对2010,2011以及2012我国的财政收入对数序列进行预测,得到的预测结果如下表所示: 145 表6 三模型各自的预测结果对比表 ARIMA(3, 1, 6) ARIMA(5, 1, 4) ARIMA(6, 1, 5) 2010年 预测值(亿元) 83854.63 87760.78 85297.46 实际值(亿元) 83101.51 83101.51 83101.51 相对误差 -0.00906 -0.05607 -0.02642 2011年 预测值(亿元) 101830.00 113455.96 114627.15 实际值(亿元) 103874.43 103874.43 103874.43 相对误差 0.01968 -0.09224 -0.10352 2012年 预测值(亿元) 120658.56 143603.31 146846.04 从表中可以看到,用模型ARIMA(3, 1, 6)预测得到2010年与2012年的预测值与实际值的相对误差分别为-0.00906,0.01968,在三个模型的预测误差中最小,故而我们选择出150 ARIMA(3, 1, 6)为最优模型来进行预测。 将所得的预测值与真实值更加直观的放在同一散点图中,如图11所示: 图11 财政收入对数序列的预测图 图中红色三角形表示模型所预测出的2010,2011以及2012年我国财政收入的取对数后的值,实心黑点表示2010和2011年的实际值,虚线所表示的是2010,2011,2012三年的预测极限,从图中可以看出2010与2011年位置上的红色三角形与实心黑点相互重叠,说明预测值与真实值非常接近。 4 结论 160 本文利用时间序列相关理论对1950年至2009年我国财政收入数据进行了分析,首先从备选的6个ARIMA模型中筛选出了3个拟合效果较好的模型,然后分别利用选出的这3个模型对2010,2011以及2012年我国财政收入进行了预测,将各个模型的预测值与真实值对比后发现模型ARIMA(3, 1, 6)的预测结果的相对误差最小,故而最终我们选择该模型进行预测。而且对比模型ARIMA(3, 1, 6)下2010与2011年的相对误差,可以明显看出2010年的165 相对误差更小,为-0.00906,这是由ARIMA模型的先天缺陷所决定的,因为随着预测期的延长,当期对预测期的影响是逐渐减小的。 [参考文献] (References) [1] 王黎明,王连,杨楠. 应用时间序列分析[M]. 上海:复旦大学出版社,2009. 170 [2] 石美娟. ARIMA模型在上海市全社会固定资产投资预测中的应用[J]. 数理统计与管理,2005(1):69-74. [3] 王燕. 应用时间序列分析[M]. 北京:中国人民大学出版社,2005:145-147. [4] 郑鹏辉,单锐,陈静. 时间序列分析在我国财政收入预测中的应用[J]. 重庆文理学院学报(自然科学版),2008,27(2):15-18. [5] Jonathan D. Cryer, Kung-Sik Chan. 时间序列分析及应用:R语言[M]. 潘红宇 等译. 北京:机械工业出175 版社,2011. [6] 戴林送. 我国社会商品零售价格指数的短期预测[J]. 吉林省经济管理干部学院学报,2003,17(2):11-13. [7] 谷雪,孙德山. 时间序列模型在我国财政收入分析中的应用[J]. 阜阳师范学院学报(自然科学版),2010,27(2):10-13. 180 学术论文网Tag:代写硕士论文 代写论文 代写代发论文 代发论文 |