基于灰色关联度和灵敏度分析的支持向量 机股价走势预测研究 陶龙,冯勤超** 作者简介:陶龙,(1988-),女,硕士研究生,研究方向为金融工程。 通信联系人:冯勤超,男,副教授,数据挖掘。E-mail: fengqinchao@163.com 5 (东南大学经管学院,南京 211189) 摘要:基于股价走势研究对大众投资者研究股票有着重要的作用,采用基于改进的粒子群优 化算法支持向量机预测上证指数走势。提出了一种基于灰色关联度分析和灵敏度分析相结合 的方法来进行优化刷选影响股价走势的各个因子,然后采用支持向量机进行学习预测。以上 证综合指数为研究对象进行仿真,实证研究表明,基于过去的交易指标和技术指标预测股价 10 有一定的迟延性,但可进行短期走势预测预测,对股票投资研究来说具有很大的指导意义。 关键词:灰色关联度;灵敏度分析;支持向量机;趋势预测 中图分类号:C93 Prediction of Prediction of stock prices based on gray 15 correlation degree and sensitivity analysis of the support vector machine Tao Long, Feng Qinchao (Southeast University, NanJing 211189) Abstract: Research based on the trend of the market trend plays an important role on 20 stockers.Propose a method based on combination of Grey Relational Analysis and sensitivity analysis to optimize the brush selected various factors that affect stock prices,and then use the support vector machine to predict.Simulation ased on the Shanghai Composite Index is to show a certain delay on the last trading indicators. but the short-term trend forecasts predict has a great guiding significance for stock investment research. 25 Keywords: Gray related degree; sensitivity analysis; support vector machines; trend forecasting 0 引言 近几年,股市的波荡起伏和一次次的金融危机让人们认识到股市走势预测研究的重要 性。典型的金融预测是基于时间序列的预测,从统计学的角度对时间序列进行研究。二十世 30 纪80 年代以前,人们对时间序列的研究都是基于线性的。常用的为回归模型(AR)、移动 平均模型(MA)、自回归移动平均模型(ARMA)和单积自回归移动平均模型(ARIMA)等。 然而金融时间序列本质上是非线性、非平稳的,传统的时间序列不能解释其内在的本质特征 [1]。针对上述模型的缺陷以及人工智能技术的发展,提出了基于人工神经网络的股票预测方 法,它具有很强的非线性逼近能力,但容易陷入局部最小。一些研究表明,人工神经网络对 35 高噪声和高维的时间序列数据受到较强的限制,且大量参数的设置是凭经验来设定。相对于 神经网络的经验风险最小化,支持向量机提出了结构风险最小化。它克服了传统的‘过学习’ 和‘维数灾难’等缺点[2],具有很好的泛化能力,为股市趋势预测提供了有效地办法。 1 预测模型的构建 1.1 样本的选取和规模的确定 40 样本选取就是选取用来进行预测的数据,主要是通过对目标变量和影响因子历史数据的 收集,以便用来进行预测。好的样本数据不仅能够反应股票市场规律,更能提高股价预测的 精确度。根据股票市场运动的周期性,研究可以分为长期、中期以及短期研究。不同趋势的 研究,所考虑的因素和数据的规模也不尽相同。本文主要针对股市短期研究,故数据选取 100 左右。 45 1.2 变量的选择和优化 基于历史总会重演,通过研究各种指标的历史关系,从而判断股价走势。但是股价序列 存在高度复杂的非线性关系,股价走势受诸多因素的干扰,因而很难选取相关的指标。且各 指标只反映某个方面的信息和趋势,很难通过少数指标来反映出所有信息。而过多指标则会 带来‘维数灾难’,且各指标之间的相关性、冗余性降低了预测模型的精确度。为了降低上 50 述因素的不利影响和噪声数据的干扰,提高预测模型的精确度,有必要对变量的选择进行优 化。目前变量相关性分析方法主要有主成分分析法(PCA)、典型相关分析(CCA)、方差 分析、独立成分分析(ICA)和灰色关联度分析(GRA)[3]。其中,主成分分析、典型相关 分析、方差和独立成分分析都是基于线性关系进行分析,然后通过某种变换方式组合或分解, 得到一组新的变量。股价序列具有非线性和时变性,基于传统的线性关系分析师不合理的。 55 且新的变量只反映绝大多数信息,但是还是有少量的信息丢失。而灰色关联度分析从系统的 角度出发来研究数据间的关系,研究系统序列曲线的集合接近程度来判定因素之间的关系。 即曲线的几何接近程度越高,则他们之间的关系就越好。相比于其他分析方法,灰色关联度 分析对样本数据的规模和分布没有要求,且计算简单易行。 1.2.1 灰色关联度分析 60 本文采用邓氏关联度进行计算,其步骤如下: 第一:确定参考序列0 X 和比较序列i X 。本文参考序列为收盘价,比较序列为各指标数 据。 第二:对参考序列和比较序列进行无量纲化处理。无量纲化处理有三种,即初值法、均 值法和标准法。一般情况下,对于稳定增长趋势的序列采用初值变换,本文考察股价短期趋 65 势研究,短期内股价不会明显增长。且一般采用前两种变换,因此本文采用均值法进行变换。 即: '( ) ( )/ i i i X k =X k X ;i=0,1,2,…,m;k=1,2,…,n 其中i X 表示i X 平均值。有上述公式得出无量纲化的参考序列和比较序列' i X 。 第三:求比较序列与参考序列的差序列i Δ 。 70 第四:算出两极差,即所有差序列中元素的最大值和最小值。令 min minmin i( ) i k Δ = Δ k max maxmax i( ) i k Δ = Δ k ; 第五:求各因素的关联系数。min max 0 max ( ) ( ) i i k k ρ γ ρ Δ + Δ = Δ + Δ ,其中ρ 为分辨系数,通常取 0.1~0.5。 第六:计算各因素的关联度。0 0 1 1 ( ) n i i k k n γ γ = 75 = Σ ;i=1,2,…,m。 通过比较各因素的关联度,对各因素变量进行初步刷选。由于灰色关联度只是对模型进 行粗略分析,有必要对其精确分析。 1.2.2 灵敏度分析 灵敏度分析是通过对各个因素对最终结果的影响程度来判定因素对目标变量的相关性。 80 其最简单的方法就是采取变量的加入或剔除,然后根据两者之间预测误差的变化来进行选 取。 尽可能的全面考虑各因素指标,本文首先选取大量指标。利用灰色关联度对其进行相关 性分析。考虑去除对目标变量影响较小的指标,然后对其灵敏度分析。采用向后刷选变量, 每次都删除一个变量,并进行预测。通过与初始误差对比来进行变量的抉择。这样就避免误 85 删变量造成信息的损失。 1.3 运用改进的PSO 支持向量回归机进行预测 SVM 是由Vapnik[4]等人于1995 年首先提出的,它是基于统计学理论发展而来。支持向 量在处理非线性数据时,采用合适的核函数将其映射到高维特征空间,通过高维特征空间将 数据转为线性进行回归运算,从而巧妙的解决了复杂计算问题。其原理如下: 先将样本x 通过非线性函数φ(x)映射到高维空间,在高维空间采用核函数( , ) i j 90 K x x 代 替其内积向量( ) ( ) i j φ x ⋅φ x [5]。将非线性回归问题转换为 1 1 1 1 1 max ( , ) 1 ( )( ) ( , ) ( ) ( ) 2 ( )0 , [0, ] 1,2,..., k k k k i i j j i j i i i i i i j i i k i i i i i L Kx x y c i k α α α α α α α α ε α α α α α α ∗ ∗ ∗ ∗ ∗ = = = = ∗ = ∗ = − − − + + − ⎧ − = ⎪⎨⎪ ⎩ ∈ = ΣΣ Σ Σ Σ 其对应的回归函数为: 1 ( ) ( ) ( , ) k i i i j i f x α α ∗ K x x b = =Σ − + 95 在模型的构建中,本文选择径向基函数作为支持向量机的核函数,研究表明SVM 的性 能取决于核函数的参数以及惩罚参数的选择,选择不同的参数会直接影响到SVM 模型的推 广能力。 因此,研究SVM 参数选择的方法对SVM 的发展具有重要的意义。 传统参数的确定是采取大量而又直观的实验,但是这种方法比较费时,且不能确定参数 100 为最优。Chapelle 提出用梯度下降法确定SVM 参数的选择,虽然在计算速度得到了改善, 但是梯度下降法是一种线性搜索法,容易陷入局部最优。Zhen 提出了采用遗传算法(GA)选 择参数,采用遗传算法能够有效解决复杂寻优问题,但是收敛速度较慢。与GA 相比,粒子 群优化算法收敛速度较快,且维数变化对算法影响较小。 1.3.1 改进的粒子群优化算法(PSO)原理以及参数优化 105 粒子群优化算法是一种智能优化算法,由Kennedy 和Eberhart 于1995 年首次提出。它 起源于鸟群捕食行为的研究。pso 初始化一群粒子,每个粒子都有自己的速度和位置,多个 粒子通过迭代寻找最优解。在每一迭代中,粒子通过两个极值来更新自己。一个极值为粒子 本身找到的最优解(pbest),还有一个是整个粒子群找到的最优解(gbest)。粒子更新的公式 如下: v = w*v+c1*r1*(p 110 best-p)+c2*r2*(gbest-p) p = p + v 其中:c1 和c2 为学习因子,通常取c1=c2=2,r1 和r2 为[0,1]的随机数。研究表明,若学 习因子和最大速度参数太大,粒子群可能错过最优解从而导致算法不收敛。而在收敛的情况 下,粒子趋于同一化,可能会陷入局部最优。为解决此问题,本文采用线性递减的惯性系数, 115 其公式如下: v = w*v+c1*r1*(pbest-p)+c2*r2*(gbest-p) p = p + v w(t)=(w(0)-w(g))*(g-t)/g + w(g) 其中:w(t)为当前的权重,w(g)为最终权重,w(0)为初始权重, t 为当前迭代数,g 为 120 最大迭代数。惯性因子的引入可以使pso 既可以保证算法的收敛性,又能够加快收敛速度, 提高了求解的精确度。 改进的pso 算法实现步骤如下: (1)对pso 进行初始化,包括设置粒子的群体规模,最大迭代数,以及随机初始化粒 等。 125 (2)粒子向量对应的参数决定一个支持向量机模型,用该模型对测试样本进行预测, 通过适应度函数计算每个粒子的适应度值。 学术论文网Tag:代写硕士论文 代写论文 代写MBA论文 |