文档视界 最新最全的文档下载
当前位置:文档视界 › 回归大作业-基于多元线性回归的期权价格预测模型

回归大作业-基于多元线性回归的期权价格预测模型

回归大作业-基于多元线性回归的期权价格预测模型
回归大作业-基于多元线性回归的期权价格预测模型

基于多元线性回归的期权价格预测模型

王某某

(北京航空航天大学计算机学院北京100191)1

摘要:期权是国际市场成熟、普遍的金融衍生品,是金融市场极为重要的金融工具。2015年2月9日,上海证券交易所正式推出了我国首支场内交易期权——上证50ETF期权,翻开了境内场内期权市场的新篇章。50ETF期权上市以来,市场规模逐步扩大,其发展情况境外期权产品相同时期。本文以此为研究背景,以“50ETF购12月1.95”这支期权为研究对象,以今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价为解释变量,通过多元线性回归模型,预测该期权的明日收盘价。本次研究以多元线性回归的全模型(模型1)为出发点,通过异方差检验、残差的独立性检验、误差的正太分布检验以及多重共线性检验,说明该模型不违反回归的基本假设条件。进而通过主成分回归(模型4)和逐步回归(模型5)进行降维,结果表明因变量与解释变量之间存在强烈的线性相关关系,且主成分回归和逐步回归相比全模型有更好的预测能力。

关键词:期权价格多元线性回归50ETF 多重共线性因子分析

一、引言

期权(option)是依据合约形态划分的一种衍生品,指赋予其购买方在规定期限内按买卖双方约定的价格(即协议价格或行权价格)购买或者出售一定数量某种金融资产(即标的资产)的权利的合约。期权购买方为了获得这个权利,必须支付给期权出售方一定的费用,称为权利金或期权价格[1]。

2015年2月9日,上海证券交易所正式推出了我国首支场内交易期权——上证50ETF,翻开了境内场内期权市场的新篇章。期权是与期货并列的基础衍生产品,是金融市场极为重要的金融工具之一。

自50ETF上市以来,市场规模逐步扩大。2015年2月日均合约成交面值为5.45亿元,12月就达到了47.69亿元,增长了7.75倍;2月日均合约成交量为2.33万张,12月就达到了19.81万张,增长了7.5倍;2月权利金总成交额为2.48亿元,12月就达到了35.98亿元,增长了13.51倍[1]。

我国股票市场有上亿的个人投资者,是一个较为典型的散户市场[1]。相较于专业投资机构讲,散户缺乏时间,精力以及专业分析,投资具有很大的投机行为。对于这些投资者来说,期权价格的变动则是他们最为关注的问题,其变化直接影响到自身的收益。在实际情况中,影响股票价格的因素很多,涉及到金融政策、利率政策以及国际市场等因素,其作用机制也相当复杂[2]。因此,对于期权价格预测的研究,则可以降低投资者的投资风险,及时调整投资结构,从而保障自身的收益。

1作者简介:王某某,北京航空航天大学研究生邮箱:bnuwjx@https://www.docsj.com/doc/3e18835083.html,。

本文选择“50ETF购12月1.95(期权代码:10000629)”这支期权作为研究对象,根据过去一个月内期权的交易数据,以今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价为解释变量,通过多元线性回归模型,预测该期权的明日收盘价。

下文由如下几部分构成:

第二部分介绍了本次研究的数据集,包括数据来源、和数据字段;

第三部分重点介绍了各个多元线性回归模型,包括全模型及异方差检验,残差的独立性检验、误差的正太分布检验和多种共线性检验,在第4小节和第5小节分别采用主成分回归和逐步回归对模型加以改善;

第四部分运用第三部分建立的各个模型对期权价格进行了预测;

第五部分对本文研究进行了总结并未来的研究加以展望。

二、数据说明

本次研究的数据来源于Wind资讯金融终端,从上面获取了“50ETF购12月1.95”这支期权自2016年10月24日至2016年11月24日(只包含工作日)共计24日的交易数据。经过整理后得到最终的数据字段,见表1。

表 1 期权交易数据字段

收盘价开盘价最高价最低价结算价

成交额成交量持仓量涨停价跌停价

期权交易数据见附录1。

三、建模

1 符号说明

各个变量及其符号说明见表2。

表 2 各个变量及其符号说明

变量符号

明日收盘价

今日开盘价

今日收盘价

今日最高价

今日最低价

今日结算价

今日成交额

今日成交量

今日持仓量

今日涨停价

今日跌停价

2 解释变量与指标变量的散点图

在建立模型之前,首先利用MATLAB绘制各个解释变量与指标变量(明日收盘价)之间的散点图,观察各个解释变量与指标变量之间的关系,散点图结果见图1。

图 1 各个解释变量与指标变量(明日收盘价)的散点图

通过图一中的散点图可以看出,明日收盘价与今日收盘价、今日开盘价、今日最高价、今日最低价、今日结算价、今日持仓量、今日涨停价以及今日跌停价之间有较为明显的线性关系;而与今日成交额以及今日成交量之间的线性关系并不明显。

3 全模型

通过散点图我们观察到指标变量与各个解释变量之间大致上为线性关系,所以考虑多元线性回归模型进行建模。

3.1 模型建立与求解

首先建立各个解释变量与指标变量的全模型,即考虑如下模型:

式中,,,…,,都是与解释变量无关的未知参数,其中,,…,称为回归系数。

在MATLAB中使用regress函数即可求解此多元线性回归模型,求解结果见表3.

表 3 MATLAB求解全模型结果

回归系数回归系数的估计值回归系数置信区间

0.1555 -0.1938 0.5049

1.8288 -0.9212 4.5787

0.0586 -1.5671 1.6843

0.6199 -0.4249 1.6647

-1.0532 -1.9703 -0.1362

-1.2208 -3.8759 1.4342

0.0000 -0.0000 0.0000

-0.0000 -0.0001 0.0000

-0.0000 -0.0000 0.0000

0.3233 -1.0317 1.6783

0 0 0

= 0.9489 = 26.7989 < 0.0001 = 0.0001

从上表容易看出模型(1)成立,此时指标变量与解释变量满足的回归模型为:

(模型1)

在MATLAB中画出模型1的残差分布,见图2。

除第12个数据外其余残差的置信区间均包含零点,因此第12个点应当视为异常点,将其剔除后重新计算,得到模型2:

图 1 模型1的残差分布

(模型2)

模型2的= 0.9736,= 49.1655,< 0.0001,= 0.0001。

但同时我们发现,各个回归系数的置信区间仍然均包含零点。画出模型2的残差分布,发现又出现了异常点,按照上面的方法剔除异常点直至没有异常点产生。最终一共去掉了5个异常点(分别是2,12,15,22以及23),最终得到模型3:

(模型3)

模型3的= 0.9969,= 281.6079,< 0.0001,< 0.0001。

可见模型2相当显著,各个回归系数的置信区间均不包含零点;但是去除的数据点有5个(总共23个),去除的异常点比较多,容易去除有用信息,所以我们只把模型3作为后期预测的一个对比模型,在之后的分析中,我们只考虑去除第12个异常点的数据。

接下来进行异方差检验,残差的独立性检验以及多重共线性检验。

3.2 异方差检验

通过SPSS画出残差对预测值的散点图,见图3。

图 2 残差对预测值的散点图

根据图3可以认为数据基本不存在异方差性,即认为随机误差具有相同的方差。

3.3 残差的独立性检验

通过SPSS 的Durbin-watson检验得到DW值为2.545,模型2中解释变量数量k(包括常数项)为7,样本数量n 为22,查DW分布表得到相应的0.510, 2.015。由于

,认为随机误差之间无自相关[3]

3.4 误差的正态分布检验

通过SPSS画出正态P-P图以及回归标准化残差频率分布直方图,见图4。

从上图可以认为误差服从均值为0的正态分布。

3.5 多重共线性检验

多元线性回归模型的基本假设中要求设计矩阵X的列向量之间不存在密切的线性关系[3],如果存在,就称它们之间存在多重共线性。

图 3 误差的正太分布检验图

通过SPSS进行多重共线性诊断,结果如下表。

从上表可以看出绝大部分变量的VIF值远远大于10,说明严重存在多重共线性,针对多重共线性的问题,接下来用主成分分析加以处理。

4 主成分回归

利用MATLAB对这个十个解释变量进行主成分分析,分析过程如下。

1)对原始数据进行标准化处理

即每个元素的值减去该列的均值,然后除以这一列的方差。

2)计算相关系数矩阵R,结果见表

表 5 解释变量的相关系数

1.

00

0.

92

0.

98

0.

96

1.

00

0.

61

0.

50

-0

.88

0.

92

0.

92

0.

92

1.

00

0.

90

0.

96

0.

91

0.

43

0.

31

-0

.88

0.

99

0.

99

0.

98

0.

90

1.

00

0.

94

0.

98

0.

68

0.

58

-0

.88

0.

91

0.

91

表 1 多重共线性诊断结果

0.

96

0.

96

0.

94

1.

00

0.

95

0.

46

0.

34

-0

.84

0.

96

0.

96

1.

00

0.

91

0.

98

0.

95

1.

00

0.

64

0.

54

-0

.88

0.

91

0.

91

0.

61

0.

43

0.

68

0.

46

0.

64

1.

00

0.

99

-0

.54

0.

46

0.

46

0.

50

0.

31

0.

58

0.

34

0.

54

0.

99

1.

00

-0

.45

0.

34

0.

34

-0 .88

-0

.88

-0

.88

-0

.84

-0

.88

-0

.54

-0

.45

1.

00

-0

.86

-0

.86

0.

92

0.

99

0.

91

0.

96

0.

91

0.

46

0.

34

-0

.86

1.

00

1.

00

0.

92

0.

99

0.

91

0.

96

0.

91

0.

46

0.

34

-0

.86

1.

00

1.

00

3)计算特征值和累计贡献率见表6

表 6 各个解释变量的特征根和累计贡献率

变量特征根累计贡献率

8.1030 81.03%

1.5011 96.04%

0.1878 97.92%

0.1553 99.47%

0.0240 99.71%

0.0173 99.89%

0.0074 99.96%

0.0028 99.99%

0.0013 100.0%

0.0000 100.0%

可以看出,前两个特征根的累计贡献率就达到了90%以上,主成分分析效果很好。下面选择前四个主成分(累计贡献率99.47%)进行综合分析。

4)前四个特征根对应的特征向量见表7

表7 前四个特征根对应的特征向量

第1

特征

向量

.34

.33

.35

.34

.35

.23

.19

-

0.32

.34

.34

第2

特征

向量

-

0.03

-

0.22

.05

-

0.18

.01

.61

.68

.05

-

0.20

-

0.20

第3

特征

向量

.07

.04

.09

.26

.06

.10

.01

.93

.14

.14

第4

特征

向量

.45

-

0.36

.27

.18

.43

-

0.14

-

0.18

.01

-

0.40

-

0.40

5)主成分回归模型

求得的主成分回归模型如下:

(模型4)

5 逐步回归

主成分回归求出的主成分是原始变量的线性组合,表示新的综合变量。接下来使用逐步回归的方法来筛选变量。在逐步回归中,决定一个变量时候有必要进入模型或者从模型中剔除时,常用的方法是偏F检验[3],关于偏F检验这里不做赘述。

在MATLAB中使用stepwise函数进行逐步回归[4],运行结果如图5

求得的逐步回归模型如下:

(模型5)

四、预测

接下来我们利用上面求得的模型来进行期权价格预测。

利用模型1、模型2、模型3、模型4和模型5分别预测了11月25日至12月10日的期权价格,11月25日至12月20日的真实期权以及预测结果如表8。

表8 各个模型的预测结果

日期真实数

模型

1

模型

2

模型

3

型4

模型

5

2016-11-2

5

0.5041 0.522

9

0.513

5

0.101

0.49

40

0.52

23

2016-11-2

8

0.5325 0.538

1

0.531

5

0.148

0.51

64

0.52

29

图 4 逐步回归结果

9 5 4 2 03 29

2016-12-2 0 0.3904 0.400

4

0.408

9

0.310

3

0.39

19

0.37

57

各个模型的平均误差以及误差百分比见表9。

表9 各个模型预测结果评价

真实数据模型1 模型2 模型3 模型4 模型5

平均误差0.0414 0.038

5

0.1884 0.0264 0.0301

平均误差百分

9.18% 8.71% 38.84% 6.02% 6.66%

从表8和表9可以看出,模型4(主成分回归)和模型5(逐步回归)的结果最好,而模型3由于去掉了较多的异常点反而导致预测结果不好。接下来不考虑模型3,画出其余4个模型的预测结果与真实数据的折线图,见图6

在图4中,横坐标表示数据的序号,分别与各个日期对应,其中前面24个数据来自训

图 5 4个模型预测结果与真实数据的折线图

练集,故而各个模型的预测结果与实际结果接近;后面的数据则来自测试集,可以看出各个模型的预测结果与实际数据存在一定差异,不过总体趋势与实际数据比较匹配。其中模型4和模型5的预测结果最好。

五、结论

本文从以期权今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价为解释变量,期权明日收盘价为指标变量,建立了多元线性回归模型1,通过异方差检验、残差的独立性检验、误差的正太分布检验以及多重共线性检验,说明该模型不违反回归的基本假设条件。进而通过主成分回归(模型4)和逐步回归(模型5)进行降维,通过预测结果与真实数据的差异比较了各个模型的预测效果,结果表明主成分回归以及逐步回归相比全模型有更好的预测能力。

实际情况中,该期权的当日价格波动一般不会超过15%,而普遍真是情况是8%以内,可见模型4和模型5的预测效果并不理想,今后的研究可以在以下两个方面进行改进:①不断向模型加入得到的最新数据;②运用时间序列模型进行研究。

参考文献

[1]吴清. 期权交易策略十讲[M]. 上海人民出版社, 2016

[2]李珺. 基于因子分析的多元线性回归方法及其在股价预测中的应用[D]. 南京大学, 2014

[3]孙海燕, 周梦, 李卫国, 冯伟. 数理统计[M]. 北京航空航天大学出版社, 2016

[4]司守奎. 数学建模算法与应用(第2版)[M]. 国防工业出版社, 2015

Option price forecasting model based on multiple linear regression

Wang Moumou

School of Computer Science, BeiHang University, Beijing 100191 Abstract: Option is one kind of universal financial derivatives with a mature international market, and it is extremely important financial instrument. On February 9, 2015, the Shanghai Stock Exchange officially launched China's first floor trading options - SSE 50ETF options, opened a new chapter in the domestic market options market. 50ETF options since listing, the market gradually expanded, the development of offshore options products the same period. In this paper, the background of this study, "50ETF purchase December 1.95" this option for the study to today's opening, closing price, the highest price, lowest price, settlement price, volume, turnover, open interest, price and the limit price for the explanatory variables, through multiple linear regression model, the option of the closing price of tomorrow. In this study, the heterogeneity test, residual independence test, error positive distribution test and multicollinearity test were taken as the starting point of the whole model (model 1) of multivariate linear regression to show that the model did not violate the basic assumptions of regression. The results show that there is a strong linear correlation between the dependent variable and the explanatory variable, and the principal component regression and the stepwise regression are better than the whole regression model (step 4) and stepwise regression (model 5). The results show that there is a strong linear correlation between the dependent variable and the explanatory variable, and the principal component regression and stepwise regression have better prediction ability than the whole model.

Keywords: Option price, Multiple linear regression, Multicollinearity, Factor analysis

附录

1 期权交易数据

相关文档