当前位置：文档视界 › 北航数理统计大作业-多元线性回归

北航数理统计大作业-多元线性回归

应用数理统计多元线性回归分析

（第一次作业）

学院：

姓名：

学号：

2013年12月

交通运输业产值的多元线性回归分析

摘要：本文基于《中国统计年鉴》（2012年版）统计数据，寻找影响交通运输业发展的因素，包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等，利用统计软件SPSS对各因素进行了筛选分析，采用逐步回归法得到最优多元线性回归模型，并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验，最后可以利用有效的最优回归模型对将来进行预测。

关键字：多元线性回归，逐步回归，交通运输产值，工业产值，进出口总额1，引言

交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门，包括铁路、公路、水运、航空等运输部门。它是国民经济的重要组成部分，是保证人们在政治、经济、文化、军事等方面联系交往的手段，也是衔接生产和消费的一个重要环节。交通运输业在现代社会的各个方面起着十分重要的作用，因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要，建立有效的数学相关模型对于预测交通运输业的发展，制定相关政策方案提供依据。根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响，故建立一个完整精确的数学模型在理论上基本无法实现，并且在实际运用中也没有必要，一种简单有效的方式就是寻找主要影响因素，分析其与指标变量的相关性，建立多元线性回归模型就是一种有效的方式。

变量与变量之间的关系分为确定性关系和非确定性关系，函数表达确定性关系。研究变量间的非确定性关系，构造变量间经验公式的数理统计方法称为回归分析。回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程，这一数学表达式通常称为经验公式。一方面，研究者可以利用概率统计知识，对这个经验公式的有效性进行判定；另一方面，研究者可以利用经验公式，根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候，还可以通过因素分析，找出哪些自变量对因变量的影响是显著的，哪些是不显著的。

回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。通过对训练数据进行回归分析得出经验公式，利用经验公式就可以在已知自变量的情况下预测因变量的取值。实际问题的控制中往往是根据预测结果来进

行的，如在商品流通领域，通常用回归分析商品价和与商品需求之间的关系，以便对商品的价格和需求量进行控制。

本文查找2012年《中国统计年鉴》取1996年-2011年共16年间的数据，利用SPSS软件对影响交通运输业发展的因素进行讨论构造多元线性线性回归模型。以探求影响交通运输业发展水平的各个因素，得到最优线性回归模型。随后，我们对模型的回归显著性、拟合度、正态分布等分别进行检验，以考察线性回归模型的可信度。

2，基础知识及相关理论

2.1 回归分析

回归分析研究的主要对象是客观事物变量间的统计关系，它是建立在对客观事物进行大量试验和观察的基础上，用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。

在实际问题回归分析模型的建立和分析中有几个重要的阶段：

●根据研究的目的设置指标变量

回归分析模型主要是揭示事物间相关变量的数量联系。首先要根据所研究问题的目的设置因变量Y，然后再选取与Y有统计关系的一些变量作为自变量。

●收集、整理统计数据

回归分析模型的建立是基于回归变量的样本统计数据。当确定好回归模型的变量之后，就要对这些变量收集、整理统计数据。

●确定理论回归模型的数学形式

当收集到所设置的变量的数据之后，就要确定适当的数学形式来描述这些变量之间的关系。如果因变量与自变量的散点图近似一条直线，可考虑用线性回归模型去拟合这条直线，如果二者之间无线性关系，则需要使用非线性模型构造回归模型。

●模型参数的估计

回归理论模型确定之后，便可以利用收集、整理的样本数据对模型的未知参数给出估计。位置参数的估计方法最常用的是普通最小二乘法，它是经典的估计方法。

●模型的检验

当模型的位置参数估计出来后，需要通过对模型的检验才能决定参数估计是

否合适。模型的检验一般需要进行统计检验和模型经济意义的检验。统计检验是对回归方程的显著性检验、以及回归系数的显著性检验，还有拟合优度的检验，残差的独立性检验等。

回归模型的运用

当一个问题的回归模型通过了各种统计检验，且模型具有合理的经济意义时，就可以运用这个模型来进一步研究此问题。在客观问题的研究中，我们需要参数估计的结果和具体经济问题以及现实情况紧密结合，这样才能保证回归模型在客观问题研究中得到正确运用。

2.2 多元回归分析

一元线性回归模型研究的是某一个因变量和一个自变量之间的关系问题，但在实际中，因变量的变化常常受到不止一个自变量的影响，可能同时有两个或两个以上的自变量对因变量的变化产生影响。这种研究某一个因变量和多个自变量之间的相互关系的理论和方法就是多元线性回归分析方法，它是一元线性模型的拓展。

设随机变量Y与个一般变量的线性回归模型可表示为：

称为回归常数，称为偏回归系数，他们决定了因变量Y与自变量的线性关系的具体形式；是随机误差，满足。

如果获得满足条件

的n组观测数据，其中，则线性回归模型可表示为

其中。

上式写成方程组形式为

记，，，

则回归模型成为

2.3 逐步回归法

在实际问题中, 人们总是希望从对因变量有影响的诸多变量中选择一些变量作为自变量, 应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。所谓“最优”回归方程, 主要是指希望在回归方程中包含所有对因变量y影响显著的自变量而不包含对y影响不显著的自变量的回归方程。逐步回归分析正是根据这种原则提出来的一种回归分析方法。它的主要思路是在考虑的全部自变量中按其对y的作用大小, 显著程度大小或者说贡献大小, 由大到小地逐个引入回归方程, 而对那些对y作用不显著的变量可能始终不被引人回归方程。另外, 己被引人回归方程的变量在引入新变量后也可能失去重要性, 而需要从回归方程中剔除出去。引人一个变量或者从回归方程中剔除一个变量都称为逐步回归的一步, 每一步都要进行F检验, 以保证在引人新变量前回归方程中只含有对y影响显著的变量, 而不显著的变量已被剔除。

由此可见，逐步回归法是一种向前法和向后法的一种结合，具体步骤是（预先给定一个F出和F进或α出和α进，为避免死循环，要求F出≤F进）：1）逐步回归法的前两部与向前法的前两步相同，并假定已建立了不完全的相关模型；

2）当引入变量X2（X

L2）后，对X1（X

）做偏F检验，看X1是否需要剔除

（即为向后法）：

<1>如果F L1>F出，则不剔除X L1，并继续引入下一个变量；

<2>如果F L1

重复上述步骤，直到所有模型外的变量都不能引入，模型内的变量都不能被剔除为止。

3，模型建立

本文查询了1996年至2011间共16的交通运输业增加值，详细分析了影响交通运输业发展的相关因素，利用统计软件SPSS逐步回归法尝试建立交通运输业增加值与各个因素间的线性回归模型。

3.1 设置变量

近年来，国内交通运输业得到了大力发展，交通运输业产值可以作为衡量交通运输业发展水平的重要指标，本文设置交通运输业产值作为指标变量。交通运输业作为为国民经济服务的第三产业，其发展受到工农业的发展、能源生产的影响，同时国内外贸易交流水平近年来也深刻影响了运输业的发展，作为交通运输主要对象的居民，居民消费水平、旅游花费等也影响了运输业的发展。经过分析，本文选择农业生产总值、工业生产总值、能源生产总量、进出口总额、居民消费价格指数、国民旅游总花费以及交通运输年客运量共7个因素作为解释变量研究交通运输业的发展。

各变量具体设置为：

解释变量：

X1：农业生产总值（亿元）

X2：工业生产总值（亿元）

X3：能源生产总量（万吨标准煤）

X4：进出口总额（亿元）

X5：居民消费价格指数

X6：国民旅游总花费（亿元）

X7：客运量（万人）

指标变量：

Y：交通运输增加值（亿元）

3.2 数据收集和整理

本文所用数据均来源于《中国统计年鉴》（2012年），选取1996年-2011数据作为回归模型样本。数据见表1所示。

表 1 1996年-2011年各变量数据

4，数据处理与分析

本文基于表1数据样本建立多元线性回归模型并进行检验，研究思路为：首先对解释变量进行相关性分析筛选主要影响因素，然后利用逐步回归法，取显著性水平采用SPSS软件对回归系数进行估计，最后从回归方程显著性、拟合度以及残差三个方面对模型进行检验，证实模型的有效性。

4.1 初步确定理论回归模型

研究指标变量与各个解释变量的相关性可以利用散点图直观分析剔除相关性不显著的因素，也可以利用SPSS软件直接计算Pearson相关系数筛选主要影响因素。本文利用SPSS软件计算各因素相关系数如表2所示。

表 2 各影响因素与指标变量的相关系数

相关系数可以数值的方式精确的反应两个变量间线性关系的强弱，样本相关系数为r，|r|>0.8时认为高度相关，0.5<|r|<0.8中度相关，0.3<|r|<0.5低度相关，|r|<0.3相关程度极弱，可视为不相关。从表2中可知，Y与X5相关系数为0.305，相关程度很弱，在建立回归模型中可以忽略该因素的影响；而Y与其他因素都高度相关，从相关性选取回归模型主要影响因素X2、X3和X4。图1与图2分别表示指标变量Y与解释变量X5和X2的散点图，从图中也可直观分析出影响Y变量的X变量的线性相关性。

图 1 Y 与X5散点图

图 2 Y 与X2散点图

交通运输业产值与居民消费价格指数相关性很弱，这是因为居民消费价格指数反映的是一定时期内城乡居民做购买的生活消费品和服务价格变动趋势和程度，居民消费水平受到多种因素影响，不能以它作为影响交通运输业发展的主要线性因素。而交通运输业的发展主要受益于工业水平的发展，以及能源生产水平的发展，近年来受国内外贸易交流影响增大，故选这三个主要因素作为回归模型分析。回归模型建立为：0234234Y X X X ββββε=++++ 4.2 模型参数估计

确定主要影响因素X2、X3和X4后，采用逐步回归法，取显著性水平使用SPSS 软件对原始数据作线性回归分析，得到最优回归方程，逐步回归法得到回归系数表如表3所示。

表 3 模型回归系数表

逐步回归模型中采用F检验引入解释变量显著性水平阈值

10.05

α=，剔除解

释变量显著性水平

20.1

α=。从表3可知逐步回归得到两个模型，其中模型2为最优模型，回归方程为：

?1676.2090.0820.0244

Y X X

=++

由回归方程可知，对Y有显著影响的是X2和X4，即影响交通运输业产值的主要因素时工业产值与进出口总额，换句话说就是影响交通运输业发展的主要因素时工业水平的发展与国家进出口贸易水平。回归方程中回归系数都为正值，说明工业水平的发展与国家进出口贸易水平的发展都有利于发展交通运输业。直观而言，交通运输业的发展离不开一个国家的工业发展，工业的发展一方面为交通运输业提供了流通的产品与资源，使得交通运输业得以生存发展；另一反面工业的发展为交通运输业提供了大量先进快速的交通工具，加速了交通运输业的发展。另一个重要的影响因素—进出口贸易水平是近年来我国与国外市场贸易交流得到大力发展，国内大量产品外销海外，这极大的刺激了交通运输业的发展，可以预见这一因素在将来将越来越重要的影响到交通运输业的发展。

表 4 逐步回归模型排除变量

值得注意的是，如表4所示，最优模型2中将X3这一因素剔除，表明交通

运输业的发展一定程度上与能源生产总量没有显著性关系。从这一个层面说明能源的发展水平并没有限制交通运输的发展，从市场供求关系而言国内交通运输业的发展需求大于现有运力的供给。

4.3 模型检验

4.3.1 回归方程的显著性检验

对回归方程的显著性检验就是要看自变量、、…从整体上对随机变量Y是否有明显的影响，显著性检验有两种方法：一是回归方程显著性的F检验，二是回归系数显著性的t检验。这里仅对F检验进行论述，t检验原理相同。

F检验原假设假定自变量系数

当所构造F检验统计量

时拒绝原假设，认为回归方程显著；或

时，拒绝原假设，回归方程显著。

选定显著性水平0.05

α=，利用SPSS软件计算出的方差分析表如表5所示。

表 5 方差分析表

模型平方和df均方F Sig.

1回归489709393.9841489709393.9841280.449.000b 残差5354318.86214382451.347

总计495063712.84615

2回归491594380.4462245797190.223921.031.000c 残差3469332.40013266871.723

总计495063712.84615

a. 因变量: y

b. 预测变量: (常量), x2。

c. 预测变量: (常量), x2, x4。

从表5可知，显著性P值（即表中Sig值）均小于0.05，因此拒接原假设，回归方程线性回归效果显著。

4.3.2 拟合度检验

拟合度用于检验回归方程对样本观测值的拟合程度，其值越大说明随机误差所占的比重越小，回归的效果越显著。可决系数也称拟合优度定义为：

2yy

r L =

通产定义r 为相关系数：

L r =

它描述了指标变量与解释变量之间的线性相关程度。

r 与2r 值越接近1，说明回归方程对样本观测值拟合得很好，表6所示为模

型相关系数值。

表 6 模型相关系数表

由表6可知，模型2相关系数20.993r =和0.996r =比模型的相关系数大，表明模型2拟合效果最好，模型2得到的回归方程是最优方程。 4.3.3 残差检验

如图3和图4分别是残差分布直方图和观测量累计概率P-P 图。在回归分析中，总是假定残差服从正态分布，这两个图就是根据样本数据的计算结果显示残差分析的实际情况。从图3残差分布的直方图与附于其上的正态分布曲线的比较，可以观察出残差分析的正态性。观测量累计概率P-P 图也是用来比较残差分布与正态分布差异的图形，图4的纵坐标为期望累计概率分布，横坐标为观测累计概率分布，图中的斜线对应着一个均值为0的正态分布，从而证明样本确实是来自正态总体。否则应怀疑随机变量残差的正态性。

图 3 残差分布直方图

图 4 观测量累计概率P-P图

4.4 结果分析

由以上多元回归模型建立过程可知，对影响指标变量交通运输业产值Y的各个因素进行了样本线性相关筛选与逐步回归F检验筛选，最终确定影响交通运输发展的两个主要因素：工业发展水平X2与进出口贸易水平X4。得到回归方程：

?1676.2090.0820.0244

=++

Y X X

其中相关系数0.996

r=。

正如前面筛选变量分析一样，交通运输业的发展离不开一个国家的工业发

展，工业的发展一方面为交通运输业提供了流通的产品与资源，使得交通运输业得以生存发展；另一反面工业的发展为交通运输业提供了大量先进快速的交通工具，加速了交通运输业的发展。近年来我国与国外市场贸易交流得到大力发展，进出口贸易额大幅提升，国内大量产品外销海外，这极大的刺激了交通运输业的发展，可以预见这一因素在将来将越来越重要的影响到交通运输业的发展。

同时回归模型也揭示了交通运输业的发展一定程度上与能源生产总量没有显著性关系。从这一个层面说明能源的发展水平并没有限制交通运输的发展，从市场供求关系而言国内交通运输业的发展需求大于现有运力的供给。

模型经检验，符合理论上的有效性，可以尝试使用该回归模型预测将来交通运输业的发展水平，为制定相关政策方案提供一定的参考。

5，总结

本文通过查阅资料，获取了比较完整全面的数据，根据经验选取影响交通运输业发展的一些因素，并通过相关性分析进行筛选得到主要因素，逐步回归法建立得到的最优模型经检验相关性显著，可以尝试用于预测2012年交通运输业产值，进一步验证模型的有效性，为制定相关政策方案提供一定的依据。

通过对交通运输业产值的多元线性回归分析以及统计软件SPSS的运用，初步掌握了一般简单问题的多元线性分析方法，同时对多元线性回归的相关理论有了进一步的认识，必定有益于今后的学习与工作。

参考文献

[1]孙海燕,周梦,李卫国,冯伟. 应用数理统计[M]. 北京:北京航空航天大学数

学系, 2011.

[2]张建同,孙昌言. 以Excel和SPSS为工具的管理统计[M]. 北京:清华大学出

版社，2002.

[3] 国家统计局.2012年中国统计年鉴[M]. 中国统计出版社，2012.