文档视界 最新最全的文档下载
当前位置:文档视界 › 经典经济计量模型线性回归模型

经典经济计量模型线性回归模型

经典经济计量模型线性回归模型
经典经济计量模型线性回归模型

计量经济学(Ⅰ)

南开大学经济学院教授、数量经济学专业博士生导师张晓峒

一元线性回归模型

1.一元线性回归模型

有一元线性回归模型(统计模型)如下,

y t = β0 + β1 x t + u t

上式表示变量y t 和x t之间的真实关系。其中y t 称被解释变量(因变量),x t称解释变量(自变量),u t称随机误差项,β0称常数项,β1称回归系数(通常未知)。上模型可以分为两部分。(1)回归函数部分,E(y t) = β0 + β1 x t,(2)随机部分,u t。

图2.1 真实的回归直线

这种模型可以赋予各种实际意义,收入与支出的关系;如脉搏与血压的关系;商品价格与供给量的关系;文件容量与保存时间的关系;林区木材采伐量与木材剩余物的关系;身高与体重的关系等。

以收入与支出的关系为例。假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。但实际上数据来自各个家庭,来自各个不同收入水平,使其他条件不变成为不可能,所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。随机误差项u t中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。所以在经济问题上“控制其他因素不变”是不可能的。

回归模型的随机误差项中一般包括如下几项内容,(1)非重要解释变量的省略,(2)人的随机行为,(3)数学模型形式欠妥,(4)归并误差(粮食的归并)(5)测量误差等。

回归模型存在两个特点。(1)建立在某些假定条件不变前提下抽象出来的回归函数不能百分之百地再现所研究的经济过程。(2)也正是由于这些假定与抽象,才使我们能够透过复杂的经济现象,深刻认识到该经济过程的本质。

通常线性回归函数E(y t) = β0 + β1 x t是观察不到的,利用样本得到的只是对E(y t) = β0 + β1 x t 的估计,即对β0和β1的估计。

在对回归函数进行估计之前应该对随机误差项u t做出如下假定。

(1) u t 是一个随机变量,u t 的取值服从概率分布。

(2) E(u t) = 0。

(3) D(u t) = E[u t - E(u t) ]2 = E(u t)2 = σ2。称u i 具有同方差性。

(4) u t 为正态分布(根据中心极限定理)。 以上四个假定可作如下表达。u t ~ N (0, σ 2 )。

(5) Cov(u i , u j ) = E[(u i - E(u i ) ) ( u j - E(u j ) )] = E(u i , u j ) = 0, (i ≠ j )。含义是不同观测值所对应的随机项相互独立。称为u i 的非自相关性。

(6) x i 是非随机的。

(7) Cov(u i , x i ) = E[(u i - E(u i ) ) (x i - E(x i ) )] = E[u i (x i - E(x i ) ] = E[u i x i - u i E(x i ) ] = E(u i x i ) = 0. u i 与x i 相互独立。否则,分不清是谁对y t 的贡献。

(8) 对于多元线性回归模型,解释变量之间不能完全相关或高度相关(非多重共线性)。

在假定(1),(2)成立条件下有E(y t ) = E(β0 + β1 x t + u t ) = β0 + β1 x t 。 2.最小二乘估计(OLS ) 对于所研究的经济问题,通常真实的回归直线是观测不到的。收集样本的目的就是要对这条真实的回归直线做出估计。

怎样估计这条直线呢?显然综合起来看,这条直线处于样本数据的中心位置最合理。怎样用数学语言描述“处于样本数据的中心位置”?设估计的直线用

t y ?=0?β+1

?β x t 表示。其中t y ?称y t 的拟合值(fitted value ),0?β和1

?β分别是 β0 和β1的估计量。观测值到这条直线的纵向距离用t u

?表示,称为残差。 y t =t y ?+t u ?=0?β+1

?β x t +t u ? 称为估计的模型。假定样本容量为T 。(1)用“残差和最小”确定直线位置是一个途径。但

很快发现计算“残差和”存在相互抵消的问题。(2)用“残差绝对值和最小”确定直线位置也是一个途径。但绝对值的计算比较麻烦。(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。(这种方法对异常值非常敏感)设残差平方和用Q 表示, Q =

∑=T

i t

u

1

2?=

∑=-T

i t t y

y 1

2

)?(=

∑=--T

i t t x y 1

210)??(ββ,

则通过Q 最小确定这条直线,即确定0?β和1?β的估计值。以0?β和1?β为变量,把Q 看作是0?β和1?β的函数,这是一个求极值的问题。求Q 对0?β和1

?β的偏导数并令其为零,得正规方程, 0

?β??Q = 2∑=--T

i t t x y 1

10)??(ββ(-1) = 0 (1)

1

?β??Q = 2∑=--T

i t t x y 1

10)??(ββ(- x t ) = 0 (2) 下面用代数和矩阵两种形式推导计算结果。首先用代数形式推导。由(1)、(2)式得,

∑=--T

i t t x y 1

10)??(ββ= 0 (3)

∑=--T

i t t x y 1

10)??(ββx t = 0 (4)

(3)式两侧用T 除,并整理得,

0?β= x y 1

?β- (5) 把上式代入(4)式并整理,得,

])(?)[(11∑=---T

i t

t

x x y y

βx t = 0 (6) ∑∑==---T

i t t

T

i t t

x x x

x y y

1

1

1

)(?)(β= 0 (7)

1

?β= ∑∑--t

t

t t x x x

y y x )()

( (8)

因为

∑=-T

i t

y y

x 1)(= 0,

∑=-T

i t

x x

x 1

)(= 0,分别在(8)式的分子和分母上减

∑=-T

i t

y y

x 1

)(和

∑=-T

i t

x x

x 1

)(得,

1

?β= ∑∑∑∑------)

()()()(x x

x x x x y y

x y y x t

t

t

t

t t

(9)

=

∑∑---2

)

())((x x y y x x t

t t

(10) 下面用矩阵形式推导

0?βT +1

?β (∑=T

i t x 1

) = ∑=T

i t y 1

?β∑

=T

i t x 1

+1

?β(∑=T

i t

x 1

2

) =

∑=T

i t t y x 1

??????

??∑∑

∑2t t

t x x x T

????????10

??ββ=???????

?∑∑t t t y x y

????????10??ββ

=1

2-???

???

??∑

t t

t x x x T ????

???

?

∑∑t t t y x y =22)(1∑∑-t t x x T ???

?

????--∑∑∑T x x x t t t 2???

?

???

?

∑∑t t t y x y

这种形式在单位根检验的理论分析中非常有用。

3.最小二乘估计量0?β和1

?β的特性 (1) 线性特性

这里指0?β和1?β分别是y t 的线性函数。 1

?β= ∑∑---2

)())((x x y y x x t

t

t

=∑∑∑----2

)

()

()(x x x x

y y x x t

t

t

t

=

∑∑--2

)

()(x x y x x t

t

t

令 k t =

--2

)()

(x x x x t t ,代入上式得

1

?β= ∑ k t y t 可见1

?β是y t 的线性函数,是β1的线性估计量。同理β0也具有线性特性。 (2) 无偏性 利用上式

E(1

?β) = E(∑ k t y t ) = E[ ∑ k t (β0 + β1 x t + u t ) ] = E ( β0 ∑ k t + β1 ∑ k t x t + ∑ k t u t ) = E[β1 ∑ k t (x t -x ) + ∑ k t u t ] = β1 + E(∑ k t u t ) = β1

(3) 有效性

β0, β1的OLS 估计量的方差比其他估计量的方差小。 Gauss-Marcov 定理:

若u t 满足E(u t ) = 0,D(u t ) = σ 2,那么用OLS 法得到的估计量就具有最佳线性无偏性。估计量称最佳线性无偏估计量。最佳线性无偏估计特性保证估计值最大限度的集中在真值周围,估计值的置信区间最小。

上面的评价是对有限样本而言,下面讨论估计量的渐近特性。渐近无偏性,一致性和渐近有效性。先给出渐近分布的概念。

渐近分布。用T 1 < T 2 < …< T N 表示连续递增样本容量。设在每个样本容量T i 下重复抽样。则每个x T i 都应有自己的均值E(x Ti ) 与方差Var (x Ti )。利用递增样本可以求得随机变量序列,

x T = {x T 1, x T 2, …, x T N }

其中每个元素都是相应样本容量下的一个随机变量。当T N 趋于无穷大时,这些分布收敛于某一分布。则称该分布为渐近分布或极限分布。

渐近期望。对于期望值序列,

E(x T ) = {E(x T 1), E(x T 2), …, E(x TN ) }

如随着T → ∞,期望值E(x T )收敛于某一常数μ,则称μ 为x T 的渐近期望。记为 )(T T x E Lim ∞

→= μ (与期望概念不同)

与期望值序列相对应,也可以写出方差序列。

Var(x T ) = E(x T -E(x T ))2 ={E[x T 1 - E(x T 1) ]2, E[x T 2 - E(x T 2) ]2,…, E[x TN - E(x TN ) ]2} 但在许多情形下,E ∞

→T Lim (x T -E(x T ))2 = 0,即x T 的分布退化为一点。例如,已知x 的分布是x ~

N (μ,

T

2

σ)。当T → ∞,Var(x )→0。为防止分布发生退化,可以用T 乘Var(x )。当T → ∞,T Var(x )→σ 2。

渐近方差。若上述随机变量序列有渐近期望,同时有新序列,

E[T (x T - E(x T ) ) 2 ] = {E{T [x T 1 - E(x T 1)]2}, E{T [x T 2 - E(x T 2) ]2 },…, E{T [x TN - E(x TN ) ]2 }} 满足

E ∞

→T Lim [T (x T -E(x T ))2 ] = v

则定义x T 的渐近方差为

T 1E ∞→T Lim [T (x T -E(x T ))2 ]= T

1v 渐近无偏性。若β

?的渐近期望为β,则β?为 β 的渐近无偏估计量,即 )?(T

T E Lim β∞

→= β 一致性 若β?满足(1)渐近无偏性,(2))?(V T

T ar Lim β∞

→= 0,则β?具有一致性,β?为 β 的一致估计量。

渐近有效性。若β?满足(1)具有一致性,(2)与其他估计量的方差相比,β?的渐进方差较小,Var(T β?)< Var(T

β~

),则称β?具有渐近有效性。 OLS 估计量都能满足上述渐近特性,但满足渐近特性的估计量不见得是最佳线性无偏

估计量。

注意:分清4个式子的关系。 (1) 真实的统计模型,y t = β0 + β1 x t + u t

(2) 估计的统计模型, y t =0?β+1

?β x t +t u ? (3) 真实的回归直线,E(y t ) = β0 +β1 x t

(4) 估计的回归直线,t y ?=0?β+1

?β x t

4.OLS 回归直线的性质 (1) 残差和等于零,∑t u

?= 0 由正规方程2∑ (y t -0?β-1?β x t ) (-1) = 0得 ∑ (y t -0?β-1

?β x t ) = ∑ (y t -t y ?) = ∑ (t u ?) = 0 (2) 估计的回归直线 t y ? =0?β+1

?β x t 过(x ,y )点。 正规方程 ∑ (y t -0?β-1?β x t ) = 0两侧同除样本容量T ,得y =0?β+1

?βx 。得证。

(3) y t 的拟合值的平均数等于其样本观测值的平均数,t y ?=y 。 t y

?=T 1∑t y ?= T 1

∑ (0?β+1?β x t ) = 0?β+1

?βx = y 。得证。 (4) Cov(t u

?, x t ) = 0 只需证明 ∑ ( x t -x )t u ?= ∑ x t t u ?- ∑x t u ?= ∑ x t t u ?= ∑ x t (t y ?-0?β-1

?β x t ) = 0。 上式为正规方程之一。 (5) Cov(t u

?,t y ?) = 0 只需证明 ∑ (t y ?-y )t u ?= ∑t y ?t u ?- ∑y t u ?= ∑t y ?t u ?= ∑t u ?(0?β+1?β x t ) = 0?β∑t u ?+1

?β∑t u ?x t = 0 5.y t 的分布和1

?β的分布 根据假定条件u t ~ N (0, σ 2 ),

E(y t ) = E(β0 + β1 x t + u t ) = β0 + β1 x t + E(u t ) = β0 + β1 x t 。 Var(y t ) = Var (β0 + β1 x t + u t ) = Var (β0 + β1 x t ) + Var (u t ) = σ 2 y t 是u t 的线性函数,所以

y t ~ N (β0 + β1 x t , σ 2 )。

可以证明

E(1?β) = β1, Var (1

?β) = ∑-2

)

(1

x x t σ 2,

1?β是y t 的线性函数(1

?β= ∑ k t y t ),所以 1

?β ~ N (β1, ∑-2

)

(1

x x t σ 2 )。

6.σ 2 的估计

定义

2?σ

= )2()?(2-∑T u t 其中2表示待估参数的个数。可以证明E(2?σ

) = σ 2。2?σ是σ 2 的无偏估计量。因为t u ?是残差,所以2?σ

又称作误差均方。可用来考察观测值对回归直线的离散程度。 1?β和0

?β的估计的方差是 ∧

Var (1?β) = S 2 (1

?β) =∑-2

)

(1

x x t 2?σ

, ∧

Var (0?β) = S 2 (0

?β) =∑∑-2

2

)(x x T x t t 2?σ

7.拟合优度的测量

拟合优度是指回归直线对观测值的拟合程度。显然若观测值离回归直线近,则拟合程度

好;反之则拟合程度差。

图2.3 三种离差示意图

可以证明 ∑ (y t -y ) 2 = ∑ (t y

?-y ) 2

+ ∑ (y t -t y ?)2 = ∑ (t y ?-y ) 2 + ∑ (t u ?)2。 SST (总平方和)= SSR (回归平方和) + SS E (残差平方和)

证明 ∑ (y t -y ) 2 = ∑[ (y t -t y

?) + (t y ?-y )]2 = ∑ (y t -t y ?)2 + ∑ (t y ?-y )2 + 2 ∑ (y t -t y ?) (t y ?-y ) 其中 ∑ (y t -t y ?) (t y ?-y ) = ∑ (y t -t y ?)1?β(x t -x ) =1?β∑ (y t -t y ?) x t -x 1?β∑ (y t -t y ?) =1

?β∑t u ?x t = 0 度量拟合优度的统计量是可决系数(确定系数)。

R 2 =

∑∑--2

2)()?(y y y y

t t = (回归平方和)/(总平方和)= SSR/SST

所以R 2的取值范围是 [0,1]。对于一组数据,SST 是不变的,所以SSR ↑(↓),SSE ↓(↑)。

SSR :旧指回归平方和(r egression s um of s quares ),现指残差平方和(s um of s quared r esiduals )

SSE :旧指残差平方和(e rror s um of s quares (sum of squared errors)),现指回归平方和(e xplained s um of s quares )

8.回归参数的显著性检验及其置信区间

主要是检验 β1 是否为零。通常用样本计算的1

?β不等于零,但应检验这是否有统计显著性。

H 0:β1 = 0; H 1:β1 ≠ 0 在H 0成立条件下, t =

)

?(111

?βββs -=

)

1?

(1?ββs = ∑-2

1

)

(??x x t σ

β

-t α (T-2) 0 t α (T-2)

若 | t | > t α (T -2) ,则 β1 ≠ 0;若 | t | < t α (T -2) ,则 β1 = 0。

还可以利用1

?β估计β1的置信区间。由于 P {

)

?(111

?βββs -≤ t α (T -2) } = 1- α

由大括号内不等式得β1的置信区间

1?β-)?(1

β

s t α (T -2) ≤ β1 ≤1?β+)?(1

βs t α (T -2) 其中)?(1

βs 是)?(2

1

βs

=

∑-2

)(1

x x t 2?σ

的算术根,而其中的σ?是2?σ的算术根。 9.y F 的点预测及其区间预测

下面以时间序列数据为例介绍预测问题。预测可分为事前预测和事后预测。两种预测都

是在样本区间之外进行,如图所示。

对于事后预测,被解释变量和解释变量的值在预测区间都是已知的。可以直接用实际发生值评价模型的预测能力。对于事前预测,解释变量是未发生的。(当模型中含有滞后变量时,解释变量则有可能是已知的。)当预测被解释变量时,则首先应该预测解释变量的值。对于解释变量的预测,通常采用时间序列模型。

预测还分为有条件预测和无条件预测。对于无条件预测,预测式中所有解释变量的值都是已知的。所以事后预测应该属于无条件预测。当一个模型的解释变量完全由滞后变量组成时,事前预测也有可能是无条件预测。例如

t y ?=0?β+1

?β x t -1 当预测T +1期的y t 值时,x t 用的是T 期值,是已知值。

预测还分为静态预测和动态预测。

(1) y F 的点预测。

根据估计的回归函数,得

F y ? =0?β+1

?β x F (2) 单个y F 的区间预测 F y

?的分布是 F y

? ~ N (β0 + β1 x F , σ 2 (1+

T 1

+∑

--2

2)()(x x x x t F ) ) 所以,y F 的区间预测是 F y

? ± [ t α (T -2) σ?∑

--++2

2)()(1

1x x x x T t F ] (3) E(y F ) 的区间预测 E(F y

?) 的分布是

E(F y ?) ~ N (β0 + β1 x F , σ 2

(T 1

+∑

--2

2)()(x x x x t F ) )

则E(y F ) 的区间预测是 F y

? ± [ t α (T -2) σ?∑

--+

2

2)()(1

x x x x T t F ]

10.案例:用回归模型预测木材剩余物(file:b1c3)

伊春林区位于黑龙江省东北部。全区有森林面积218.9732万公顷,木材蓄积量为2.324602亿m 3。森林覆盖率为62.5%,是我国主要的木材工业基地之一。1999年伊春林区木材采伐量为532万m 3。按此速度44年之后,1999年的蓄积量将被采伐一空。所以目前亟待调整木材采伐规划与方式,保护森林生态环境。为缓解森林资源危机,并解决部分职工就业问题,除了做好木材的深加工外,还要充分利用木材剩余物生产林业产品,如纸浆、纸袋、纸板等。因此预测林区的年木材剩余物是安排木材剩余物加工生产的一个关键环节。下面,利用一元线性回归模型预测林区每年的木材剩余物。显然引起木材剩余物变化的关键因素是年木材采伐量。

给出伊春林区16个林业局1999年木材剩余物和年木材采伐量数据如表2.1。散点图见图2.14。观测点近似服从线性关系。建立一元线性回归模型如下:

y t = β0 + β1 x t + u t

表2.1 年剩余物y t 和年木材采伐量x t 数据

林业局名 年木材剩余物y t (万m 3) 年木材采伐量x t

(万m 3) 乌伊岭 26.13 61.4 东风 23.49 48.3 新青 21.97 51.8 红星 11.53 35.9 五营 7.18 17.8 上甘岭 6.80 17.0 友好 18.43 55.0 翠峦 11.69 32.7 乌马河 6.80 17.0 美溪 9.69 27.3 大丰 7.99 21.5 南岔 12.15 35.5 带岭 6.80 17.0 朗乡 17.20 50.0 桃山 9.50 30.0 双丰 5.52 13.8 合计

202.87 532.00

图2.14 年剩余物y t 和年木材采伐量x t 散点图

图2.15 EViews 输出结果

EViews 估计结果见图2.15。建立EViews 数据文件的方法见附录1。在已建立Eviews 数据文件的基础上,进行OLS 估计的操作步骤如下:打开工作文件,从主菜单上点击Quick 键,选Estimate Equation 功能。在出现的对话框中输入y c x 。点击Ok 键。立即会得到如图2.15所示的结果。

下面分析EViews 输出结果。先看图2.15的最上部分。被解释变量是y t 。估计方法是最小二乘法。本次估计用了16对样本观测值。输出格式的中间部分给出5列。第1列给出截

距项(C )和解释变量x t 。第2列给出第1列相应项的回归参数估计值(0?β和1?β)。第3列给出相应回归参数估计值的样本标准差(s(0?β), s(1?β))。第4列给出相应t 值。第5列给出

t 统计量取值大于用样本计算的t 值(绝对值)的概率值。以t = 12.11266为例,相应概率0.0000表示统计量t 取值(绝对值)大于12.1的概率是一个比万分之一还小的数。换句话说,若给定检验水平为0.05,则临界值为t 0.05 (14) = 2.15。t = 12.1>2.15落在了H 0的拒绝域,所以结论是β1不为零。输出格式的最下部分给出了评价估计的回归函数的若干个统计量的值。依纵向顺序,这些统计量依次是可决系数R 2、调整的可决系数2R (第3章介绍)、回归函数的标准差(s.e.,即均方误差的算术根σ?)、残差平方和、对数极大似然函数值(第2章介绍)、

DW 统计量的值、被解释变量的平均数(y )、被解释变量的标准差()(t y s )、赤池(Akaike )信息准则(是一个选择变量最优滞后期的统计量)、施瓦茨(Schwatz )准则(是一个选择变量最优滞后期的统计量)、F 统计量(第3章介绍)的值以及F 统计量取值大于该值的概率。

注意:S.D.和s.e.的区别。s.e.和SSE 的关系。

根据EViews 输出结果(图2.15),写出OLS 估计式如下:

t y

?= -0.7629 + 0.4043 x t (2.64) (-0.6) (12.1) R 2 = 0.91, s. e . = 2.04

其中括号内数字是相应t 统计量的值。s.e .是回归函数的标准误差,即σ

?=)216(?2-∑t u 。R 2是可决系数。R 2 = 0.91说明上式的拟合情况较好。y t 变差的91%由变量x t 解释。检验回归系数显著性的原假设和备择假设是(给定α = 0.05)

H 0:β1 = 0; H 1:β1 ≠ 0

图2.16 残差图

因为t = 12.1 > t 0.05 (14) = 2.15,所以检验结果是拒绝β1 = 0,即认为年木材剩余物和年木材采伐量之间存在回归关系。上述模型的经济解释是,对于伊春林区每采伐1 m 3木材,将平均产生0.4 m 3的剩余物。

图2.16给出相应的残差图。Actual 表示y t 的实际观测值,Fitted 表示y t 的拟合值t y

?,Residual 表示残差t u ?。残差图中的两条虚线与中心线的距离表示残差的一个标准差,即s.e .。通过残差图可以看到,大部分残差值都落在了正、负一个标准差之内。

估计β1的置信区间。由

t = P {

)

?

(111

?βββs -≤ t 0.05 (14) } = 0.95

1

1?ββ-≤ t 0.05 (14) )?(1βs β1的置信区间是

[1?β- t 0.05 (14) )?(1βs , 1

?β+ t 0.05 (14) )?(1βs ] [0.4043 - 2.15 ? 0.0334, 0.4043 + 2.15 ? 0.0334]

[0.3325, 0.4761] (2.65)

以95%的置信度认为,β1的真值范围应在[0.3325, 0.4761 ]范围中。

下面求y t 的点预测和平均木材剩余物产出量的置信区间预测。假设乌伊岭林业局2000年计划采伐木材20万m 3,求木材剩余物的点预测值。

y

?2000 = - 0.7629 + 0.4043 x 2000 = -0.7629 + 0.4043 ? 20 = 7.3231万m 3 (2.66)

s 2(E (y ?2000)) = 2

?σ(T 1+ ∑

--2

2

)()(x x x x F

)

= 4.1453 (16

1+2606.3722)25.3320(2

-) = 0.4546

s (E (y

?2000)) =4546.0= 0.6742 因为

E (y ?2000) = E(0?β+1

?βx 2000 ) = β0 + β1 x 2000 = E(y 2000) t =

)?()(?200020002000y

s y E y

-~ t (T -2)

则置信度为0.95的2000年平均木材剩余物E(y 2000)的置信区间是

y

?2000 ± t 0.05 (14) s (E (y ?2000)) = 7.3231 ± 2.15 ? 0.6742 = 5.8736, 8.7726 (2.67)

从而得出预测结果,2000年若采伐木材20万m 3,产生木材剩余物的点估计值是7.3231万m 3。平均木材剩余物产出量的置信区间估计是在 [5.8736, 8.7726] 万m 3之间。从而为恰当安排2000年木材剩余物的加工生产提供依据。

木材剩余物产出量单点的置信区间的计算。

s 2(

y ?2000) = 2

?σ(1+T 1+ ∑

--2

2)()(x x x x F ) = 4.1453 (1+16

1+2606.3722)25.3320(2

-) = 4.5999

s (y

?2000) = 4.5999= 2.1447 EViews 通过预测程序计算的结果是

木材剩余物产出量单点的置信区间的估计结果是

y

?2000 ± t 0.05 (14) s (y ?2000) = 7.3231 ± 2.15 ? 2.145 = [2.71,11.93] 问题:估计结果中0

?β没有显著性,去掉截距项 β0可以吗? 答:依据实际意义可知,没有木材采伐量就没有木材剩余物,所以理论上β0是可以取零

的。而有些问题就不可以。例如家庭消费和收入的关系。即使家庭收入为零,消费仍然非零。一般来说,截距项的估计量没有显著性时,也不做剔出处理。 本案例剔出截距项后的估计结果是

t y

?= 0.3853 x t (28.3) R 2 = 0.91, s. e . = 2.0

点预测值是

y

?2000 = 0.3853 x 2000 = 0.3853 ? 20 = 7.7060万m 3

附录1:怎样用EViews 通过键盘输入数据

建立新工作文件的方法是从EViews 主菜单中单击File 键,选择New, Workfile 。则打开

一个数据范围选择框(Workfile Range)如图1。需要做出3项选择。

①选择数据性质。数据性质分为:②启始期(Start date)。③终止期(End date)。3项选择完毕后,点击“OK”键。这时,会建立起一个尚未命名的工作文件(Workfile),且处于打开状态。当打开新工作文件或现有工作文件后,可以通过键盘输入数据和追加数据。具体操作如下:

从EViews主菜单中点击Quick键,选择Empty Group功能。这时会打开一个空白表格数据窗口(Group)如图3所示。每一个空格代表一个观测值位置。按列依次输入每一个变量(或序列)的观测值。键入每一个观测值后,可通过按回车键(Enter键)或方向指示键(↓)进行确认。按方向指示键(↓)的好处是在确认了当前输入的观测值的同时,还把光标移到了下一个待输入位置。

每一列数据上方的灰色空格是用于输入变量名的。给变量命名时,字符不得超过16个。

注意:下列名字具有特殊意义,给变量命名时,应避免使用。它们是:ABS,ACOS ,AR,ASIN,C,CON,CNORM,COEF,COS,D,DLOG,DNORM,ELSE,ENDIF,EXP,LOG,LOGIT,LPT1,LPT2,MA,NA,NRND,PDL,RESID,RND,SAR,SIN,SMA,SQR,THEN。

附录2:怎样用EViews预测。

以案例1为例,给定x t = 20,求t y?=?EViews预测步骤如下。

(1)点击Procs键选Change workfile range功能。在弹出的对话框的End data选择框处改为17。点击OK键。

(2)双击工作文件的Sample:1 17区域,在弹出的对话框的Sample range pairs选择框处把16改为1 17。

(3)双击工作文件窗口中的x序列,打开x数据窗口。点击Edit+/-键,使x数据窗口处于可编辑状态。在t =17的x的观测值位置输入20。相当于给定x=20。

(4)打开估计式eq01窗口,点击Forecast键。在S.E. 选择框处填入yfse,表示要y t的预测值(用YF表示)也要y t的预测标准差(用yfse表示)。点击OK键,工作文件窗口中已经出现一个yf序列。双击yf序列,可以看到。y17 = 7.322668。

11.相关理论

相关分析是研究变量间相互关系的最基本方法。从相关分析中引出的相关系数是回归分析的一个基本统计量。掌握它有助于对经济问题和经济计量模型的分析与理解。

11.1 相关的定义与分类

定义:相关(correlation)指两个或两个以上变量间相互关系的程度或强度。

分类:①按强度分

完全相关:变量间存在函数关系。例,圆的周长,L = 2πr。

高度相关(强相关):变量间近似存在函数关系。例,我国家庭收入与支出的关系。

弱相关:变量间有关系但不明显。例,近年来我国耕种面积与产量。

零相关:变量间不存在任何关系。例,某班学生的学习成绩与年龄。

完全相关高度相关、线性相关、正相关弱相关②按变量个数分

按形式分:线性相关, 非线性相关

简单相关:指两个变量间相关

按符号分:正相关, 负相关, 零相关复相关(多重相关和偏相关):指三个或三个以上变量间的相关。

非线性相关负相关零相关

因非线性相关可以转化为线性相关处理,而复相关又可看作是简单相关基础上的拓展,所以后面重点介绍简单线性相关。

11.2 简单线性相关的度量

用简单线性相关系数,简称相关系数(correlation coefficient)度量两个变量间的线性相关强度,用ρ表示。ρ的随机变量表达式是

ρ =

)

(

)

(

)

(

t

t

t

t

y

D

x

D

y,

x

Cov

ρ的统计表达式是

ρ =

=

=

=

-

-

-

-

T

t y

t

T

t x

t

T

t y

t

x

t

y

T

x

T

y

x

T

1

2

1

2

1

)

(

1

)

(

1

)

)(

(

1

μ

μ

μ

μ

=

=

=

=

-

-

-

-

T

t y

t

T

t x

t

T

t y

t

x

t

y

x

y

x

1

2

1

2

1

)

(

)

(

)

)(

(

μ

μ

μ

μ

其中T,总体容量;x t, y t,变量的观测值;μx,μy,变量观测值的均值。

下面解释ρ为什么能对变量间的线性相关强度进行定量度量。

因为ρ表达式的分子是协方差,Cov (x t ,y t);分母是x i和y t的标准差之积。而x t和y t 的标准差不会为零,所以Cov (x t , y t) 是否为零,就决定了ρ是否为零,即标志着变量x t, y t 间是否存在线性相关关系。

但Cov(x t, y t) 有两个缺点:①它是一个有量纲的量,取值容易受测量单位的影响;②取值范围宽,相关性越强,Cov(x t , y t)取值越大。为克服上述缺点,用x t, y t的标准差除Cov(x t , y t),于是就得到相关系数ρ的统计表达式。它是一个无量纲量。

相关系数ρ是对总体而言。当研究某个问题时,所得数据常是一个样本。对样本来说,相关系数常用r表示,即r是总体相关系数ρ的估计值。

r = ρ?=

=

=

=

-

-

-

-

T

t t

T

t t

T

t t

t

y

y

T

x

x

T

y

y

x

x

T

1

2

1

2

1

)

(

1-

1

)

(

1-

1

)

)(

(

1-

1

=

=

=

=

-

-

-

-

T

t t

T

t t

T

t t

t

y

y

x

x

y

y

x

x

1

2

1

2

1

)

(

)

(

)

)(

(

其中T ,样本容量;x t , y t ,变量的观测值;x ,y ,变量观测值的均值。 11.3 相关系数的取值范围

(1) 当两个变量严格服从线性关系时,∣ρ∣= 1。 证:设直线斜率为k , 即y = a + k x 。则有

ρ =

2

2

)

()())((y y x x y y x x t t t t -∑-∑--∑=

2

2

2

)

()()()(x x k x x x x k x x t t t t -∑-∑--∑= 1

(2) 当两个变量不存在线性关系时,| ρ | = 0。

(3)上述是两种极端情形,所以相关系数的取值范围是 [-1,1]。当Cov (x t , y t ) > 0时,则 ρ > 0 (正相关);当Cov (x t , y t )< 0时,则 ρ < 0 (负相关);若Cov (x t , y t ) = 0,则 ρ = 0 (零相关)。

为什么图1为正相关?为什么图2为负相关?用∑ (x t –x ) ( y t –y )解释。

图1 正相关 图2 负相关

例1:考察1986年中国29个省市自治区农作物种植业产值y t (亿元)和农作物播种面积x t (万亩)的相关性(见图1.9)。

例2:考察1978~2000年天津市城镇居民人均消费与人均可支配收入的相关性性(见图1.10)。

图1.9 r = 0.92 图1.10 r = 0.99

11.4 线性相关系数的局限性

(1) 只适用于考察变量间的线性相关关系。也就是说当 ρ = 0时,只说明二变量间不存在线性相关关系,但不能保证不存在其它非线性相关关系。所以变量不相关与变量相互独立在概念上是不同的。

(2) 相关系数的计算是一个数学过程。它只说明二变量间的相关强度,但不能揭示这种相关性的原因,不能揭示变量间关系的实质,即变量间是否真正存在内在联系,因果关系。

所以在计算r 的同时,还要强调对实际问题的分析与理解。

(3) 一般说二变量相关时,可能属于如下一种关系。

① 单向因果关系。如施肥量与农作物产量;对金属的加热时间与温度值。 ② 双向因果关系。如工业生产与农业生产;商品供给量与商品价格。

③ 另有隐含因素影响二变量变化。如市场上计算机销量与电视机销量呈正相关。显然人均收入的增加是一个隐含因素。

④ 虚假相关。如年国民生产总值与刑事案件数呈正相关。显然二变量间不存在因果关系。应属虚假相关。中国和美国某个经济指标高度相关,显然这没有可比性,毫无意义。

(1997-2001,file: 5correlation1)

11.5 简单相关系数的检验

(1) 直接检验(查相关系数临界值表) H 0:ρ = 0; H 1:ρ ≠ 0

用x t 和y t 的样本计算相关系数r ,以自由度f = T - 2查临界值表。检验规则是, 若 | r | > r α (T -2) (临界值),则x t 和y t 相关; 若 | r | < r α (T -2) (临界值),则x t 和y t 不相关。

(2) t 检验

H 0:ρ = 0; H 1:ρ ≠ 0

t = r

s r ρ

-= 2

1)

(2

---T r r ρ~ t (T - 2) 其中2表示涉及两个变量。

若 | t | > t α (T -2) ,则x t 和y t 相关; 若 | t | < t α (T -2) ,则x t 和y t 不相关。

附录: 相关系数临界值表

f α

0.10 0.05 0.02 0.01

0.001 1 0.98769 0.99692 0.999507 0.999877 0.9999988 2 0.90000 0.95000 0.98000 0.99000 0.99900 3 0.8054 0.8783 0.93433 0.95873 0.99116 4 0.7293 0.8114 0.8822 0.91720 0.97406 5 0.6694 0.7545 0.8329 0.8745 0.95074 6 0.6215 0.7067 0.7887 0.8343 0.92493 7

0.5822 0.6664 0.7498

0.7977

0.8982

8 0.5494 0.6319 0.7155 0.7646 0.8721 9 0.5214 0.6021 0.6851 0.7348 0.8471 10 0.4933 0.5760 0.6581 0.7079 0.8233 11 0.4762 0.5529 0.6339 0.6835 0.8010 12 0.4575 0.5324 0.6120 0.6614 0.7800 13 0.4409 0.5139 0.5923 0.6411 0.7603 14 0.4259 0.4973 0.5742 0.6226 0.7420 15 0.4124 0.4821 0.5577 0.6055 0.7246 16 0.4000 0.4683 0.5425 0.5897 0.7084 17 0.3887 0.4555 0.5285 0.5751 0.6932 18 0.3783 0.4438 0.5155 0.5614 0.6787 19 0.3687 0.4329 0.5034 0.5487 0.6652 20 0.3598 0.4227 0.4921 0.5368 0.6524 25 0.3233 0.3809 0.4451 0.4869 0.5974 30 0.2960 0.3494 0.4093 0.4487 0.5541 35 0.2746 0.3246 0.3810 0.4182 0.5189 40 0.2573 0.3044 0.3578 0.3932 0.4896 45 0.2428 0.2875 0.3384 0.3721 0.4648 50 0.2306 0.2732 0.3218 0.3541 0.4433 60 0.2108 0.2500 0.2948 0.3248 0.4078 70 0.1954 0.2319 0.2737 0.3017 0.3799 80 0.1829 0.2172 0.2565 0.2830 0.3568 90 0.1726 0.2050 0.2422 0.2673 0.3375 100 0.1638 0.1946 0.2301 0.2540 0.3211

注: P {| r | > r α ( f ) } = α, 其中α 表示显著性水平, f 表示自由度,r α ( f ) 为临界值。

11.6 偏相关系数

以上介绍了简单线性相关系数,但是当两个变量x t , y t 同时受其它变量z 1t , z 2t , …, 影响时,有必要研究当控制其它变量z 1t , z 2t , …, 不变时,该两个变量x t , y t 之间的相关关系。称这种相关关系为偏相关关系。以3个变量x t , y t , z t ,为例(多于3个变量的情形与此相似。),假定控制z t 不变,测度x t , y t 偏相关关系的偏相关系数定义如下。

t t t z y x ,ρ= 控制z t 不变条件下的x t , y t 的简单相关系数。

因为z t 也是随机变量,一般不容易得到控制z t 为一个常数条件下的x t 和y t 的值。实际计算方法是,从x t , y t 中分别剔除z t 的影响,然后计算相关系数。步骤如下:

(1)求x t 对z t 的回归估计式,

x t =0?β +1

?βz t +t u ? 计算残差,

t u ?= x t -0?β -1

?βz t t u

?中不再含有z t 对x t 的影响。 (2)求y t 对z t 的回归估计式, y t =0?α+1?αz t +t v ? 计算残差,

t v

?= y t -0?α-1?αz t t v

?中不再含有z t 对y t 的影响。则t u ?与t v ?的简单相关系数就是x t 与y t 在剔除z t 的影响后的偏相关系数,即 t t v u r ??=t t t z y x r ,

例2 中央支出与地方支出的偏相关系数

obs 财政收入(INCOME ) 中央支出(X1) 地方支出(X2)

1981 1089.5 602.2 512.8 1982 1124 575.1 578.2 1983 1249 642.5 649.9 1984 1501.9 738.7 807.7 1985 1866.4 836.5 1008.2 1986 2260.3 962.3 1368.6 1987 2368.9 1031.9 1416.6 1988 2628 1060.4 1646.2 1989 2947 1105.2 1935 1990 3312.6 1372.8 2079.4 1991 3610.9 1517.7 2295.8 1992 4153.1 1817.9 2571.8 1993

5088.2 1957.2 3330.2

500

1000

1500

2000

1000

2000

300040005000

6000

INCOME

X1

01000

2000

3000

4000

1000

2000

3000

4000

5000

6000

INCOME

X2

r = 0.9898 r = 0.9984

x 1 = 170.90 + 0.3614 income + RES1 x 2 = -221.49 + 0.6952 income + RES2

(3.9) (23.1) (-6.6) (58.6)

500

1000

1500

2000

1000

2000

3000

4000

X2

X1

-200

-100

100200

-100

-50

50

100

150

R ES2

R ES1

r = 0.99 r = -0.85

11.7 复相关系数

在多元回归中,用偏相关系数可以分别测量被解释变量对每个解释变量的偏相关关系,而复相关系数则是测量被解释变量与全部解释变量的相关关系。假定y t 是被解释变量,解释变量是x t 1, x t 2, …, x t k –1,复相关系数的具体计算过程是

(1)用y t 对x t 1, x t 2, …, x t k -1回归,

y t =0?β +1

?βx t 1 +…+1?-k βx t k -1 +t u ? 求出y t 的拟合值序列t y

?, (2)计算y t 与t y ?的简单相关系数,则称t t y y r ?是y t 与x t 1, x t 2, …, x t k -1的复相关系数。

复相关系数t t y y r ?与简单相关系数r 的区别是简单相关系数r 的取值范围是[-1,1],复相关系数t t y y r ?的取值范围是[0,1]。实际上,复相关系数是可决系数的算术根。

例3:

被解释变量是y t (铅笔年销售量,千万支);解释变量分别是x t 1(自动铅笔年产量,百万支);x t 2(全国人口数,百万人);x t 3(居民年均消费水平,元);x t 4(政策变量)。因政策因素影响铅笔销量出现大幅下降时,政策变量取负值。例如1967、1968年的x t 4值取-2,1966、1969-1971、1974-1977年的x t 4值取-1)。 t y

?= -907.94 - 2.95 x t 1 + 0.31 x t 2 + 170.19 Ln x t 3 + 45.51 x t 4 (-6.4) (-3.7) (4.8) (4.4) (12.6)

R 2 = 0.9885, DW = 2.09, F = 429, s.e. = 10.34

y t 与x t 1, x t 2, Ln x t 3 x t 4的复相关系数是

t t y y r ?=)(,4321x Lnx x x y t r = 0.9942

复相关系数是原回归方程确定系数的算术根。t t y y r ?=2

R =9885.0= 0.9942。

相关系数的EViews 操作。

打开数据窗口。选View/Correlation

得相关系数矩阵如下。

多元线性回归模型的案例分析

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/千 克 X/ 元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/千克 X/元 P 1/(元/ 千克) P 2/(元/ 千克) P 3/(元/千克) 1980 2.78 397 4.22 5.07 7.83 1992 4.18 911 3.97 7.91 11.40 1981 2.99 413 3.81 5.20 7.92 1993 4.04 931 5.21 9.54 12.41 1982 2.98 439 4.03 5.40 7.92 1994 4.07 1021 4.89 9.42 12.76 1983 3.08 459 3.95 5.53 7.92 1995 4.01 1165 5.83 12.35 14.29 1984 3.12 492 3.73 5.47 7.74 1996 4.27 1349 5.79 12.99 14.36 1985 3.33 528 3.81 6.37 8.02 1997 4.41 1449 5.67 11.76 13.92 1986 3.56 560 3.93 6.98 8.04 1998 4.67 1575 6.37 13.09 16.55 1987 3.64 624 3.78 6.59 8.39 1999 5.06 1759 6.16 12.98 20.33 1988 3.67 666 3.84 6.45 8.55 2000 5.01 1994 5.89 12.80 21.96 1989 3.84 717 4.01 7.00 9.37 2001 5.17 2258 6.64 14.10 22.16 1990 4.04 768 3.86 7.32 10.61 2002 5.29 2478 7.04 16.82 23.26 1991 4.03 843 3.98 6.78 10.48 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

经典线性回归模型

2 经典线性回归模型 §2.1 概念与记号 1.线性回归模型是用来描述一个特定变量y 与其它一些变量x 1,…,x p 之间的关系。 2. 称特定变量y 为因变量 (dependent variable )、 被解释变量 (explained variable )、 响应变量(response variable )、被预测变量(predicted variable )、回归子 (regressand )。 3.称与特定变量相关的其它一些变量x 1,…,x p 为自变量(independent variable )、 解释变量(explanatory variable )、控制变量(control variable )、预测变量 (predictor variable )、回归量(regressor )、协变量(covariate )。 4.假定我们观测到上述这些变量的n 组值:( ) ip i i x x y , , , 1 L (i=1,…,n)。称 这n 组值为样本(sample )或数据(data )。 §2.2 经典线性回归模型的假定 假定 2.1(线性性(linearity)) i ip p i i x x y e b b b + + + + = L 1 1 0 (i=1,…,n)。 (2.1) 称方程(2.1)为因变量y 对自变量x 1,…,x p 的线性回归方程(linear regression equation ),其中 ( ) p , k k , , 1 0 L = b 是待估的未知参数(unknown parameters ), ( ) n i i , , 1 L = e 是满足一定限制条件的无法观测的误差项(unobserved error term ) 。称自 变量的函数 ip p i x x b b b + + + L 1 1 0 为回归函数(regression function )或简称为回归 (regression )。称 0 b 为回归的截距(ntercept),称 ( ) p k k , , 1 L = b 为自变量的回归系数 (regression coefficients ) 。某个自变量的回归系数表示在其它条件保持不变的情况下,

一元线性回归模型案例分析

一元线性回归模型案例分析 一、研究的目的要求 居民消费在社会经济的持续发展中有着重要的作用。居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。改革开放以来随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也不断增长。但是在看到这个整体趋势的同时,还应看到全国各地区经济发展速度不同,居民消费水平也有明显差异。例如,2002年全国城市居民家庭平均每人每年消费支出为6029.88元, 最低的黑龙江省仅为人均4462.08元,最高的上海市达人均10464元,上海是黑龙江的2.35倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,居民的收入水平、就业状况、零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我们研究的对象是各地区居民消费的差异。居民消费可分为城市居民消费和农村居民消费,由于各地区的城市与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城市居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。所以模型的被解释变量Y 选定为“城市居民每人每年的平均消费支出”。 因为研究的目的是各地区城市居民消费的差异,并不是城市居民消费在不同时间的变动,所以应选择同一时期各地区城市居民的消费支出来建立模型。因此建立的是2002年截面数据模型。 影响各地区城市居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。为了与“城市居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 从2002年《中国统计年鉴》中得到表2.5的数据: 表2.52002年中国各地区城市居民人均年消费支出和可支配收入

计量经济学模型分析论文

计量经济学模型分析论文 工商101

我国城镇居民储蓄存款影响因素的实证分析 摘要:近年来,随着中国经济的飞速发展,一直保持在高水平上的中国储蓄率受到了越来越多国内外经济学家的关注。高储蓄率给我国经济发展带来充裕资金来源,是支持经济快速增长的重要因素。更为重要的是,源源不断的资金流保证了金融机构的流动性,增强了银行的稳定性。与此同时,也给我国经济发展带来前所未有的挑战,因为,过高的储蓄,必然伴随着投资或消费的不足。所以对影响居民储蓄的主要因素进行分析,才能在制定宏观政策上采取适当的措施,使储蓄率保持在一个适当的水平,促进经济增长。本文利用我国1982年以来的统计数字建立了可以通过各种检验的城镇居民储蓄率的模型。通过对该模型的经济含义分析可以得出可支配收入率对储蓄率的影响不大,还有利率对储蓄率的影响很小,值得注意的是,模型中的基尼系数对城镇居民的储蓄影响是相当大的。

引言(提出问题) 自1949年以来,中国储蓄率随着经济增长和收入水平提高呈不断上升趋势,因而高储蓄率也被认为是解释中国经济高速增长的一个主要因素。虽然高储蓄率总是会导致更高的收入及较高的经济增长率,但并非储蓄率越高越好,必然会存在一个最优的储蓄率。 据统计,我国近年来的实际GDP平均每年增长9%左右,而资本的净边际产量即(MPK-δ),约为0.9%。我国的资本收益(MPK-δ)=每年0.9%,大大低于经济的平均增长率(n+g=9%)。可见,我国的资本存量已经远远超过了黄金律水平。也就是说,当前我国的储蓄率和投资水平已经偏高,而消费率则偏低。所以我们应该降低储蓄率,减少投资,把收入的更大份额用于消费,这样就会立即提高消费水平,并最终达到更高消费水平的稳定状态。 那应该如何降低我国的储蓄率呢?下面我们将以城镇居民的数据为例进行分析。

经典单方程计量经济学模型多元线性回归模型

第三章、经典单方程计量经济学模型:多元线性回归模型 一、内容提要 本章将一元回归模型拓展到了多元回归模型,其基本的建模思想与建模方法与一元的情形相同。主要内容仍然包括模型的基本假定、模型的估计、模型的检验以及模型在预测方面的应用等方面。只不过为了多元建模的需要,在基本假设方面以及检验方面有所扩充。 本章仍重点介绍了多元线性回归模型的基本假设、估计方法以及检验程序。与一元回归分析相比,多元回归分析的基本假设中引入了多个解释变量间不存在(完全)多重共线性这一假设;在检验部分,一方面引入了修正的可决系数,另一方面引入了对多个解释变量是否对被解释变量有显著线性影响关系的联合性F检验,并讨论了F检验与拟合优度检验的内在联系。 本章的另一个重点是将线性回归模型拓展到非线性回归模型,主要学习非线性模型如何转化为线性回归模型的常见类型与方法。这里需要注意各回归参数的具体经济含义。 本章第三个学习重点是关于模型的约束性检验问题,包括参数的线性约束与非线性约束检验。参数的线性约束检验包括对参数线性约束的检验、对模型增加或减少解释变量的检验以及参数的稳定性检验三方面的内容,其中参数稳定性检验又包括邹氏参数稳定性检验与邹氏预测检验两种类型的检验。检验都是以F检验为主要检验工具,以受约束模型与无约束模型是否有显著差异为检验基点。参数的非线性约束检验主要包括最大似然比检验、沃尔德检验与拉格朗日乘数检验。它们仍以估计无约束模型与受约束模型为基础,但以最大似然 χ分布为检验统计原理进行估计,且都适用于大样本情形,都以约束条件个数为自由度的2 量的分布特征。非线性约束检验中的拉格朗日乘数检验在后面的章节中多次使用。 二、典型例题分析 例1.某地区通过一个样本容量为722的调查数据得到劳动力受教育的一个回归方程为36 .0 . + = - 10+ 094 medu fedu .0 sibs edu210 131 .0 R2=0.214 式中,edu为劳动力受教育年数,sibs为该劳动力家庭中兄弟姐妹的个数,medu与fedu分别为母亲与父亲受到教育的年数。问

多元线性回归模型案例分析

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的降到1980年,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

, 设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年 年份 @ 人口自然增长率 (%。) 国民总收入 (亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15037 1366 1989 … 17001 18 1519 1990 18718 1644 1991 【 21826 1893 1992 26937 2311 1993 . 35260 2998 1994 48108 4044 1995 — 59811 5046 1996 70142 5846 1997 ~ 78061 6420 1998 83024 6796 1999 【 88479 7159 2000 98000 7858 2001 [ 108068 8622 2002 119096 9398 2003 : 135174 10542 2004 159587 12336 2005 、 184089 14040 2006 213132 16024

计量经济学分析模型

计量经济学分析模型

摘要 改革开放以来,我国经济呈迅速而稳定的增长趋势,由于分配机制和收入水平的变化,城镇居民生活水平在达到稳定小康之后,消费结构和消费水平都出现了一些新的特点。本文旨在对近几年,我国城镇年人均收入变动对年人均各种消费变动的影响进行实证分析。首先,我们综合了几种关于收入和消费的主要理论观点;本文根据相关的数据统计数据,运用一定的计量经济学的研究方法,进而我们建立了理论模型。然后,收集了相关的数据,利用EVIEWS软件对计量模型进行了参数估计和检验,并加以修正。最后,我们对所得的分析结果和影响消费的一些因素作了经济意义的分析,并相应提出一些政策建议。并找到影响居民消费的主要因素。 关键词:居民消费;城镇居民;回归;Eviews

目录 摘要.................................................................. II 前言. (1) 1 问题的提出 (2) 2 经济理论陈述 (3) 2.1西方经济学中有关理论假说 (3) 2.2有关消费结构对居民消费影响的理论 (4) 3 相关数据收集 (6) 4 计量经济模型的建立 (9) 5 模型的求解和检验 (10) 5.1计量经济的检验 (10) 5.1.1模型的回归分析 (10) 5.1.2拟合优度检验: (11) 5.1.3 F检验 (11) 5.1.4 T检验 (12) 5.2 计量修正模型检验: (12) 5.2.1 Y与的一元回归 (13) 5.2.2拟合优度的检验 (13) 5.2.3 F检验 (14) 5.2.4 T检验: (15) 5.3经济意义的分析: (15) 6 政策建议 (16) 结论 (17) 参考文献 (19)

经典线性回归模型的诊断与修正

经典线性回归模型的诊断与修正下表为最近20年我国全社会固定资产投资与GDP的统计数据:1 年份国内生产总值(亿元)GDP 全社会固定资产投资(亿元)PI 1996 71813.6 22913.5 1997 79715 24941.1 1998 85195.5 28406.2 1999 90564.4 29854.7 2000 100280.1 32917.7 2001 110863.1 37213.49 2002 121717.4 43499.91 2003 137422 55566.61 2004 161840.2 70477.43 2005 187318.9 88773.61 2006 219438.5 109998.16 2007 270232.3 137323.94 2008 319515.5 172828.4 2009 349081.4 224598.77 2010 413030.3 251683.77 2011 489300.6 311485.13 2012 540367.4 374694.74 2013 595244.4 446294.09 1数据来源于国家统计局网站年度数据

1、普通最小二乘法回归结果如下: 方程初步估计为: GDP=75906.54+1.1754PI (32.351) R2=0.9822F=1046.599 DW=0.3653 2、异方差的检验与修正 首先,用图示检验法,生成残差平方和与解释变量PI的散点图如下:

从上图可以看出,残差平方和与解释变量的散点图主要分布在图形的下半部分,有随PI的变动增大的趋势,因此,模型可能存在异方差。但是否确定存在异方差,还需作进一步的验证。 G-Q检验如下: 去除序列中间约1/4的部分后,1996-2003年的OLS估计结果如下所示:

案例分析 一元线性回归模型

案例分析报告 (2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月 案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,?最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定?

我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模型。因此建立的是2008年截面数据模型。影响各地区城镇居民人均消费支出有明显差异的因素有多种,但从理论和经验分析,最主要的影响因素应是居民收入,其他因素虽然对居民消费也有影响,但有的不易取得数据,如“居民财产”和“购物环境”;有的与居民收入可能高度相关,如“就业状况”、“居民财产”;还有的因素在运用截面数据时在地区间的差异并不大,如“零售物价指数”、“利率”。因此这些其他因素可以不列入模型,即便它们对居民消费有某些影响也可归入随即扰动项中。 为了与“城镇居民人均消费支出”相对应,选择在统计年鉴中可以获得的“城市居民每人每年可支配收入”作为解释变量X。 以下是2008年各地区城镇居民人均年消费支出和可支配收入表

现代计量经济学模型体系解析

#学术探讨# 现代计量经济学模型体系解析* 李子奈刘亚清 内容提要:本文对现代计量经济学模型体系进行了系统的解析,指出了现代计量经济学的各个分支是以问题为导向,在经典计量经济学模型理论的基础上,发展成为相对独立的模型理论体系,包括基于研究对象和数据特征而发展的微观计量经济学、基于充分利用数据信息而发展的面板数据计量经济学、基于计量经济学模型的数学基础而发展的现代时间序列计量经济学、基于非设定的模型结构而发展的非参数计量经济学,并对每个分支进行了扼要的描述。最后在/交叉与综合0的方向上提出了现代计量经济学模型理论的研究前沿领域。 关键词:经典计量经济学时间序列计量经济学微观计量经济学 一、引言 计量经济学自20世纪20年代末30年代初诞生以来,已经形成了十分丰富的内容体系。一般认为,可以以20世纪70年代为界将计量经济学分为经典计量经济学(Classical Econometrics)和现代计量经济学(Mo dern Eco no metr ics),而现代计量经济学又可以分为四个分支:时间序列计量经济学(Tim e Ser ies Econo metrics)、微观计量经济学(M-i cro-econometrics)、非参数计量经济学(Nonpara-m etric Econometrics)以及面板数据计量经济学(Panel Data Eco nom etrics)。这些分支作为独立的课程已经被列入经济学研究生的课程表,独立的教科书也已陆续出版,应用研究已十分广泛,标志着它们作为计量经济学的分支学科已经成熟。 据此提出三个问题:一是经典计量经济学的地位问题。既然现代计量经济学模型体系已经成熟,而且它们都是在经典模型理论的基础上发展的,那么经典模型还有应用价值吗?是不是凡是采用经典模型的研究都是低水平和落后的?二是现代计量经济学的各个分支的发展导向问题。即它们是如何发展起来的?三是现代计量经济学进一步创新和发展的基点在哪里?回答这些问题,对于正确理解计量经济学的学科体系,对于计量经济学的课程设计和教学内容安排,对于正确评价计量经济学理论和应用研究的水平,对于进一步推动中国的计量经济学理论研究,都是十分有益的。 现代计量经济学的各个分支是以问题为导向,以经典计量经济学模型理论为基础而发展起来的。所谓/问题0,包括研究对象和表征研究对象状态和变化的数据。研究对象不同,表征研究对象状态和变化的数据具有不同的特征,用以进行经验实证研究的计量经济学模型既然不同,已有的模型理论方法不适用了,就需要发展新的模型理论方法。按照这个思路,就可以用图1简单地描述经典计量经济学模型与现代计量经济学模型各个分支之间的关系。 本文试图从方法论的角度对现代计量经济学模型的发展,特别是现代计量经济学模型与经典计量经济学模型之间的关系进行较为系统的讨论,以期对未来我国计量经济学的发展研究提供借鉴和启示。本文的内容安排如下:首先分析经典计量经济学模型的基础地位,明确它在现代的应用价值,同时对发生于20世纪70年代的/卢卡斯批判0的实质进行讨论;然后依次讨论时间序列计量经济学、微观计量经济学、非参数计量经济学以及面板数据计量经济学的发展,回答它们是以什么问题为导向,以什么为目的而发展的;最后以/现代计量经济学模型体系的分解与综合0为题,讨论现代计量经济学的前沿研究领域以及从对我国计量经济学理论的创新和发展 ) 22 ) *本文受国家社会科学基金重点项目(08AJY001,计量经济学模型方法论基础研究)的资助。

计量经济学经济模型分析

我国居民消费水平的变量因素分析 2010级工程管理赵莹 201000271120 改革开放以来,我国居民收入与消费水平不断提高,居民消费结构升级和消费需求扩张成为我国经济高速增长的主要动力,特别是进入20世纪90年代以来,居民消费需求对国民经济发展的影响不断增大,对国民经济产生了拉动作用。我国经济逐步由短缺经济走向过剩经济、由卖方市场转向买方市场,社会消费需求不足,居民消费问题显得更加突出。特别市对于如何启动内需,扩大居民消费变得越来越重要。因此,及时把握国民经济发展格局中居民消费需求变动趋势,制定符合我国现阶段情况的国民消费政策,对于提高我国经济增长速度和质量都有重要意义。 我选取了全国1990年-2009年居民消费水平及其影响因素的统计资料,详 一、建立回归模型并进行参数估计 导入数据后得到下表:

表2 由表2可知,模型估计的结果为: 550.78004.0023.0403.0?3 21-+-=X X X Y (0.046) (0.016) (0.006) (50.521) t= (8.743) (-1.442) (0.802) (-1.555) 999564.02=R 999483.02=R F=12239.64 n=20 D.W.=0.9217 二、异方差性的检验 用怀特检验进行异方差性的检验,得出下表:

表3 由表3可知,35292.11n 2 =R ,由怀特检验,在α=0.05的情况下,查可 知92.16905 .02 =)(χ >35292.11n 2=R ,表明模型不存在异方差性。 三、序列相关性的检验 由表2中结果可知D.W.=0.9217,D.W.检验结果表明,在5%的显著性水平下,n=20,k=2,查表得20.1d =L ,41.1d =U ,由于0

计量经济学判断题 )

1. 总离差平方和可分解为回归平方和与残差平方和。( 对 ) 2. 整个多元回归模型在统计上是显着的意味着模型中任何一个单独的解释变量均是统计显着的。( 错 ) 3. 多重共线性只有在多元线性回归中才可能发生。( 对 ) 4. 通过作解释变量对时间的散点图可大致判断是否存在自相关。( 错 ) 5. 在计量回归中,如果估计量的方差有偏,则可推断模型应该存在异方差( 错 ) 6. 存在异方差时,可以用广义差分法来进行补救。( 错 ) 7. 当经典假设不满足时,普通最小二乘估计一定不是最优线性无偏估计量。( 错 ) 8. 判定系数检验中,回归平方和占的比重越大,判定系数也越大。( 对 ) 9. 可以作残差对某个解释变量的散点图来大致判断是否存在自相关。( 错 )做残差 ) n 5、经典线性回归模型(CLRM )中的干扰项不服从正态分布的,OLS 估计量将有偏的。错,,即使经典线性回归模型(CLRM )中的干扰项不服从正态分布的,OLS 估计量仍然是无偏的。 因为222)()?(βμββ=+=∑i i K E E ,该表达式成立与否与正态性无关。 1、在简单线性回归中可决系数2R 与斜率系数的t 检验的没有关系。错误,在简单线性回归 中,由于解释变量只有一个,当t 检验显示解释变量的影响显着时,必然会有该回归模型的可决系数大,拟合优度高。 2、异方差性、自相关性都是随机误差现象,但两者是有区别的。正确,异方差的出现总是与模型中某个解释变量的变化有关。自相关性是各回归模型的随机误差项之间具有相关关

系。3、通过虚拟变量将属性因素引入计量经济模型,引入虚拟变量的个数与模型有无截距项无关。错误,模型有截距项时,如果被考察的定性因素有m个相互排斥属性,则模型中引入m-1个虚拟变量,否则会陷入“虚拟变量陷阱”;模型无截距项时,若被考察的定性因素有m个相互排斥属性,可以引入m个虚拟变量,这时不会出现多重共线性。 4、满足阶条件的方程一定可以识别。错误,阶条件只是一个必要条件,即满足阶条件的的方程也可能是不可识别的。 5、库依克模型、自适应预期模型与局部调整模型的最终形式是不同的。错误,库依克模型、自适应预期模型与局部调整模型的最终形式是相同的,其最终形式都是一阶自回归模型。2、多重共线性问题是随机扰动项违背古典假定引起的。错误,应该是解释变量之间高度相关引起的. (3) 线性回归模型意味着因变量是自变量的线性函数。(错) (4) 在线性回归模型中,解释变量是原因,被解释变量是结果。(对) 1、虚拟变量的取值只能取0或1(对) 2、通过引入虚拟变量,可以对模型的参数变化进行检验(对) 1、简单线性回归模型与多元线性回归模型的基本假定是相同的。错 在多元线性回归模型里除了对随机误差项提出假定外,还对解释变量之间提 出无多重共线性的假定。 2、在模型中引入解释变量的多个滞后项容易产生多重共线性。对 在分布滞后模型里多引进解释变量的滞后项,由于变量的经济意义一样,只

多元线性回归模型案例

我国农民收入影响因素的回归分析 本文力图应用适当的多元线性回归模型,对有关农民收入的历史数据和现状进行分析,探讨影响农民收入的主要因素,并在此基础上对如何增加农民收入提出相应的政策建议。?农民收入水平的度量常采用人均纯收入指标。影响农民收入增长的因素是多方面的,既有结构性矛盾因素,又有体制性障碍因素。但可以归纳为以下几个方面:一是农产品收购价格水平。二是农业剩余劳动力转移水平。三是城市化、工业化水平。四是农业产业结构状况。五是农业投入水平。考虑到复杂性和可行性,所以对农业投入与农民收入,本文暂不作讨论。因此,以全国为例,把农民收入与各影响因素关系进行线性回归分析,并建立数学模型。 一、计量经济模型分析 (一)、数据搜集 根据以上分析,我们在影响农民收入因素中引入7个解释变量。即:2x -财政用于农业的支出的比重,3x -第二、三产业从业人数占全社会从业人数的比重,4x -非农村人口比重,5x -乡村从业人员占农村人口的比重,6x -农业总产值占农林牧总产值的比重,7x -农作物播种面积,8x —农村用电量。

资料来源《中国统计年鉴2006》。 (二)、计量经济学模型建立 我们设定模型为下面所示的形式: 利用Eviews 软件进行最小二乘估计,估计结果如下表所示: DependentVariable:Y Method:LeastSquares Sample: Includedobservations:19 Variable Coefficient t-Statistic Prob. C X1 X3 X4 X5 X6 X7 X8 R-squared Meandependentvar AdjustedR-squared 表1最小二乘估计结果 回归分析报告为: () ()()()()()()()()()()()()()()() 2345678 2? -1102.373-6.6354X +18.2294X +2.4300X -16.2374X -2.1552X +0.0100X +0.0634X 375.83 3.7813 2.066618.37034 5.8941 2.77080.002330.02128 -2.933 1.7558.820900.20316 2.7550.778 4.27881 2.97930.99582i Y SE t R ===---=230.99316519 1.99327374.66 R Df DW F ====二、计量经济学检验 (一)、多重共线性的检验及修正 ①、检验多重共线性 (a)、直观法 从“表1最小二乘估计结果”中可以看出,虽然模型的整体拟合的很好,但是x4x6

计量经济学 庞皓 课后思考题答案

思考题答案 第一章绪论 思考题 怎样理解产生于西方国家的计量经济学能够在中国的经济理论研究和现代化建设中发挥重要作用 答:计量经济学的产生源于对经济问题的定量研究,这是社会经济发展到一定阶段的客观需要。计量经济学的发展是与现代科学技术成就结合在一起的,它反映了社会化大生产对各种经济因素和经济活动进行数量分析的客观要求。经济学从定性研究向定量分析的发展,是经济学逐步向更加精密、更加科学发展的表现。我们只要坚持以科学的经济理论为指导,紧密结合中国经济的实际,就能够使计量经济学的理论与方法在中国的经济理论研究和现代化建设中发挥重要作用。 理论计量经济学和应用计量经济学的区别和联系是什么 答:计量经济学不仅要寻求经济计量分析的方法,而且要对实际经济问题加以研究,分为理论计量经济学和应用计量经济学两个方面。 理论计量经济学是以计量经济学理论与方法技术为研究内容,目的在于为应用计量经济学提供方法论。所谓计量经济学理论与方法技术的研究,实质上是指研究如何运用、改造和发展数理统计方法,使之成为适合测定随机经济关系的特殊方法。 应用计量经济学是在一定的经济理论的指导下,以反映经济事实的统计数据为依据,用计量经济方法技术研究计量经济模型的实用化或探索实证经济规律、分析经济现象和预测经济行为以及对经济政策作定量评价。 怎样理解计量经济学与理论经济学、经济统计学的关系

答:1、计量经济学与经济学的关系。联系:计量经济学研究的主体—经济现象和经济关系的数量规律;计量经济学必须以经济学提供的理论原则和经济运行规律为依据;经济计量分析的结果:对经济理论确定的原则加以验证、充实、完善。区别:经济理论重在定性分析,并不对经济关系提供数量上的具体度量;计量经济学对经济关系要作出定量的估计,对经济理论提出经验的内容。 2、计量经济学与经济统计学的关系。联系:经济统计侧重于对社会经济现象的描述性计量;经济统计提供的数据是计量经济学据以估计参数、验证经济理论的基本依据;经济现象不能作实验,只能被动地观测客观经济现象变动的既成事实,只能依赖于经济统计数据。区别:经济统计学主要用统计指标和统计分析方法对经济现象进行描述和计量;计量经济学主要利用数理统计方法对经济变量间的关系进行计量。 在计量经济模型中被解释变量和解释变量的作用有什么不同 答:在计量经济模型中,解释变量是变动的原因,被解释变量是变动的结果。被解释变量是模型要分析研究的对象。解释变量是说明被解释变量变动主要原因的变量。 一个完整的计量经济模型应包括哪些基本要素你能举一个例子吗 答:一个完整的计量经济模型应包括三个基本要素:经济变量、参数和随机误差项。 例如研究消费函数的计量经济模型:u + = α βX Y+ 其中,Y为居民消费支出,X为居民家庭收入,二者是经济变量;α和β为参数;u是随机误差项。 假如你是中央银行货币政策的研究者,需要你对增加货币供应量促进经济增长提

计量经济学多元线性回归模型

多元线性回归模型 一.概述 当今农村农民人均纯收入与多个因素存在着紧密的联系,例如人均工资收入,人均农林牧渔产值人均生产费用支出,人均转移性和财产性收入等。本次将以安徽1995-2009年农村居民纯收入与人均工资收入,人均生产费用支出,人均转移性和财产性收入等因素的数据,通过建立计量经济模型来分析上述变量之间的关系,强调农村居民生活的重要性,从而促进全国经济的发展。 二、模型构建过程 ⒈变量的定义 被解释变量:农民人均纯收入y 解释变量:人均工资收入x1, 人均农林牧渔产值x2 人均生产费用支出x3 人均转移性和财产性收入x4。 建立计量经济模型:解释农民人均纯收入与人均工资收入,人均生产费用支出,人均转移性和财产性收入的关系 ⒉模型的数学形式 设定农民人均纯收入与五个解释变量相关关系模型,样本回归模型为: ∧Y i=∧ β + ∧ β 1 X i1+∧β 2 X i2+∧β 3 X i3+∧β 4 X i4+e i ⒊数据的收集 该模型的构建过程中共有四个变量,分别是中国从1995-2009年人均工资收入,人均农林牧渔产值人均生产费用支出,人均转移性和财产性收入,因此为时间序列数据,最后一个即2009年的数据作为预测对比数据,收集的数据如下所示: ⒋用OLS法估计模型 回归结果,散点图分别如下:

Y?=33.632+0.659X1+0.59X2-0.274X3+0.152X4 i d.f.=10 ,R2=0.997116 , Se=(186.261) (0.1815 (0.1245) (0.2037) (0.5699) t=(0.1805) (3.632) (4.741) (-1.347) (2.674) 三、模型的检验及结果的解释、评价

SPSS线性回归分析案例

回归分析 实验内容:基于居民消费性支出与居民可支配收入的简单线性回归分析 【研究目的】 居民消费在社会经济的持续发展中有着重要的作用。影响各地区居民消费支出的因素很多,例如居民的收入水平、商品价格水平、收入分配状况、消费者偏好、家庭财产状况、消费信贷状况、消费者年龄构成、社会保障制度、风俗习惯等等。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的经济模型去研究。 【模型设定】 : 我们研究的对象是各地区居民消费的差异。由于各地区的城市与农村人口比例及经济结构有较大差异,现选用城镇居民消费进行比较。模型中被解释变量Y选定为“城市居民每人每年的平均消费支出”。从理论和经验分析,影响居民消费水平的最主要因素是居民的可支配收入,故可以选用“城市居民每人每年可支配收入”作为解释变量X,选取2010年截面数据。 1、实验数据 表1: —

2010年中国各地区城市居民人均年消费支出和可支配收入

| 数据来源:《中国统计年鉴》2010年 2、实验过程 作城市居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)的散点图,如图1:

表2 模型汇总b — 模型 R R方调整R方标准估计的误差 - 1 .965a.932.930 ~ a.预测变量:(常量),可支配收入X(元)。 b.因变量:消费性支出Y(元) 表3 相关性 、 消费性支出Y (元) 可支配收入X(元) Pearson相关 性消费性支出Y(元)& .965 ! 从散点图可以看出居民家庭平均每人每年消费支出(Y)和城市居民人均年可支配收入(X)大体呈现为线性关系,所以建立如下线性模型:Y=a+bX

计量经济学我国人口总数模型分析

我国人口数量的相关分析 一,寻找相关数据 二,进行模型的建立 打开Eviews,建立一个新的Workfile。数据类型为时间序列,1979~2012年。

输入被解释变量y与5个解释变量(如图所示) 将数据导入group中

分别观察y与x1,x2,x3,x4,x5的散点图,Y与x1的散点图: Y与x2的散点图:

Y与x4的散点图:

观察上述散点图发现y与x1,x2,x3,x4,x5为非线性关系,因此对其进行非线性模型的线性化处理。 三,对模型进行参数估计 首先对模型进行线性化处理 对其进行模型回归,输入ls y c z1 z2 z3 z4 z5 得到如下图所示回归结果

回归结果为 i Y ^ =-123441.8-3988.052Z 1 +5043.003Z 2 +6105.032Z 3 -11.015X 4 +20443.4Z 5 i Y ^ =-123441.8-3988.05log(X 1 )+5043.0log(X 2 )+6105.03log(X 3 )-11.015X 4 +20443.4 log(X 5 ) t =(-5.5428) (-2.2016) (0.7198) (7.8404) (-5.3888) (6.2395) R 2 =0.997258 2— R =0.996769 F=2037.054 DW=0.981736 (1)经济意义检验 β1=-3988.052,说明出生率每增加单1%,我国总人口减少3988.052单位; β2=5043.003,说明死亡率每增加单1%,我国总人口增加5043.003单位; β3=6105.032,说明人均可支配收入每增加1个单位,我国总人口增加6105.032单位; β1=-11.015,说明受高等教育人数每增加1个单位,我国总人口减少11.015单位; β1=20443.4,说明医疗机构数每增加1个单位,我国总人口增加20443.4单位; (2)统计检验 ○ 1拟合优度检验 可决系数R 2 =0.997258,修正后的可决系数2 — R =0.996769,表明拟合结果相当好。 ○ 2T-检验 由表可知各参数的t 统计量为 β1为t 1=-2.2016 β2为t 2=0.7198 β3为t 3=7.8404

计量经济学简答题(经典)

1 ?什么是计量经济学?它与经济学、统计学和数学的关系怎样?答:1、计量经济学是一门运用经济理论和统计技术来分析经济数据的科学和艺术,它以经济理论为指导,以客观事实为依据,运用数学、统计学的方法和计算机技术,研究带有随机影响的经济变量之间的数量关系和规律。2、经济理论、数学和统计学知识是在计量经济学这一领域进行研究的必要前提,这三者中的每一个对于真正理解现代经济生活中的数量关系是必要的,但不充分,只有结合在一起才行。 2计量经济学三个要素是什么? 经济理论、经济数据和统计方法。 3. 计量经济学模型的检验包括哪几个方面?其具体含义是什么? 答:(1)经济意义检验,即根据拟定的符号、大小、关系,对参数估计结果的可靠性进行判断(2)统计检验,由数理统计理论决定。包括:拟合优度检验、总体显着性检验。(3)计量经济学检验,由计量经济学理论决定。包括:异方差性检验、序列相关性检验、多重共线性检验。(4)模型预测检验,由模型应用要求决定。包括:稳定性检验:扩大样本重新估计;预测性能检验:对样本外一点进行实际预测。 4. 计量经济学方法与一般经济数学方法有什么区别? 答:计量经济学揭示经济活动中各因素之间的定量关系,用随机性的数学方程加以描述;一般经济数学方法揭示经济活动中各因素之间的理论关系,用确定性的数学方程加以描述。 5. 计量经济学模型研究的经济关系有那两个基本特征? 答:一是随机关系,二是因果关系J - . ' /■ 6. 计量经济学研究的对象和核心内容是什么? 答:计量经济学的研究对象是经济现象,是研究经济现象中的具体数量规律。计量经济学的核心内容包括两个方面:一是方法论,即计量经济学方法或者理论计量经济学。二是应用,即应用计量经济学。 无论是理论计量经济学还是应用计量经济学,都包括理论、方法和数据三种要素。 7. 计量经济学中应用的数据类型怎样?举例解释其中三种数据类型的结构。 答:计量经济模型:WAGE二f(EDU,EXP,GEND,山 1)时间序列数据是按时间周期收集的数据,如年度或季度的国民生产总值。 2)横截面数据是在同一时间点手机的不同个体的数据。如世界各国某年国民生产总值。 3)混合数据是兼有时间序列和横截面成分的数据,女口 1985 —2010世界各国GDP数据。 8. 建立与应用计量经济学模型的主要步骤有哪些? (1)理论模型的设计(2)样本数据的收集(3)模型参数的估计(4)模型的检验 9. 用OLS建立多元线性回归模型,有哪些基本假设? 1、回归模型是线性的,模型设定无误且含有误差项 2、误差项总体均值为零 3、所有解释变量与误差 项都不相关4、误差项互不相关(不存在序列相关性)5、误差项具有同方差6、任何一个解释变量都不是其他解释变量的完全线性函数7、误差项服从正态分布。 10. 随机误差项包含哪些因素影响? 在解释变量中被忽略的因素的影响(影响不显着的因素、未知的影响因素、无法获得数据的因素);变量观测值的观测误差的影响;模型关系的设定误差的影响;其它随机因素的影响。 11. 为什么要计算调整后的可决系数? 在应用过程中发现,如果在模型中增加一个解释变量,?往往增大。这是因为残差平方和往往随着解 释变量的增加而减少,至少不会增加。这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。但是,现实情况往往是,由增加解释变量个数引起的的增大与拟合好坏无关,需调整。 =0.89表示被解释变量Y的变异性的89%能用估计的回归方程解释。 12. 叙述多重共线性的概念、后果和补救措施。 概念:如果两个或多于两个解释变量之间出现了相关性,则称模型存在多重共线性。 后果:1、估计量仍然是无偏的2、参数估计量的方差和标准差增大3、置信区间变宽4、t统计量会变 小5、估计量对模型设定的变化及其敏感6、对方程的整体拟合程度几乎没有影响7、回归系数符号

相关文档
相关文档 最新文档