当前位置：文档视界 › 数据分析算法与模型一附答案

数据分析算法与模型一附答案

精品文档

数据分析算法与模型模拟题（一）

一、计算题（共4题，100分）

1、影响中国人口自然增长率的因素有很多，据分析主要因素可能有：（1）从宏观经济上看，经济整体增长是人口自然增长的基本源泉；（2）居民消费水平，它的高低可能会间接影响人口增长率。(3)文化程度，由于教育年限的高低，相应会转变人的传统观念，可能会间接影响人口自然增长率（4）人口分布，非农业与农业人口的比率也会对人口增长率有相应的影响。为了全面反映中国“人口自然增长率”的全貌，选择人口增长率作为被解释变量，以反映中国人口的增长；选择“国名收入”及“人均GDP”作为经济整体增长的代表；选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。

从《中国统计年鉴》收集到以下数据（见表1）：

表1 中国人口增长率及相关数据

人口自然增长率国民总收入居民消费价格指数增长人均GDP 年份（元）率（（亿元） CPI（%。））%

1366 15037 1988 15.73 18.8

1519 1989 18 17001 15.04

1644 18718 1990 14.39 3.1

1893 21826 3.4 1991 12.98

2311 26937 11.6 6.4 1992

2998 35260 14.7 11.45 1993

4044 48108 1994 24.1 11.21

5046 17.1 10.55 59811 1995

5846 70142 1996 10.42 8.3

6420 10.06 1997 2.8 78061

-0.8 1998 9.14

83024

6796

8.18

7159 1999

88479 -1.4

7858

2000

0.4

7.58

98000

精品文档．

精品文档

0.7 6.95

108068

8622 2001

9398 119096 2002 6.45 -0.8

10542 2003 135174 6.01 1.2

12336 5.87 2004 3.9 159587

14040 1.8 5.89 2005 184089

16024 1.5

5.38

2006

213132

设定的线性回归模型为：

算法1多元线性回归.xlsx

（1）求出模型中的各个参数，试从多个角度评价此线性回归模型，并检验模型的经济意义；

（2）检验模型中是否存在多重共线性问题（逐步回归），若有，试消除多重共线性。

解：

（1）首先进行数据预处理，数据经检查，无缺失值，接着将数据导入dataHoop 平台中，进行异常值检验等分析，数据基本正常，但是数据存在多重共线性，多重共线性将在第二问中详述。

然后对数据进行多元线性回归拟合，以人口自然增长率(Y)作为因变量，国民总收入(X1)、居民消费价格指数增长率(X2)和人均GDP(X3)作为自变量，得到拟合结果为：

Y = 14.7236 + 0.0003X1 + 0.0644X2 - 0.0052X3

调整R方为0.8831，F检验的p值为0，(常数项)t检验的p值为0，国民总收入t检验的p值为0.0427，居民消费价格指数增长率t检验的p值为0.1359，人均GDPt检验的p值为0.0243。该模型解释为在其他变量不变的情况下，国民收入每增长1亿元，则人口增长率随之增长0.0003%；在其他变量不变的情况下，居民消费价格指数增长率每增长1%，则人口增长率随之增长0.0644%；在其他变量不变的情况下，人均GDP每增长1元，则人口增长率随之降低0.0052%。居民精品文档．

精品文档

消费价格指数增长率CPI与人口增长率呈正增长与现实情况不符，说明模型反映出的统计学意义与实际情况不完全相符，可能是因为自变量之间存在共线性。（2）发现国民收入与人均GDP相关系数高达0.9996，两个变量间极高度相关，因此得到回归方程存在多重共线性。变量间的多重共性对基于最小二乘法的回归模型模拟结果有非常严重的影响，导致回归结果不准确。

采用“逐步回归法”对模型进行优化消除变量间的多重共线性。

分别对单个变量进行分析：

国民总收入(X1)：

：X2居民消费价格指数增长率()

精品文档．

精品文档

人均GDP(X3)：

X3为基础变量；方更高，且均通过检验，所以采用通过对比，X3的调整R ：(X1)和国民总收入人均GDP(X3)

X2)：()GDP(人均X3和居民消费价格指数增长率

精品文档．

精品文档方更大，且均通过了检验。X3的组合的调整R显然X1和：X2)(X1)和居民消费价格指数增长率(人均GDP(X3)、国民总收入

的假设检验并没有通过，R方有了一定的增加，但是X2当加入X2后，虽然调整和X3两个变量的方程。方程为：所以采用X1X3

– 0.0058Y = 15.7418 + 0.0004X1

（分10抽取290人对这部电影的评分部电影进行调查研究，2、对近期上映的10 值0~10分），结果如下表所示。部电影的评分进行因子分析，并解析各个因子的含）根据表中数据对这101（义；）2可否利用电影的评分数据对这290

名观影者进行聚类分析？给出你的理由。（

算法2因子分析.xlsx

精品文档．

精品文档首先计算所有变量的相关系数矩阵，从结果可以看出，大部分的相关系(1)解：0.3，所以，此数据适合做因子分析。数均大于左右，所以该数据个进行分析，结果得到第四个因子比例仅占比3%按因子为4 3个。隐含因子设定为

载荷矩阵如下：

第一因子为动作片，第二因子为爱情片，第三因子为动画片。所以，容易看出，）同观众可能会偏好不同类型的电影，体现在对不同类型电影的评分不同。2（因此可以利用电影评分数据对观众进行聚类分析。

、某超市为了优化商品摆放结构，对近期顾客购买的商品类型进行了统计，如3

附表所示。，minconfidence=50%）；）写出所有有效强关联规则

（（1minsupport=10% 2）结合实际情况分析顾客喜欢的商品搭配，并对该超市提出合理的建议。（

算法3关联分析.xlsx

（1）支持度大于1的均为有效强关联规则。

精品文档．

精品文档的关联分析中可被，在DATEHOOP数据无缺失值，几个变量（商品）的值为T/F对变量果蔬、鲜肉、奶制品、蔬菜制品、肉识别，故直接将数据导入datehoop制品、冷冻食品、啤酒、红酒、软饮料、鱼类、糖果进行关联分析。

设置最小的有效强10.1、最小置信度为0.5，得到的强关联规则中提升度大于

支持度为啤蔬菜制品．}->{冷冻食品关联规则如下所示:{冷冻食品}->{蔬菜制品．蔬菜制．蔬菜制品．啤酒冷冻食品酒}->{}->{冷冻食品}->{啤酒蔬菜制啤酒鲜肉}->{冷冻食品啤酒品}->{,．鲜肉}->{红酒红酒．}->{蔬菜制品,冷冻食

品}->{啤酒}

品}->{蔬菜制品,啤酒冷冻食品

）可见，蔬菜制品、冷冻食品、啤酒之前存在较高的关联性，故建议由（1（2）故建议红酒与鲜肉之前存在较高的关联性，将三类商品陈列区域互相临近；另，将两类商品陈列区域互相临近。

、”表示有视力缺陷）”表示视力正常，“1“0某市为调查驾驶员视力情况4、（”表示没有），这三个因素对0”表示有，“年龄、是否有驾驶教育经历（“1”表示未发生过）的影响，随机0是否曾引起交通事故（“1”表示发生过，“ 45名驾

驶员，得到数据如下：抽样调查了）建立模型分析驾驶员视力情况、年龄、是否有驾驶教育经历对是否曾引起1（交通事故的影响，写出详细的思路过程。）若要应用此模型预测某批驾驶员中可能会引起过交通事故的人都有哪些，（2 则还需要进行的研究步骤有哪些？请说明。精品文档．

精品文档算法4逻辑回归.xlsx）数据类型是数值型的不需要数值化，而且

不存在缺失值。逻辑回归要考虑（1因此我们进行异常值分析和相关性分异常值的影响，以及变量是否存在共线性，析。异常值分析发现异常值较多，猜测可能是分类的影响，因此不做处理。由相关矩阵可看出变量之间虽然也有相关，但不是很强，因此可以进行逻辑回归。为自变量进行逻辑回归分析，分driveaccident以为因变量，视力状况、age、析结果如下：

ln(P(Yi)/(1-P(Yi))=-0.0819+-0.7412 得到逻辑回归方程

x1+0.032x2-1.4972x3、准确率召回率等都较大，模型拟合效果较好，训练误、AUC可以看到Accuracy差不大。若想用此模型优化成为可以用来预测哪些人可能会引起过交通事故，则一2（）个样本），在大样本量的基本上继续使方面需进一步丰富样本量（本题只有45直到泛化误差小到可接受的范围测试数据集训练模型的拟合度，用训练数据集、内，再进一步应用到预测中来。

精品文档．

精品文档

精品文档．