文档视界 最新最全的文档下载
当前位置:文档视界 › 数据分析方法与技术作业及答案

数据分析方法与技术作业及答案

数据分析方法与技术作业及答案
数据分析方法与技术作业及答案

一、填写题(抄题,写答案)

1.数据分析“六步曲”按顺序依次是:明确分析目的和内容、数据收集、数据处理、

数据分析、数据展现、报告撰写。

2.定量数据一般可分为计量的、计数的、二种类型。定性数据一般可分为有序的、名义的、二

种类型。

3.数据收集方法总的可分为一手数据、二手数据、两大类。前一类方法常用的具体方法有调查法、

观察法、实验法;后一类方法常用的具体方法有机构查询、书刊查询、网络查询。

4.SPSS中有三种主要的工作窗口,它们是:数据编辑窗口、结果浏览窗口、程序编辑窗口;

在进行数据表编辑时,有二种主要视图,它们是:数据视图、变量视图。

5.SPSS中对变量属性进行定义时,对变量的命名在Name 栏中设置,定义变量值标签在Values 栏中

设置。

6.根据数据的计量性质,可以将数据分为定量的数据和定性的数据;根据数据获得的直接性,可以

将数据分为一手数据和二手数据。

7.统计检验的一种思路是:设定原假设H0,构造相应的统计判断量,当根据实验数据或样本数据计算出

的统计判断量落在拒绝区域,则拒绝原假设;反之,则落在接受区域,接受原假设。在SPSS软件的统计操作中,通过计算样本数据的实际显著性概率Sig.,并将其与给定的显著性概率水平α比较,当Sig. < α时(填“>” 或“<” ),则拒绝原假设。

8.方差分析主要用来判断样本数据之间的差异是由不可控的随机因素造成的还是由研究中施加的对

结果形成影响的可控因素造成的。

9.因子分析法是多元统计分析中处理降维的一种,其最主要的工作是降维,即将具有错综复杂关

系的变量或者样品综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系。

10.下图所示因子分析结果中,数值6.845的含义是第一主成分特征根,数值84.421的含义是前三个

主成分的累计贡献率;在Extraction Sums块中,有三行数据,其含义是根据提取因子条件----特征值大于1,共选出了三个公共因子。

11.下图所示椭圆圈中信息的含义11变量,200样例。

12.强规则是指:同时满足最小支持度阈值和最小置信度阈值的规则。

13.Statistica中实现聚类分析的过程是:[Statistics]/[ Multivariate Exploratory Techniques]/

[ Cluster Analysis ]。

14.在对二值变量定类数据的距离进行计算时,若认为所取两个值的地位不对等,则可以用雅克比匹配

系数对距离进行度量。

15.熵可以作为训练集的不纯度度量,熵越大,不纯度就越高(高或低)。决策树的分枝原则就

是使划分后的样本的子集越纯越好,即它们的熵越小越好。

16.C&RT算法的全称是Classification and Regression Trees ,它所构成的决策树是二叉树,该算法用

gini指标指标作为选择分枝方案的依据,在选择分枝方案时,需经两步完成,第一步,在每个节点处评估所有属性的每个标准问题的gini 指标,第二步,选择gini 指标最大的标准问题作为分枝方案。

17.已知某数据集中某属性的不同取值为,{2.6,1,2.9,2,5,4.2,2.3,3 },则该属性的标准问题

集为{Is A≤1.5,Is A≤2.15,Is A≤2.45,Is A≤2.75,Is A≤2.95,Is A≤3.6,Is A≤4.6} 。

18.已知某数据集中某属性的不同取值为,{优,良,中,差},则该属性的标准问题集为{Is A∈{优},

Is A∈{良},Is A∈{中},Is A∈{优,良},Is A∈{良,中},Is A∈{优,中},Is A∈{优,良,中}。

二、单项选择题(抄题干及你认为正确的选项,图可以不画)

1.Excel中,当把F7单元格复制到G8单元格时出现了如下信息提示,关于这一现象,以下描述正确的

是( C )。

(A) G8单元格的数据应该是17,可能格式设置为小数点后5位,超过了单元格显示区域,出现此提示

(B) C8或D8单元格的数据有问题(C) D8和E8不能相加

(D) F8为空值,无法加总得到结果

2.在Excel中,要实现如下图所示的汇率换算,可以在D5单元格中输入(B ),之后将它复制到下面的

单元格,就可以实现不同币值的换算。

(A) $C$2*C5 (B) =C$2*C5 (C) =6.912*786 (D) =C2*C5

3.以下关于SPSS中定义变量值标签的描述中,错误的是(C)

(A) 定义值标签可简化数据录入

(B) 在显示数据表时,通过点击工具栏中的Value Labels按钮,可以在标签和值之间切换显示

(C) 通过定义值标签可以为不同范围的数据定义不同的标签显示

(D) 值标签的定义可以实现只输入标签就可以输入实际的数据

4.SPSS19版本中数据文件的扩展名是(A)

(A) .sav (B) .sps (C) .dat (D) .xls

5.如果将数据分析方法论比喻成服装设计图,则服装制作中的平面、立体剪裁、合缝、包缝等相当于数

据分析中的(C)

(A) 分析工具(B) 分析技术(C) 分析思路(D) 补充分析

6.以下统计量中,反映集中趋势的量有(B,C,E )

(A) 标准误(B) 平均值(C) 众数(D)方差(E)四分位数

7.以下关于SPSS中定义变量值标签的描述中,错误的是(C )

(A) 定义值标签可简化数据录入

(B) 在显示数据表时,通过点击工具栏中的Value Labels按钮,可以在标签和值之间切换显示

(C) 通过定义值标签可以为不同范围的数据定义不同的标签显示

(D) 值标签的定义可以实现只输入标签就可以输入实际的数据

8.SPSS中实现二变量相关分析的过程是( A )。

(A) 【Analyze】/【Correlate】/【Bivariate】(B) 【Analyze】/【Compare Means】/【Bivariate】

(C) 【Analyze】/【Correlate】/【Partial】(D) 【Analyze】/【Factor Analysis】

9.因子分析中KMO检验的作用是(C )。

(A) 检验各因子的齐次性(B) 说明各原始变量与因子的相关性

(C) 检验因子分析的可行性(D) 其作用与LSB检验效果相同

10.EM聚类主要基于(C )进行聚类。

(A) 样本点之间的距离(B) 样本点之间的相似度(C) 数理统计模型

(D) 熵函数的计算

11.以下关于信度的描述中,错误的是(D ):

(A) 信度是反映测量的稳定性与一致性的一个指标

(B) 大部分信度指标都是以相关系数表示的

(C) 如果一个问卷在测试中不受调查环境各种因素的影响,就说该问卷的信度系数等于1

(D) 问卷信度的高低,取决于我们对系统误差的控制程度

12.以下关于信度的描述中,正确的是(B ):

(A) 信度高,则效度一定高

(B) 效度高,则信度一定高

(C) 0.6 <α< 0.7 量表设计存在问题,但有参考价值

(D) 折半信度系数是从问卷中取出一半来计算其克朗巴哈α系数

13.对数据挖掘这一概念的理解,以下描述错误的是(A )。

(A) 发现的知识要可接受、可理解,且要有普遍的指导意义

(B) 一般数据源是历史数据,具有相对的稳定性

(C) 发现的是用户感兴趣的知识

(D) 数据源必须是真实的、大量的、含噪声的

14.关于下图所反映的关联规则分析结果,以下描述中错误的是(D)。

(A) 这里的关联规则可以描述为IF Body THEN Head的形式

(B) IF (Gender=Male) Then (Pizza) 的置信度是70.12195%

(C) 在此题中,IF (Gender=Male) Then (Pizza) 与IF (Pizza) Then(Gender=Male)的支持度均相同,这是正

确的

(D) 在此题中57.5%的支持度表示的是Head supp。

15.关于下图的描述中,错误的是(C )。

(A) 上图反映了质心之间的距离

(B) 上图反映了两个类之间的距离

(C) 这是K-means聚类分析的结果,即基于分类的成批修改法

(D) 类之间距离的计算方法有最长距离法、最短距离法等

三、简答题(抄题干及分析,不用画图)

1. 区分如下四个概念:类型抽样、等距抽样、整群抽样、多阶段抽样。

类型抽样

类型抽样也称分层抽样,是将总体中的各单位按照某种特征或某种规则划分成若干个不同的类型组,然后从各类型组中独立、随机地抽取样本,再将各类型组的样本结合起来,对总体的目标量进行估计。

等距抽样

等距抽样又称系统抽样,是将总体中各单位按照某一标志顺序排列,在规定的范围内随机确定起点,然后按照一定的间隔抽取其他样本单位的抽样组织形式。

整群抽样

整群抽样是将总体各单位划分为若干群,然后以群为单位从中随机抽取一些群,对抽中群的所有单位都进行调查的抽样组织形式。

多阶段抽样

多阶段抽样也称多级抽样或阶段抽样,是将对总体单位的整个抽样过程分为两个或更多个阶段进行,先从总体中抽选若干个大的样本群,称为第一阶段单位,然后从被抽中的若干个大的单位群中,抽选较小的样本单位,以此类推。

2. 为什么要进行数据清洗?

1. 重复数据处理

2. 处理缺失数据

3. 检查数据逻辑错误

数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然

是我们不想要的,称为“脏数据”。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。

3. 数据分析方法论与具体的数据分析方法有何区别?

数据分析方法论与数据分析法的区别

数据分析方法论主要用来指导数据分析师进行一个完整的数据分析,它更多的是指导数据分析思路,比如,主要从哪几个方面开展数据分析?各方面包含什么内容或指标?

数据分析方法论从宏观角度指导如何进行数据分析,它就像是一个数据分析的前期规划,指导着后期数据分析工作的开展。而数据分析法则是指各种具体的方法,主要从微观层面指导如何进行数据分析。

4. 简述类型抽样与整群抽样的区别。

5. 在数据分析方法的层次上,5W2H属于方法论还是具体的方法,简述其主要内容。

方法论,具体内容:why(何因)what(何事) who(何人)when(何时)where(何地) how(如何做) how much(何价)。

(1) WHA T--是什么?目的是什么?做什么工作?

(2) HOW --怎么做?如何提高效率?如何实施?方法怎样?

(3) WHY--为什么?为什么要这么做?理由何在?原因是什么?造成这样的结果为什么?

(4)WHEN--何时?什么时间完成?什么时机最适宜?

(5) WHERE--何处?在哪里做?从哪里入手?

(6) WHO--谁?由谁来承担?谁来完成?谁负责?

(7) HOW MUCH--多少?做到什么程度?数量如何?质量水平如何?费用产出如何?

6.假设检验的总体思路是怎样的,简述之。(PPT 95)

总思路是:

1)根据问题的需要对所研究的总体作某种假设,记作H0;

2)选取合适的统计量,这个统计量的选取要使得在假设H0 成立时,其分布为已知;

3)由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0 的判断。

7.以下为SPSS中相关分析的结果图,试对其进行分析。

从上图可知,皮尔森相关系数是为-0.449,Sig.=0.013,样本量为30,Sig.<0.05,拒绝原假设,接收备β≠。即文盲率与人均GDP存在相关性,文盲率与人均GDP负相关,但是-0.5<-0.449<0,选假设,即0

xy

所以相关性较小。

8.以下为SPSS中方差分析的结果图,试对其进行分析。

从上图可知组间离差平方和为,组内离差平方和为,总离差平方和为,自由度为分别为:,组间均方和为组内均方和为,Sig.<0.05,拒绝原假设,接收备选假设,即平均亩产各不相同,且Between Groups>Within Groups的值,即品种对平均亩产有较大的影响。

9.根据下图说明此数据挖掘算法是什么,并说明图中各主要参数项的含义。

自下而上的聚合型层次聚类,采用最短距离法,amalgamation(融合,混合)计算欧式距离,对原始数据中变量1,3-4,6-8进行聚类,Casewise 对样本的智能处理,默认是在统计时不取该行数据。

10.聚类算法和分类算法有哪些区别?各自的目标是什么?

“聚类分析”往往预先不知道各分类集合的目标属性,只有通过其它已知属性按聚类算法得到分类之后,才去分析各分类的特征,归纳出目标属性。其方向是通过“聚”来得到分类。例如对银行客户的划分。

“分类分析”对于目标属性及其取值是已知的,其目标是在已知的数据集中去发现其它属性与目标属性的某种规则模型,这一模型要能对未知对象的目标属性进行准确预测。其方向是通过“分”来找到规则。

但二者又是有关联的,例如,可以在聚类识别了新的目标属性的基础上,在原数据集上增加新的目标属性;针对这一新的数据集,再用分类算法去找到基于已有发生推导出目标属性归属的分类规则,并用来对未知数据分类。

11.什么是K-means方法,请描述其用途及基本思想。

K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

其步骤为:

1) 在n 个数据中选取k 个作为凝聚点, 并且定义点与点之间的距离;

2) 其余 n-k 个点逐个进入, 每个点进入时归入与相应凝聚点距离最近的类中,每个点进入之后重新计算每一类的重心作为该类新的凝聚点;

3) 重复2)直至所有类的凝聚点均不再变化为止

12. 写出在决策树算法中熵和增益的计算定义式,并说明式中各变量的含义。

S 的熵(entropy)或者期望信息为:21()log n

i i i entropy S p p ==-∑,式中,i p 表示类i C 的概率。

根据A 划分的子集的熵或期望信息由下式给出:1

||

(,)()||m

i i i S entropy S A entropy S S ==∑

, 式中,S i 表示根据属性 A 划分的 S 的第i 个子集,|S|和|S i |分别表示S 和S i 中的样本数目。信息增益用来衡量熵的期望减少值,因此,使用属性 A 对S 进行划分获得的信息增益为:(,)()(,)gain S A entropy S entropy S A =-。

gain(S ,A)是指因为知道属性A 的值后导致的熵的期望压缩。

四、分析题(抄题干及分析,不用画图)

1. 下图是Excel 中得到的某市衣着类消费指数与消费总指数的回归分析结果图,请对此图所反映的回归

模型、拟合优度等信息进行分析。

2. 已知数据库D 中有9个事务(如下表示),设最小支持度为2,求出所有的频繁项集。另,设置信度为

70%,列出三个强规则。

7I1, I3

8I1, I2, I3, I5

9I1, I2, I3

由频繁项集产生强关联规则

confidence(A ? B)=P(B|A)=

_()

_() Support count A B Support count A

?

基于找出的频繁项集I={I1,I2,I5}可以产生的强关联规则:

{I2,I1} ? I5, confidence=2/4=50%

{I1,I5} ? I2, confidence=2/2=100%

{I2,I5} ? I1, confidence=2/2=100%

I1 ? {I2,I5}, confidence=2/6=100%

I2 ? {I1,I5}, confidence=2/7=29%

I5 ? {I1,I2}, confidence=2/2=100%

最小置信度阈值为70%,则只有2,3和最后一个规则可以输出,这些就是产生的强规则。

3. 已知如下数据集,目标分类属性为buys_computer,运用ID3算法求出该训练集在根节点的最佳分类。

ID age income student Credit_rating Class:

buys_computer 1youth high no fair no

2youth high no excellent no

根据熵公式,需知道各分类的概率, buys_computer= yes 的记录有9条,其概率为9/14, 记该集合为 C 1

buys_computer= no 的记录有5条,其概率为5/14, 记该集合为 C 2 229955

()log ()log ()0.94014141414

entropy S =-

-=位 首先考察 age 这一分类属性,需要知道按 age 分类后的各子集的目标属性集的概率,

age 的 youth 类有5个样本,其中有 2 个属于 C 1 类,即buys_computer= yes ,3个属于C 2类,即 buys_computer= no age 的 middle_aged 类有4个样本,4 个属于 C 1 类,0个属于C 2类 age 的 senior 类有5个样本,3 个属于 C 1 类,2个属于C 2类 于是,有:

222222522334440053322

(,)(log log )(log log )(log log )0.694145555144444145555

entropy S age =

?--+--+--=位 因此,属性 age 的增益为:gain(S, age) = entropy(S)-entropy(S, age) = 0.940-0.694=0.246位

同理,可计算得:gain(S, income) = 0.029位 gain(S, student) = 0.151位 gain(S, credit_rating) = 0.048位 可见,按属性 age 分类具有最高的增益,因此选择其为分枝属性。其分枝结果如下图示。

3. 已知三个病人五种参考症状的数据情况,计算各样本点之间的雅克比匹配系数;说明该参量的使用

特点及其用途。

使用雅克比系数,则两两之间的距离为

1

=

=0.22+2+12

==0.4

2+2+1

3==0.75

3+1d d d 甲乙甲丙乙丙 二值变量之间的距离可以用匹配系数来描述。 假定 xi 和 xj 取值情况如表3-1所示。 q 表示两个个体共有q 个性质同时取1,

r 表示i x 取 1,j x 取 0的性质共有 r 个, 其他依此类推

雅克比匹配系数:ij q

d q r s

=

++

雅克比匹配系数适合于这样的情况: 认为二值变量所取的两个值的地位不是完全对等的,人们往往只对其中一种取值感兴趣。

总要求

总体要求:

1)对数据集分析目的及过程进行简要描述 2)列出主要输入参数设置画面截图 3)列出主要输出结果,并进行必要的分析

4)11月9日前以电子文档形式发到教师邮箱tpgao-work@https://www.docsj.com/doc/b41235622.html, , 邮件及作业文档标题为“2015DA 作业2+学号+姓名” 5)将方差分析、相关分析的四个题目都放在一个文档中

§1.1 方差分析部分要求(含两道题)

* 基于数据集“district and sale ”方差分析,以了解广告形式对销售额的影响 要求:

参照课程讲授示例输出所有分析结果

* 基于文档“教改成绩”进行方差分析,要求分析教材、教法对成绩的影响

一、基于数据集“district and sale ”方差分析

* 基于数据集“district and sale ”方差分析,以了解广告形式对销售额的影响 要求:

参照课程讲授示例输出所有分析结果

最后的数据分析结果如下:

Test of Homogeneity of Variances

销售额

Levene Statistic df1df2Sig.

.7653140.515

方差齐次性检验的结果,显著性概率值>0.05,因此不能拒绝方差齐次的原假设,方差分析的前提成立。

ANOVA

销售额

Sum of Squares df Mean Square F Sig.

Between Groups5866.08331955.36113.483.000

Within Groups20303.222140145.023

Total26169.306143

这是方差分析的最主要结果。各参量的含义参照教材、课件。根据样本所计算出的Sig.值为0.000,该值小于0.01的显著性水平,所以样本所反映出的因素影响的差异性是高度显著的。

即,结合问题的背景,广告形式的不同对销售额有显著影响,这种差异是由广告形式的本质差别所导致的,而不是由于采样的随机误差所产生的。

§1.2 相关分析部分要求(含两道题)

一、“体重与血压”相关分析

* 基于“体重与血压”数据进行相关分析,计算Person相关系数并进行统计检验。

直接选择Weight 和Pressure 作为分析变量进行两变量相关分析。可以输出基本的描述统计量。

Descriptive Statistics

Mean Std. Deviation N

weight63.833310.1429212

pressure118.333324.7398612

这是描述性统计结果的各变量均值及标准差。

这是相关分析结果。

从相关系数看,体重与血压的相关系数为-0.112,可见二者呈现负相关,且相关性很弱。

但从统计判断看,即看其实际计算出的显著性概率,为0.728,大于0.05的较高水平,所以从统计意义上,不能否定原假设,即认为变量之间不相关,所以从统计意义上,二变量是不相关的。

二、“居民收入与支出”相关分析

* 基于“居民收入与支出”,分析农村家庭纯收入X3与城镇居民家庭消费X1的相关性

由于这里有第三个变量,即城镇家庭收入,考虑到该变量可能带来的影响,需要进行偏相关分析。

为了解控制变量带来的影响,输出零阶相关分析矩阵以进行对照。

由分析结果知,在不考虑控制变量的情况下,农村家庭纯收入X3与城镇居民家庭消费X1的相关性在统计意义上高度显著,且相关系数与很高。

但在考虑控制变量的情况下,农村家庭纯收入X3与城镇居民家庭消费X1的相关性在统计意义上是不被支持的,相关系数也很低。

剖析大数据分析方法论的几种理论模型

剖析大数据分析方法论的几种理论模型 做大数据分析的三大作用,主要是:现状分析、原因分析和预测分析。什么时候开展什么样的数据分析,需要根据我们的需求和目的来确定。 作者:佚名来源:博易股份|2016-12-01 19:10 收藏 分享 做大数据分析的三大作用,主要是:现状分析、原因分析和预测分析。什么时候开展什么样的数据分析,需要根据我们的需求和目的来确定。 利用大数据分析的应用案例更加细化的说明做大数据分析方法中经常用到的几种理论模型。 以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这是进行大数据分析的首要因素。大数据分析方法论中经常用到的理论模型分为营销方面的理论模型和管理方面的理论模型。 管理方面的理论模型: ?PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等?PEST:主要用于行业分析 ?PEST:政治(Political)、经济(Economic)、社会(Social)和技术(Technological) ?P:构成政治环境的关键指标有,政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、国防开支水平政府补贴水平、民众对政治的参与度等。?E:构成经济环境的关键指标有,GDP及增长率、进出口总额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等。?S:构成社会文化环境的关键指标有:人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市特点、宗教信仰状况等因素。

?T:构成技术环境的关键指标有:新技术的发明和进展、折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况等因素。 大数据分析的应用案例:吉利收购沃尔沃 大数据分析应用案例 5W2H分析法 何因(Why)、何事(What)、何人(Who)、何时(When)、何地(Where)、如何做(How)、何价(How much) 网游用户的购买行为: 逻辑树:可用于业务问题专题分析

大数据处理及分析理论方法技术

大数据处理及分析理论方法技术 (一)大数据处理及分析建设的过程 随着数据的越来越多,如何在这些海量的数据中找出我们需要的信息变得尤其重要,而这也是大数据的产生和发展原因,那么究竟什么是大数据呢?当下我国大数据研发建设又有哪些方面着力呢? 一是建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。 二是规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。

三是搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据交换和数据共享。 四是培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。 (二)大数据处理分析的基本理论 对于大数据的概念有许多不同的理解。中国科学院计算技术研究所李国杰院士认为:大数据就是“海量数据”加“复杂数据类型”。而维基百科中的解释为:大数据是由于规模、复杂性、实时性而导致的使之无法在一定时间内用常规软件工具对其进行获取、存储、搜索、分享、分析、可视化的数据集合。 对于“大数据”(Bigdata)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决

图2.1:大数据特征概括为5个V (三)大数据处理及分析的方向 众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定

数值计算方法大作业

目录 第一章非线性方程求根 (3) 1.1迭代法 (3) 1.2牛顿法 (4) 1.3弦截法 (5) 1.4二分法 (6) 第二章插值 (7) 2.1线性插值 (7) 2.2二次插值 (8) 2.3拉格朗日插值 (9) 2.4分段线性插值 (10) 2.5分段二次插值 (11) 第三章数值积分 (13) 3.1复化矩形积分法 (13) 3.2复化梯形积分法 (14) 3.3辛普森积分法 (15) 3.4变步长梯形积分法 (16) 第四章线性方程组数值法 (17) 4.1约当消去法 (17) 4.2高斯消去法 (18) 4.3三角分解法 (20)

4.4雅可比迭代法 (21) 4.5高斯—赛德尔迭代法 (23) 第五章常积分方程数值法 (25) 5.1显示欧拉公式法 (25) 5.2欧拉公式预测校正法 (26) 5.3改进欧拉公式法 (27) 5.4四阶龙格—库塔法 (28)

数值计算方法 第一章非线性方程求根 1.1迭代法 程序代码: Private Sub Command1_Click() x0 = Val(InputBox("请输入初始值x0")) ep = Val(InputBox(请输入误差限ep)) f = 0 While f = 0 X1 = (Exp(2 * x0) - x0) / 5 If Abs(X1 - x0) < ep Then Print X1 f = 1 Else x0 = X1 End If Wend End Sub 例:求f(x)=e2x-6x=0在x=0.5附近的根(ep=10-10)

1.2牛顿法 程序代码: Private Sub Command1_Click() b = Val(InputBox("请输入被开方数x0")) ep = Val(InputBox(请输入误差限ep)) f = 0 While f = 0 X1 = x0 - (x0 ^ 2 - b) / (2 * b) If Abs(X1 - x0) < ep Then Print X1 f = 1 Else x0 = X1 End If Wend End Sub 例:求56的值。(ep=10-10)

定性数据分析第二章课后答案(供参考)

第二章课后作业 【第1题】 解:由题可知消费者对糖果颜色的偏好情况(即糖果颜色的概率分布),调查者 取500块糖果作为研究对象,则以消费者对糖果颜色的偏好作为依据,500块糖果的颜色分布如下表1.1所示: 表1.1 理论上糖果的各颜色数 由题知r=6,n=500,我们假设这些数据与消费者对糖果颜色的偏好分布是相符,所以我们进行以下假设: 原假设::0H 类i A 所占的比例为)6,...,1(0==i p p i i 其中i A 为对应的糖果颜色,)6,...,1(0=i p i 已知,16 10=∑=i i p 则2χ检验的计算过程如下表所示: 在这里6=r 。检验的p 值等于自由度为5的2χ变量大于等于18.0567的概率。在Excel 中输入“)5,0567.18(chidist =”,得出对应的p 值为05.00028762.0<<=p ,故拒绝原假设,即这些数据与消费者对糖果颜色的偏好分布不相符。 【第2题】 解:由题可知 ,r=3,n=200,假设顾客对这三种肉食的喜好程度相同,即顾客 选择这三种肉食的概率是相同的。所以我们可以进行以下假设:

原假设 )3,2,1(3 1 :0==i p H i 则2χ检验的计算过程如下表所示: 在这里3=r 。检验的p 值等于自由度为2的2χ变量大于等于15.72921的概率。在Excel 中输入“)2,72921.15(chidist =”,得出对应的p 值为 05.00003841.0<<=p ,故拒绝原假设,即认为顾客对这三种肉食的喜好程度是 不相同的。 【第3题】 解:由题可知 ,r=10,n=800,假设学生对这些课程的选择没有倾向性,即选 各门课的人数的比例相同,则十门课程每门课程被选择的概率都相等。所以我们可以进行以下假设: 原假设)10,...,2,1(1.0:0==i p H i 则2χ检验的计算过程如下表所示: 在这里10=r 。检验的p 值等于自由度为9的2χ变量大于等于5.125的概率。在Excel 中输入“)9,125.5(chidist =”,得出对应的p 值为05.0823278349.0>>=p ,

数据挖掘方法论(SEMMA).

SAS数据挖掘方法论─ SEMMA (2009-07-20 21:15:48 Sample ─数据取样 Explore ─数据特征探索、分析和予处理 Modify ─问题明确化、数据调整和技术选择 Model ─模型的研发、知识的发现 Assess ─模型和知识的综合解释和评价 Sample──数据取样 当进行数据挖掘时,首先要从企业大量数据中取出一个与你要探索问题相关的样板数据子集,而不是动用全部企业数据。这就象在对开采出来矿石首先要进行选矿一样。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且能通过数据的筛选,使你想要它反映的规律性更加凸现出来。 通过数据取样,要把好数据的质量关。在任何时候都不要忽视数据的质量,即使你是从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。因为通过数据挖掘是要探索企业运作的规律性的,原始数据有误,还谈什么从中探索规律性。若你真的从中还探索出来了什么“规律性”,再依此去指导工作,则很可能是在进行误导。若你是从正在运行着的系统中进行数据取样,则更要注意数据的完整性和有效性。再次提醒你在任何时候都不要忽视数据的质量,慎之又慎! 从巨大的企业数据母体中取出哪些数据作为样本数据呢?这要依你所要达到的目标来区分采用不同的办法:如果你是要进行过程的观察、控制,这时你可进行随机取样,然后根据样本数据对企业或其中某个过程的状况作出估计。SAS不仅支持这一取样过程,而且可对所取出的样本数据进行各种例行的检验。若你想通过数据挖掘得出企业或其某个过程的全面规律性时,必须获得在足够广泛范围变化的数据,以

使其有代表性。你还应当从实验设计的要求来考察所取样数据的代表性。唯此,才能通过此后的分析研究得出反映本质规律性的结果。利用它支持你进行决策才是真正有效的,并能使企业进一步获得技术、经济效益。 Explore──数据特征探索、分析和予处理 前面所叙述的数据取样,多少是带着人们对如何达到数据挖掘目的的先验的认识进行操作的。当我们拿到了一个样本数据集后,它是否达到我们原来设想的要求;其中有没有什么明显的规律和趋势;有没有出现你所从未设想过的数据状态;因素之间有什么相关性;它们可区分成怎样一些类别……这都是要首先探索的内容。 进行数据特征的探索、分析,最好是能进行可视化的操作。SAS 有:SAS/INSIGHT和SAS/SPECTRA VIEW两个产品给你提供了可视化数据操作的最强有力的工具、方法和图形。它们不仅能做各种不同类型统计分析显示,而且可做多维、动态、甚至旋转的显示。 这里的数据探索,就是我们通常所进行的深入调查的过程。你最终要达到的目的可能是要搞清多因素相互影响的,十分复杂的关系。但是,这种复杂的关系不可能一下子建立起来。一开始,可以先观察众多因素之间的相关性;再按其相关的程度,以了解它们之间相互作用的情况。这些探索、分析,并没有一成不变操作规律性;相反,是要有耐心的反复的试探,仔细的观察。在此过程中,你原来的专业技术知识是非常有用的,它会帮助你进行有效的观察。但是,你也要注意,不要让你的专业知识束缚了你对数据特征观察的敏锐性。可能实际存在着你的先验知识认为不存在的关系。假如你的数据是真实可靠的话,那末你绝对不要轻易地否定数据呈现给你的新关系。很可能这里就是发现的新知识!有了它,也许会导引你在此后的分析中,得出比你原有的认识更加符合实际的规律性知识。假如在你的操作中出现了这种情况,应当说,你的数据挖掘已挖到了有效的矿脉。 在这里要提醒你的是要有耐心,做几种分析,就发现重大成果是不大可能的。所幸的是SAS 向你提供了强有力的工具,它可跟随你的思维,可视化、快速的作出反应。免除了数学的复杂运算过程和编制结果展现程序的烦恼和对你思维的干扰。这

大数据处理技术的总结与分析

数据分析处理需求分类 1 事务型处理 在我们实际生活中,事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。这类系统数据处理特点包括以下几点: 一就是事务处理型操作都就是细粒度操作,每次事务处理涉及数据量都很小。 二就是计算相对简单,一般只有少数几步操作组成,比如修改某行得某列; 三就是事务型处理操作涉及数据得增、删、改、查,对事务完整性与数据一致性要求非常高。 四就是事务性操作都就是实时交互式操作,至少能在几秒内执行完成; 五就是基于以上特点,索引就是支撑事务型处理一个非常重要得技术. 在数据量与并发交易量不大情况下,一般依托单机版关系型数据库,例如ORACLE、MYSQL、SQLSERVER,再加数据复制(DataGurad、RMAN、MySQL数据复制等)等高可用措施即可满足业务需求。 在数据量与并发交易量增加情况下,一般可以采用ORALCERAC集群方式或者就是通过硬件升级(采用小型机、大型机等,如银行系统、运营商计费系统、证卷系统)来支撑. 事务型操作在淘宝、12306等互联网企业中,由于数据量大、访问并发量高,必然采用分布式技术来应对,这样就带来了分布式事务处理问题,而分布式事务处理很难做到高效,因此一般采用根据业务应用特点来开发专用得系统来解决本问题。

2数据统计分析 数据统计主要就是被各类企业通过分析自己得销售记录等企业日常得运营数据,以辅助企业管理层来进行运营决策。典型得使用场景有:周报表、月报表等固定时间提供给领导得各类统计报表;市场营销部门,通过各种维度组合进行统计分析,以制定相应得营销策略等. 数据统计分析特点包括以下几点: 一就是数据统计一般涉及大量数据得聚合运算,每次统计涉及数据量会比较大。二就是数据统计分析计算相对复杂,例如会涉及大量goupby、子查询、嵌套查询、窗口函数、聚合函数、排序等;有些复杂统计可能需要编写SQL脚本才能实现. 三就是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,目前越来越多得用户希望能做做到交互式实时统计; 传统得数据统计分析主要采用基于MPP并行数据库得数据仓库技术.主要采用维度模型,通过预计算等方法,把数据整理成适合统计分析得结构来实现高性能得数据统计分析,以支持可以通过下钻与上卷操作,实现各种维度组合以及各种粒度得统计分析。 另外目前在数据统计分析领域,为了满足交互式统计分析需求,基于内存计算得数据库仓库系统也成为一个发展趋势,例如SAP得HANA平台。 3 数据挖掘 数据挖掘主要就是根据商业目标,采用数据挖掘算法自动从海量数据中发现隐含在海量数据中得规律与知识。

数据分析方法与技术- 实验报告模板

《数据分析方法与技术》上机实验——实验1描述性统计方法 学号: 姓名: 日期:

实验项目(一):描述性统计方法 一、实验内容 1.实验目的 掌握常用的描述性图表展示方法的原理及操作,包括:频数分布表、分组频数表、列联表、茎叶图、箱线图、误差图、散点图等; 掌握常用的描述性统计方法的原理及操作,包括:算术平均值、中位数、众数、四分位数、极差、平均差、方差、标准差、标准分数、离散系数等。 2. 实验内容和要求 实验内容:基于标准数据集,属性描述性图表展示方法(数分布表、分组频数表、列联表、茎叶图、箱线图、误差图、散点图等),对统计指标(算术平均值、中位数、众数、极差、平均差、方差、标准差、标准分数、离散系数、偏态峰态)进行计算。 实验要求:掌握各种描述性统计指标的计算思路及其在SPSS或EXCEL环境下的操作方法,掌握输出结果的解释。 二、实验过程 1、数据集介绍 1.数据库标题:鲍鱼数据 2.该数据库共计4177行数据 3.该数据有八个属性(包含性别共有九项) 4.以下是关于属性的描述,包括属性的名称,数据类型,测量单元和一个简短的描述: Name Data TypeMeas.Description ---- --------- ----- ----------- Sex nominal M, F, and I (infant)鲍鱼宝宝 Length continuousmm Longest shell measurement最长壳 Diameter continuousmm perpendicular to length垂直长度 Height continuousmm with meat in shell有肉的壳高度 Whole weightcontinuousgramswhole abalone整个鲍鱼 Shucked weightcontinuousgramsweight of meat肉的重量 Viscera weightcontinuousgramsgut weight (after bleeding)放血后内脏重 Shell weightcontinuousgramsafter being dried弄干后重量 Rings integer +1.5 gives the age in years +1.5=年龄 5.数据的值域

西工大计算方法作业答案

参考答案 第一章 1 *1x =1.7; * 2x =1.73; *3x =1.732 。 2. 3. (1) ≤++)(* 3*2*1x x x e r 0.00050; (注意:应该用相对误差的定义去求) (2) ≤)(*3*2*1x x x e r 0.50517; (3) ≤)/(*4*2x x e r 0.50002。 4.设6有n 位有效数字,由6≈2.4494……,知6的第一位有效数字1a =2。 令3)1()1(1* 102 1 102211021)(-----?≤??=?= n n r a x ε 可求得满足上述不等式的最小正整数n =4,即至少取四位有效数字,故满足精度要求可取6≈2.449。 5. 答:(1)*x (0>x )的相对误差约是* x 的相对误差的1/2倍; (2)n x )(* 的相对误差约是* x 的相对误差的n 倍。 6. 根据******************** sin 21)(cos 21sin 21)(sin 21sin 21)(sin 21)(c b a c e c b a c b a b e c a c b a a e c b S e r ++≤ =* *****) ()()(tgc c e b b e a a e ++ 注意当20* π < >c tgc ,即1 *1 * )() (--

7.设20= y ,41.1*0 =y ,δ=?≤--2* 00102 1y y 由 δ1* 001*111010--≤-=-y y y y , δ2*111*221010--≤-=-y y y y M δ10*991*10101010--≤-=-y y y y 即当0y 有初始误差δ时,10y 的绝对误差的绝对值将减小10 10-倍。而110 10 <<-δ,故计算过程稳定。 8. 变形后的表达式为: (1))1ln(2--x x =)1ln(2-+-x x (2)arctgx x arctg -+)1(=) 1(11 ++x x arctg (3) 1ln )1ln()1(ln 1 --++=? +N N N N dx x N N =ΛΛ+-+- +3 2413121)1ln(N N N N 1ln )11ln()1(-++ +=N N N N =1)1ln()1 1ln(-+++N N N (4)x x sin cos 1-=x x cos 1sin +=2x tg

数据分析经典测试题含答案解析

数据分析经典测试题含答案解析 一、选择题 1.某校九年级数学模拟测试中,六名学生的数学成绩如下表所示,下列关于这组数据描述正确的是() A.众数是110 B.方差是16 C.平均数是109.5 D.中位数是109 【答案】A 【解析】 【分析】 根据众数、中位数的概念求出众数和中位数,根据平均数和方差的计算公式求出平均数和方差. 【详解】 解:这组数据的众数是110,A正确; 1 6 x=×(110+106+109+111+108+110)=109,C错误; 21 S 6 = [(110﹣109)2+(106﹣109)2+(109﹣109)2+(111﹣109)2+(108﹣109)2+ (110﹣109)2]=8 3 ,B错误; 中位数是109.5,D错误; 故选A. 【点睛】 本题考查的是众数、平均数、方差、中位数,掌握它们的概念和计算公式是解题的关键. 2.一组数据2,x,6,3,3,5的众数是3和5,则这组数据的中位数是() A.3 B.4 C.5 D.6 【答案】B 【解析】 【分析】 由众数的定义求出x=5,再根据中位数的定义即可解答. 【详解】 解:∵数据2,x,3,3,5的众数是3和5, ∴x=5,

则数据为2、3、3、5、5、6,这组数据为35 2 =4. 故答案为B. 【点睛】 本题主要考查众数和中位数,根据题意确定x的值以及求中位数的方法是解答本题的关键. 3.如图,是根据九年级某班50名同学一周的锻炼情况绘制的条形统计图,下面关于该班50名同学一周锻炼时间的说法错误的是() A.平均数是6 B.中位数是6.5 C.众数是7 D.平均每周锻炼超过6小时的人数占该班人数的一半 【答案】A 【解析】 【分析】 根据中位数、众数和平均数的概念分别求得这组数据的中位数、众数和平均数,由图可知锻炼时间超过6小时的有20+5=25人.即可判断四个选项的正确与否. 【详解】 A、平均数为1 50 ×(5×7+18×6+20×7+5×8)=6.46,故本选项错误,符合题意; B、∵一共有50个数据, ∴按从小到大排列,第25,26个数据的平均值是中位数, ∴中位数是6.5,故此选项正确,不合题意; C、因为7出现了20次,出现的次数最多,所以众数为:7,故此选项正确,不合题意; D、由图可知锻炼时间超过6小时的有20+5=25人,故平均每周锻炼超过6小时的人占总数的一半,故此选项正确,不合题意; 故选A. 【点睛】 此题考查了中位数、众数和平均数的概念等知识,中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(最中间两个数的平均数),叫做这组数据的中位数,如果中位数的概念掌握得不好,不把数据按要求重新排列,就会错误地将这组数据最中间的那个数当作中位数.

简单实用的电商数据分析方法论

简单实用的电商数据分析方法论 导读:说到数据分析,大家可能就会想到回归,聚类什么的,不过对于电商的小伙伴来说,这些都太复杂了。而实际分析的时候,其实并不需要这么复杂的算法,大家需要的只是: 对比 细分 转化 分类 只要掌握了这四种思想,基本上已经可以应付日常的分析工作了。 一、对比思想 数据对比主要是横向和纵向两个角度,指标间的横向对比帮助我们认识预期值的合理性,而指标自身在时间维度上的对比,即我们通常说的趋势分析。 以店铺的成交额分析为例: 纵向对比 我们可以把最近30天的成交额显示在坐标轴上,这样就可以很明显的看到最近的成交额是否达到了预期,当然我们也可以以周或者月(或者季度,年等等)为单位。 所有的分析其实都必须要考虑实际的场景,我们看到今天的成交额比昨天大也许说明的问题还是很有限,因为今天和昨天的性质可能未必一样,例如今天可能是周六,或者恰好是节假日等等。所以我们在做纵向对比的时候,例如要判断今天(假设是周六)的成交额是否合理,除了看最近30天的趋势数据,我们还可以考虑: 最近10周的周六成交额趋势 如果今天恰好是一个节日,例如双十一,那么可以考虑和上一年的双十一做一个对比。(说明:因为间隔时间比较长,数据反映出来的意义可能比较有限) 横向对比 例如我们说,店铺这周的成交额上涨了10%,那我们是不是应该高兴呢? 当然应该高兴,不过这个上涨的背后是否隐含着什么危机呢?当然是有的,例如你的竞争对手们这周的成交额都上涨了20%!当你洋洋得意的时候,可能已经被竞争对手拉开距离了。 也就是说,我们对一个现象判断好不好,这是需要一个参照系的。在现在的电商时代,你完全有可能知道竞争对手的成交额上涨了多少的。 再举一个更常见的例子: 假如我在不同的地方(或者平台)开了很多家店铺,某商品的成交额在A店铺上涨了10%,那这个是否值得高兴?

数据分析方法与技术-描述性方法统计实验报告讲解

电子科技大学政治与公共管理学院本科教学实验报告 (实验)课程名称:数据分析技术系列实验 电子科技大学教务处制表

电 子 科 技 大 学 实 验 报 告 学生姓名: 学 号: 指导教师: 一、实验室名称: 电子政务可视化实验室 二、实验项目名称:描述性统计方法 三、实验原理 通过调查或观察,采集到样本以后,常用一些统计量描述这些数据的分布状态,并通过这种认识,对数据的总体特征进行总结和归纳。数据的分布状态常通过数据的进行描写。 本实验主要对数据统计分析的最基础分析——描述性统计分析进行实验,主要包括集中趋势和离中趋势分析,其主要算法原理如下: 1. 描述集中趋势的统计 (1) 算术平均值(Mean):样本数据的总和除以样本数据的个数即是算术平均值。 ∑∑==?= n i i n i i i f f X X 1 1 (2) 中位数(Median ,Me) 首先将样本数据(假设有n 个数)按升序或降序排列,如果 n 为奇数,则数列中间的数值为中位数;如果n 为偶数,则中位数为其中两数值的均值。 (3) 众数(Mode ,Mo) 样本数据中出现频数(次数)最多的那个数称为众数。众数不易确定,与中位数一样,它不受极值影响。但有时会出现两个甚至多个众数,有时又没有众数。所以,众数的使用受到严格限制。 (4) 几何平均数(Geometric Mean) 假定银行每年本利(本金加利率)为 X 1 有 f 1 年,年本利为 X 2 有f 2 年,银行年本利为X 3 有 f 3 年,? ,年本利为X n 有 f n 年,则n 年银行平均本利为G ,银行平均年利率G -1。

2020年奥鹏吉大网络教育《计算方法》大作业解答

2020年奥鹏吉大网络教育《计算方法》大作业解答 (说明:前面是题目,后面几页是答案完整解答部分,注意的顺序。) 一、解线性方程 用矩阵的LU分解算法求解线性方程组 用矩阵的Doolittle分解算法求解线性方程组 用矩阵的Doolittle分解算法求解线性方程组 用高斯消去法求解线性方程组 用高斯消去法求解线性方程组 用主元素消元法求解线性方程组 用高斯消去法求解线性方程组 利用Doolittle分解法解方程组Ax=b,即解方程组 1、用矩阵的LU分解算法求解线性方程组 X1+2X2+3X3 = 0 2X1+2X2+8X3 = -4 -3X1-10X2-2X3 = -11 2、用矩阵的Doolittle分解算法求解线性方程组 X1+2X2+3X3 = 1 2X1– X2+9X3 = 0 -3X1+ 4X2+9X3 = 1 3、用矩阵的Doolittle分解算法求解线性方程组 2X1+X2+X3 = 4 6X1+4X2+5X3 =15 4X1+3X2+6X3 = 13 4、用高斯消去法求解线性方程组

2X 1- X 2+3X 3 = 2 4X 1+2X 2+5X 3 = 4 -3X 1+4X 2-3X 3 = -3 5、用无回代过程消元法求解线性方程组 2X 1- X 2+3X 3 = 2 4X 1+2X 2+5X 3 = 4 -3X 1+4X 2-3X 3 = -3 6、用主元素消元法求解线性方程组 2X 1- X 2+3X 3 = 2 4X 1+2X 2+5X 3 = 4 -3X 1+4X 2-3X 3 = -3 7、用高斯消去法求解线性方程组 123123123234 4272266 x x x x x x x x x -+=++=-++= 8、利用Doolittle 分解法解方程组Ax=b ,即解方程组 12341231521917334319174262113x x x x -? ????? ???? ??-??????=? ? ????--?????? --???? ??

第四章 数据分析(梅长林)习题答案

第四章 习题 一、习题4.4 解:(1)通过SAS 的proc princomp 过程对相关系数矩阵R 做主成分分析,得到个主成分的贡献率以及累计贡献率如表1所 表 1 从表中可以得到特征值向量为: ]0.2429 0.4515 0.5396 0.8091 2.8567[=*λ 第一主成分贡献率为:57.13 % 第二主成分贡献率为:16.18 % 第三主成分贡献率为: 10.79% 第四主成分贡献率为:9.03 % 第五主成分贡献率为:6.86 % 进一步得到各主成分分析结果如表2所示: 表 2

(2)由(1)中得到的结果可知前两个主成分的累积贡献率为73.32%,得到第一主成分、第二主成分为: 54212.044215.034702.024571.014636.01x x x x x Y ++++=* 55820.045257.032604.025093.012404.02x x x x x Y ++---=* 由于1*Y 是五个标准化指标的加权和,由此第一主成分更能代表三种化工股票和两种石油股票周反弹率的综合作用效果,1*Y 越大表示各股票的综合周反弹率越大。* 2Y 中关于三种化工股票的周反弹率系数为 负,而关于两种石油的系数为正,它放映了两种石油周反弹率和三种化工股票周反弹率的对比,* 2Y 的绝对值越大, 表明两种石油周反弹率和三种化工股票周反弹率的差距越大。 二、习题4.5 解:(1)利用SAS 的proc corr 过程求得相关系数矩阵如表3: 表 3 (2)从相关系数矩阵出发,通过proc princomp 过程对其进行主成分分析,表4给出了各主成分的贡献率以及累积贡献率:

西安交通大学计算方法B大作业

计算方法上机报告 姓名: 学号: 班级:

目录 题目一------------------------------------------------------------------------------------------ - 4 - 1.1题目内容 ---------------------------------------------------------------------------- - 4 - 1.2算法思想 ---------------------------------------------------------------------------- - 4 - 1.3Matlab源程序----------------------------------------------------------------------- - 5 - 1.4计算结果及总结 ------------------------------------------------------------------- - 5 - 题目二------------------------------------------------------------------------------------------ - 7 - 2.1题目内容 ---------------------------------------------------------------------------- - 7 - 2.2算法思想 ---------------------------------------------------------------------------- - 7 - 2.3 Matlab源程序---------------------------------------------------------------------- - 8 - 2.4计算结果及总结 ------------------------------------------------------------------- - 9 - 题目三----------------------------------------------------------------------------------------- - 11 - 3.1题目内容 --------------------------------------------------------------------------- - 11 - 3.2算法思想 --------------------------------------------------------------------------- - 11 - 3.3Matlab源程序---------------------------------------------------------------------- - 13 - 3.4计算结果及总结 ------------------------------------------------------------------ - 14 - 题目四----------------------------------------------------------------------------------------- - 15 - 4.1题目内容 --------------------------------------------------------------------------- - 15 - 4.2算法思想 --------------------------------------------------------------------------- - 15 - 4.3Matlab源程序---------------------------------------------------------------------- - 15 - 4.4计算结果及总结 ------------------------------------------------------------------ - 16 - 题目五----------------------------------------------------------------------------------------- - 18 -

计算方法上机实习题大作业(实验报告).

计算方法实验报告 班级: 学号: 姓名: 成绩: 1 舍入误差及稳定性 一、实验目的 (1)通过上机编程,复习巩固以前所学程序设计语言及上机操作指令; (2)通过上机计算,了解舍入误差所引起的数值不稳定性 二、实验内容 1、用两种不同的顺序计算10000 21n n -=∑,分析其误差的变化 2、已知连分数() 1 01223//(.../)n n a f b b a b a a b =+ +++,利用下面的算法计算f : 1 1 ,i n n i i i a d b d b d ++==+ (1,2,...,0 i n n =-- 0f d = 写一程序,读入011,,,...,,,...,,n n n b b b a a 计算并打印f 3、给出一个有效的算法和一个无效的算法计算积分 1 041 n n x y dx x =+? (0,1,...,1 n = 4、设2 2 11N N j S j == -∑ ,已知其精确值为1311221N N ?? -- ?+?? (1)编制按从大到小的顺序计算N S 的程序 (2)编制按从小到大的顺序计算N S 的程序 (3)按两种顺序分别计算10001000030000,,,S S S 并指出有效位数 三、实验步骤、程序设计、实验结果及分析 1、用两种不同的顺序计算10000 2 1n n -=∑,分析其误差的变化 (1)实验步骤: 分别从1~10000和从10000~1两种顺序进行计算,应包含的头文件有stdio.h 和math.h (2)程序设计: a.顺序计算

#include #include void main() { double sum=0; int n=1; while(1) { sum=sum+(1/pow(n,2)); if(n%1000==0)printf("sun[%d]=%-30f",n,sum); if(n>=10000)break; n++; } printf("sum[%d]=%f\n",n,sum); } b.逆序计算 #include #include void main() { double sum=0; int n=10000; while(1) { sum=sum+(1/pow(n,2)); if(n%1000==0) printf("sum[%d]=%-30f",n,sum); if(n<=1)break; n--; } printf("sum[%d]=%f\n",n,sum); } (3)实验结果及分析: 程序运行结果: a.顺序计算

数据分析课后习题答案

数据分析第一次上机实验报告 班级:信计091 学号:200900901023 姓名:李骏 习题一 1.1 某小学60位学生(11岁)的身高(单位:cm)数据如下: (数据略) (1)计算均值、方差、标准差、变异系数、偏度、峰度; (2)计算中位数,上、下四分位数,四分位极差,三均值; (3)做出直方图; (4)做出茎叶图; 解:(1)使用软件计算得到 变异系数=标准差/均值=5.08% (2)部分答案在解(1) 四分位极差=Q3-Q1=144.75-135=9.75 三均值=0.25*Q1+0.5*M+0.25*Q3=139.4375 (3)使用软件画图得到

(4)使用软件画图得到 身高 Stem-and-Leaf Plot Frequency Stem & Leaf 1.00 Extremes (=<120) 1.00 12 . 3 5.00 12 . 67889 7.00 13 . 1122244 18.00 13 . 555677777888899999 13.00 14 . 0112222223344 13.00 14 . 5566677778999 2.00 15 . 01 Stem width: 10.00 Each leaf: 1 case(s)

1.8 对20名中年人测量6个指标,其中3个生理指标:体重(x1)、腰围(x2)、脉搏(x3);3个训练指标:引体向上(x4)、直坐次数(x5)、跳跃次数(x6)。数据如下表 (表格略) (1)计算协方差矩阵,Pearson相关矩阵; (2)计算Spearman相关矩阵; (3)分析各指标间的相关性。 解: (1)使用软件得到下表

(完整版)常用数据分析方法论

常用数据分析方法论 ——摘自《谁说菜鸟不会数据分析》 数据分析方法论主要用来指导数据分析师进行一次完整的数据分析,它更多的是指数据分析思路,比如主要从哪几方面开展数据分析?各方面包含什么内容和指标? 数据分析方法论主要有以下几个作用: ●理顺分析思路,确保数据分析结构体系化 ●把问题分解成相关联的部分,并显示它们之间的关系 ●为后续数据分析的开展指引方向 ●确保分析结果的有效性及正确性 常用的数据分析理论模型 用户使用行为STP理论 SWOT …… 5W2H 时间管理生命周期 逻辑树 金字塔SMART原则 …… PEST分析法 PEST分析理论主要用于行业分析 PEST分析法用于对宏观环境的分析。宏观环境又称一般环境,是指影响一切行业和企业的各种宏观力量。 对宏观环境因素作分析时,由于不同行业和企业有其自身特点和经营需要,分析的具体内容会有差异,但一般都应对政治、经济、技术、社会,这四大类影响企业的主要外部环境因素进行分析。

以下以中国互联网行业分析为例。此处仅为方法是用实力,并不代表互联网行业分析只需要作这几方面的分析,还可根据实际情况进一步调整和细化相关分析指标:

5W2H分析法 5W2H分析理论的用途广泛,可用于用户行为分析、业务问题专题分析等。 利用5W2H分析法列出对用户购买行为的分析:(这里的例子并不代表用户购买行为只有以下所示,要做到具体问题具体分析)

逻辑树分析法 逻辑树分析理论课用于业务问题专题分析 逻辑树又称问题树、演绎树或分解树等。逻辑树是分析问题最常使用的工具之一,它将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。 把一个已知问题当成树干,然后开始考虑这个问题和哪些相关问题有关。 (缺点:逻辑树分析法涉及的相关问题可能有遗漏。)

计算方法大作业非线性方程求根的新方法

计算方法大作业 题目:非线性方程求根的新方法 班级:xxx 学号:xxx 姓名:xxx

非线性方程求根的新方法 一、问题引入 在计算和实际问题中经常遇到如下非线性问题的求解: F(x)=0 (1) 我们经常采用的方法是经典迭代法: 经典迭代方法 不动点迭代方法是一种应用广泛的方法,其加速方法较多,如Stiffensen加速方法的局部收敛阶(以下简称为收敛阶)为2阶;牛顿迭代方法的收敛阶亦为2阶,且与其相联系的一些方法如简化牛顿法、牛顿下山法、弦截法的收敛阶阶数介于1和2之间;而密勒法的收敛阶与牛顿法接近,但计算量较大且涉及零点的选择问题,同时收敛阶也不够理想。 因此本文介绍一种新的迭代方法 从代数角度看,牛顿法和密勒法分别是将f(x)在xk附近近似为一线性函数和二次抛物插值函数,一种很自然的想法就是能否利用Taylor展开,将f(x)在xk附近近似为其他的二次函数?答案是肯定的.其中的一种方法是将f(x)在Xk处展开3项,此时收敛阶应高于牛顿法,这正是本文的出发点. 二、算法推导 设函数f(x)在xk附近具有二阶连续导数,则可将f(x)在xk处进行二阶Taylor展开,方程(1) 可近似为如下二次方程: f(xk)+f’(xk)(x-xk)+2^(-1)f’’(xk)(x-xk)^2=0,(2) 即 2^(-1)f’’(xk)x^2+(f’(xk)-xkf’’(xk))x+2^(-1)f’’(xk)xk^2-xkf’(xk)+f(xk)=0(3) 利用求根公式可得 X=xk-(f’’(xk))^(-1)(f’(xk))-sqrt((f’(xk)^2±2f’’(xk)f(xk)))(4) 其中±符号的选取视具体问题而定,从而可构造迭代公式 X k+1=xk-(f’’(xk))^(-1)(f’(xk))-sqrt((f’(xk)^2±2f’’(xk)f(xk)))(5) 确定了根号前正负号的迭代公式(5),可称为基于牛顿法和Taylor展开的方法,简记为BNT 方法. 为描述方便起见,以下将f(xk),f’(xk),f’’(xk)分别记为f,f’,f’’.首先,二次方程(3)对应于一条抛物曲线,其开口方向由f’’(xk),x∈U(xk)的符号确定,其中U(xk)为xk的某邻域,其顶点为 P(xk-(f’’)^(-1)f’,fk-(2f’’)^(-1)(f’)^2).为使(5)式唯一确定x k+1,须讨论根式前正负号的取舍问题.下面从该方法的几何意义分析(5)式中正负号的取舍. 1)当f(xk)=o时,z。即为所求的根. 2)当f(xk)>O时,根据y=f(x)的如下4种不同情形(见图1)确定(5)式中根号前的符号. (a)当f’’(xk)o时,“±”取为“一”;(b)当f’’(xk)o,f(xk)>o时,“±”取为“一”;(d)当f’’(xk)>o,f(xk)o时,“±”取为“+”;(b)当 f’’(xk)o,f(xk)>o时,“±”取为“+”;(d)当f’’(xk)>o,f(xk)

相关文档
相关文档 最新文档