文档视界 最新最全的文档下载
当前位置:文档视界 › 大数据,统计学

大数据,统计学

大数据,统计学
大数据,统计学

大数据时代需要重视统计学

我们现在要开始重视大数据,要重视统计学,因为在数据足够大了之后,我们突然发现一切社会现象到最后都有统计规律,它不像物理学那样可以准确的去描述因果的关系,它从本质上来说就是一个统计的规律。统计学学好了,你再去学别的都战无不胜,因为一切社会现象到最后都是一个统计规律。

为什么要强调统计学呢,因为我们的认知能力中最差的是统计思维。人的大脑有一些功能优良得超过我们的想象,比如我们的语言能力。著名的语言学家乔姆斯基曾说,其实语言不是你学来的,语言是你天生就会的,因为语言太复杂了,要是从出生再学语言根本学不会,等你出生的时候,你的大脑里头已经预装了一套操作系统,语言的操作系统。所以语言我们是天生就会的。

还有,比如我们察言观色的能力,也是天生就会的。但有,一些是我们不会的。一位得诺贝尔经济学的心理学家写过一本书,《思考快与慢》。里面就讲到,我们有很多思维是靠直觉的快思维,这是我们几万年、几十万年、几百万年的自然演化,然后给我们留下来的,就是第六感觉。当你觉得可能有危险的时候,你就会跑掉。但是呢,我们另外一套操作系统是用来做逻辑推理以及进行统计分析的,装得很烂,所以我们天生缺的是逻辑推理能力和统计思维能力。

所以,在大数据的时代,我们最需要补的,其实是我们认知能力中最差的统计思维。如果有在学校的学生,我建议统计学这门课要好好地上。

“大数据”何以成为热门词汇?

为什么突然之间,大数据变成了一个最热门的词汇?

首先是由于IT革命。IT革命之后,我们有了很多处理数据的能力,对计算机数据的处理能力、存储的能力和计算的能力不断的提高。人类储存信息量的增长速度比世界经济增长的速度要快4倍,而且这还是在金融危机爆发之前的世界经济增长的速度。而计算机数据处理能力的增长速度,比世界经济增长的速度要快9倍。

其次,能够被数据化的东西越来越多。最早的时候是数字可以被数据化,所以我们有了阿拉伯的计数,后来又出现了二进位,再后来我们发现文字也可以处理成数据,然后我们发现又图像也可以处理成数据。我不知道欧美同学会《时代大讲堂》位置在哪里,我就赶紧上网查一查地图,方位也可以被数据化;你用微信、微博,跟朋友在网上交流,说明你的社会关系也会被数据化。

所以这就是为什么现在要谈大数据,因为可处理的东西太多了。而当你能够被数据化的东西越来越多。当你能够拿到的数据越来越多时,就跟原来不一样了。原来的统计学得有一个抽样,因为你不可能拿到整体,因为整体太多了,而且无法去计算。而现在,当存储能力无限扩大,处理数据的计算能力不断的进步,致使现在我们所处理的往往不是一个样本数据,而是一个整体的数据。所以这个时候,有很多原来想都不能想的事情,现在你可以去做。

大数据时代的三个规律

规律一:知其然而不必知其所以然外行打败内行

我先讲一个案例就是葡萄酒。葡萄酒怎么品酒?过去是靠品酒方面的专家。他会先闻一闻,什么味道、什么香味,然后看看是不是挂杯,最后告诉你,这个酒大

概是什么庄园的,什么年份的。但是,当品酒师在品新酒时,因为葡萄酒真正的品质还没有形成,所以这个时候,他的鉴定是永远靠不住的。另外,当一个品酒师的声誉越来越高时,由于要照顾到自己声誉,他不敢做大胆的判断。

普林斯顿大学有一个经济学家也很喜欢收藏葡萄酒,他就想能不能自己预测出这一年这个地方的葡萄酒的品质如何?然后他就开始去找来很多数据,最后得到了一个秘诀。葡萄酒的品质跟跟冬天的降雨量、生长期的平均气温、收获季节的降雨量、土壤的成分等等这些因素有关。1989年,葡萄酒刚刚下来,他说今年的葡萄酒是世纪佳酿,1990年他又做出预测,说今年的葡萄酒比1989年的更好。连续两年说是世纪佳酿,一般的品酒师都不敢这么评,但是最后事实证明他说的完全正确。

第二个案例,怎么寻找潜在的棒球球星?著名的财经作家麦克刘易斯写的书《Moneyball》,后来拍成电影叫《点球成金》,讲到一个球队教练遇到了一个经济学家,他们用很另类的办法,实际上就是用数据,把每一个选手的场上记录拿过来,用数据去找,看谁是好的球星,这跟传统的行规完全不一样,但是后来非常成功。

我们原来讲,要知其然,还要知其所以然。但是现在大数据时代,你可以知其然,不一定非要知其所以然。如果你去问普林斯顿大学的教授,为什么这个酒好?到底是什么香味?酒回甘是什么?他也不知道。但是他能够知其然,他能够做出来判断。为什么呢,很可能是我们原来的认知里头,我们执意去要寻找一些线性的、双边的直接因果关系。但是很可能万物之间的联系比我们想象中的要复杂,他可能是非线性的,可能是多元的。所以出问题的不是数据,出问题的是我们原来的

认知模式。怎么办?一个办法,退而求其次,你可能要先去寻找相关关系,然后再去找是否有因果关系。

规律二:彻底的价格歧视商家比你更了解你自己

有一个机构,专门做信用卡的刷卡记录。他们攒了大量的数据之后,拿这些数据做分析,最后找到很多很奇怪的规律。比如,你是否离婚与你信用卡上的还款记录和你驾驶车辆出车祸的概率有关系。比如在大数据时代大家可能会听到的一个比较有名的例子,就是沃尔马最早的时候发现很多奇怪的规律,比如尿布和啤酒的销售量是有相关关系的。

这俩东西怎么会联在一起?市场调查人员最后发现,往往当有新生的小孩之后,买尿布的任务就给新爸爸。尽管新生的宝贝的出来他的贡献也没有多少,但是他有一种自豪感,他去买了尿布时,为了庆祝,他会顺手去买啤酒。如果你在尿布的旁边就直接摆上啤酒,啤酒的销量就会提高。还有一个店,专门卖母婴用品的部门搜集顾客的信息去研究。比如说研究什么时候你可能会怀孕,你可能会买更多的母婴用品,而营养品会增加,或者一些没有香味的洗发剂,最后就可以预测潜在的客户到底是谁。

所以大数据时代,动摇了我们原来的方法论。

有一个赌场,进去之后会刷卡,而你的基本信息全都在这个磁卡上面。包括国籍、性别、年龄等等全就掌握。他有一个庞大的数据库,可以算出每个人的痛苦点,

即如果输钱超过了这个痛苦点,从此之后再也不来这个赌场。而赌场最好的办法是在你快要达到痛苦点之前叫你住手。

所以当你快要到达那个痛苦点的时候,你的旁边就会突然出现一个年轻貌美的公关经理,说先生玩得很累了吧,要不要休息一下,我们这个赌场刚请了一个法国大厨会做非常好的法国大餐,你很幸运,你被选我们的幸运顾客,请你和太太一起去享用免费的法国大餐!很好,但你不要忘了,当你享受到你觉得物超所值的服务时,往往就是你的最后一分钱被别人榨完了!包括信用卡调整额度,很可能也是在大数据的基础之上自动调整额度。

那这个带来了一个变化。原来经济学讲到,商家不能搞价格歧视,不是因为道义上不能,而是由于在过去商家很难对不同的顾客,进行价格歧视,你必须要定统一的价格。但这是过去的规律,在大数据的时代,这个规律被彻底颠覆。在大数据的时代,商家可以精准的针对每一个个体的消费者定价,把你最后的一分钱全部榨干,因为他比你自己更了解你的行为。你都不知道你的车可能要去保养了,他就已经给你发消息;你自己都不知道,身体已经处于亚健康状态需要去旅游放松,旅行社马上就会给你打电话。你说它怎么会这么了解我的心,大数据在帮他的忙。会用大数据的商家都是偷心者,都会把你的心偷走,他可以精准的定价。

规律三:打破专家的信息优势病人给医生解惑

那我们接着再讲一个案例,电视连续剧《豪斯医生》的医学顾问是纽约时报的一个专栏作家。他是倡导寻证医学的一个代表人物。寻证医学就是根据证据来治病。过去看病时,要先研究病理学,然后再研究治疗办法,而且有很多是一代一代口

传下来的。老师告诉,维生素B12口服的效果不好,必须打针。为什么?不知道,反正是老师的老师就这么告诉老师的。所以你的老师也这么告诉你,你就这么再告诉你的学生。但是后来发现,这里头有很多问题。

为什么现在医患之间的纠纷这么多?实际上医院的误诊比例非常高。美国有一份研究称美国医院误诊比例大概是1/3,有20%的重大疾病的死亡原因是由于误诊。为什么?因为过去完全靠经验,有很多都是主观的。到现在来说,医学不是科学,医学研究的是复杂的生命体,所以它还没有到能够精准治病的程度。

后来,大夫开始另辟蹊径,他通过数据最后找出规律。19世纪一个医生发现,如果医生先去了停尸房再回来给妇女接生,产妇的死亡率明显提高,而洗手之后死亡率下降,那个时候还不知道细菌和病菌。所以当时每一个医生都要洗手。没有哪个病理学能够告诉你洗手跟降低死亡率有关系,但是后来死亡率就大幅度下降。所以这就是寻证依据的思路,减少医生的自主权利,也有道理。就如坐飞机时,飞行员能不能想停就停、想起飞就起飞?不行。飞行员其实没有多少自主权,需要严格的按照操作程序一步一步去做。当这些所谓的专业人士的自主权被剥夺之后,你就会发现越来越安全。

所以按照大数据,医生最后发现他自己被边缘化了。因为有了互联网,有了大数据之后,病人有时候比医生还要精。美国有一个报道,有一个病人被推到病房里头,他有多种免疫功能紊乱,一群大夫会诊,最后都不知道到底这个病是什么。最后,主治医生问这个病人,你觉得这个病大概是什么。病人说我知道,我这个病就是IPEX。你怎么知道的,他说很简单,我把症状在谷歌里一搜,马上就诊断出来了。

原来医生能够治病,是因为他的专业比你强,他信息比你多,而现在你的信息跟他一样多。你可以拿着谷歌上打印出来的资料跟他说,“你的诊断错了,按照我在谷歌上,我应该是这个病,不是你那个病”,完全颠覆了原来信息不对称的情况,所以大数据时代的第三个规律就是打败、打破了专家的信息优势。为什么我要一开始就跟大家讲不要信专家,因为在大数据的时代没有专家。

大数据的时代,专家可能反而会误事。比如谷歌有一个机器翻译,一开始可能翻译的很差,但是慢慢发现他的翻译水平越来越好。为什么?谷歌机器团队里头总结出来一个经验,说凡事当小组里解雇了一个语言学家,我们翻译的精确程度就提高了,因为语言学家老在挑毛病,最后剩下来的全部是不懂语言计算机专家和数学家的时候,没有专家在那里指手划脚。

最后的启示就是我们不能相信,我们也不能相信我们内心中的专家。

往往我们的认识模式里,对自己的能力盲目信任,往往会过分夸大自己的能力。所以,现在有一个投资的方法,叫量化投资。原来是价值投资:这个东西是不是物有所值,如果说它被价值低估了,你赶紧去买它,以后它价格会起来。现在讲的是,你不用管它到底有价值没有价值,我只看它是涨还是跌。

那看什么?看量化投资。量化投资靠什么?靠大数据。但是量化投资到最后是谁来执行,不是靠数学天才。数学天才的贡献是发现了一套投资方法,然后由电脑来执行。为什么要让计算机来执行而不让人?因为一个人哪怕你心理素质再高,

哪怕你智商再高,总有无知和贪婪的时候。所以最好的办法就是,放弃自己的主动性。

大数据带来的风险:用你的隐私去赚钱

大数据给我们带来的各式各样的好处,但是这里头也有很多风险。你害怕不害怕你的隐私被别人拿走?大数据的前提就是你必须把你的隐私要全部贡献出来。你如果想享受到手机给你带来的好处,那你手机马上会知道你在哪、你干了什么、你每天的生活都是什么,然后当你这些数据被人家拿走之后,人家就会拿你这些数据,去分析你害怕不害怕。

有一个电影叫《少数派报告》,有点科幻性质,最后到什么程度,我根据你的数据,我判断你今天出门杀人的概率有90%,所以你出门之前我先把你拘留起来行不行,有很多涉及到法律、伦理的层面,涉及到隐私的层面不太好解决,这种数据时代,这种IT革命并不是高歌猛进的,它已经出现了有一些回潮,就是其实你想想在最早的时候,其实整个互联网的世界都是开放的,但是那个时候很奇怪,那个时候实际上每一个电脑的用户,等于他的房门都是敞开的。

但是居然没有黑客进去,因为大家都是黑客,那时候只有技术人员才会用电脑,大家居然互相之间都不侵犯,但是现在你想想网上这种偷你的信息,拿你的数据,对不对,接到很多电话那都是大数据时代,“哥你想买房吗”,你怎么会知道我要买房,我大数据研究出来的,这个时候你为了隐私,为了保护自己的隐私,有很多时候你放弃了这个系统的开放性。

现在你觉得用苹果的产品很爽、很酷,但是苹果的产品是严重封闭的,你没有办法改它,跟你原来用Windows实际上理念是不一样的,你喜欢你就用,你不喜欢

你就不用,你说我有意见,有意见白提,没有用,苹果的整个操作系统是完全封闭的,你爱用不用,不用拉倒。

.

然后还有,你最近发现,原来的时候影响美国政治的往往都是一些金融家,但华尔街现在不行了,在金融危机之后华尔街不行了,现在新崛起的一代富豪,都不住在纽约,他住在加利福尼亚或者住在华盛顿州,他住在西雅图,这些是新崛起的数据资本家,那你如果这些数据资本家到最后对政治的影响力越来越大,你可以想象他想要的是什么,他想要的更多是要求把数据公开,让他能够自由的拿你的隐私去赚他的钱,想想也是蛮可怕的,那还有一个更深层次的原因,就是大数据有可能会给我们带来一个盲目的乐观,我们认为什么东西我只要有数据,我都能够预测出来。

你能够预测出来的东西,其实是很少的,就是我们刚刚举的那些例子,为什么能预测出来,因为它不断的发生,它是常态情况下出现的,所以它经过几万个消费者、几十万个消费者、几千万个人到最后总结出来你个人的行为,你总觉得跟别人不一样,大数据告诉你,歇了吧,你跟别人一样。凡是当你认为你自己跟别人不一样的时候,其实是你很幼稚的时候,你想一想你初恋的时候,你都觉得跟别人不一样,那都是很世俗的,我这个是刻骨铭心的,现在呢,都结婚了,孩子都有了,你再回头想一想,有什么不一样的,都一样。

所以大数据时代,它是能够看出来,当你是在这种用统计学的术语讲,当你是在正态分布的时候,当你是在正常状态的时候,正常的世界是一个像钟一样的,就是它的概率发生的程度,极端的情况下概率发生的程度是小的,就是你是天才的概率是很小的,你是麦兜的概率也是很小的,大部分人其实都是在中等智力水平、中等道德水平,所以我能够预测出来,你能够大概怎么样。

但是如果我们的分布不是正态分布呢,那就不一样了,对不对,原来我们很多统计学基本上的方法论,我们的前提假设都是标准状态分布,所以为什么金融学理论错得一塌糊涂,按照标准的金融学理论,像2007年、2008年那样的金融危机,大概250亿年会发生一次,地球都不知道死了几回了,就是这学问还能得今年的诺贝尔经济学奖,他还好意思拿,所以原来的理论里头其实有严重的缺陷,所以有一本书叫《黑天鹅》,黑天鹅是什么,黑天鹅就是看起来不可能发生的事情,因为原来欧洲人不知道有黑天鹅,在欧洲看到的都是白天鹅。

所以有一个说法说,你说的这个事情不可能发生,不然你给我找到黑天鹅。结果后来航海技术发达了,到了澳大利亚,发现一群黑天鹅,就是你认为不可能发生的事情发生的概率是很大的,你天天打开电视就是,百年不遇的洪水,50年不遇到的旱灾,天天都遇到,因为你认为不可能发生的事情,其实发生的概率比你想象的是要大,说明什么,说明它不遵循标准的正态分布,所以这个书里面一句让我感触很深的话说,你不知道的事情比你知道的事情要更重要。

大数据时代通过承受小风险来避免大风险

大数据给我们带来的福音和带来的风险是交织在一起的,我们有很多风险也是现在大数据给你带来的,因为你没有办法找到到底哪条线索,线索太多了,所以回到最后一个概念,就是恢复力,就是你一定要向好。到最后我能不能回来,我们讲投资,投资最高的理念不是赚钱,是第一不赔钱,第二不赔钱,第三不赔钱,你能不能有恢复力,因为什么呢?

第一个如果我们现在讲究效益,我们把自己和整个世界,全球市场联起来,联起来效率是很高,但是会带来一个问题,一旦互联就会有风险,而且会有传染的系统性风险,那么另外一个你得想清楚你很可能会失败,不会的,别人会失败,我不会的,我告诉你,从地球诞生以来,地球上的物种99%都已经绝种了,原来有

一本书叫《从优秀到卓越》,你们父母当圣经,天天都在看,你今天再看看从优越到卓越,你去看第一版,他列出来的那些公司,现在有一半都去哪了,不知道,对不对,所以失败是必然的,成功是偶然的,所以你想好到最后不是你想好如何成功,是如何避免失败,尤其第一个必须保证你的核心业务在遇见危机的时候,还能够正常的运转;

第二,要有安全岛的意识,要把它一个一个分开,然后要保持适当的冗余,你看起来不是核心竞争力的战后重建部,它很有用,看起来它是累赘,但是它很有用,所以别减肥了,你看起来脂肪不好,但是它很有用,它到时候,真发生饥荒的时候,它会让你比别人活得更久;最后,就是要不断保持创新,那什么叫安全岛。

举个案例,在2003年北美出现了一个非常严重的断电事故,很简单,就是因为天气太热了,所以电线慢慢慢慢就垂下来了,垂下来了以后然后就挂在树上,一挂在树上然后就短路了,短路了之后按道理来说,这个时候马上就会自动的报警,但是报警的线路也断掉了,结果突然一下子在北美有4000多万人一下子没有电了,从来没有出现过这个事情,所以后来智能电网就开始在设计,设计里头有很多,实时监控、提高效率,但是里头最重要的概念,就是去偶合,就是什么意思?

就是一旦出现断电的事件之后我不会让它蔓延得那么快,我把它马上断掉,断掉之后那个停电了,但是我这边还能够正常的运营,我从原来的全不连起来的大电网,现在我要把它变成微型电网,最后这个安全很受军方欢迎,因为部队里头最喜欢的是这个,部队里头作战的时候,往往是为了送补给,伤亡就会很多,如果我不需要往前头去背这些能源什么的,我能够带着太阳能电池的帽子,然后我自己就能供能源多好,能够减少大量的伤亡。

所以现在的慢慢你会发现从大的系统开始转变到小的系统,小分队作战,大决战到最后成功,也是小分队作战,我们看到大决战,第一场大决战,解放战争第一场大决战辽沈战役,那其实是小分队作战,团自卫战、营自卫战、连自卫战,最后不知道怎么着就把敌人的司令部给端了,我一直有一个很荒谬的见解,为什么国民党打不赢共产党,因为国民党有飞机,他一有飞机一打仗,蒋介石坐着飞机到前线去指挥了,一指挥肯定错,共产党这都没有飞机,你毛主席不着急,着急,林彪也着急,到最后的结果,你反而是在小分队作战的时候,能更好的发挥作用,你有一个大的顶层设计,但是底下有群众创新,这是一个最好的组合。

如何防范风险,我们必须要主动的去承受一些风险,再有一个案例,就是在黄石公园曾经有一次出现了严重的森林火灾,基本上从夏天一直烧,烧到最后实在没有办法等到冬天第一场雪才把这个火灾扑灭,所以最后痛定思痛说哪有火灾我们马上就去把它扑灭,发现越扑火灾越多,为什么,最后发现你不容忍风险,最后会带来大的风险,因为你一有火灾就把它扑灭,所以森林老化的速度就比原来快了,到处都是死掉的树横七竖八的。

如果出现火灾的话蔓延的速度会更快,所以防止森林火灾最好的办法是什么,是主动的先放一把火,烧出来一个隔离带,然后如果真的有火灾的话,不会蔓延得那么多。所以我们过去的时候总是说要零容忍,其实我们需要的要容忍更多的风险,因为你去承受小的风险,到最后你是为了防止能出现致命的大的风险。

大数据并非万能重在改变固有思维模式

我前面尽管讲了大数据很神很神,但是我要提醒大家,大数据并不是什么事情都能够预测,它不能够预知未来,它不能够预测整个复杂的体系,那怎么办,你只

能是靠我们自己,就是原来的有很多理论都错到离谱的程度。那你说那我们找一个英明的领袖来帮我们指引航向,对不起,没用,这个是真的没用。

2007年、2008年发生百年不遇的金融危机,美联储主席格力斯潘在美国国会,有一个国会议员问:“为什么会爆发金融危机,格林斯潘说我发现了一个缺陷,但是不知道它有多么严重,也不知道他会持续多久,但是这件事情使我深感苦恼。”在那说,然后议员马上打断他:“格林斯潘先生,你的意思是,你根本就不知道,为什么会出现这个金融危机。”格林斯潘愣了一下说:“是,因为在过去40多年,甚至更长的时间里,我都有非常雄辩的证据,证据我过去的做法都会如愿所想,从无失算。”

这么大的一场金融危机爆发了,你问美联储的掌舵人为什么会出现金融危机,他说我不知道,要你干嘛。苏联解体,一夜之间一个不可一世的帝国灰飞烟灭,你问戈尔巴乔夫,戈尔巴乔夫同志苏联为什么会解体,他说不知道,没人通知我。911袭击出现的时候,小布什发表电视讲话,说谁打我们,我们坚决饶不了他,但是他在发表电视讲话的时候,他不知道谁打的,他连谁打他,他都不知道,你靠这些,就是这都是我们顶级的全球领袖人物,这都是达沃斯世界经济论坛上看到的,你去问他们,我们到底发生了什么,不知道,他跟你一样不知道,为什么,因为有时候我们真的是没有办法知道。

推荐一本书叫《信号与噪音》,也是讲大数据,但是比那些完全歌颂大数据的要更清晰,这个书里头讲到有一些我们其实能够预测,而且预测得很好,比如现在,原来我们认为天气预测我们觉得老是失误,其实现在天气预测比原来要准确很多了,美国现在可以非常准确的预测飓风,到底会到哪里去,然后会变得多大,但

是有一些还预测不了,地震预测不了,火山爆发预测不了,金融危机预测不了,革命预测不了,这些都预测不了。

那为什么预测不了,为什么不能靠大数据来预测,它这里头讲,它说OK,信息增长的速度快不快,很快,但是信息增长的速度这么快,那你有没有想过,真理增长的速度是不是和信息增长的速度一样快呢,没有,颠扑不灭的可能也就那几条。

那如果真理增长的速度没有信息增长的速度快,你推论是什么,就是在你的信息中噪音的比重,所占的比重越来越高,对不对,所以当我们拿到的数据越来越多,我们拿到信息越来越多的时候,有时候反而会妨碍我们做出准确的判断,为什么,为什么会出现这种情况,为什么,还要回到科学最新的发展,就是原来的时候,我们认为科学是牛顿力学体系。

其实现在科学早就已经认识到,真正的这个世界是一个复杂体系,而复杂体系是没有办法预测的,生态系统是没有办法预测的,金融体系是没有办法预测的,社会体系是没有办法预测的,从本质上就是不可预测的。你说我还不信了,我试试看,我去预测,最后看我能不能拿一个诺贝尔奖,有人已经试过了,最简单的复杂系统,就是沙堆,就是你在海边堆一个沙堆,金字塔一样,那你有没有想过你能不能一直往上堆,一直把这沙堆堆到月亮上去。

不可能,你肯定堆到一定程度的时候,这个沙堆就不稳定,你再往上放一粒沙子,原来的沙堆可能就更雪崩一样就塌了,一定会发生的。那你能预测出来,再往上放一粒沙子会倒塌,还是放1000颗沙子它会倒塌,也预测不出来,你说我还不

信邪了,这儿简单的事情我还预测不出来,我到中科院去,用计算机调出来,过来预测,有物理学家还真干过这个事,预测沙堆到底什么时候出现不稳定性,最后发现预测不出来,为什么?

你比如说你开始有100粒沙子,然后你再往上放一颗沙子,你看起来是简单的是往上放了一颗沙子,但是原来的100颗沙子会跟有人指挥一样自动的调整位置,这个时候系统会达到一个叫自组织超稳定的一个结果,当过了一个阈值之后整个系统就变得不稳定,但是你这个时候你知道它变得不稳定,但是你不知道它再往上放多少颗沙子,会引爆整个沙堆,就跟股市。

我原来有炒股票的朋友,在股市3000点的时候他们就已经先知先觉的知道,说这个肯定要破,3500点的时候他们全都杀出来了,坐在那等,反正你就不信,你等着看,肯定得破,马上就要崩盘,高3500点涨到4000点,4000涨到4500点,4500点涨点5000点,5000点涨到5500点,到5500点的时候,他们突然醒悟过来,说这次好像跟上次不一样,又进去,所以你能够准确的知道,这里头有泡沫,但是你不知道什么时候破。

都说中国楼市有泡沫,但是你不知道它什么时候如何方式会引爆这个泡沫,你没有办法预测,凡是那些能告诉说未来几年房价会涨多少的,跌多少的那都是骗人的,真正的这个是没有办法预测的,那怎么办,算了,既然没有办法预测,那我们还听什么《时代大讲堂》,还学什么,就回去,该是什么就是什么。不是,没有办法预测,并不等于我们不能接近真理,但是我们必须要改变你原来的思维模式,就是你不去追求准确的预测而是去把握万物之间可能存在的联系。

大数据的启示东方思维的优势不能丢

以色列有一个情报部门,这个工作我估计除了中国的铁道部,可能是世界上最难干的工作,因为它复杂的程度非常厉害,以色列的周围全部都是潜在的敌人,情报部门现在有很多高科技,他能够有很多窃听的技术,你比如我们在这个房间里头说话,他都不用安窃听器,你说话的声音传到玻璃上面,他在外面然后弄一个仪器从玻璃的振动他就能知道你在说什么,然后卫星拍的照片越来越精准,现在情报部门都是在搜集这个,能看得见、听得到的这些东西。

但是后来主管很不按常理出牌,他老是布置一些很奇怪的任务,他让手下去看看叙利亚的首都大马士革今天晚上演什么戏,去看看黎巴嫩菜场上现在卖菜卖得贵不贵,雇个保姆现在多少钱,雇个月嫂多少钱,有人说你是情报部门的主管,你管人家演什么戏呢,你管什么雇保姆多少钱,但是看起来没有联系的事物之间是有联系的,黎巴嫩在中东号称中东小巴黎,相对来说是很繁荣的。

所以有很多叙利亚的劳工到黎巴嫩去打工,如果你看到黎巴嫩雇个保姆很强手、经济很繁荣,那就会有更多的叙利亚的劳工到黎巴嫩打工,打工完了之后就会把他们赚的钱汇回去,大马士革就会歌舞升平,晚上就会演戏,那好了,那你就可以高枕无忧了,天下太平,但是如果你发现黎巴嫩经济形势不好,叙利亚能够来打工的人就少,那叙利亚他依靠这些打工的人,会不会失业,它经济不景气,不景气老百姓就会有怨言,然后叙利亚的领导就可能会说了,我知道你们有怨言,我知道你们过得不舒服,谁叫我们过得不爽,万恶的以色列人,走我带你们打他去,这个时候那你可能风险就会高了,所以你看起来没有联系的事物之间,是有联系的。

在硅谷有一个很有名的红杉资本,创始人叫莫里斯,他跟别的风险投资家不太一样,他既不是在什么哈佛商学院、沃顿商学院毕业,也不是IT工程师,他上大

学的时候本科是学英美文学的,本来想当诗人,想当剧作家,后来发现当不了,改行当风险投资家,你说他懂专业吗,他肯定懂,但是他肯定不是专家。

有一天有人告诉他,说有一个小伙子想来跟你聊天,行,来,聊,小伙子你想干什么,小伙子说我想搞一个搜索引擎,搜索引擎当时已经是红海了,我们讲蓝海红海,已经是红海了,是一个烧钱的,而且那个时候包括AOL,还有雅虎都已经开始在做搜索引擎,这个年轻人,就是斯坦福一个还没有毕业的大学生,又没有钱,又没有经验,莫里斯说小伙子你很有想法,我投了,他就投了,这个公司现在变成啥了,变成谷歌了!

读诗读得多了还是有用的,莫里斯说我能跟别人形成共鸣,他说如果我没有办法感受到,这个人想干什么,他说的再好项目可行性起来再好,我心里很慌,他说我不敢投资,我一定要找到,就是我能跟他有共鸣我才敢去投资,所以这个东西也很悬,跟我们原来想的也不一样,所以这个就是带来一个什么,你得调整你原来的想法。

调整你原来的思路,《信号与噪音》,就是我刚刚推荐的那本书里头,用了一个,也是引用,用了一个很有趣的比喻,他说,个体专家比你行,拿出来单个挑,一个专家一个你,你不如专家;但是专家和群众作为一个整体来比,专家的智商比群众是要低的。

就是如果现在比如说,你去参加王小丫的什么开心辞典,问你一些古怪的题,然后问你,你肯定吗,你心里不肯定,那你怎么办,你有两个选择,一个选择打电话问亲友团,你的选择,问现场的观众,我教你一招,问现场的观众,你越拿不

准就问现场的观众,当现场的观众每个人都在独立的情况下做初选择,最后平均得到的结果一定比专家准确的程度会更高,群众的智慧,所以我们为什么现在要搞群众路线学习,群众的智慧比专家的智慧是要高的。

但是专家里头,又有不同,他说有两类不同的专家,一类的专家叫刺猬,一类的专家叫狐狸,刺猬是什么,是知道一件事,但是知道的是一件大事,狐狸是什么,是知道很多事,但是知道的都是小事,原来大家觉得刺猬是好的,他能够坚持一个大事,但是这个最后这个《信息与噪音》里面,它举了一个研究,就是有一个研究说为什么专家老犯错,最后你发现有的专家比有的专家犯错要少,为什么这些专家犯错比别的专家犯错少,最后发现这些专家都是狐狸,如果狐狸跟刺猬比的话,狐狸往往能够预测得更准。

但是狐狸成不了大家,因为你能在电视里头当明星,能够当大V,基本上是刺猬,你坚持一个,打死也不松口,市场经济就是好,政府就是什么都不能干,你就能成大V,但是你要去问狐狸,狐狸说这个不肯定,有时候是好的,有时候是不好的,取决于你要讨论的是什么问题,这看着真没劲,从哪找来的这个专家,真没劲,给一个痛快点的,到底是支持还是反对,但是真正的态度是狐狸,狐狸随时愿意根据情况发生的变化调整自己原来的认知结构。

所以你要真想,你不想去当大V,不想去当明星,你真想能跟真理更亲近一点的话,你应该当一个狐狸。所以我就是立志当一个小狐狸,大数据的时代跟我有什么关系,其实是有关系的,看起来没有关系的事物之间,是有普遍联系的。所以鼓励大家,要努力的去寻找这种普遍的东西,尤其是中国人,我们本身就有这个长项,你不要把你这个长项最后都浪费了,中国人有不擅长的,中国人不擅长进

行逻辑思维,进行逻辑推理,有时候看起来好象不如人家,但是我们思维很发散,我们善于寻找到普遍联系。

有一个实验心理学家做了一个实验,什么,把学生里头来自东方背景的中国、日本这些留学生分成一组,然后欧美背景的分成一组,西方的分成一组,然后把他们领到实验室里头,给他们放一张一张图片,他旁边有一个仪器,能够记录下来你看这个图片的时候你眼神运行的轨迹,就是你在看哪。然后最后他发现,西方的学生,看东西的时候,你比如你给他看一张森林,森林里头有一个老虎,他是这么看的,先扫一下,完了之后一看说这个画的主题是森林中的老虎,然后他就死盯着老虎看,因为你画的主题是森林中的老虎,他就死盯着老虎看,但是他发现东方的学生不是这样的,东方的学生是他先看老虎,然后他看森林,回过头来看老虎尾巴,然后他去看画矿,眼神是散乱的,西方人不能理解,你一看就知道这个画的主题是森林中的老虎,你看画框干什么,他解释是什么,他说东方人一生下来他的环境很复杂,所以他本能的他要把所有能够搜集到的背景的信息全部搜集到了,他才敢下判断。

你不信你去找一个当官的朋友你问他,今天过得好吗,他会等半个小时,什么意思,然后他才敢回答你,因为他本能的他要把所有可能背景的信息,他都搜集到他才敢回答,所以东方的思维和西方的思维影响就很多看法都不一样,比如西方人战争的经典著作《战争论》里头讲的战争怎么打,集中你的优势兵力攻击敌人的薄弱环节,你要打仗,你先看敌人是左翼不行,还是右翼不行,然后集中我的优势兵力攻击别人的弱势,打仗不就这么打吗?

中国人他不这么考虑,该打仗了,他琢磨点别的,派一个美女过去行不行?搞一个离间计行不行?把他爸爸弄过来威胁他熬一锅汤不知道行不行?找几个小孩

教一个儿歌弄点谣言,网上发一个帖子不知道行不行?他就想这个,哪儿挖个水淹他一下行不行?放一把火烧他一下行不行?所以到最后的时候,西方人认为,常胜将军叫百战百胜,像巴顿那样的,那真是打仗每次都打赢了,你真打过,那你叫常胜将军。而东方人讲究的最高境界,叫“不战而屈人之兵”。

你说这东西跟我们有什么关系,有关系,比如我们有很多企业,学了很多西方的管理的思想学坏了,现在都知道,我们企业要有核心竞争力,但是你很难判断什么叫你的核心竞争力,什么不是你的核心竞争力。

像黎巴嫩真主党游击队,他的核心竞争力不就是打仗么?但是它还干点跟他的核心竞争力没有关系的事,在黎巴嫩南部真主党游击队有一个叫战后重建部,它负责干什么,负责盖房,就是你这个炮火把人的民宅给炸了,然后他就去再修,那你说修这个干什么,修房修得速度赶快赶不上人家炸你的速度?

他修的不亦乐乎,而且修完之后比我们开发商都还好,他不是修完就不管了,修完之后你说下水道不通了,没关系,打一个电话,真主党游击队派一个游击队员帮你清理下水道,你说这个孩子不学习,不读书,没有关系,打一个电话真主党游击队派个游击队员过来辅导功课,辅导孩子读可兰经,为什么,看起来不是它的核心竞争力,但是实际上你想一想,这都是跟我们学的,原来我们讲究居民鱼水情,正是由于有了战后重建部,真主党游击队在黎巴嫩南部那真是如鱼得水。你看起来没有联系的事情,实际上是有联系的。

从大数据的角度看房价一定会下跌

大家在关注这种瞬息万变的大数据、IT革命时,还要把心慢慢地沉下来,除了关注快变量,我们还要关注慢变量,什么叫慢变量,慢变量就是看起来跟你没有

大数据对统计学的冲击与机遇

本科毕业论文(设计) 论文题目:大数据对统计学的冲击与机遇 学生姓名:黄耀真 学号: 1004100311 专业:统计学 班级:统计1003班 指导教师:朱钰 完成日期:2014年 4月 10日

大数据对统计学的冲击与机遇 内容摘要 2010年,全球数据跨入了ZB时代,据IDC预测,至2020年全球将拥有35ZB的数据量,大量数据实时地影响我们工作、生活,甚至国家经济、社会发展,大数据时代已经到来。基于数据关系的内在本质决定了大数据与统计学之间的必然关系,大数据对统计学产生了冲击又提供了机遇。本论文首先对现代统计学体系作了简要介绍。根据统计方法将统计学分为描述统计学和推断统计学,首先从大数据对描述统计学的冲击进行分析,体现在:对搜集数据方法的冲击、对搜集数据类型的冲击、对数据存储方法的冲击。再者对推断统计学的冲击进行总结。大数据对统计学的机遇体现在:抽样平均误差的降低、统计学作用范围的扩大及统计学家地位的提升。 关键词:大数据统计学冲击机遇

The impact and opportunities of big data on statistics Abstract:In 2010,the quantity of data rcached ZB level.According to IDC,there will be at least 35zettabytes of stored data in 2020.Massive data are affecting our life,even the economy and the development of society.The Big data era alredy come.From the perspective of subject, big data can be regarded as a new dataanalysis method due to its function in storage, integration, processing and analysis formass data. The intrinsic nature of big data based on data relationships determines thecertain connection with statistics, thus big data brings both challenges andopportunities to the development of statistics. The statistical was divided into descriptive statistics and inferencial statistics. The challenges of descriptive statistics embodied in the impact on method of data collection, the impact on data type and the impact on data storage.The summary of inferencial statistics.Besides, strengthen convincingness of statistical result,extended statistics system, wilder functionfield as well as higher status of statistician. Key words:Big data statistics impact opportunity

大数据时代的Excel统计与分析定制

大数据时代的Excel统计与分析 第1章大数据分析概述 1.1 大数据概述 1.1.1 什么是大数据 1.1.2 数据、信息与认知 1.1.3 数据管理与数据库 1.1.4 数据仓库 1.1.5 数据挖掘的内涵和基本特征 1.2 制造行业需要分析哪些数据? 1.2.1 产品的良率监控 1.2.2 产品的BOM设计 1.2.3 市场数据监控 1.2.4 财务数据 1.2.5 产品生产数据 1.2.6 设备预防性维护数据 1.2.7 产品需求数据 1.2.8 其他日常数据等 第2章数据挖掘流程 2.1 数据挖掘流程概述 2.1.1 问题识别 2.1.2 数据理解 2.1.3 数据准备 2.1.4 建立模型 2.1.5 模型评价 2.1.6 部署应用 第3章大数据的Excel统计分析 3.1 研究程序与抽样 3.2 频率分布 3.2.1 传统的建表方式 3.2.2 离散变量—单选题频率布 3.2.3 如何用Word编辑频率分布表 3.2.4 绘制频率分布统计图表 3.2.5 离散变量—复选题频率分布 3.2.6 利用RANK()函数处理 3.3 集中趋势 3.3.1 平均值\平均值的优点 3.3.2中位数\ 众数\ 内部平均值\ 最大值\最小值 3.3.3 第几最大值第几最小值

3.3.4 描述统计 3.4 离散程度 3.5 假设检验 3.6 单因子方差分析 3.7 相关分析 3.8 回归分析 3.9 聚类分析 3.10预测分析 第4章大数据的图表分析案例 前言:常见图表分析的三大错误 4.1 用实例说明九大类型图表:饼图、柱状图、条形图、折线图、散点图、雷达图、气泡图、面积图、圆环图的应用场合 4.2 几种专业的图表分析法 4.3九大类型图表的生成实例演练 4.4介绍几种专业的图表分析工具,您需要展示与众不同的专业度 -利用双曲线组合图表显示预计销量和实际销量对比 -利用柱形层叠图显示计划完成度 -利用双侧比较图显示市场调查结果 -利用复合饼图深入分析主要销售组成 -使用断层图分析企业数据 第5章数据分析应用实践 5.1 合理的数据呈现与EXCEL/PPT图表制作 图表制作的关键要素 合适的图表展示合适的数据 正确表达需要的主题 图表与文字的协调 图表的结论 5.2科学的数据分析结果解读 注意因果关系 不要以偏概全 考虑环境影响 兼顾定性研究 第6章数据分析报告与汇报 6.1如何撰写一份优秀的数据分析报告 6.2现场实操演练:分析报告撰写 6.3 汇报的技巧 第7章商业预测技术 预测是企业重要的决策依据,企业通过预测技术可以估计下一季度、年度的市场规模、市场占有率、销售量等。 1. 预测责任者与支持者 2. 预测的组织流程

统计学是(大数据)数据分析的灵魂

及早发现流感 谷歌有一个名为“谷歌流感趋势”的工具,它通过跟踪搜索词相关数据来判断全美地区的流感情况(比如患者会搜索流感两个字)。近日,这个工具发出警告,全美的流感已经进入“紧张”级别。它对于健康服务产业和流行病专家来说是非常有用的,因为它的时效性极强,能 够很好地帮助到疾病暴发的跟踪和处理。事实也证明,通过海量搜索词的跟踪获得的趋势报告是很有说服力的,仅波士顿地区,就有700例流感得到确认,该地区目前已宣布进入公 共健康紧急状态。 这个工具工作的原理大致是这样的:设计人员置入了一些关键词(比如温度计、流感症状、肌肉疼痛、胸闷等),只要用户输入这些关键词,系统就会展开跟踪分析,创建地区流感图表和流感地图。谷歌多次把测试结果(蓝线)与美国疾病控制和预防中心的报告(黄线)做比对,从下图可知,两者结论存在很大相关性: 但它比线下收集的报告强在“时效性”上,因为患者只要一旦自觉有流感症状,在搜索和去医院就诊这两件事上,前者通常是他首先会去做的。就医很麻烦而且价格不菲,如果能自己通过搜索来寻找到一些自我救助的方案,人们就会第一时间使用搜索引擎。故而,还存在一种可能是,医院或官方收集到的病例只能说明一小部分重病患者,轻度患者是不会去医院而成为它们的样本的。 这就是一个典型的“大数据”的应用例子,舍恩伯格的这本《大数据时代》受到了广泛的赞誉,他本人也因此书被视为大数据领域中的领军人物。 大数据的起源 大数据起源于数据的充裕,舍恩伯格在他的另外一本书《删除》中,提到了这些源头。 1、信息的数字化,使得所有信息都可以得到一个完美的副本; 2、存储器越来越廉价,大规模存储这些数字信息成本极低;

大数据时代统计调查工作的挑战与思考_季晓晶

2013.5 一、问题的提出 大数据(bigdata)泛指伴随社会化数据出现的大量在线文本、图片、流媒体数据。这里的“大”有两方面含义。一是数据量巨大。指在科学技术、计算机仿真、互联网应用、电子商务等诸多应用领域产生的海量数据集。二是以数据为“大”的价值论。即大数据之 “大”更多地反映在其重要性上,而不完全指数量上的庞大。因为可以从这些数据中挖掘出有价值的信息,目前大数据被世界经济论坛的相关报告认定为其价值堪比石油的新财富。随着互联网和移动互联网的发展,无处不在的信息感知和采集终端,将行政管理、生产经营、商务活动等众多领域源源不断产生的海量即时电子化数据,通过“云计算”技术构建了一个与物质世界相平行的数字世界,所以很多专家认为人类已经跨入了大数据时代。作为数据生产的权威机关,这样一个时代的到来给统计调查工作带来了什么样的挑战与启示?统计调查部门和统计调查工作者应该怎样应对才能满足时代提出的需求?对此,笔者拟结合多年基层工作经历进行初步探讨,意在抛砖引玉,以期更多的同仁共同关注、思考大数据时代对统计工作带来的变化和影响。 二、大数据时代的来临及意义 有资料显示,1998年全球网民平均每月使用流量是1MB,2008年是1GB,2014年将是10GB。全网流量累计达到1EB的时间在2001年是一年,在2004年是一个月,在2007年是一周,而2013年仅需一天,即一天产生的信息量可刻满1.88亿张DVD光盘。淘宝网站单日数据产生量超过50TB,存储量40PB。百度公司每天要处理60亿次搜索请求,几十PB数据。一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十PB。数据的规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值更大,这就是大数据热的原因。根据中国互联网络信息中心统计,2012年底我国网民数为5.64亿,手机网民为4.2亿。这些网民每天在网上将产生海量的数据,这些数据记载着他们的思想、行为乃至情感,蕴含着丰富的内涵和很多规律性信息,通过分析相关数据,可以了解大众需求、诉求和意见, 反映舆情民意。大数据的重要价值还在于对其有效的开发和使 用能对社会的发展起到巨大的推动作用。企业和政府的信息系统每天源源不断产生大量数据。根据全球第四大独立软件公司,美国赛门铁克公司的调研报告,全球企业的信息存储总量已达2.2ZB,年增67%。医院、学校和银行等也都会收集和存储大量信息。政府可以部署传感器等感知单元, 收集环境和社会管理所需的信息。2011年,英国《自然》杂志曾出版专刊指出,倘若能够有效地组织和使用大数据,人类将得到更多的机会发挥科学技术 对社会发展的巨大推动作用。 (备注:1024B=1KB 1024KB=1MB 1024MB=1GB 1024GB=1TB 1024TB=1PB 1024PB=1EB 1024EB=1ZB 1024ZB=1YB 1024YB=1BB ) 三、大数据时代统计工作面临的挑战 可以预见,大数据时代的到来,对统计调查部门生产出更高质量的统计产品提供了难得的机遇和更大的可能性,但与此同时,带来更多的则是挑战。这种挑战集中体现在随着大数据时代的到来,统计调查部门应该能够使用更少的投入生产出时效性更强、质量更高的产品。社会各界对统计调查部门新的服务需求和更高的工作要求也将随之形成。基于此,笔者认为在大数据背景下,统计调查工作正面临六大挑战。 一是统计工作方式的挑战。在大数据科技大浪潮的背景下,数字化的行政商业记录、网络在线文本、流媒体数据大大拓宽了统计机构收集数据信息的渠道,统计调查部门的业务工作方式也势必发生改变。在数据收集方面, 会更多的需要从互联网、物联网的数据中进行挖掘收集。如物联网的发展将使工业生产、运输物流、最终消费、服务等各种交易生成直接可用的数据。又如,现行的居民家庭日记帐是通过统一的报表和计量方式将调查对象的收入消费行为转化为可用的数据,在大数据时代将有可能实现通过对超市商场收银系统、ETC电子收费系统、GPS定位测量、银行转账、微信等数据进行挖掘从而收集到需要的数据,不再需要调查对象长期认真的配合。这种数据收集方式可以有效避免人为误差,篡改数据的可能性越来越小,数据质量将更有保 大数据时代统计调查工作的挑战与思考 季晓晶 摘要:大数据(bi g d ata )泛指伴随社会化数据出现的大量在线文本、图片、流媒体数据。因其数据量巨大又可以从中挖掘出有价值的信息, 目前被世界经济论坛的相关报告认定为其价值堪比石油的新财富。随着互联网和移动互联网的发展,无处不在的信息感知和采集终端,将行政管理、生产经营、商务活动等众多领域源源不断产生的海量即时电子化数据,通过“云计算”技术构建了一个与物质世界相平行的数字世界,所以很多专家认为人类已经跨入了大数据时代。作为数据生产的权威机关,这样一个时代的到来给统计调查工作带来了什么样的挑战与启示? 统计调查部门和统计调查工作者应该怎样应对才能满足时代提出的需求?对此,笔者结合多年基层工作经历进行了初步探讨。 关键词:大数据;统计调查工作;思考 问题研究 17

大数据时代统计学重构分析

大数据时代统计学重构分析 重构随着信息科学技术的高速度发展,当代获取和储存数据信息的能力不断增强而成本不断下降,这为大数据的应用提供了必要的技术环境和可能.应用大数据技术的优势愈来愈明显,它的应用能够帮助人类获取真正有价值的数据信息.近年来,专家学者有关大数据技术问题进行了大量的研究工作[1],很多领域也都受到了大数据分析的影响.这个时代将大数据称为未来的石油,它必将对这个时代和未来的社会经济以及科学技术的发展产生深远的意义和影响.目前对于大数据概念,主要是从数据来源和数据的处理工具与处理难度方面考虑,但国内外专家学者各有各的观点,并没有给出一致的精确定义.麦肯锡全球数据分析研究所指出大数据是数据集的大小超越了典型数据库工具集合、存储、管理和分析能力的数据集,大数据被Gartner定义为极端信息管理和处理一个或多个维度的传统信息技术问题[23].目前得到专家们认可的一种观点,即:“超大规模”是GB级数据,“海量”是TB级数据,而“大数据”是PB及其以上级别数据[2]. 一些研究学者把大数据特征进行概括,称其具有数据规模巨大、类型多样、可利用价值密度低和处理速度快等特征,同时特别强调大数据区别于其他概念的最重要特征是快速动态变化的数据和形成流式数据.大数据技术发展所面临的问题是数据存储、数据处理和数据分析、数据显示和数据安全等.大数据的数据量大、多样性、复杂性及实时性等特点,使得数据存储环境有了很大变化[45],而大部分传统的统计方法只适合分析单个计算机存储的数据,这些问题无疑增加了

数据处理和整合的困难.数据分析是大数据处理的核心过程,同时它也给传统统计学带来了巨大的挑战[6].产生大数据的数据源通常情况下具有高速度性和实时性,所以要求数据处理和分析系统也要有快速度和实时性特点,而传统统计分析方法通常不具备快速和实时等特点.基于大数据的特点,传统的数据统计理论已经不能适应大数据分析与研究的范畴,传统统计学面临着巨大的机遇与挑战,然而为了适应大数据这一新的研究对象,传统统计学必须进行改进,以继续和更好的服务于人类.目前国内外将大数据和统计学相结合的研究文献并不多.本文对大数据时代这一特定环境背景,统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果的评价标准的重建等问题进行分析与研究. 1传统意义下的统计学 广泛的统计学包括三个类型的统计方法:①处理大量随机现象的统计方法,比如概率论与数理统计方法.②处理非随机非概率的描述统计方法,如指数编制、社会调查等方法.③处理和特定学科相关联的特殊方法,如经济统计方法、环境科学统计方法等[7].受收集、处理数据的工具和能力的限制,人们几乎不可能收集到全部的数据信息,因此传统的统计学理论和方法基本上都是在样本上进行的.或者即使能够得到所有数据,但从实际角度出发,因所需成本过大,也会放弃搜集全部数据.然而,选择最佳的抽样方法和统计分析方法,也只能最大程度还原总体一个特定方面或某些方面的特征.事实上我们所察觉到的数据特征也只是总体大量特征中的一小部分,更多的其他特征尚待发掘.

大数据,统计学

大数据时代需要重视统计学 我们现在要开始重视大数据,要重视统计学,因为在数据足够大了之后,我们突然发现一切社会现象到最后都有统计规律,它不像物理学那样可以准确的去描述因果的关系,它从本质上来说就是一个统计的规律。统计学学好了,你再去学别的都战无不胜,因为一切社会现象到最后都是一个统计规律。 为什么要强调统计学呢,因为我们的认知能力中最差的是统计思维。人的大脑有一些功能优良得超过我们的想象,比如我们的语言能力。著名的语言学家乔姆斯基曾说,其实语言不是你学来的,语言是你天生就会的,因为语言太复杂了,要是从出生再学语言根本学不会,等你出生的时候,你的大脑里头已经预装了一套操作系统,语言的操作系统。所以语言我们是天生就会的。 还有,比如我们察言观色的能力,也是天生就会的。但有,一些是我们不会的。一位得诺贝尔经济学的心理学家写过一本书,《思考快与慢》。里面就讲到,我们有很多思维是靠直觉的快思维,这是我们几万年、几十万年、几百万年的自然演化,然后给我们留下来的,就是第六感觉。当你觉得可能有危险的时候,你就会跑掉。但是呢,我们另外一套操作系统是用来做逻辑推理以及进行统计分析的,装得很烂,所以我们天生缺的是逻辑推理能力和统计思维能力。 所以,在大数据的时代,我们最需要补的,其实是我们认知能力中最差的统计思维。如果有在学校的学生,我建议统计学这门课要好好地上。 “大数据”何以成为热门词汇? 为什么突然之间,大数据变成了一个最热门的词汇?

首先是由于IT革命。IT革命之后,我们有了很多处理数据的能力,对计算机数据的处理能力、存储的能力和计算的能力不断的提高。人类储存信息量的增长速度比世界经济增长的速度要快4倍,而且这还是在金融危机爆发之前的世界经济增长的速度。而计算机数据处理能力的增长速度,比世界经济增长的速度要快9倍。 其次,能够被数据化的东西越来越多。最早的时候是数字可以被数据化,所以我们有了阿拉伯的计数,后来又出现了二进位,再后来我们发现文字也可以处理成数据,然后我们发现又图像也可以处理成数据。我不知道欧美同学会《时代大讲堂》位置在哪里,我就赶紧上网查一查地图,方位也可以被数据化;你用微信、微博,跟朋友在网上交流,说明你的社会关系也会被数据化。 所以这就是为什么现在要谈大数据,因为可处理的东西太多了。而当你能够被数据化的东西越来越多。当你能够拿到的数据越来越多时,就跟原来不一样了。原来的统计学得有一个抽样,因为你不可能拿到整体,因为整体太多了,而且无法去计算。而现在,当存储能力无限扩大,处理数据的计算能力不断的进步,致使现在我们所处理的往往不是一个样本数据,而是一个整体的数据。所以这个时候,有很多原来想都不能想的事情,现在你可以去做。 大数据时代的三个规律 规律一:知其然而不必知其所以然外行打败内行 我先讲一个案例就是葡萄酒。葡萄酒怎么品酒?过去是靠品酒方面的专家。他会先闻一闻,什么味道、什么香味,然后看看是不是挂杯,最后告诉你,这个酒大

(完整版)大数据时代对统计学的影响分析

大数据时代对统计学的影响分析 大数据和统计学两者在本质上是相互联系、相互促进,没有数据也不可能完成统计,所以二者缺一不可。在大数据时代,统计学必须与时俱进,跟上时代发展的脚步,勇敢地接受大数据带来的的挑战和变革,才会走得更长远。而大数据也要珍惜统计学,两者是无法离开的,只有在共同学习进步下,才能够实现双赢,成为主宰。 关键词:大数据时代;统计学;影响分析 引言 对于大数据(Big data),可以理解为新模式中具备决策性、洞察力、发现力的一门技术。它主要概括数据的自然增长力和多样化的信息资产。 统计学是大数据里面的一门重要的学科。因为它和大数据有着千丝万缕的关系,所以它被人们广泛使用和学习。它是通过整理分析得出来的科学的数据。具有精准性、客观性即概括性。完成统计学的方法有很多种,如调查法、立案法、实验法等主要广泛应用于社会、科学等方面。 一、大数据和统计学的关系 (一)两者的关系 在当今信息时代,用数字代表的信息越来越多,科技迅速发展,互联网时代高速运转,在许多公司用来统计数据的时候,都用的电子表格,进行整理分析。在把它们汇总起来,就成了统计。数据是统计的本质,统计是数据的概括及意义。数据就像零零碎碎的字母,统计就是英语单词,通过整理分析,把字母拼成一个具有意义的单词,这就是数据和统计的意义。只有相互依存,你中有我我中有你。 (二)大数据和统计学的区别 信息功能不同。大数据的意义是某种事物的代表,有些东西要是用它原本的名称代替可能不太放便,这样一个简便的代号即简便又容易记忆。在工作中,工作人员根据超市销售的数据进行整理分析,在汇总起来就是统计,最终他们看得都是统计整理得出的数,分析的也是统计后的数据。因此,统计学是用样本单位来分析和推断数据总体的特征。由数据控制,我们只能根据获得的数据来推断总体数量。在信息时代,越来越多的东西可以用数据表示,几乎全部的信息资料都

统计学理论在大数据分析中的应用

统计学理论在大数据分析中的应用 摘要:随着现代化科技与信息化技术的飞速发展,统计学理论得到了越来越多 的重视,而数据信息作为当前社会各个领域的重要支撑,这也使得相应的数据分 析方式也在逐渐改变,这就需要合理采用统计学理论来更好的应对海量的数据分 析内容。因此,文章首先对大数据分析的基本概述加以明确;在此基础上,提出 统计学理论在大数据分析中的应用措施,以求能够充分发挥出统计学理论的实际 作用。 关键词:统计学理论;大数据分析;应用措施 引言:在当前的现代化、信息化时代之中,各种各样的交易都已经发展到了 互联网平台之中,并且在交易过程中所产生的数据信息,都在互联网中得到了相 应保留,而大数据技术则正是以这些保留下来的数据信息作为基础,通过对其展 开深入分析的方式,挖掘出其中隐藏的规律,从而对未来一定时间段所发生的事 物进行预测。而统计学理论则与目前的大数据分析有着许多相同之处,并且对大 数据分析还起到了更好的促进作用。 一、大数据分析的基本概述 在现代化技术逐渐完善的背景下,大数据逐渐成为了各个商业领域以及学术 领域中炙手可热的技术形式。通常情况下,大数据被称为巨量资料,其主要是指 那些在多个渠道、多种形式下所收集的数据信息,并且这些数据信息还具有着明 显的实时性。简单来说,大数据一般都有着多样化、动态化、处理速度快以及商 业价值相对较高等优点所在。而基于大数据的这些基本特征,就应当更好的在复 杂的数据信息中,充分找寻出群众所需的数据信息,从而对其进行更加高效、全 面的应用。 二、统计学理论在大数据分析中的应用措施 大数据分析技术,其已经逐渐成为了目前社会发展的主流趋势,在日益剧增 的数据信息当中,灵活运用大数据分析技术能够做出更加精准、全面的预测。正 是由于这一特征,使得大数据分析在社会中的各个领域都得到了十分广泛的应用,并且相应的统计工具也在逐渐更新换代。由此也可以看出,大数据分析与统计学 理论的结合,必然会成为大势所趋,而针对这一具体情形,统计学理论在大数据 分析中主要有着以下几点应用措施: (一)创新数据分析理念 由于大数据自身具有着高速、多样、海量以及价值等多个方面的特征,基于 大数据分析的主要特点,其分析工作的重点就是对大量的数据信息进行归纳、分 类以及总结、统计,并从中深入挖掘出具有着应用价值的数据信息,并在完成对 比工作后,得到其中最具有价值的数据信息。而在数据信息的收集以及处理环节 当中,还需要有效将数据信息的的分析渠道加以创新,积极扩充各种数据信息的 来源,站在工作人员的角度上来看,则应当具备充足的数据处理以及数据积累意识,由于大数据技术自身拥有着流动性特征,随着时间的增长,数据信息的数量 以及规模必然会不断提升,因此,这也对工作人员提出了更高的要求,其要拥有 着现代化的数据分析理念,使得数据信息能够在真正意义上得到增值,从而更好 的解决群众的问题。 (二)统计学理论与大数据分析的结合 传统的统计抽样模式,已经逐渐无法适应时代发展对数据信息分析处理的具

大数据时代统计学发展的若干问题

大数据时代统计学发展的若干问题 作者:马双鸽,刘蒙阕,周峙利,方匡南,朱建平,谢邦昌 本文是发表在《统计研究》的论文基础上整理的,获国家社会科学基金项目“大数据的高维变量选择方法及其应用研究”( 批准号13CTJ001) 和国家自然科学基金面上项目“广 义线性模型的组变量选择及其在信用评分中的应用”(批准号71471152) 的资助。 一、引言 随着计算机技术,尤其是互联网和多媒体技术的普及与飞速发展,人类社会被呈爆炸性增长的信息所包围。据国际商业机器公司(IBM)资料显示[1],目前数据的生成每日以千万亿字节来计算,全球近90%的数据是在过去两年产生的。大数据时代已经到来。 基于自身态度和学术背景的差异,目前,来自不同领域、学科的学者对大数据的理解并没有一个统一的定义。依照美国咨询公司麦肯锡(McKinsey)[2]的定义,大数据是指那些规模超出了典型的数据库软件工具的能力来进行捕获、存储、管理和分析的数据集。与传统数据相比,大数据的大不仅仅是体量上的扩充,数据的结构、形式、粒度、组织等各方面都更加复杂。凭借存储成本更低、运行效率更高的现代信息

技术,大数据可以认为是一切可记录的数字化信号集合。从数据特征来看,Grobelink. M(2012)提出了著名的“3V”定义,即多样性( Variety) 、规模性( Volume)、高速性 ( Velocity)[3]。在此基础上,国际数据公司(IDC)认为大数据还具有价值密度低的特点(Value),而国际商业机器公司(IBM)则提出大数据的真实性(Veracity)。[1] 近年来,IBM、Oracle、Microsoft、Google、Amazon、Facebook等跨国公司大力推动了大数据处理技术的发展,大数据在自然科学、金融、医疗、移动通信等领域涌现出了大量应用成果[3]。伴随着大数据的广泛应用,越来越多的学者开始关注和讨论大数据问题,形成了一些颇具影响力、有代表性的观点。其中最典型的要属舍恩伯格和库克耶(2013)提出的大数据时代三个重要的思维转变:更多(不是随机样本,而是全体数据)、更杂(不是精确性,而是混杂性)、更好(不是因果关系,而是相关关系)[4]。上述观点在业界、学术界引起很多共鸣,同时也存在很多质疑[5,6]。此观点对于大数据时代统计学的发展方向具有一定的指导性作用,然而却很少有文章在探讨统计学科如何发展的背景下系统地 对其进行反思。因此,本文首先回顾了统计学发展历史,剖析了统计学的发展总是以应用为驱动,并在此基础上讨论了大数据背景下统计学的发展定位,进一步分析统计学与计算机之间的关系,并针对舍氏“三个重要的思维转变”提出自己

大数据处理技术的总结与分析

数据分析处理需求分类 1 事务型处理 在我们实际生活中,事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。这类系统数据处理特点包括以下几点: 一就是事务处理型操作都就是细粒度操作,每次事务处理涉及数据量都很小。 二就是计算相对简单,一般只有少数几步操作组成,比如修改某行得某列; 三就是事务型处理操作涉及数据得增、删、改、查,对事务完整性与数据一致性要求非常高。 四就是事务性操作都就是实时交互式操作,至少能在几秒内执行完成; 五就是基于以上特点,索引就是支撑事务型处理一个非常重要得技术. 在数据量与并发交易量不大情况下,一般依托单机版关系型数据库,例如ORACLE、MYSQL、SQLSERVER,再加数据复制(DataGurad、RMAN、MySQL数据复制等)等高可用措施即可满足业务需求。 在数据量与并发交易量增加情况下,一般可以采用ORALCERAC集群方式或者就是通过硬件升级(采用小型机、大型机等,如银行系统、运营商计费系统、证卷系统)来支撑. 事务型操作在淘宝、12306等互联网企业中,由于数据量大、访问并发量高,必然采用分布式技术来应对,这样就带来了分布式事务处理问题,而分布式事务处理很难做到高效,因此一般采用根据业务应用特点来开发专用得系统来解决本问题。

2数据统计分析 数据统计主要就是被各类企业通过分析自己得销售记录等企业日常得运营数据,以辅助企业管理层来进行运营决策。典型得使用场景有:周报表、月报表等固定时间提供给领导得各类统计报表;市场营销部门,通过各种维度组合进行统计分析,以制定相应得营销策略等. 数据统计分析特点包括以下几点: 一就是数据统计一般涉及大量数据得聚合运算,每次统计涉及数据量会比较大。二就是数据统计分析计算相对复杂,例如会涉及大量goupby、子查询、嵌套查询、窗口函数、聚合函数、排序等;有些复杂统计可能需要编写SQL脚本才能实现. 三就是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,目前越来越多得用户希望能做做到交互式实时统计; 传统得数据统计分析主要采用基于MPP并行数据库得数据仓库技术.主要采用维度模型,通过预计算等方法,把数据整理成适合统计分析得结构来实现高性能得数据统计分析,以支持可以通过下钻与上卷操作,实现各种维度组合以及各种粒度得统计分析。 另外目前在数据统计分析领域,为了满足交互式统计分析需求,基于内存计算得数据库仓库系统也成为一个发展趋势,例如SAP得HANA平台。 3 数据挖掘 数据挖掘主要就是根据商业目标,采用数据挖掘算法自动从海量数据中发现隐含在海量数据中得规律与知识。

大数据时代的统计学

大数据时代的统计学 摘要:本文主要围绕“大数据”展开话题,结合“统计学”专业,论述了什么是大数据,什么是统计学,在对概念的了解基础上掌握大数据的发展历程以及统计学的发展历程。从中找出大数据与统计学的联系,然后进一步了解在大数据时代下统计学所处的地位以及大数据时代下统计学的变化和发展。在前人的研究基础上,我们进一步的发现问题并探讨问题,运用统计学方法去解决大数据时代下的一些问题,并提出自己的看法。 关键词:大数据;统计学;数据挖掘;数据分析 引言 本文写作的目的在于阐述大数据的定义、历史发展及趋势、运用领域等有关大数据的问题,以及阐述统计学的定义、发展趋势、运用领域等有关统计方面的问题。在此基础上探析大数据时代下的统计学发生的变化,带来的影响,以及所导致的统计学的发展趋势。 有关大数据的文献很多,涉及的领域也相当广泛,如互联网、天文学、大气科学、基因组学、大规模电子商务等等,都离不开计算机作为载体,它们都成为了大数据的来源。本文写作主要基于运用统计学知识去处理大数据所涉及问题,而运用统计方法分析问题所涉及的范围也相当广泛。对于大数据的到来,对于统计学来说是福音,因为它为大数据时代处理大数据问题带来了有效的解决方法。 本文所引用文献主要来自于2011年到2015年的国内外有关大数据的期刊文献,从不同角度描述了大数据对当今时代的影响,尤其是对本文的另一位主角--统计学的影响。而对于一个统计学专业出身的人,对于大数据时代下统计学的发展有喜有忧,大数据时代的到来在一定程度上促进了统计学的发展,同样的也带来了巨大的挑战。这些都需要我们一步步的解决并完善。 正文 1 大数据的来源与发展历程 “大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和Google File System (GFS)的发布,大数据不再仅用来描述大量的数据,还

大数据对统计学的挑战和机遇

大数据对统计学的挑战和机遇 从学科角度而言,大数据对海量数据进行存储、整合、处理和分析,可视为一种新的数据分析方法,这种基于数据关系的内在本质决定了大数据与统计学之间的必然关系,大数据对统计学的发展既提出了挑战又提供了机遇。大数据对统计学的挑战体现在:大样本标准的调整、样本选取标准和形式的重新确定、统计软件有待升级和开发及实质性统计方法的大数据化。大数据对统计学的机遇体现在:统计质量的提高、统计成本的下降、统计学作用领域的扩大、统计学科体系的延伸及统计学家地位的提升。 大数据统计学挑战机遇 一、大数据与统计学的比较 统计学在大数据的研究中存在一定的应用,表现在将“大数据”变成“小数据”,对海量数据的搜索、聚类和分类依赖于统计学的一般方法,因而大数据的研究继承了统计学科的一些特点。但大数据尚未被统计学吸纳和应用,这主要是由于大数据与统计学存在两个很关键的差别。 第一,样本统计和全样本统计的差别。统计学依赖于样本统计(普查除外),样本是按照一定的概率从总体中抽取并作为总体代表的集合体,而随机抽样是有成本的,如时间

成本、资金成本、社会关系等。在样本规模增加有限的情况下,总体数量越大样本估计的误差就越大,这是样本统计不可避免的缺陷。 第二,预测分析和非预测分析的差别。统计学旨在分析变量之间的相关关系,即两个或两个以上变量之间存在的某种规律性,故数据搜集是发生在变量确定之后,数据的分析价值是可预测的。如若要研究利率对消费行为的影响,则利率大小和消费支出的数据会有目的地被搜集和分析。一旦分析目的完成,为该目的而搜集的数据的价值也就完全实现。 二、大数据对统计学的挑战 大数据与统计学的关系及其本身的优势,意味着未来统计学的大数据化是不可避免的趋势,现有的统计学与大数据之间还存在着一些不相容的地方,为积极应对这一趋势,就必须对现有的统计学理论和方法作出相应的调整甚至是某 些方面的完全革新。 统计学依赖于样本统计,主要研究客观事物数量关系和数量特征。大数据时代产生了海量的即时的电子化数据,其样本量大,甚至可以覆盖全部总体,所以包含更多的信息量。例如,传统的经济统计一般细化到行业层面或产品层面,但电子商务的发展和条形码的普及让记录具体到每一次交易 行为。网上电子化交易信息,企业电子化经营记录,部门电子化行政记录,为统计调查提供了海量数据,对统计学样本

大数据时代对统计学的挑战_邱东

第31卷第1期2014年1月统计研究 Statistical Research Vol.31,No.1Jan.2014 衡等传统计算机技术与现代网络技术融合起来,把多个计算实体整合成一个具有强大计算能力的系 统,并借助SaaS 、PaaS 、IaaS 、MSP 等商业模式把它分布到终端用户手中。云计算的核心理念就是不断提 高“云”处理能力来减少用户终端的处理负担,使用户终端简化成一个单纯的输入输出设备,并能按需 享受强大的“云”计算处理能力。可见,统计技术与云计算技术的融合是一种优势互补,只有这样统计 技术才能在大数据时代一展身手、有所作为,才能真 正把统计思想在数据分析中得到体现,实现统计分析研究的目的。 数据创造统计,流量创新分析。由于各个应用领域的不断变化,特别是数据来源与类型的不断变化,使得统计学还难以成为一门真正成熟的科学。因此,在数据分析的世界里,不断提高驾驭数据的能力是统计学发展的终身动力。 大数据时代对统计学的挑战 * 邱东 内容提要:本文首先探讨了面对大数据潮流应持有的科学态度,然后从大数据能否淹没整个世界、信息与噪声 能够泾渭分明吗、 统计学与数据科学究竟是什么关系、大数据潮流对统计学究竟产生了什么样的影响等四个方面论述了大数据对统计学的挑战。 关键词:大数据;信息;噪声;数据科学;统计学 中图分类号:C829.2 文献标识码:A 文章编号:1002-4565(2014)01-0016-07 The Challenge of Statistics in the Age of Big Data Qiu Dong Abstract :This paper discusses the trend to big data which is due from scholars to scientific attitude ,and then discusses the challenges of big data from four aspects as following :Can big data cover the whole world ?Can Information and noise be quite distinct from each other ?What ’s relationship between statistics and data sciences ?What kind of impact generated on the trend of big data ? Key words :Big Data ;Information ;Noise ;Statistics ;Data Sciences *本文为第十七次全国统计科学讨论会特邀论文。 一、除了机遇还有挑战 世界潮流,浩浩荡荡,不可阻挡,国人讲究识时务者为俊杰,信息时代,数据爆炸。大数据大势当 前,究竟采取什么样的态度才是真正的 “识时务”?大数据时代并不会自动生成,总是需要不断地提出和解决大数据发展所遇到的问题和矛盾,才会有切实的进步。事物发展的不同阶段有不同的“时 务”,需要不同的应对。2009年,大数据成为互联网信息技术行业的流行词汇。而早在1980年,著名未来学家A.托夫勒 出版《第三次浪潮》,其中已将大数据赞颂为“第三 次浪潮的华彩乐章”。此间30余年,能不能看作大数据发展的萌芽期?多数人对数据爆炸还懵懵懂 懂,世界需要赛博世界(Cyber world )的开拓者,需要大数据潮流的预示者,需要导师,需要先声夺人。 一旦人们接受大数据汹涌而来的现实,就需要既讲机遇,也讲挑战。我们固然仍需要启蒙,需要科 普, 需要科学理论和方法论的“二传手”,但不需要跟风,不需要屏蔽了部分信息的“偏息图”,不需要抓住一点不及其余的“唯数据论”,不需要“应运而生”的投机者。我们更需要切实有学术增加值的数

大数据与统计学分析方法比较

大数据与统计学分析方法比较 基于理念分析和比较研究方法,对大数据的分析方法和传统统计学分析方法的关联性和差异进行了对比分析,从方法的基本思想、量化形式、数据来源、分析范式、分析方法、分析视角等角度揭示了两种社会科学分析方法存在的联系与差异。 随着信息技术的日益发展与普及,信息以及数据在社会经济发展过程中发挥的作用越来越重要。现如今,“大数据”时代已经来临,于是如何更有效地利用数据快速做出科学决策也已成为众多企业甚至是国家所共同关注的焦点问题。在数据处理和分析方法方面,《统计学》以及在其基础上发展而来的实证统计方法是当前的主流,这些方法可以帮助数据持有者从大量的数据中挖掘有价值的信息,并为其相关决策提供理论支撑和方法支持。然而,传统的实证统计方法在最新出现的大数据情境下,却呈现出了诸多缺陷,例如传统数据收集方法无法实现大规模(甚至是总体)数据的收集,传统统计方法和分析软件无法处理大规模数据,等等。于是,在将传统统计学方法应用于最新的大数据情境和问题之前,需要首先明确大数据所要求的处理方法与传统的统计学处理方法存在哪些关联和区别,然后才能够决定是否可以应用既有统计学理论和方法来处理某些大数据问题。 1大数据的界定

根据一位美国学者的研究,大数据可以被定义为:it means data that’s too big,too fast,or too hard for existing tools to process。也就是说,该学者认为:在关于大数据的所有定义中,他倾向于将之定义为那类“太大”、“太快”,或现存工具“太难”处理的数据。一般而言,大数据的特征可以概括为四个V:一是量大(Volume);二是流动性大(Velocity),典型的如微博;三是种类多(Variety),多样性,有结构化数据,也有半结构化和非结构化数据;四是价值大(Value),这些大规模数据可以为持有企业或者组织创造出巨大的商业或社会价值。 Victor在其最新著作《大数据时代——生活、工作与思维的大变革》中指出,大数据时代,思维方式要发生3个变革:第一,要分析与事物相关的所有数据,而不是依靠分析少量数据样本;要总体,不要样本。第二,要乐于接受数据的纷繁复杂,而不再追求精确性。第三,不再探求难以捉摸的因果关系,应该更加注重相关关系。这些变革反映出了大数据处理方式与传统统计学分析方法的很多关联以及主要不同。因此,下面我们分别针对两者的联系和区别进行讨论。 2大数据与统计学分析方法的联系 从18世纪中叶至今,统计学已经经历了两百多年的发展历程,不论是基础理论还是社会应用都极其坚实而丰富。大数据作为一种新兴的事物规律认知和挖掘思维,也将会对人类的价值体系、知识体系

大数据时代统计学专业建设分析

大数据时代统计学专业建设分析全球知名的麦肯锡咨询公司最早提出了“大数据”的概念,宣告了大数据时代的来临;IBM公司指出了大数据的4个特点:数据体量巨大、数据类型繁多、数据产出速度快、数据价值密度低。[1]大数据对高等学校人才培养的影响表现在以下方面:1.思维方式与认知模式的改变;2.海量的学习对象与辅助教学资源;3.开源课程(慕课,微课、翻转课堂)的教育方式对传统教学模式产生冲击;4.新媒体模式的社会化互助学习打破教学界限;5.网络思维拓展了个体思维。[2]在这个意义上,大数据时代对高校人才培养提出了新的要求。对于统计学专业建设而言,大数据的背景既是一个机遇也是一个挑战。高等学校统计学专业需要通过整合现有人才培养资源、建立创新人才培养平台,承担起大学人才培养的责任,紧随大数据的发展趋势,占领大数据发展人才培养的制高点,体现高等学校满足社会需求、提供智力支撑的载体作用,确保大数据产业科学、健康、持续、高速地发展。本文拟从统计学专业的培养目标出发,研讨在大数据时代统计学专业学生培养各个环节的问题。 一、关于培养目标 统计学专业的培养目标是:培养德、智、体、美全面发展,掌握坚实的数学、统计学基本理论,具备扎实的经济学基础和数据分析技能,能够熟练地运用统计方法和数据分析软件进行数据分析和数据处理,能在企事业单位和经济管理部门从事统计调查、数据分析、风险决策、质量管理等工作,或者在科研单位、高等学校从事统计学研究

和教学工作的高级专门人才。本专业学制四年,通过四年的学习,统计学专业的毕业生应具备以下能力: 1.掌握坚实的数学、统计学基本理论。掌握数学、统计学的基本理论、基本知识、基本方法和计算机操作基本技能;具备数据采集、调查问卷设计和数据处理的基本能力;了解与经济统计、生物统计、医学统计或社会统计等有关的自然科学、社会科学某一领域的基本知识,具备利用统计学专业知识,发现、分析、解决某一领域实际问题的基本能力;了解统计学学科的发展前沿及其应用前景。 2.具备扎实的经济学基础和数据分析技能。具备扎实的经济学基础,了解国家经济运行的基本方针、政策、法律、法规;掌握R语言,精通Python、Spark、SAS、SPSS等流行大数据处理软件中的一种,有较强的统计计算能力;掌握资料查询、文献检索及数据获取的基本方法;具有一定的从事科学研究和实际工作的能力;英语达到四级水平,计算机达到二级水平。 二、关于课程设置 1.专业主干课程包括:数学基础部分(数学分析,高等代数与解析几何)、C语言、数据库、概率论与数理统计、统计学、微观经济学、计量经济学、时间序列分析、多元统计分析、市场调查方法与抽样技术、实验设计、统计预测与决策、数据挖掘、随机过程、统计分析软件。 2.充分调研市场需求,在保证基础课程的前提下,灵活设置选修课程,机动调整培养计划及课程设置。

相关文档
相关文档 最新文档