《大数据时代》读后感
《大数据时代》是由英国作者维克托麦尔〃舍恩伯格等所著,胜杨燕和周涛翻译。这本书主要描述的是大数据时代到临人们生活、工作与思维的所遇到的重大变革。本书作者舍恩伯格在大数据领域是最受人尊敬的权威发言人之一。他二十多年来一直致力于网络经济、信息与创新、信息监管、网络规范与战略管理方面的研究从维也纳大学到哈佛大学,从新加坡国立大学到牛津大学,世界上最著名的互联网研究学府都留下了他的足迹。开阔学术视野与系统的学术造诣,更让他不断为企业与上月应用提供强大的理论支持。他的咨询客户包括微软、惠普、IBM、亚马逊、facebook、twitter、VISA等大数据先锋们,所以在《大数据时代》一书中,他将掌握的最前沿的大数据应用案例给予充分的分析,并对大数据的价值链与角色定位给予清晰的预见。
文中作者清晰的阐述了大数据的基本概念和特点,并列出明确的观点。不管对于产业实践者,还是对于政府和公众机构,都非常具有价值。作者将本书分为3个部分。第一部分提出了大数据时代处理数据理念上的三大转变:抽样=全体;要效率不要绝对精确;要相关不要因果;第二部分作者从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力;最后一部分,作者描绘了大数据帝国前夜的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。
本书观点掷地有声,作者观念高屋建瓴,从很多实例和经验中萃取普适性观念。例子详实丰富,囊括了进百个学术和商业实例。
引言提出了大数据将给生活、工作于思维带来重大的变革。一个例子是20xx年H1N1流行病毒背景下谷歌通过检测检索词条,处理了4.5亿个不同的数据模型,通过预测并与20xx年、20xx年美国疾控中心记录的实际流感病例进行对比后,确定了45条检索词条组合,并将其用于一个特定的数学模型后,预测的结果与官方数据的相关系数高达97%。按照传统的信息返回流程,通告新流感病毒病例将有一到两周的延迟。对于飞速传播的疾病,信息滞后两周是致命的。而谷歌运用大数据技术,以前所未有的方式,通过海量数据分析得出流感所传播的范围,为世界预测流感提供了一种更快捷的预测工具。此外,我联想到原淘宝总裁
马云通过大量数据分析得出20xx年经济疲弱,为其商家提前做好迎接经济危机提供了时间缓冲。(补充并清晰描述详细)关于大数据在商业领域的应用, Farecast公司是一个成功的典型范例。该公司由奥伦。埃齐奥尼创办,利用机票的销售数据来预测未来的机票价格,旨在帮助用户在购买机票方面做出预测,并对机票价格走势预测的可信度标示出来供消费者查考。Farecast系统利用近十万亿条价格记录预测的准确度达75%,是用Farecast票价预测工具购买机票的旅客,平均每张机票可节约50美元。而如此多的数据的除了离开了大数据技术将无法进行。
也正是由于我们进入了一个前所未有的信息化时代,人们拥有了如此多的数据,才提供给我们利用大数据的分析处理手段,创造新的价值。也许有人以为我们大数据时代的还未来临。其实大数据技术早已渗透到我们中间,垃圾邮件的过滤,新浪微博技术平台,谷歌翻译以及输入文字的自动纠错等。
文中提出的一个观点是,预测是大数据的核心。其实从过去的时代人们就利用掌握的数据进行各种分析,从而对经济等各方面进行预测、矫正。只是进入了大数据时代人们掌握的数据爆炸性的速度在增长,从而数据的存储和分析数据分方法成了释放大数据能量的关键。
关于不是随机样本而是整体数据中。作者指出了随机取样是小数据时代用最少的数据获取最大价值的做法。作者用大数据与乔布斯的癌症治疗例子说明了是用全部数据而非样本的意义。乔布斯成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。乔布斯曾开玩笑说“我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人”。虽然最后难免死于癌症但这种获得所有数据而不是仅样本的方法将他的生命延长了几年。同样,从事跨境汇款业务的Xoom公司侦破一起犯罪集团的诈骗也同样是使用了整体数据。初次之外,他还列举了日本“相扑”等来证明使用全体数据的重要性。
作者同时也指出随着数据使用的越来越多,其得出的结果并一定能越来越精确,毕竟数据不能保证百分之百的正确,特别是大数据时代各种结构化与非结构化的类型的数据聚集在一起难免导致结果的不太精确。大数据时代要求我们重新审视精确性的优劣。作者特别举了谷歌翻译成功的例子。谷歌翻译之所以优于IBM的Candide系统并不是因为它拥有更好的算法机制。和微软的班科和布里尔
一样,谷歌翻译增加了各种各样的数据,并且接受了有错误的数据。(其语库来自于未经过滤的网页内容,会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误)
在不是因果关系,而是相关关系的篇章中。作者指出在大数据时代往往知道是什么要比知道为什么来的更实在。作者烈酒了林登的亚马逊推荐系统的成功,证实了大数据在分析相关性方面的优势以及在销售中获得的成功。沃尔玛也是充分利用并挖掘各类数据信息的先锋和代表,从以前广为人事的啤酒和尿布的案例,以及作者举的有关蛋挞和飓风天气的案例,都说明了掌握了相关关系对于其策略的帮助。建立在相关关系分析法基础上的预测是大数据的核心。Aviva保险公司利用几百种生活方式的数据,如爱好、长浏览网页等间接的预测出哪些人更可能患高血压、糖尿病和抑郁症。这充分显示了大数据在预测方面的优势。UPS国家快递公司通过使用预测性分析检测其全美6wan辆车队。进行防御性的修理,节约巨大得的成本。
第二篇:大数据时代读后感
《大数据时代》读后感 有这么一句话,心和身体,总有一个在路上,要么旅行,要么读书。在如今,既然我们做不到行万里路,那么就让我们读万卷书吧。 ——题记 我是一个有着保守的看书习惯的人,喜欢去读一些被奉为经典或者好评如潮的书籍,而常常看到一些书的作者籍籍无名就没有读下去的欲望了,这样导致我接触的书籍较为单一化且与时代前沿无缘。同样像《大数据时代》这样的置身于IT科技前沿的读物,我几乎没有过了解。这次读书交流会让我初次接触到这类极具潜力但实际价值有待挖掘的书。读这本书给我的第一感觉就是震撼,相信每个初次接触到大数据的人都会被他的强悍战绩以及具有颠覆性的观点所折服,尤其是他追求相关关系而无视因果关系的大胆宣言,大有挑战全人类思维基础的意思,当然这也是这本书的诸多亮点中较具代表性的。震撼之余就产生了强烈的好奇心。是什么能让大数据拥有如此强大的能力。 首先我来介绍一下Big data! 作者提出了关于大数据的“掷地有声”的三个原则。这三个原则凡讲大数据必被提及。这三点分别是:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。大数据时代是一本在生活、工作与思维上具有变革意义的著作。作者认为现在已经进入了大数据时代的早期阶段,因而需要的是混杂性和相关关系,精确性和因果关系逐渐退出舞台。 20xx年H1N1流行病毒背景下谷歌通过检测检索词条,处理4.5亿个不同的数据模型,最终确定了45条检索词条组合,并将其用于一个特定的数学模型后,预测的结果与官方数据的相关系数高达97%。按照传统的信息返回流程,通告新流感病毒病例将有一到两周的延迟。对于飞速传播的疾病,信息滞后两周是致命的。而谷歌运用大数据技术,以前所未有的方式,通过海量数据分析得出流感所传播的范围,为世界预测流感提供了一种更快捷的预测工具。 大数据在面对处理影响社会的大问题是能大放异彩,同样在生活细节上也有他的用武之地。 临近放假了,买票回家渐渐成为大家关注的话题了。一些同学会去买飞机票。飞机票的价格因时间而波动的幅度很大,许多同一机舱的乘客票价相差很大。此时人们就会考虑再买机票时的时机了,什么时候可以买到更实惠的票?大数据通过收集大量数据进行数模分析,可以预测后几天的票价供人们参考,其准确率可达75%。 现在我来与大家分享一下,我读这本书的心得
。大体有3点关注时代前沿与新的技术变革辩证的看待一样事物,不要被其华丽的外表所蒙蔽从辩证中找到关键,抓住我们需要的,加以利用。 早在互联网出现之初,我们就知道网络无秘密,在网页上敲击的每一个数据,都将被自动记录。现在,当数据的积累量足够大的时候到来时,量变引起了质变。“大数据”通过对海量数据有针对性的分析,赋予了互联网智商,这使得互联网的作用,从简单的数据交流和信息传递,上升到基于海量数据的分析。网络高科技公司通过分析大量用户行为数据,可以精准判断我们的喜好乃至性格。比如QQ中,点开一个链接,你会收到一些信息,你可能会喜欢。一句话“他开始思考了”。 但是他真的开始思考了么? 我觉得不是《大数据时代》有三篇序,给我深刻第一印象的却是译者周涛教授所写的《在路上?晃晃悠悠》。初始,我对周涛在文章里写的内容有很多的不理解,在看完书后,有了一些自己的见解后,重读一遍,豁然开朗。 面对信息化战争,战争态势复杂多变,战机转瞬即逝。战斗指挥员往往面对的是多方面、大容量、广范围的情报信息,能否以最短的时间内发掘出最有价值的信息并且作出准确的判断将是衡量指挥员素质强弱的关键,同时这也是决定战局走向的关键。但越是高层的指挥员面对的信息量越大,对战争前线第一手资料的了解的误差也就越大,此时仅凭指挥员个人的经验来做决策未免有失偏颇,因为一个人的经历是有限的。那么此时就可以适当利用大数据来承担分析数据的繁杂工作。这就要运用到大数据颠覆性观点的其中之一——相关性。大数据所具有的在区域之间、行业之间和企业部门之间的穿透性,正在颠覆传统的、线性的、自上而下的精英决策模型,正在形成非线性的、面向不确定性的、自下而上的决策基础。高层领导者可能不再依赖于部属提出的建议,而是通过大数据决策系统来分析每个参与人员传回的实时数据,从而做出走向胜利的决策。 举个例子 但我在前面提到只是适当利用其结论。我觉得这些结论不可完全信服。人们早就知道处理全量数据的好处,而之所以要进行抽样分析,原因无外乎有2。一是处理能力跟不上,二是数据收集能力跟不上。作者认为人类之前主要受限于数据的处理能力而不去处理全量数据,但在目前机器处理能力有了巨大的提升的时代,限制绝大多数应用的瓶颈不是计算能力而是数据采集能力。要想利用大数据分析得出战争决策,就必须拥有大量的战争案例作为分析基础。当然现在
自古至今记录在案的战争案例还是很多的,看起来数据基础还是蛮丰富的,但是我想说的是,古代的记录存储能力是非常有限的,其能够作为传世之作被记录,本身就已近不具备样本等于全体这项原则了。再者,面对信息化高速发展的现在,古代的战例能不能作为代表现代战争决策的范例都还是一个未知的问题,那么我们能放心将将士们的生命交给一台台机器么?所以这就触及了因果关系与相关关系之间的摩擦碰撞。 有一个这样的故事:通过大量的数据分析,慈善组织得出结论:一个国家、地区的电视机的普及率与发达富裕程度很有关系(冰箱、洗衣机、空调、高跟鞋、牛仔裤,etc.,也会和发达程度有这样的相关性),于是他们就向贫困国家赠送了很多电视,认为此举可以促进改过的经济发展。你可以鬼扯电视的普及与经济文化的密切相关,但是实际上最终发现更可能是经济发展导致了电视的普及,而不是反过来。所以,我们真的不需要因果分析吗?首先提起我兴趣的是译者竟然跟作者“叫板”起来。译者对作者的观点“相关关系比因果关系更重要”并不认同,而且也反驳得非常有理,给沉迷在“大数据就是一切”迷幻中的读者注入了清醒,给我棒头一喝: 在译者的眼里,大数据让我们重视相关的原因原来就是机器学习和以结果为导向的研究思路。机器学习,很显然,这是有别于我们个人学习的方式,人学习需要众多的因果,需要知道为什么,不仅需要知道“所以然”,还要“知其所以然”;同理,在我们认识世界的过程中,我们不能仅仅以结果为导向,因为很多时候我们并不能得出结果,但我们却没有失败,因为我们吸取了经验和教训。 更绝妙的是译者的细心和聪明。他有如下说法令我击节称赞:“从小处讲,作者试图避免的‘数据的独裁’和‘错误的前提导致错误的结论’,其解决之道恰在于挖掘因果逻辑而非相关性;从大处讲,放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放弃和堕落。”并不留情的下了结论:放弃对因果关系的追求就是末日之始。机器能够分析的只有相关关系,而人类能够分析所有关系,包括相关和因果,放弃因果关系的分析,就是放弃了人类对计算机(科技)的主宰,人类终会失去对计算机的支配,这样的后果还不是末日吗?或者说是人类终被科技湮灭了人性。