驾驭大数据,释放大价值学习心得

时间：2024.4.13

如何应对大数据时代带来的机遇与挑战

——学习“驾奴大数据释放大价值”心得体会

大数据时代已迅速到来，如何应对大数据时代带给我们的机遇与挑战，9月14日有幸学习了省公司组织的“驾奴大数据释放大价值”专题讲座，进一步了解了大数据的4V（即Volume(数量巨大)、Velocity(结构复杂)、Variety(类型众多)、Veracity(j价值巨大)概念，并通过沃尔玛大数据仓库应用、奥巴马赢得竞选等经典大数据应用案例，对大数据时代的超细分、微营销、精细分有了全新的认识。这更引发了我对于大数据时代带来我们应该做些什么的思考。

“大数据”的本质。早在互联网出现之初，我们就知道网络无秘密，在网页上敲击的每一个数据，都将被自动记录。现在，当数据的积累量足够大的时候到来时，量变引起了质变。“大数据”通过对海量数据有针对性的分析，赋予了互联网“智商”，这使得互联网的作用，从简单的数据交流和信息传递，上升到基于海量数据的分析，一句话“他开始思考了”。这是继云计算、物联网之后IT产业又一次颠覆性的技术变革，对国家治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。

大数据时代是信息化社会发展必然趋势，我们只有紧紧跟随时代发展的潮流，在技术上、制度上、价值观念上做出迅速调整并牢牢跟进，才能在接下来新一轮的竞争中摆脱受制于人的弱势境地，才能把握发展的方向。《大数据时代》作者舍恩伯格提出“未来5-10年大家将忘了电信业，电信运营商要么转化为大数据公司、要么死掉”。

6月13日阿里巴巴支付宝正式推出“余额宝”，简直就是逆天的节奏！轻而易举的摧毁了银行的垄断。同样一万块钱，放银行里按活期利率算，一个月只有三十多块钱，而放在支付宝里转“余额宝”，一个月收益300~400元，你说，你会放银行还是放支付宝里？通过“余额宝”，真正实现了平民理财、懒人理财。“余额宝”其实是打着擦边球轻松地摧毁了银行的垄断，革的是银行的命。马云在中南海里讲：“很多人恨我，因为我们摧毁了很多昨天很成功的企业，一些既得利益者对我很生气，但我绝对不会因为你生气就不去做我认为对的事情，因为我们没有把互联网当做一个生意，我们把互联网当作一场革命。”

在如此快速的到来的大数据革命时代，我们还有很多知识需要学习，许多思维需要转变，许多技术需要研究。公司的规划中，也需充分考虑到大数据对于公司的未来发展所带来的机遇和挑战。对于掌握大量数据的我们，需要考虑有多少数字化的数据，又有哪些可以通过大数据的分析处理而带来有价值的用途？在大数据时代制胜的良药也许是创新的点子，也许可以利用外部的数据，通过多维化、多层面的分析给我们中国移动带来价值。借力，顺势，合作共赢。把自己的心门打开，像海绵般吸取积极、正能量的东西。

很多人输就输在，对于新兴事物第一看不见，第二看不起，第三看不懂，第四来不及。眼界决定宽度，观念决定高度，脚步决定速度，思想决定未来!

第二篇：驾驭大数据

庞大的信息流现在有了新的约束规则。PB 级数据世界内发生了哪些变化？大数据将如何改变您的做事方式？

海量的信息充斥着 IT 世界。这些信息从全球 43 亿部电话和 20 亿位互联网用户生成的数据中流出，与 300 亿个 RFID 标记和数百颗人造卫星和每秒都在不断发送的更多信号融合在一起。当然，没有人会一下子处理全球所有数据。但是当这个数据馅饼变大时，每个人分得的部分也会变大。当您开始以 ZB 为单位衡量这个馅饼时，甚至一小部分也会变得很大。这里有一个具体的统计信息：单单 Twitter 每天就会增加 12 TB 的数据 - 全文本，而且每次最多添加 140 个字符。

这种规模的数据处理是一种新的极限，许多人正在以多种不同的方式接近它。但人们越来越意识到，我们将数据的诞生视为永远不会消失的挑战。一些人将此称为大数据。

大数据：3 个 V

当我们听到词语 “大数据” 时，大部分人立即会想到庞大的数据集，当数据量达到 TB 和 PB 级时，它们就需要以不同的方式对待。能够良好地处理较小数据量的算法常常无法足够迅速或有效地处理较大的数据集，没有无限容量这样的东西，无论存储介质和管理如何发展。

但是，数据量（volume）只是大数据挑战的一个方面，其他两个方面指的是速度（velocity）和多样性（variety）。速度表示收集、处理和使用数据的速度需求。许多分析算法可处理大量的信息，前提是您要整晚运行这些算法。但是如果存在实时需要（比如国家安全或儿童健康方面），处理一整晚这样的速度不再够用。

种类表示不断增长的数据类型阵列 —— 音频、视频、图像数据，以及从零售交易、文本消息和遗传密码等丰富多样的来源收集的信息集合。在处理那些可用行和列表示且通过命令（比如 select 和 jion）操作的数据时，传统的分析和数据库方法表现非常优秀。但许多描述我们的世界的要素，既无法硬塞入行和列中，也无法使用那些依赖于一系列 select、join 或其他相关命令的软件来轻松分析。

当您将数量、种类和速度综合起来时，就只能获得一些不能很好地发挥作用的数据。结果，处理大数据需要一定程度的数据库敏捷性，以及难以或者甚至无法单独使用如今的技术实现的可变性。“在传统的数据库中，设计就是一切，” IBM Information Management 项目总监 Tom Deutsch 说。“它只关乎结构。如果数据更改，如果您希望知道的信息更改，或者如果您希望将数据与来自另一种渠道或数据仓库的信息相结合，您必须更改数据仓库的整体结构。对于大数据，您常常要处理不断演化的需求，当然还有大量数据（其中只有一部分是您自己生成的），而且您将希望能够更改您运行的作业，而不是数据库设计。”

了解极限

因为在处理大数据时，只有传统的数据库管理器和数据仓库是不够的，所以许多组织都在调整他们的系统以应付大量 “行为不良” 数据。解决方案各异，取决于它们想要解决的问题的具体性质，一些解决方案应对高速、高容量的信息，而另一些必须处理大量高可变性信息。但是，也可能发现这样一些常见的战略和技巧，它们要么能够减少需要存储或处理的信息量，要么使用能够处理大量新需求的更新、更强大的技术来处理它。

TerraEchos 就是一家处理所有 3 V 数据的公司，它是一家领先的隐秘情报和观测传感器系统提供商，使用了流数据来监控高度安全的设施、国家边界和石油管道破裂。TerraEchos Adelos S4 传感器知识系统将来自埋藏在地下数英里长的光纤传感器的声学读数与来自安全照相机和人造卫星等各种传感器来源的数据相结合。这种海量的高可变性、高速数据（有时在几小时内就会达到几 TB）必须收集，与来自其他渠道的信息相结合，并以极快的速度进行分析，以查找入侵者，检测地震事件或查找设备损坏。

“我们需要在高速传送带传送来数据后立即进行分析。我们不敢奢望首先对它进行结构化并放入数据库中，因为我们希望能够在 2 到 3 秒内对它进行分类，” TerraEchos CEO Alex Philp 说。“使用采样速率为每秒 12,000 个读数的数字信号处理器以及可能数千个不同的数据流，我们必须使用完全不同的方法才能迅速响应，” Philp 说。

对于 TerraEchos，这种铺天盖地的数据的受害者是已经统治数据处理领域几十年的 “提取-转换-加载” 模式：从数据来源提取数据，执行众多耗时的操作来转换它，以便能准确容纳在一种既定模式的行和列格式中，最后将它加载到数据仓库中。公司日渐开始在传入信息到来时即进行转换和分析。如果它遇到某种条件（比如，如果音频流显示出一种听起来像汽车逼近的模式，它会立即进行标记以用于更多分析，常常还会触发其他数据收集和数据存储操作。

“我们常常一次仅分析几秒长度的数据，” Philp 说。“如果我们发现某些东西，我们可以触发相关流程来查找相应的视频流或查找一些有趣内容，而且如果有必要，快速保存特定区域视频监控摄像机数据的一些帧。仍然有大量的流数据，但确实减少了我们必须处理和存储的内容。”

首先过滤，立即询问问题

为了处理传入的大量数据，TerraEchos 使用了专门针对该公司使用的数据流类型而设计的分析。该公司将 IBM® InfoSphere® Streams 整合到了它自己的 Adelos S4 传感器知识系统中。IBM InfoSphere Streams 分析传入的数据并将涉及到的计算工作分配给众多的处理器，它的分析包是专为处理特定的数据类型（比如音频和视频）而设计的。例如，一些分析涉及到对传入的波形进行严格的统计分析，以确定可能威胁的大概性质。

专为特殊数据类型定制的以趋势为导向的专业分析的速度正在提升。例如，针对文本理解的算法分析已用于分析每天生成的海量的音频流和电子邮件，以通过一种能理解结果的方式查找恐怖威胁和转移。

TerraEchos 系统将定制的分析（在这种情况下来自 IBM InfoSphere Streams）与并行处理硬件中的进步相结合，对来自数千个传感器的二进制声学数据执行数百万此并行、快速计算。

许多专家表明这些技术（动态过滤和分析数据，使用能理解如何处理各种 “原生” 格式的数据的定制分析，以及利用庞大的并行处理器阵列处理传入的数据）很快将主导数据处理领域，因为 IT 正在尝试处理以惊人速度移动的高容量、多种类数据的特殊问题。

此命令将告诉您哪些对象存储在指定的缓冲池中，以及有多少数据、索引、长字段、大对象 (LOB) 和 XML 页面目前位于给定对象的缓冲池中。要将表名称与对象 ID 相关联，执行以下命令并留意分配给每个表的 ID（仅被访问的表将在生成的输出中显示）：

针对大数据机会的 5 大技能升级

概况：公司将可能花费更少的时间和资金来定义、清理和管理数据和数据仓库结构。相反，他们会将更多时间用于确定如何迅速采集、验证和使用数据，所以这些是需要掌握的技能。

“如今，DBA 和其他 IT 人员花费了大量时间来创建多维数据集并将数据填入它们之中，” IBM 的 IBM InfoSphere Streams 产品经理 Roger Rea 说。“这一现象即将改变。在未来，无需读取数据，进行转换，然后进行加载，您将在查询时尽可能快地加载并转换它。这种新方法更加敏捷，但它意味着我们思考数据的方式的转变。它与依据传统的关系模型来管理数据有很大区别。”

您如何准备抓住新的机会？请考虑以下技能升级：

学习使用新的大数据分析

一些专家预测，数据挖掘软件（比如 BigSheets —— IBM InfoSphere BigInsights 中使用的类似电子表格的界面）将使 IT 专业人员和业务分析师可以更容易地分析大数据。熟悉这些工具和它们的功能可能将为各种 IT 领域的员工带来益处。

在 Java 编程和相关脚本工具中熟练地开发

许多用于处理大数据的程序（比如 Hadoop 和 MapReduce）都是基于 Java 的，所以了解如何使用 Java 编程是一项重要技能。如果您已经熟悉 Java，您可以开始学习 Hadoop 上的在线教程或图书。

了解市场营销和业务基础知识，关注如何使用新数据来源

亲和力计划（affinity programs）通过挖掘客户呼叫中心数据和 Twitter 提要等不同资源，探索影响客户忠诚度的复杂因素。理解如何使用不同的数据来源并将它们应用到这些业务问题中，将变得对各种职位（从市场营销到 IT）更加重要。

基本理解统计知识

分析软件的核心是统计基础知识。了解人口、采样和统计意义的基本知识，将有助于您理解有哪些可能性，更好地理解和解释结果的含义。最佳的学习途径是市场营销和业务运营统计课程，这些课程中的材料更可能被迅速应用。

了解如何组合来自不同来源（尤其是公开来源）的数据

大型数据集的强大用途在很大程度上来源于将专门信息（比如公司收集的销售数据）与公开的数据来源（比如地图信息或政府数据）相结合。只要知道哪些数据可用，常常就会激发关于组合这些信息的可盈利方式的新想法。

分析静态大数据的新技术

尽管很多时候，处理 “移动的” 流信息的更好方式是解决许多大数据挑战，如果静态数据非常多，特别是其中包含的数据变换多端，仅仅处理大量静态数据也非常棘手。有效处理大量此类数据的一种方法是在相对比较廉价的硬件上执行大量并行计算。例如，IBM InfoSphere BigInsights 分析软件起源于开源项目 Apache Hadoop，但使用了它自己的文件系统并添加了其他专门技术。

Hadoop 是一个基于 Java 的框架，支持数据密集型的分布式应用程序，使应用程序能够处理数千个处理器节点和 PB 级的数据。针对顺序读取大型文件进行了优化，它可以自动管理数据复制和恢复。即使特定处理器上发生了故障，数据仍然会被复制，处理也将继续进行而不会中断或丢失剩余的计算结果，这使该系统具有一定的容错能力，能够非常快地排序 TB 级的数据。

为了实现快速和可伸缩性，Hadoop 依赖于 MapReduce，一个简单但强大的并行计算框架。MapReduce 在映射阶段将一个问题分解为数百万个并行计算，并生成键-值对流作为输出。然后 MapReduce 按照各个键改组映射输出，对重新分配的映射输出执行另一项并行计算，在计算的归纳阶段将结果写入到文件系统中。例如，当处理海量的销售交易数据来确定每项产品的销售量时，Hadoop 将对每个包含交易的文件块执行映射操作，计算每笔交易中销售的每项产品的数量，然后在它返回答案时进行 “归纳”。

因为理解和使用此技术非常简单（因为它大体上只有两步），基于映射和归纳的 Hadoop 系统已被用于处理众多的问题，尤其是在社交媒体中。

为流分析提供仓库数据

一些观察者预测，数据仓库将重蹈转盘电话拨号的覆辙，但关于数据仓库即将消失的谣传显然是夸大其辞。数据仓库将继续在许多企业中扮演着重要角色，比如 IBM 的 Deutsch。它们还将更多地用于其他软件中，以 “梳理” 数据中的关系，然后可将这些关系用于处理动态传入的流数据。

“如果没有分析一些历史数据就来查找模式，很难了解到底要在数据流中查找什么，” Deutsch 说。“但仓库数据可帮助您找到这些模式。”

例如，Deutsch 说，当安大略理工大学研究人员最初对从医院新生儿病房采集的数据使用流监控软件时，他们在非结构化的数据中寻找可以预测婴儿疾病恶化或恢复的模式。他们首先分析来自每个婴儿的信息，包括音频记录、心跳速率和其他指标，最终整理出婴儿哭声音频记录中的模式与在几小时后发生的新生儿疾病之间的关联。

这些发现被用于监控新的流数据，以标记出哭声中的变化，为医生和护士提供即将出现的问题的早期预警。分析海量高可变性仓库数据的能力使人们对更改新传入数据流监控方式有了新的认识。

将分析应用于更广泛的用户类型

随着数据集越来越大和分配来处理它们的时间越来越少，亟需寻找更具创意的技术，有助于组织意识到他们将面对一个数据驱动的未来。

单单转变我们查看数据的方式可能很有帮助。“许多人没有真正意识到非结构化数据（比如视频、音频和图像）蕴含着重要信息，但它们确实包含重要信息，” Deutsch 说。“认识到此数据与我们多年来收集的交易数据一样有价值，这很重要，我们必须寻找新的方式来应用该信息。”

有一点很明显：处理大数据的新方式正在加速发展，几乎与驱动它们的信息流一样快。TerraEchos 的 Philp 总结道，“我感觉好像我走在了革命道路的最前沿。”

更多相关推荐：

大学数学选讲学习心得: 大学数学选讲课是对高等数学课的提升和深化，老师针对重难知识点，结合考研真题和参考资料精题，细致向我们讲解。在解题的过程中，老师向我们传授了解题的不同思路角度，教会我们要学会举一反三，将知识点融会贯通。点拨启发式…
大学数学——我的数学学习心得之分析与方程篇: 我的数学学习心得之分析与方程篇从此贴开始，我将从数学、英语和出国三个方面来介绍我的经验和教训，我就先从数学开始吧！关于数学的学习心得，我想分为两篇：1、分析与方程篇；2、代数和几何篇，今天就先说第一篇——分析与…
大学数学学习参考书点评及心得体会: 关于自学数学(一)现代数学的一大特色即是已经完全建立了一套自己的表达方式。没有一个学科象数学这样创造了这么多的概念。现代数学的传播的一大困难也在与此,要向一个非本行(哪怕是数学里另外一个分支的专家)解释清楚一个…
大学四年学习数学的感想: 大学四年学习数学的感想数学是一门基础的学科，我从小就开始学习它。从最开始的加减乘除，到后来的数与代数、空间与图形、统计与概率以及实验与综合应用的学习，到现在，即将大学毕业，我的思想也越来越广阔，由于对数学的喜爱…
数学分析的学习心得: 数学分析的学习心得摘要数学分析的主要内容是微积分学微积分学的理论基础是极限理论极限理论的理论基础是实数理论实数系最重要的特征是连续性有了实数的连续性才能讨论极限连续微分和积分正是在讨论函数的各种极限运算的合法性...
高等数学学习心得: 一提起“数学”课，大家都会觉得再熟悉不过了，从小学一直到高中，它几乎就是一门陪伴着我们成长的学科。然而即使有着大学之前近xx年的数学学习生涯，仍然会有很多同学在初学大学数学时遇到很多困惑与疑问，更可能会有一种摸…
大学数学函数与极限的学习总结: 好多大学生都以为上了大学就轻松啦，甚至以为没了数学，但是往往结果和想象的不一样，大学高等数学，就好像一个拦路虎，阻挡了去路。那么，究竟应该如何在大学中学好高数呢?这是我的大学高数的总结，看好了，绝对有用a\b=…

参加小学数学精品课研讨会的心得体会: 学习名师经典感悟教学精华参加小学数学精品课堂展示研讨会的体会20xx年5月28日5月29日在甘肃政法学院学生活动中心四楼我参加了小学数学精品课堂展示研讨会这次会议通过全国著名特级教师课堂教学展示和与教师现场互动...

大数据与政府治理现代化心得体会: 大数据与政府治理现代化心得体会通过学习哈尔滨工业大学管理学院教授米加宁题为大数据与政府治理现代化的学术讲座我主要有以下几方面的认识和体会大数据是一场管理革命用数据说话用数据决策用数据管理用数据创新会给国家治理方...

学习物联网讲座心得: 学习物联网讲座心得刘影通过学习田景熙教授和陈志峰教授主持和主讲物联网概论培训课程使我了解到物联网是新兴的产业具有很好的前景能够给人们的生产生活带来本质的变革让我拓展知识面开阔了视野也对以后的方向做了初步的规划带...
培养学生学习习惯讲座学习心得: 学习心得11月29日我有幸听到北京教育学院胡松年教授主题为的精彩讲座胡教授深入浅出的理论讲解精彩的案例分析不时博得在场一线教师的阵阵掌声胡教授把他多年来在一线工作中总结的经验和现代教学理论相结合引起我们这些年轻...
数据仓库与数据挖掘学习心得: 数据仓库与数据挖掘学习心得通过数据仓库与数据挖掘的这门课的学习掌握了数据仓库与数据挖掘的一些基础知识和基本概念了解了数据仓库与数据库的区别下面谈谈我对数据仓库与数据挖掘学习心得以及阅读相关方面的论文的学习体会浅...

热门关注