第二篇:大数据知识汇总一
大数据时代
海量数据............................................................................................................................. 1
大数据定义......................................................................................................................... 1
大数据分析......................................................................................................................... 1
大数据处理......................................................................................................................... 2
大数据时代 你准备好了吗............................................................................................... 3
大数据分析杀手锏............................................................................................................. 6
Hadoop和云计算的关系.................................................................................................... 6
企业该如何面对云计算..................................................................................................... 7
海量数据 数据:是载荷或记录信息的按一定规则排列组合的物理符号。可以是数字、文字、图像,也可以是计算机代码。对信息的接收始于对数据的接收,对信息的获取只能通过对数据背景的解读。
海量数据:数据量太大,导致要么是无法在较短时间内迅速解决,要么是数据太大,导致无法一次性装入内存。
海量数据分析处理:当前,越来越多的业务部门都需要操作海量数据,如规划部门的规划数据,水利部门的水文、水利数据,气象部门的气象数据,这些部门处理的数据量通常都非常大。它包括各种空间数据、报表统计数据、文字、声音、图像、超文本等各种环境和文化数据信息,从大规模的、没有关系的数据中获得我们所需要的信息,我们称之为海量数据分析处理。
大数据定义
巨量资料(big data),或称大数据、海量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用,形成的智力资源和知识服务能力。大数据=海量数据+多变的数量类型。
大数据分析
越来越多的应用涉及到大数据,这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于此,
大数据分析的方法理论有哪些呢?
大数据分析的五个基本方面
Predictive Analytic Capabilities(预测性分析能力)数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。
Data Quality and Master Data Management(数据质量和数据管理)数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。
Analytic Visualizations(可视化分析)不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。
Semantic Engines(语义引擎)我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。
Data Mining Algorithms(数据挖掘算法)可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。
假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。
大数据处理
大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。
采集
大数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。
在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会
有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。 统计/分析
统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
导入/预处理
虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
挖掘
与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主
大数据时代 你准备好了吗
20xx年3月11日日本大地震发生后,美国国家海洋和大气管理局(NOAA),通过分析海量的数据,包括陆基、 海岸、 海洋、 海洋生物资源和大气层等的信息数据,仅9分钟后,就发布了详细的海啸预警;NOAA每年的IT预算高达10亿美元,虽然花费巨大,但乐此不疲,因为这些信息关乎生命,这些数据可以拯救生命,改变世界。在这个信息爆炸的时代,面对海量信息,你准备好了吗?
近年来互联网、云计算、移动终端和物联网迅猛发展。日渐复杂的企业客户
信息数据,网店交易记录,视频监控终端产生的信息数据,博客、微博、照片、自创视频等,数据每秒都在爆炸产生??;全球在2010 年正式进入ZB 时代,根据IDC 的预计,到2020 年全球将总共拥有35ZB 的数据量,相较于2009 年,数据量将增长44倍。20xx年3月,奥巴马政府公布大数据计划,首批宣布投资2亿美元。工信部发布的物联网“十二五”规划,把信息处理技术作为4项关键技术创新工程之一被提出来——毋庸置疑,我们已进入“大数据时代”,大数据正在改变商业,生活甚至政府。
曾经是摄影代名词的柯达在自己132岁时轰然倒下;同时,1962创建的零售之王沃尔玛,连续多年蝉联零售商第一;拥有350名员工的FaceBook仅仅只用了8年时间,上市首日市值达1152亿美元,成为历史上规模最大一宗科技公司IPO。变化带来的不仅仅是挑战,更是机遇,甚至是弯道超车的机会。
挑战与机遇面前人人平等,那么生存,发展,超越的银弹是什么呢?银弹就是大数据,就是大数据中的大价值。沃尔玛是最早通过利用大数据而受益的企业之一,通过对消费者的购物行为等非结构化数据进行分析,沃尔玛成为最了解顾客购物习惯的零售商,并创造了“啤酒与尿布”的经典商业案例。沃尔玛一度拥有世界上最大的数据仓库系统,数据中心的数据量已经是美国国会图书馆的167倍。Facebook每秒钟都在生成海量的结构和非结构化数据,一对一的消费驱动模式中蕴含着用户的消费倾向,“数据”的挖掘分析大幅提升广告的精确投放效果,并且可以通过用户行为预测多个行业的发展趋势,蕴含巨大的商业价值。Facebook 1152亿美元的IPO很大程度是对大数据中大价值的认同。大数据时代,管理大数据,挖掘大数据中的大价值,就抓住了机遇,也就能立于不败之地。
要把握大数据,挖据出大数据中的价值,从技术的角度来说,两个问题需要解决:数据的存储,数据的分析。大数据的Volume 属性——“海量数据”一词从七十年代延展至今,正在发生从量变到质变的飞跃。所谓质变是说,从来没有一个时期要如此依赖数据,同时,传统的数据处理和数据管理技术正在受到当今“海量数据”的直接挑战。
(一) ZB级的数据管理和数据分析,不是传统的IT服务器、磁带、纵向扩展设备能够承载的,数量级和复杂程度到达一个层级,引导企业进行信息化技术和企业业务的革新。传统利用SPSS统计分析软件建模的方式已经有些力不从心,而如果采用抽样统计分析的方式,有些新的用户行为特征或业务趋势就会被忽略。
(二) 世界经济形势趋紧,高额的IT预算,究竟应该在哪里投入。据调查企
业目前73%的预算都用在基本业务运转上,剩下的才对商业运营有支撑作用。CIO的苦痛在于IT设施不断的膨胀,仅仅是因为业务的数量涨了,没有给企业经营带来真正的增值。
(三) 据统计,ZB级的数据中,80%以上是半结构化,非结构化数据。为了应对“大数据”浪潮,很多企业在具备一定结构化处理能力的基础上,将非结构化数据依托给了Hadoop。但当深入探索之后,有投资人给出了这样的感受——使用Hadoop构建分析性查询,会变成类似用锤子来建造房屋的活动:特定的数据模式分析任务中性能低的可怕;高昂的后期开发和维护任务成本;企业信息孤岛;数据单点故障。
那么是否说明了,“大数据”带来企业业务革命性挑战真是存在呢?答案是Yes。那么是否说明了,“大数据”需要革命性技术革新呢?答案是No。
展开“大数据”的画卷,我们能够看到的是如下现状:众多企业都在为大数据时代的到来作出反应,数据库厂家提供的昂贵的结构化数据解决方案无法适应企业收紧IT预算,同时要进行海量数据分析的要求;企业将目光转向Hadoop开源系统,但处于进退两难的境地。IT厂商也同时意识到了这个问题,纷纷将Hadoop集成进入大数据解决方案,以此迎合Hadoop已经在大数据领域占领的一席之地;上述的简单嫁接,企业处于业务系统、归档系统、数据分析系统相互隔离导致的尴尬境地,同时面临高额的TCO对IT预算的困扰;
应对上述现状,华为推出了X位一体的大数据存储解决方案。方案中,海量结构化、非结构化数据一体化存储;统一的并行任务调度框架支撑结构化、非结构化海量数据清洗、数据分析;海量数据的生命周期管理,支持历史数据的归档、压缩、掉电策略;历史数据仍纳入海量数据的引擎管理;同时,通过海量非结构化数据的内容感知(元数据管理),建立海量非结构化数据的搜索引擎,加速热点数据的快速访问。华为大数据存储解决方案通过融合的方案,多样化数据统一存储、分析、备份和归档,解决了信息孤岛,也解决了随着业务的发展,对量和性能不断拔高的需求;同时,又能根据需求的变化对容量和性能进行扩容,保持低廉的TCO。我们能看到顺应大数据潮流,从而获得成功的Facebook、沃尔玛等,我们也看到在大数据潮流下企业积极寻求转型,70%企业客户正在近5年和未来5年投入进行IT基础设施的改革。大数据,正在改变世界;华为存储应需而变,贴合业务需要;融合之道,助力大数据时代把握住大数据,把握住大数据的大价值,把握住未来。原文链接:/311/12418811.shtml
大数据分析杀手锏
Hadoop和MapReduce能够提炼大数据。Hadoop是一个开放源码的分布式数据处理系统架构,主要面向存储和处理结构化、半结构化或非结构化、真正意义上的大数据(通常成百上千的TB甚至PB级别数据)应用。网络点击和社交媒体分析应用,正在极大地推动应用需求。Hadoop提供的MapReduce(和其他一些环境)是处理大数据集理想解决方案。MapReduce能将大数据问题分解成多个子问题,将它们分配到成百上千个处理节点之上,然后将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。Hadoop可以运行在低成本的硬件产品之上,通过扩展可以成为商业存储和数据分析的替代方案。它已经成为很多互联网巨头,比如AOL、eHarmony(美国在线约会网站)、易趣、Facebook、Twitter和Netflix大数据分析的主要解决方案。也有更多传统的巨头公司比如摩根大通银行,也正在考虑采用这一解决方案。
Hadoop和云计算的关系
Hadoop主要是由HDFS和MapReduce组成,HDFS是一个分布式文件系统(Hadoop Distributed File System),MapReduce则是用于并行处理大数据集的软件框架。因此,Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是一种技术的实现。Hadoop是Apache基金会下的一款开源软件,它实现了包括分布式文件系统HDFS和MapReduce框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、云计算管理、数据仓储等一系列平台,其已成为工业界和学术界进行云计算应用和研究的标准平台。Hadoop现在已经广泛应用于包括国外的FaceBook,Twitter,Yahoo!等公司,国内的百度,阿里等,Hadoop运行在数以千计的服务器和数以万计的CPU的集群上。基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。Hadoop已被全球几大IT公司用作其”云计算”环境中的重要基础软件,如:雅虎正在开发基于Hadoop的开源项目Pig, 这是一个专注于海量数据集分析的分布式计算程序。亚马逊公司则基于Hadoop推出了Amazon S3(Amazon Simple Storage Service ),提供可靠,快速,可扩展的网络存储服务。因此,Hadoop是云计算中一部分技术的实现,而不是全部。
云计算是继19xx年代大型计算机到客户端-服务器的大转变之后的又一种巨变,但云计算的概念其实早已提出很久,早在上世纪60年代,麦卡锡就提出了把计算能力作为一种像水和电一样的公用事业提供给用户的理念,这成为云计算
思想的起源。在20世纪80年代网格计算、90年代公用计算,21世纪初虚拟化技术、SOA、SaaS应用的支撑下,云计算作为一种新兴的资源使用和交付模式逐渐为学界和产业界所认知。因此,云计算的存在只是一种新的商业计算模型和服务模式。
因此可以得出一个结论:Hadoop是一个能够对大量数据进行分布式处理的软件框架,它是一种技术的实现,是云计算技术中重要的组成部分,云计算的概念更广泛且偏向业务而不是必须拘泥于某项具体技术,云计算的存在只是一种新的商业计算模型和服务模式。因此,云计算才会出现“横看成岭侧成峰,远近高低各不同”,各种各样层出不穷的理解。
企业该如何面对云计算
北京时间2月20日消息,在云计算方面,很多企业和IT高管经常想的问题是:我们应该用私密云?公共云?还是混合云?我们的旧系统怎么办?我们到哪找建立云的技术?
然而在问这些问题前,需要思考另一个、甚至更重要的问题:我们真正想要实现的是什么?在匆忙奔向云时,问这个问题的人不够多。这是Kusnetzky公司创始人和前IDC分析师丹·库斯内茨基(Dan Kusnetzky),在VIRTu Alley最近举行的网络直播(由戴尔赞助)中提出的观点。
他警告到,太多组织都因赶时髦而匆忙投入云,而没有彻底评估该业务的价值所在。他称,在某些方面,云没有什么新的东西。相反,其“是多个长期趋势的产物,只有少部分新技术以略微新的方式出现”。如果说有什么区别的话,云实际上是新阶段的IT外包。丹·库斯内茨基还称,“云计算只不过是外包IT业务的新环节”,是将技术管理转给专业第三方的多年努力的顶点。
所有形式的外包——包括云——都是在其他人的数据中心管理IT。但一旦企业开始认识到云提供的优势,就会开启以前甚至没有考虑到的新可能性。丹继续称,这些潜在的优势远不止简单的降低成本。例如,技术资源有限但过于分散的组织会发现,云是有吸引力的选择。
在数据中心之外云可让业务的另一个因素成为可能的是敏捷性。丹指出,组织“可能只在某一时期需要大量计算资源”,如零售业务只在假日前几个月需要高水平计算能力。他还表示,或者“一个研究机构可能需要大量资源来测试想法,在那他们进行规划、思考,他们需要测试一些要求相当多计算资源的新模型”。
对于一些组织如金融服务,成本可能不是问题。相反,上市时间才是关键,而这正是云可以发挥作用的地方。丹指出:“在金融服务领域,有时新的服务可能带来数百万甚至数十亿美元的收入。事实上,他们支付几百美元购买一个或另一个资源并不重要,而如何快速、可靠地开发工作流并使之在线和出售产品才是重要的。”
在推出云行动上有三个需要考虑的关键因素:
·问:这次旅行真的有必要吗?“在我们尝试和选择哪个工具可以帮助处理这个过程前,一开始就问企业‘你想要实现什么?’是有好处的”,丹建议,“他们真的要将他们在做的事移到别的地方?或者他们做的够好吗?信息技术常常集中在‘足够好’的东西上。通过努力达到卓越,你在做的事可能不再需要。足够好常常就足够了。”
·知道自己的目标和方向。丹指出:“或者你最后停留在其他地方。如果你只是以一个工具开始或以一个服务开始,不停地开发,却不知道你的真正架构需求是什么,结果可能会一团糟,很难处理,实际上成本可能更高。”
·当你制定计划时,要一直考虑安全性、可靠性和可管理性。“别指望你以后在购买产品时考虑这些,这真的必须一起考虑,否则就不会有很好的效果。