Hadoop版本选择探讨

时间:2024.4.20

Hadoop版本选择探讨

由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼。本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的一些建议。

1. Apache Hadoop

1.1  Apache版本衍化

截至目前(20##年12月23日),Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。第一代Hadoop包含三个大版本,分别是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,变成了稳定版, 而0.21.x和0.22.x则NameNode HA等新的重大特性。第二代Hadoop包含两个版本,分别是0.23.x和2.x,它们完全不同于Hadoop 1.0,是一套全新的架构,均包含HDFS Federation和YARN两个系统,相比于0.23.x,2.x增加了NameNode HA和Wire-compatibility两个重大特性。

经过上面的大体解释,大家可能明白了Hadoop以重大特性区分各个版本的,总结起来,用于区分Hadoop版本的特性有以下几个:

(1)Append 支持文件追加功能,如果想使用HBase,需要这个特性。

(2)RAID 在保证数据可靠的前提下,通过引入校验码较少数据块数目。详细链接:

https://issues.apache.org/jira/browse/HDFS/component/12313080

(3)Symlink 支持HDFS文件链接,具体可参考: https://issues.apache.org/jira/browse/HDFS-245

(4)Security Hadoop安全,具体可参考:https://issues.apache.org/jira/browse/HADOOP-4487

(5) NameNode HA 具体可参考:https://issues.apache.org/jira/browse/HDFS-1064

(6) HDFS Federation和YARN

需要注意的是,Hadoop 2.0主要由Yahoo独立出来的hortonworks公司主持开发。

1.2  Apache版本下载

(1) 各版本说明:http://hadoop.apache.org/releases.html。

(2) 下载稳定版:找到一个镜像,下载stable文件夹下的版本。

(3) Hadoop最全版本:http://svn.apache.org/repos/asf/hadoop/common/branches/,可直接导到eclipse中。

2. Cloudera Hadoop

2.1  CDH版本衍化

Apache当前的版本管理是比较混乱的,各种版本层出不穷,让很多初学者不知所措,相比之下,Cloudera公司的Hadoop版本管理的要很多。

我们知道,Hadoop遵从Apache开源协议,用户可以免费地任意使用和修改Hadoop,也正因此,市面上出现了很多Hadoop版本,其中 比较出名的一是Cloudera公司的发行版,我们将该版本称为CDH(Cloudera Distribution Hadoop)。截至目前为止,CDH共有4个版本,其中,前两个已经不再更新,最近的两个,分别是CDH3(在Apache Hadoop 0.20.2版本基础上演化而来的)和CDH4在Apache Hadoop 2.0.0版本基础上演化而来的),分别对应Apache的Hadoop 1.0和Hadoop 2.0,它们每隔一段时间便会更新一次。

Cloudera以patch level划分小版本,比如patch level为923.142表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch(这些patch是各个公司或者个人贡献的,在Hadoop jira上均有记录),其中923个是最后一个beta版本添加的patch,而142个是稳定版发行后新添加的patch。由此可见,patch level越高,功能越完备且解决的bug越多。

Cloudera版本层次更加清晰,且它提供了适用于各种操作系统的Hadoop安装包,可直接使用apt-get或者yum命令进行安装,更加省事。

2.2 CDH版本下载

(1) 版本含义介绍:

https://ccp.cloudera.com/display/DOC/CDH+Version+and+Packaging+Information

(2)各版本特性查看:

https://ccp.cloudera.com/display/DOC/CDH+Packaging+Information+for+Previous+Releases

(3)各版本下载:

CDH3:http://archive.cloudera.com/cdh/3/

CDH4:http://archive.cloudera.com/cdh4/cdh/4/

注意,Hadoop压缩包在这两个链接中的最上层目录中,不在某个文件夹里,很多人进到链接还找不到安装包!

3. 如何选择Hadoop版本

当前Hadoop版本比较混乱,让很多用户不知所措。实际上,当前Hadoop只有两个版本:Hadoop 1.0和Hadoop 2.0,其中,Hadoop 1.0由一个分布式文件系统HDFS和一个离线计算框架MapReduce组成,而Hadoop 2.0则包含一个支持NameNode横向扩展的HDFS,一个资源管理系统YARN和一个运行在YARN上的离线计算框架MapReduce。相比于 Hadoop 1.0,Hadoop 2.0功能更加强大,且具有更好的扩展性、性能,并支持多种计算框架。

当我们决定是否采用某个软件用于开源环境时,通常需要考虑以下几个因素:

(1)是否为开源软件,即是否免费。

(2) 是否有稳定版,这个一般软件官方网站会给出说明。

(3) 是否经实践验证,这个可通过检查是否有一些大点的公司已经在生产环境中使用知道。

(4) 是否有强大的社区支持,当出现一个问题时,能够通过社区、论坛等网络资源快速获取解决方法。

考虑到以上几个因素,我们分析一下开源软件Hadoop。对于Hadoop 2.0而言,目前尚不稳定,无法用于生产环境,因此,如果当前你正准备使用Hadoop,那么只能从Hadoop 1.0中选择一个版本,而目截至目前(20##年12月23日),Apache和Cloudera最新的稳定版分别是Hadoop 1.0.4和CDH3U4,因此,你可以从中任选一个使用。如今Hadoop 2.0已经发布了最新的稳定版2.2.0,推荐使用该版本,具体介绍可阅读:“Hadoop 2.0稳定版本2.2.0新特性剖析”,升级方法可参考:“Hadoop升级方案(二):从Hadoop 1.0升级到2.0(1)”。

20##年Hadoop大数据技术有望在多行业

| 作者: - | 责编: 赵伟平 20##-02-09 05:00:00

抢沙发

  引言:现在越来越多的公共突发事件当中,尤其是像人为的突发事件,比如说最近像上海的踩踏事件,互联网也好,大数据也好,能不能发挥一些正能量的作用?防 止这种悲剧的再度重演呢?本期IT名人堂的访谈嘉宾是星环科技的联合创始人孙元浩先生,我们在2015中国Hadoop技术峰会上对他进行了独家访谈。

  孙元浩认为,完全可以用一些新的技术手段来检测外滩人流的变化,为公安部门和交通部门提供一些信息指导,比如摄像数据充当数据源来做一些提前的预警。通过 地铁刷卡数据、和轨道交通数据来判断人流量,发现地铁数据的异常,公安部门可以直接和交通部门协调,从而疏散人流。其次,我们还可以结合数据源运营商基站 的信号对数据进行分析,它们包含了用户手机的 大致位置,我们能够迅速的判断出人群密度以及变化趋势。随着手机的移动,根据基站里手机的移动方向可以预测密度的范围,这些信息综合起来可以形成从轨道地 下、地面到空中的全方位检测,这些信息可以迅速反馈给公安,为治安提供导向性的方案。此外,还有一个车流信息数据的采集也是非常重要的,机动车辆经过外 滩、乃至全市交通,都会留下一条记录,我们可以迅速判断哪些机动车没有离开,逗留了,从而推断出这里的车辆可能发生了挤压状况。在这种情况下,我们可以立 刻反馈给交通部门,所有的营运车辆不允许经过外滩,这种方式也能缓解交通情况,所以综合这些措施也是能够做到预防的。

  皮皮:在大数据的时代里,数据是一个让企业很纠结的话题,很多人会认为数据是死的,人是活的,数据挖掘的世界既是一个地雷阵,同时又是金矿,那大数据到底能给我们带来什么呢?如何在海量的数据里挖掘出有价值的数据为己所用呢?

  在采访中,孙总为我们概括了大数据的三种典型应用场景,其用武之地小到个人、家庭,大到国家,大数据可谓是无所不能。今天Hadoop主要应用场景集中在 技术处理上,但是已经有一部分的应用开始偏向机器学习。星环科技与合作伙伴也开始尝鲜,利用Hadoop技术来处理数据的高级分析,从大数据中挖掘出有价 值的数据。

  第一个典型的应用场景是利用大数据来满足实时营销,比如实时采集用户手机的位置信息,推送WI-FI的热点,根据用户的购物历史,刷卡记录来做数据分析,推送个性化的营销,比如电影票或感兴趣的商品等。

  第二个典型的应用场景是利用大数据来预测用电量,孙总为我们介绍了一个从事用电数据分析的真实客户案例。有些省份已经布置了很多智能电表,多达几千万户家 庭,电表采集密度每天高达23次,通过电网传感器的数据可以分析用电量与气候之间的关系,能够帮助电力公司来初步的预测未来的电力需求量,同时也能挖掘出 企业用电和GDP增长之间的关系。

  第三个典型的应用场景是大数据应用在医疗领域,有些企业应用大数据的分析对DNA进行比对。过去对高龄产妇进行检查,手术存在风险。现在采用大数据的新技 术,通过采集胎儿的DNA序列进行比对,一旦发现胎儿的异常症状,就可以采取措施,这种方法与手术相比,更加准确,也无风险的,这种新的技术随着大数据应 用越来越广泛。

  皮皮:60%的Hadoop应用是用在SQL统计领域,最早的Hadoop是用于ETL,包括从数据的萃取到转制到最后的加载,而现在我们发现像FACEBOOK的数据仓库也用到了Hadoop 的数据仓库,那么Hadoop与数据仓库究竟有什么样的关系呢?

  孙总坦言,互联网公司从第一天开始就是用Hadoop做数据仓库,所以Hadoop是互联网公司建数据的第一选择,实际上Hadoop是互联网公司的数据 仓库。而对传统企业来讲,IT架构也发生了比较大的变化,比如在运营商、银行、物流、飞机等其它行业,Hadoop作为一个数据仓库的补充,但是把 Hadoop运用到这些企业当中的时候存在一个显著的问题,传统的IT架构,在上面已经有大的应用了,这些应用很多是基于SQL的,应用类型与复杂程度其 实是超过了互联网公司,所以hadoop在进入了这个领域的时候,有些局限,早期只是做ETL。而随着hadoop技术的发展,像国外的一些公司包括我们 公司都能提供比较完整的SQL支持,这样使得我们能够更进一步用hadoop来替代企业的某些数据仓库。

  传统的数据仓库像一些大的企业国有银行,动不动就是几个亿,维护扩建也是几个亿的,成本经费非常昂贵,而Hadoop提供了性价比非常高的方案,这是企业在选择的时候的一个考虑的重要因素。

  除成本外,Hadoop能够用来处理非结构化数据。对银行而言,像视频数据、票据数据,虽然目前对银行的价值不是太高,但是需要一个存储机制来存 放,Hadoop的技术算法越来越成熟,数据发掘的工具也越来越丰富,这就使得企业在运用Hadoop技术之后能发现额外的一些增值的东西。

  孙总预计,传统的企业IT架构慢慢向Hadoop迁移,未来大概两三年,企业的传统IT架构慢慢就会被hadoop来取代。Hadoop会成为企业的数据仓库的中心,未来hadoop会是各个行业的企业数据仓库。

  皮皮:谈到大数据,有3V,Volume(大量)、Velocity(高速)、Variety(多样),尤其是在物联网时代,像气象、交通等实时数据量大,并发度高,那么物联网大数据与互联网大数据有什么区别?对企业的技术底层架构有哪些挑战?

  孙总表示,互联网其实是一个连接人的一个网络,采集的数据大部分都是人的行为的数据,比如说人的交易的数据、人的上网记录,而物联网采集的数据更多是机器 的数据。如果比较这两个数据源的话,我们发现它的数据量是会差一个量级的,全世界人口可能是60亿人口,可是有上百亿的设备,这些设备如果都采集数据的话 呢,它的量会比互联网的数据大一数量及,所以这个会对未来的数据架构产生一个新的大的挑战。

  第二个特点是,物联网的数据并发度非常高,而且数据一旦产生需要立刻被处理。孙总举了一个真实的客户案例,客户目前有一千万个传感器,每秒钟一千万个量级的数据发送量,可能就已经超过很多互联网公司的数据量,对底层架构的并发要求非常高。

  第三个差异化在于互联网的数据可能是人的行为数据,主要用来分析,可以做一些营销,但是物联网数据来说更多的是发现一些自然规律,当然这里面也使用到了大量的技术运算,也会用到大量的复杂的物理和数学的方法。

  皮皮:大数据的浪潮风靡全球,与Hadoop类似,Spark也火了。在国外 、Intel、Amazon、Cloudera 等公司率先应用并推广 Spark 技术,在国内阿里巴巴、百度、淘宝、腾讯、网易、星环等公司敢为人先,Spark 在IT业界的应用可谓星火燎原之势,未来Spark能否取代Hadoop?

  孙总表示,非常希望(Spark)能够取代HADOOP,从这个整个生态系统的发展趋势来看,(Spark)会慢慢取代(MapReduce),当然在星 环科技的产品当中已经拿(Spark)取代(MapReduce),此外孙总在视频采访中还重点为我们讲解了Hadoop的分布式计算框架的架构,干货剖 多,请大家点击视频观看详情。

  皮皮:我注意到20##年新年刚开始,你们公司成功完成了新一轮的数千万的融资了。那我之前也了解到浪潮与你们强强联手,成功搭建了基于Hadoop的大数据信息化平台,能不能从合作伙伴的角度来和我们简单的谈一谈Hadoop的生态圈?

  孙总坦言,希望能够促进Hadoop真个生态系统的发展,目前有三类合作伙伴,一类是行业应用方案解决方案的提供商,比如在交通行业的合作伙伴,在与我们 进行深度的合作,能够高效的处理数据或者是银行的数据或者是交通的侧重信息。另外一类合作伙伴是我们认证的一些服务商,对他进行培训,他们帮我们进行安装 部署运维,这些服务工作,第三个是他们的产品与我们是有互补性的有可能是硬件厂商,像浪潮。

  皮皮:那最后一个问题了,IDC公司预测,数据每天将增长40%-50%这意味着到20##年总体的数据量将会达到40PB?那非结构话的数据主要来源我 们日常的邮件还有论坛。博客社交网络,包括我们的POSE系统还有机器生成的一些数据了,那么面对这些非结构化的数据,你们提供了一些什么样的 Hadoop解决方案,未来Hadoop还会有哪一些新的版本会发布?

  孙元浩认为,未来很多计算框架也会与Hadoop进行融合,等到hadoop3.0的时候,可能会安全性与性能上得到很大的提升,在资源管理效率上得到比较大的增强。

  孙总透露,星环科技预计在20##年发布2款新产品,第一款产品针对物联网部署的大量传感器产生的数据,专注于处理时序数据,首先会进入新能源行业。它能 够对传感器产生的大量数据进行高效处理,在内存里存储数据或者是将SSD上的数据转成内存存储,对所有的时序数据进行数据挖掘分析。

  第二款产品预计会在20##年下半年推出,这是一款利用Container和Docker来运行Hadoop的现有版本,帮助企业简化Hadoop的部署 流程,有了这个方案以后,企业在部署Hadoop机群的时候,再启动100个机群的时候可能只需要2、3秒就可以启动,自动进行扩容,即便机器发生故障也 能够自动迁移。这样一来,可以大大降低企业管理Hadoop的成本、包括维护的成本,同时也能够做非常有效的资源隔离,因为运用Container技术能 够做到CPU内存网络磁盘的隔离,隔离性会比之前更好。如此一来,Hadoop作为企业的数据的计算,能够满足多个部门在统一个数据平台上进行数据分析, 就可以通过这种技术有效的实现。


第二篇:人教版八年级Unit 8 How was your school trip知识点总结


Unit 8 How was your school trip?

【应掌握的词组】

1. talk about 谈论,talk over谈论 2. give a talk 作报告

3. have a talk to (with) sb.与某人谈话 4. go to the beach去海滩 5. have ice cream吃冰淇淋 6. go to the zoo去动物园 7. go to the aquarium去水族馆

8. hang out with one’s friends和朋友闲逛 9. take photos=take a photo=take pictures=take a picture照相

10. buy a souvenir买纪念品 11. have pizza吃比萨饼 12. a famous actor著名的演员

13. get one’s autograph得到了某人的亲笔签名 14. win a prize赢得奖品(奖项) 15. at the aquarium 在水族馆

16. have a great time玩得高兴,过得愉快 17. on the school trip在学校的旅游 18. Blue Water Aquarium蓝色水族馆 19. the Visitors’ Center游客中心 20.a dolphin show海豚表演 21. after that 后来

22. at the end of…在……结束的时候,在……的尽头

23. the Gift Shop礼品店

24. at the beginning of…在..开始的时候 25. a terrible school trip糟糕的学校旅行

26. that sounds interesting那听起来很有趣 27. make up a story编一个故事 28. go for a drive 开车兜风 30. in the rain在雨中 in the dark在黑暗中\ in the sun在阳光下 in the snow在雪中

31. take notes of=write down=copy down 写下,记下

32. have fun doing sth.很快乐的做某事 33. play computer games打电脑游戏 34. for sale 供销售

35. see you soon盼望很快见到你 36. in one’s opinion在某人看来 37. win the first prize获得了一等奖

38.a famous basketball player著名的篮球运动员 39. in the future在将来,今后 40. can’t help doing sth.忍不住做某事 41. the story goes that…据说…… 42. a busy day off 繁忙的假日, in one’s off hours在某人的休息时间 the off season淡季

43. none of… ……当中没有一个 44. a heavy rain 一阵大雨 44. all day = all day long 整天 all night = all night long整夜

【应掌握的句子】

1. How was your school trip? 翻译:前天天气怎么样? 2. Talk about events in the past. 翻译:我非常喜欢和你谈话。

3. Were there any sharks? No, there weren’t any sharks, but there were some really smart seals. 翻译:那几个盒子里是不是有邮票? 4. What else did you do? 翻译:还有谁去公园了?

你还要别的东西吗?

5. Finally, they took the school bus back to school. 翻译:他们首先看了一场有关鲨鱼的电影。

最后,他们去了户外游泳池,看到了一条巨大的章鱼。

6. At the end of the day, the science teacher was very happy because the students cleaned the bus after the trip.

翻译:这个月底我们会举行考试吗?

在这条路的尽头你会看到那家医院。

7. The students had a terrible school trip. 翻译:我昨天晚上做了个可怕的梦。 我的病情很严重。

8. They took the subway back to school. 翻译:她每天步行回家。 他昨天乘飞机去上海了。

9. She lives in California. The weather was beautiful. 翻译:她现在居住在北京。是去年搬到那里去的。

10. On my next day off, I don’t want to go for a drive. That sounds really boring. 翻译:经理给他的员工放了一天假。 他用休息时间写小说。 11. Did you have fun camping?

翻译:这学期我们学、说英语将会很有趣。

12. No one came to the sale because the weather was so bad. 翻译:这些书没有一本是关于语法的。

然后,他们看了一场海豚表演。

更多相关推荐:
fangle supplier change application

DearsupplierShanghaifangleautopartscoltdDirectMaterialSuppliers尊敬的上海方科汽车部件有限公司的直接材料供应商Thisletterisaremind...

免责声明范本

免责声明范本免责声明本人单位姓名单位名称于时间委托委托人或单位申请购买了产品名称由于概述问题本人单位姓名单位名称现申请获得产品名称的管理权为了避免权属纠纷特做如下说明是的真正所有者今后由引起的纠纷和造成的一切后...

免责声明 范本

免责声明基于个人办理南方人才市场转正定级手续办理的需要特申请公司提供盖章协助处理盖章仅限该项目手续的办理不做他用若造成其他后果均由本人自行承担与公司无关特此声明声明人日期

网站免责声明范本

网站免责声明范本法律申明1C商城所载的文字图片等稿件均出于为公众传播有益资讯信息之目的并不意味着赞同其观点或证实其内容的真实性我们不对其科学性严肃性等作任何形式的保证如其他媒体网络或个人从本网下载使用须自负版权...

免责声明范本

免责声明本人单位于委托领取由于原因由现全权代表本人领取相关的费用为了避免纠纷特做如下说明的真正所有者今后由于个人原因引起的纠纷和造成的一切后果其责任概由承担与无关特此声明声明人姓名身份证号联系电话声明人日期

免责声明范本

免责声明本单位于年月日将我司商品委托有限公司代为销售该行为是我司自主行为为了避免权属纠纷特做如下说明是产品名称的真正所有者今后由产品名称引起的纠纷和造成的一切后果其责任概由单位名称承担与有限公司无关特此声明单位...

免责声明(范本)

免责声明为规范本次登山活动使每一位决定结伴登山的同学的权利义务责任得到明确请参加者仔细阅读本协议内容此文件为有关责任的豁免权利的放弃风险的承担和赔偿的协议通过阅读此协议参加者对本协议所有条款的含义及相关法律后果...

免责声明范本

免责声明本人于时间受聘于单位为了避免权属纠纷特做如下说明本人证书只负责该单位的升级资质和年检不用于工程施工与招投标如使用本人证书参与工程而引起的纠纷和造成的一切后果其责任概由单位承担与本人无关特此声明声明人身份...

手机APP测试流程规范

手机APP测试流程规范一、流程图测试周期测试周期一般为两周(10个工作日),根据项目情况以及版本质量可适当缩短或延长测试时间。正式测试前先向主管确认项目排期。1.测试资源测试任务开始前,检查各项测试资源。1.产…

手机app测试方法

1APP测试基本流程11流程图仍然为测试环境12测试周期测试周期可按项目的开发周期来确定测试时间一般测试时间为两三周即15个工作日根据项目情况以及版本质量可适当缩短或延长测试时间正式测试前先向主管确认项目排期1...

App测试流程及测试点(个人整理版)

1APP测试基本流程11流程图仍然为测试环境15个工作日根据项目情况以及版本质量可适当缩短或延长测试时间正式测试前先向主管确认项目排期13测试资源测试任务开始前检查各项测试资源产品功能需求文档产品原型图产品效果...

手机APP产品测试用例实例与模版

中国电信XXX项目功能测试用例撰稿人XXXXX信息网络有限责任公司20xx年X月XX日目录1概述311编写目的312读者对象313参考资料32ANDROID测试用例421登陆注册422文件上传423文件收藏52...

ppap范本(1篇)