大数据IMF-L38-MapReduce内幕解密听课笔记及总结-创新互联

本期内容:

为八步等地区用户提供了全套网页设计制作服务,及八步网站建设行业解决方案。主营业务为成都网站设计、网站建设、外贸网站建设、八步网站设计,以传统方式定制建设网站,并提供域名空间备案等一条龙服务,秉承以专业、用心的态度为用户提供真诚的服务。我们深信只要达到每一位用户的要求,就会得到认可,从而选择与我们长期合作。这样,我们也可以走得更远!

1 MapReduce架构解密

2 MapReduce运行集群研究

3 通过Java编程操作MapReduce实战

Hadoop从2。0开始就已经必须运行在 Yarn上面了,1.0时根本不关心Yarn。

现在是 MR,也是讲Yarn的,而且已经是 基础入门阶段。零基础已经过去了。

明天开始 - 20个左右的MapReduce代码的集合讲解

一:基于Yarn的MapReduce架构

1.MR代码程序是基于实现Mapper和Reducer两大阶段构成的,其中Mapper是把一个计算任务分解成很多

小任务进行并行计算,Reducer是进行最后的统计的工作的;

2.Hadoop 2.x开始是基于Yarn运行的。

Yarn是管理集群的所有资源的(如内存和CPU),ResourceManager,每个节点上安排了一上JVM进程,NodeManager,接收要求用Container方式来包裹这些资源,当RM接收到作业请求时,

3.当ResourceManager接收到Client提交的请求的程序的时候会根据集群资源的状况在某个NodeManager所在的节点上命令NodeManager启动该程序的第一个Container,该Container就是程序的ApplicationMaster,负责程序的任务调度的执行过程,ApplicationManager转过来向ResourceManager注册自己,注册之后会向ReourceManager申请具体的Container计算资源。

4.如何街道一个程序中的ApplicationMaster需要多少个Container呢?

 Application在启动时会运行程序的Main方法,该方法中会有数据的输入和相关的配置,通过这些内容就可以知道需要多少Container;

(container是一个单位的计算机资源,根据客户端请求的计算,集群会解析计算job,计算结果包含需要的contain资源)

Application要运行Main方法,知道分析程序有多少个分片,多少个分片对应Container,再考量其他资源,如Shuffle等再分配一些资源。

5.MapReduce运行在Yarn上的总结

主从结构

主节点,只有一个: ResourceManager

控制节点,每个Job都有一个MRAppMaster

从节点,有很多个: YarnChild

ResourceManager负责:

接收客户提交的计算任务

把Job分给MRAppMaster执行

监控MRAppMaster的执行情况

MRAppMaster负责:

负责一个Job执行的任务调度

把Job分给YarnChild执行

监控YarnChild的执行情况

YarnChild负责:

执行MRAppMaster分配的计算任务

RM生产环境中是要做HA的

6.Hadoop MapReduce中的 MRAppMaster,相当于Spark中的Driver,Hadoop MapReduce中的YarnChildren相当于Spark中的CoarseGrainedExecutorBackend;

(Hadoop相对于Spark资源的损耗相当多)

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


分享名称:大数据IMF-L38-MapReduce内幕解密听课笔记及总结-创新互联
文章地址:http://myzitong.com/article/cogcde.html