cdh集群linux命令 linux cd

CDH集群-无法找到主机的NTP 服务或该服务未响应时钟偏差请求

问题：

创新互联专注为客户提供全方位的互联网综合服务，包含不限于成都做网站、网站设计、红桥网络推广、重庆小程序开发公司、红桥网络营销、红桥企业策划、红桥品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们最大的嘉奖；创新互联为所有大学生创业者提供红桥建站搭建服务，24小时服务热线：18980820575，官方网址：www.cdcxhl.com

部分主机宕机后，CDH集群启动成功，但是有某些主机提示“无法找到主机的NTP 服务,或该服务未响应时钟偏差请求”

解决步骤：

1.先同步服务器时钟

执行命令：

service ntpd stop 停止ntp服务

ntpdate 主机ip 同步主机时钟

service ntpd start 启动ntp服务

service ntpd status 查看服务启动情况

ntpq -pn 查看同步的服务器IP

ntpstat 查看同步结果

2.在CDH界面停止主机上的角色

3.进入该主机的CDH安装目录执行 ./cloudera-scm-agent restart (即需要在问题主机上重启cloudera-scm-agent服务)

目录在 etc/init.d下

4.等待CDH界面刷新，问题解决，大概等3 5分钟就看不到时钟偏差问题了。

解决思路：

1.同步服务器时钟是为了确定是否是ntp服务本身的问题。

2.发现服务器时钟没有问题，所以不是ntp服务本身的问题。

其中这句话说，如果该命令失败、NTP 未与服务器同步，或主机的 NTP 后台程序未运行或无法联系，该测试将返回运行状况“不良”。

所以可能是CDH集群本身没有接收到时间同步服务器的结果，于是执行重启agent的命令。至此问题解决！

在cdh集群中，hadoop fs -ls / command not found 求教，谢谢

如果最后你的命令，确实列出了相应的目录文件，那么这种情况确实挺少见的，有两种情况：1、你的"/"的文件太多了。2、你的网络或硬件配置太低，这种情况下的可情性不大我的反应情况挺快的，也有可能是你的配置有问题，实在解决不了的话，建议你重布一下，可参考一下我的百度博客中，写了两篇这个内容。

cdh hadoop安装后的启动命令在哪个目录

1.关闭selinux

修改/etc/selinux/config 文件

将SELINUX=enforcing改为SELINUX=disabled

重启机器即可

2.修改bin文件的运行权限，运行bin文件后，进入安装cdh-manager的安装界面

如果直接安装，cdh-manager会去archive.cloudera.com下载安装包，这样会很慢，所以最好在内网搭一个下载源，做个host

echo '192.168.8.XX archive.cloudera.com' /etc/hosts

每一步安装的日志会保存在 /var/log/cloudera-manager-installer/目录

centos 7 安装CDH 5.11

1.配置 Cloudera Manager 仓库(所有节点)

2.安装jdk 1.8（略）

3.安装mysql 5.7（略）

或者yum

这里不详细说明了

修改集群中各机器的hosts和hostname，并使之永久生效。步骤如下：

输入命令 hostname：查看当前hostname；

输入命令 hostname new.hostname：修改new hostname并立即生效（临时有效，重启系统后失效）

输入命令 vim /etc/hosts：为集群中的各机器添加对应的hosts；

输入命令 vim /etc/sysconfig/network：修改HOSTNAME=new.hostname，使new.hostname永久生效。（如果没有该值则手动添加，并重启确认是否永久生效）

设置集群中的各机器能互相SSH免密登录，并且能够ssh locahost登录本机。步骤如下：

输入命令 ssh-keygen -t rsa，一路回车即可；

输入命令 ssh-copy-id -i .ssh/id_ rsa.pub username@target.machine.ip；

ssh登录各机器进行确认。

可能会有的报错：

/usr/bin/ssh-copy-id: ERROR: Host key verification failed.

因为我输入ssh-copy-id -i .ssh/id_ rsa.pub root@10.1.2.104.master时没有输入yes 直接回车，再次输入yes成功

sudo firewall-cmd --zone=public --add-port=7180/tcp --permanent

sudo firewall-cmd --reload

临时关闭防火墙

systemctl stop firewalld

检查SELinux当前状态：getenforce；

如果输出为Permissive或Disabled，那么就可以不用设置SELinux的模式了。如果输出是enforcing，就接着做下一步；

vim /etc/selinux/config (有些系统里是 /etc/sysconfig/selinux)；

将 SELINUX=enforcing 修改为 SELINUX=permissive，保存并退出；

输入 setenforce 0，使设置立即生效

集群中各机器都要配

解压cloudera-manager-centos7-cm5.11.0_x86_64.tar.gz

cloudera manager的目录默认位置在/opt下

mv cm-5.11.0 /opt/

mv cloudera /opt/

添加mysql 驱动

cd /opt/cloudera/parcel-repo/

复制以下文件到该目录

CDH-5.11.0-1.cdh5.11.0.p0.34-el6.parcel.sha1

CDH-5.11.0-1.cdh5.11.0.p0.34-el6.parcel

manifest.json

修改

CDH-5.11.0-1.cdh5.11.0.p0.34-el6.parcel.sha1为

CDH-5.11.0-1.cdh5.11.0.p0.34-el6.parcel.sha

各Service所需的库如下图，其中库名和user名可以自定义，但自己必须记住。（建议库名使用图中所示的，user名可以自定义，并且可以相同）

运行

1 启动报错：

启动server/agent失败，报错pstree: command not found

安装 psmisc

2 我重装了HDFS所以报错

对当前 NameNode 的名称目录进行格式化。如果名称目录不为空，此操作将失败。

删除 /dfs下的nn目录重试即可

3 datanode启动失败报错

将/dfs/nn 和 dn的 VERSION中的clusterIDs改为一致即可

出现该问题的原因：在第一次格式化dfs后，启动并使用了hadoop，后来又重新执行了格式化命令，这时namenode的clusterID会重新生成，而datanode的clusterID 保持不变。

CDH集群假死问题排查之后续

两个月前写过一篇文章，HDFS和Yarn经常出现dataNode和NameNode之间, nodeManager与resourceManager之间连接不良的现象，开始怀疑是service Monitor监控内存失败的问题，于是更换了JDK版本，当时认为问题解决，然而没过多久，假死和连接不良现象又出现了。重新将nameNode日志阈值改成debug，发现依然存在如下异常：

但网上查了一些资料，也有人说这是CDH版HDFS的一个bug。本身并不影响服务。考虑到CDH本身也将该异常认定为debug级别，觉得是有可能的。个人感觉这个问题除了让日志增长比较快，也就这样了。决定先把这个问题放一放。

由于疫情和工作原因，一直没功夫去看这个问题，一气之下把主节点升到16G内存，惊喜发现部署在主节点的DataNode和nodeManager几乎一直是良好状态，而从节点经常出现问题。

比如这个很可怜，除了主节点之外的nodeManager其余都挂了。

所以现在解决问题的思路无非是

1. 升级从节点的资源配置，和主节点配置保持一致。

2. 通过系统优化和调优解决问题。

本着对技术的探(mei)究(qian)之心，我决定采用第二条方案。

先把服务器上的HDFS nameNode/yarn nodeManager堆栈日志dump下来(因为这两个组件内存占用较大)，看看究竟。发现其中70%的都是不可达对象（也就是图中的灰色部分）。

于是到服务器上去一探究竟。

通过jmap 命令，发现两个现象：

1. 新生代内存比较小，并且频繁进行minor gc，几乎每分钟都有。

2. 老年代内存一直在增长并且没有释放的迹象。

感觉新生代内存过小可能会导致：

1. 频繁的minor gc，很多新生对象没有经过充分gc而进入老年代。（比如新生对象存活时间是五分钟，而频繁的minor gc导致3分钟这个对象就被当成老人放入老年代）

2. 频繁的minor gc，可能导致对cpu资源的争夺或其它未知的原因导致nodeManager或者dataNode不良。

而老年代内存回收过慢则导致系统内存一直处于高位。

于是尝试设置两个参数：

-XX:NewRatio=2 -XX:CMSInitiatingOccupancyFraction=45

第一个XX:NewRatio是指扩大新生代内存的比例，降低minor gc的频率，而第二个则是降低触发老年代full gc内存回收的阈值，使得老年代不至于保存大量已不可达的对象。如果但这个值如果设太低，则又会频繁触发full gc和major gc，所以也不敢设置太低，设成45。

通过设置，HDFS的dataNode连接不良的问题得以解决，但yarn的nodeManager还是频繁出现不良。

继续百度+谷歌，发现JDK1.8有更好的垃圾收集器，G1回收器，感兴趣的同学请移步：

深入理解JVM（5）——GC垃圾回收（3）——8大垃圾收集器

G1回收器比之前用的新生代并行垃圾收集器无论是吞吐量优先(让单位时间内，STW 的时间最短)还是对响应时间优先(尽可能让单次 STW 的时间最短)的处理都比并行垃圾处理器(useParNewGC）优雅不少。

我们可以通过以下参数设置，其中XX:MaxGCPauseMillis为单次最大gc停顿时间。这是一个软目标，G1会尽量保证单次停顿低于该值。

-XX:+UseG1GC -XX:MaxGCPauseMillis=200

设置完之后，集群稳定的一批。跑了一些任务，也没有问题。收工。

最后又是安利追剧时间，今天安利的是精英律师，老干部嘴皮子简直6得不行了，栗娜真的超好看。