Hadoop调试源代码

本节介绍两种调试Hadoop源代码的方法:利用Eclipse远程调试工具和打印调试日志。这两种方法均可以调试伪分布式工作模式和完全分布式工作模式下的Hadoop。本节主要介绍伪分布式工作模式下的Hadoop调试方法。

我们提供的服务有:网站建设、成都做网站、微信公众号开发、网站优化、网站认证、南昌ssl等。为上千企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务,是有科学管理、有技术的南昌网站制作公司

(1)利用Eclipse进行远程调试

下面以调试ResourceManager为例,介绍利用Eclipse远程调试的基本方法,这可分两步进行。

步骤1 调试模式下启动Hadoop。

在Hadoop安装目录下运行如下的Shell脚本:

export YARN_NODEMANAGER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,address=8788, server=y,suspend=y"

sbin/start-all.sh

运行了脚本后会看到Shell命令行终端显示如下信息:

Listening for transport dt_socket at address: 8788

此时表明ResourceManager处于监听状态,直到收到debug确认信息。

步骤2 设置断点。

在前面新建的Java工程“hadoop-2.0”中,找到ResourceManager相关代码,并在感兴趣的地方设置一些断点。

步骤3 在Eclipse中调试Hadoop程序。

在Eclipse的菜单栏中,依次选择 “Run”→“Debug Configurations”→“Remote Java Applications”,并按照要求填写远程调试器名称(自己定义一个即可),ResourceManager所在host以及监听端口号等信息,并选择Hadoop源代码工程,便可进入调试模式。

调试过程中,ResourceManager输出的信息被存储到日志文件夹下的yarn-XXX-resourcemanager-localhost.log文件(XXX为当前用户名)中,可通过以下命令查看调试过程中打印的日志:

tail -f logs/yarn-XXX-resourcemanager-localhost.log

(2)打印Hadoop调试日志

Hadoop使用了Apache log4j作为基本日志库,该日志库将日志分别5个级别,分别为DEBUG、INFO、WARN、ERROR和FATAL。这5个级别是有顺序的,即DEBUG < INFO < WARN < ERROR < FATAL,分别用来指定日志信息的重要程度。日志输出规则为:只输出级别不低于设定级别的日志信息,比如若级别设定为INFO,则INFO、WARN、ERROR和FATAL级别的日志信息都会输出,但级别比INFO低的DEBUG则不会输出。

在Hadoop源代码中,大部分Java文件中存在调试日志(DEBUG级别日志),但默认情况下,日志级别是INFO,为了查看更详细的运行状态,可采用以下几种方法打开DEBUG日志。

方法1 使用Hadoop Shell命令。

可使用Hadoop脚本中的daemonlog命令查看和修改某个类的日志级别,比如,可通过以下命令查看NodeManager类的日志级别:

bin/hadoop daemonlog -getlevel ${nodemanager-host}:8042 \

org.apache.hadoop.yarn.server.nodemanager.NodeManager

可通过以下命令将NodeManager类的日志级别修改为DEBUG:

bin/hadoop daemonlog -setlevel ${nodemanager-host}:8042 \

org.apache.hadoop.yarn.server.nodemanager.NodeManager DEBUG

其中,nodemanager-host为NodeManager服务所在的host,8042是NodeManager的HTTP端口号。

方法2 通过Web界面。

用户可以通过Web界面查看和修改某个类的日志级别,比如,可通过以下URL修改NodeManager类的日志级别:

http://${nodemanager-host}:8042/logLevel

方法3 修改log4j.properties文件。

以上两种方式只能暂时修改日志级别,当Hadoop重启后会被重置,如果要永久性改变日志级别,可在目标节点配置目录下的log4j.properties文件中添加以下配置选项:

log4j.logger.org.apache.hadoop.yarn.server.nodemanager.NodeManager=DEBUG

此外,有时为了专门调试某个Java文件,需要把该文件的相关日志输出到一个单独文件中,可在log4j.properties中添加以下内容:

#定义输出方式为自定义的TTOUT

log4j.logger. org.apache.hadoop.yarn.server.nodemanager.NodeManager=DEBUG,TTOUT

#设置TTOUT的输出方式为输出到文件

log4j.appender.TTOUT =org.apache.log4j.FileAppender

#设置文件路径

log4j.appender.TTOUT.File=${hadoop.log.dir}/NodeManager.log

#设置文件的布局

log4j.appender.TTOUT.layout=org.apache.log4j.PatternLayout

#设置文件的格式

log4j.appender.TTOUT.layout.ConversionPattern=%d{ISO8601} %p %c: %m%n

这些配置选项会把NodeManager.java中的DEBUG日志写到日志目录下的NodeManager.log文件中。

在阅读源代码的过程中,为了跟踪某个变量值的变化,读者可能需要自己添加一些DEBUG日志。在Hadoop源代码中,大部分类会定义一个日志打印对象,通过该对象可打印各个级别的日志。比如,在NodeManager中用以下代码定义对象LOG:

public static final Log LOG = LogFactory.getLog(NodeManager.class);

用户可使用LOG对象打印调试日志。比如,可在NodeManager的main函数首行添加以下代码:

LOG.debug("Start to lauch NodeManager...");

然后重新编译Hadoop源代码,并将org.apache.hadoop.yarn.server.nodemanager.NodeManager的调试级别修改为DEBUG,重新启动Hadoop后便可以看到该调试信息。


网站标题:Hadoop调试源代码
当前链接:http://myzitong.com/article/iiedgc.html