Reduce统计结果汇总混乱怎么办
这篇文章主要讲解了“Reduce统计结果汇总混乱怎么办”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Reduce统计结果汇总混乱怎么办”吧!
成都地区优秀IDC服务器托管提供商(创新互联建站).为客户提供专业的IDC机房托管,四川各地服务器托管,IDC机房托管、多线服务器托管.托管咨询专线:13518219792
在hadoop2.7.1上写了一段MapReduce程序,做一个word cloud统计,程序执行结果中有数据,但是混乱:很多完全相同的关键字没有归并到一起,也有个别的归并到了一起,但汇总值没有超过2的,如下:
中国红 1
中国红 1
中国红 1
摩卡黑 2
摩卡黑 2
百度说,其他同仁遇到的大多是reduce没有输出结果,其原因是Reduce应该用Iterable还是Iterator造成的,而且还是0.19和0.20版本时代的问题。而我有结果输出,只是没有完全执行合计。Reduce代码如下:
static class MyReducer extends Reducer{ LongWritable result = new LongWritable(); public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } }
莫非对Reduce处理中文Key有问题?不太可能。遂将所有Key用URLEncoder转码,结果仍然一样,不能归并。查半天,未果。
一觉醒来,忽然发现程序import中竟然还有IntWritable,我曾经把所有Int改成了LongWritable,这个程序竟然漏了!看上面代码中Class定义中使用了LongWritable,计算的时候却使用的IntWritable,修改,再运行,归并正常。
原来如此!Map和Reduce的数据类型不匹配通常会有ClassCastException,但LongWritable和IntWritable的转换没有报异常,默默的计算错了,竟然!
感谢各位的阅读,以上就是“Reduce统计结果汇总混乱怎么办”的内容了,经过本文的学习后,相信大家对Reduce统计结果汇总混乱怎么办这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是创新互联,小编将为大家推送更多相关知识点的文章,欢迎关注!
网站标题:Reduce统计结果汇总混乱怎么办
浏览路径:http://myzitong.com/article/poogii.html