怎么在hadoop中实现一个java爬虫-创新互联

今天就跟大家聊聊有关怎么在hadoop中实现一个java爬虫,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

成都创新互联-专业网站定制、快速模板网站建设、高性价比江口网站开发、企业建站全套包干低至880元,成熟完善的模板库,直接使用。一站式江口网站制作公司更省心,省钱,快速模板网站建设找我们,业务覆盖江口地区。费用合理售后完善,10年实体公司更值得信赖。

需要用到

Cygwin:一个在windows平台上运行的类UNIX模拟环境,直接网上搜索下载,并且安装;

Hadoop:配置Hadoop环境,实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS,用来将收集的数据直接上传保存到HDFS,然后用MapReduce分析;

Eclipse:编写代码,需要导入hadoop的jar包,以可以创建MapReduce项目;

Jsoup:html的解析jar包,结合正则表达式能更好的解析网页源码;

----->

目录:

1、配置Cygwin

2、配置Hadoop黄静

3、Eclipse开发环境搭建

4、网络数据爬取(jsoup)

-------->

1、安装配置Cygwin

从官方网站下载Cygwin 安装文件,地址:https://cygwin.com/install.html

下载运行后进入安装界面。

安装时直接从网络镜像中下载扩展包,至少需要选择ssh和ssl支持包

安装后进入cygwin控制台界面,

运行ssh-host-config命令,安装SSH

输入:no,yes,ntsec,no,no

注意:win7下需要改为yes,yes,ntsec,no,yes,输入密码并确认这个步骤

完成后会在windows操作系统中配置好一个Cygwin sshd服务,启动该服务即可。

怎么在hadoop中实现一个java爬虫

然后要配置ssh免密码登陆

重新运行cygwin。

执行ssh localhost,会要求使用密码进行登陆。

使用ssh-keygen命令来生成一个ssh密钥,一直回车结束即可。

生成后进入.ssh目录,使用命令:cp id_rsa.pub authorized_keys 命令来配置密钥。

之后使用exit退出即可。

重新进入系统后,通过ssh localhost就可以直接进入系统,不需要再输入密码了。

2、配置Hadoop环境

修改hadoop-env.sh文件,加入JDK安装目录的JAVA_HOME位置设置。

# The java implementation to use. Required.

export JAVA_HOME=/cygdrive/c/Java/jdk1.7.0_67 



文章名称:怎么在hadoop中实现一个java爬虫-创新互联
链接URL:http://myzitong.com/article/pcjgj.html