Hadoop

Hadoop：
大数据集群，只能运行在Linux平台
RDBMS：表
字段、数据类型、约束
结构化数据
关系数据库在数据中占据重要的地位
但不是所有的数据都可以结构化
结构化数据：structured data
非结构化数据：unstructured data
半结构化数据：semi-structured data
通常保存为xml , json
Google：pagerank 页面算法
化整为零，并行处理
将一个大问题切割成多个小问题
OLAP：数据挖掘
机器学习：deep learning
多节点并行处理

成都创新互联公司是一家专注网站建设、网络营销策划、微信小程序、电子商务建设、网络推广、移动互联开发、研究、服务为一体的技术型公司。公司成立十载以来，已经为1000+成都石雕各业的企业公司提供互联网服务。现在，服务的1000+客户与我们一路同行，见证我们的成长；未来，我们一起分享成功的喜悦。

Map reduce：
函数式编程API
运行框架

HDFS + Mapreduce=Hadoop
HDFS：
namenode：NN节点
Datanode：DN节点
MapReduce：
jobTracker：JT节点
TaskTracker：TT节点

Hadoop
Hadoop
Hadoop使用Java语言开发，mapper,reducer都是使用Java语言开发

hadoop生态：
Hadoop

Hadoop
一个mapper,reducer可以没有reduce,但不能没有mapper
HDFS：
1、HDFS设计用来存储大文件，对海量小文件的存储不太适用；
2、用户空间的文件系统；
3、HDFS不支持修改；新版本支持追加；
4、不支持挂载，并通过系统调用进行访问，只能使用专用访问接口，如专用命令行工具，API；