Hadoop产品有哪些

这篇文章将为大家详细讲解有关Hadoop产品有哪些,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

创新互联致力于成都网站设计、成都网站建设,成都网站设计,集团网站建设等服务标准化,推过标准化降低中小企业的建站的成本,并持续提升建站的定制化服务水平进行质量交付,让企业网站从市场竞争中脱颖而出。 选择创新互联,就选择了安全、稳定、美观的网站建设服务!

    Hadoop系列 常用的项目有,Hadoop , Hive , Pig , HBase , Sqoop , Mahout , Zookeeper , Avro , Ambari , Chukwa , YARN , Hcatalog , Oozie , Cassandra , Hama , Whirr , Flume , Bigtop , Crunch , Hue等等。

Hadoop产品有哪些

各产品介绍:

  • Apache Hadoop : 是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构。

  • Apache Hive : 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

  • Apache Pig: 是一个基于Hadoop的大规模数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。

  •  APache HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC server上搭建起大规模结构化存储集群。

  • Apache Sqoop :是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(MySQL、Oracle、Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

  • Apache  Zookeeper:是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。

  • Apache Mahout:是基于Hadoop的机器学习和数据挖掘的一个分布式框架,Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。

  • Apache Cassandra:是一套开源分布式NoSql数据库系统。它最初由Facebook开发,用于储存简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布大的架构于一身。

  • Apache Avro:是一个数据序列化系统,设计用于支持数据密集型,大批量数据交换的应用。Avro是新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。

  • Apache Ambari : 是一种基于Web的工具,支持Hadoop集群的供应、管理和监控。

  • Apache Chukwa:是一个开源的用于监控大型分布式系统的数据收集系统,它可以将各种各样类型的数据收集成适合Hadoop处理的文件保存在HDFS中,供Hadoop进行各种MapReduce操作。

  • Apache Hama :是一个基于HDFS的BSP(Bulk Synchronous Parallel)并行计算框架,Hama可用于包括图、矩阵和网络算法在内的大规模、大数据计算。

  • Apache Flume : 是一个分布的、可靠的、高可和的海量日志聚合的系统,可用于日志数据收集,日志数据处理,日志数据传输。

  • Apache Giraph:是一个可伸缩的分布式迭代图处理系统,基于Hadoop平台,灵感来自BSP和Google的Pregel。

  • Apache Oozie :是一个工作流引擎服务器,用于管理和协调运行在Hadoop平台上(HDFS、Pig和MapReduce)的任务。

  • Apache Crunch:是基于Google的FlumeJava库编写的java库,用于创建MapReduce程序。与Hive,Pig类似,Crunch提供了用于实现如连接数据、执行聚合和排序记录等常见任务的模式库。

  • Apache Whirr:是一套运行于云服务的类库(包括Hadoop),可提供高度的互补性。Whirr支持Amazon EC2 和 Rackspace的服务。

  • Apache Bigtop :是一个对Hadoop及其周边生态进行打包,分发和测试的工具。

  • Apache HCatalog:是基于Hadoop的数据表和存储管理,实现中内的元数据和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供关系视图。

  • Cloudera Hue:是一个基于WEB的监控和管理系统,实现对HDFS、MapReduce、YARN、HBase、Hive、Pig的web化操作和管理。

关于“Hadoop产品有哪些”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。


分享标题:Hadoop产品有哪些
网址分享:http://myzitong.com/article/gcccsg.html