第15课:RDD创建内幕彻底解密-创新互联

本节课主要内容:

创新互联网站建设公司一直秉承“诚信做人,踏实做事”的原则,不欺瞒客户,是我们最起码的底线! 以服务为基础,以质量求生存,以技术求发展,成交一个客户多一个朋友!专注中小微企业官网定制,做网站、成都做网站,塑造企业网络形象打造互联网企业效应。

  1、RDD创建的几种方式

  2、RDD创建实战

  3、RDD内幕

RDD创建有很多种方式,以下几种创建RDD的方式:

   1、使用程序中的集合创建RDD,实际意义用于测试用;

   2、使用本地文件系统创建RDD,测试大量数据的文件;

   3、使用HDFS创建RDD,最常用的方式;

   4、基于DB创建RDD;

   5、基于NoSQL创建RDD,例如HBase;

   6、基于S3创建RDD;

   7、基于数据源创建RDD;

RDD实战:

//通过集合方式创建RDD

val conf = new SparkConf().setAppName("RDDDemo").setMaster("local")
val sc = new SparkContext(conf)
//创建RDD
val rdd = sc.parallelize(0 to 100)
//1+2=3 3+3 = 6 6+4 = 10 ....
val sum = rdd.reduce(_ + _)
println(sum)

//通过HDFS上文件创建RDD

val conf = new SparkConf().setAppName("RDDDemo").setMaster("local")
val sc = new SparkContext(conf)
//创建RDD
val lines = sc.textFile("hdfs://Master:9000/data/README.md")
val words = lines.flatMap(line => line.split(" ")).map(line => (line, 1))
val wordCount = words.reduceByKey(_ + _)
wordCount.collect().foreach(println)

备注:

资料来源于:DT_大数据梦工厂

更多私密内容,请关注微信公众号:DT_Spark

如果您对大数据Spark感兴趣,可以免费听由王家林老师每天晚上20:00开设的Spark永久免费公开课,地址YY房间号:68917580

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


当前标题:第15课:RDD创建内幕彻底解密-创新互联
文章URL:http://myzitong.com/article/iejdi.html