Prime_DSC_MentionCalcSpark性能调优-创新互联

Prime_DSC_MentionCalcSpark系统简介

创新互联专注于玉山企业网站建设,自适应网站建设,电子商务商城网站建设。玉山网站建设公司,为玉山等地区提供建站服务。全流程按需设计,专业设计,全程项目跟踪,创新互联专业和态度为您提供的服务

实现功能 : 根据条件(siteId, startTime, endTime, campaignId, folder)从HBase数据源中读取文本数据作为输入,把提交的关键词作为条件,输出在文本中关键词提及的次数

存在问题 : 对于大数据量的计算时间较长.

解决思路 :

  1. 把HBase结果反射成TweetBean修改成TweetBean的setXXX的方式构造TweetBean

    1. 当有5W条数据,通过反射转成TweetBean需要60s,通过TweetBean的setXX的方法需要20s

  2. 把读取HBase的所有字段改成读取HBase的需要的字段

    1. 当有5W条数据,读取所有字段时需要60s,读取需要的字段需要25s

  3. 从UC取DC数据时,不使用map函数,替换成mapPartition函数,这样使用可以从HBase批量取数据,仅需要一次HBase连接即可

  4. 存储计算结果,使用foreachPartition函数. 当遍历Iterator时不是每次在循环里面都存储计算结果,而是在循环外面维护队列,批量存储结果

  5. 根据Spark集群资源,合理利用Spark集群的资源,如资源越多,集群计算能力越强.而比较合理的机器资源和任务并行度的关系是 : 任务数 = 机器CPU核数 * (2 或者 3), 所以设置RDD的分区数为集群CPU核数 * 2

  6. 从HBase读取数据的并行度跟表的region数相关.默认情况下,建表时只有一个region,而当region越来越大时,需要split成两个region,region越多split的阈值越大,导致很多数据都存在一个region中.此时如果需要查询一张表,假设该表有5个region,则会有5个线程同时查询5个region的数据,但是如果其中一个region很大,是其他region的10倍,则该region的读取是其他region读取性能的10倍,导致整个任务的delay. 解决该问题的方法可以先通过预分区和对rowkey使用hash/MD5等算法使数据均匀的分布在各个region,这样在读取数据时可以根据数据均匀分配而更好的并发读取数据.

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


标题名称:Prime_DSC_MentionCalcSpark性能调优-创新互联
分享路径:http://myzitong.com/article/dheedj.html