ApacheHive中的使用技巧有哪些
这篇文章给大家分享的是有关Apache Hive中的使用技巧有哪些的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
创新互联建站成立于2013年,我们提供高端成都网站建设公司、重庆网站制作、成都网站设计、网站定制、网络营销推广、小程序制作、微信公众号开发、seo优化服务,提供专业营销思路、内容策划、视觉设计、程序开发来完成项目落地,为成都木包装箱企业提供源源不断的流量和订单咨询。
1、不要使用 MapReduce
不管你是不是觉得 Tez、Spark 或 Impala 能行,但是不要指望 MapReduce。它本身就很慢,比 Hive 还慢。如果你用的是 Hortonwork 的版本,你可以在脚本前面写上 set hive.execution.engine=tez ;用 Cloudera 的话,使用 Impala。如果 Impala 不适用的话,我 希望到时候 可以使用 hive.execution.engine=spark 。
2、不要在 SQL 中做字符串匹配
绝不要,特别是在 Hive 中!如果你坚持要在 WHERE 语句中使用 LIKE 匹配,就会产生一个跨产品的警告。本来你的查询可能只用几秒钟,但是使用字符串匹配的话就会变成几分钟。***的办法是使用那些可以在 Hadoop 中进行搜索的工具,可以试试 Elasticsearch 的 Hive 集成版本或 Lucidwork 的 Solr ,以及 Cloudera Search 。关系型数据库这方面表现并不好,但是 Hive 则更糟糕。
3、不要用表连接子查询
你***创建一个临时表,然后对这个临时表进行连接,而不是让 Hive 自己智能处理子查询。即不要这样做:
select a.* from something a inner join (select ... from somethingelse union b select ... from anotherthing c) d on a.key1 = d.key1 and a.key2 = b.key2 where a.condition=1
而是应该这样:
create var_temp as select ... from somethingelse b union select ... from anotherthing c and then select a.* from something a inner join from var_temp b where a.key1=b.key1 and a.key2=b.key2 where a.condition=1
一般来说,这会比 Hive 自己处理子查询要快许多。
4、使用 Parquet 或 ORC,但是不要转换使用
也就是说,使用 Parquet 或 ORC 而不要用 TEXTFILE。然而,如果你要把文本数据中导入到更具结构性的数据中,应该做一些转换再导入到目标表中。你不应该用 LOAD DATA 将文本文件加载到 ORC 中,而是应该将其加载到一个文本中。
如果你要创建另外一个表,并最终大多数分析都是对它进行的,那么你就该对该表进行 ORC 化,因为转换到 ORC 或 Parquet 要花费很多时间,并不值得将其放到你的 ETL 处理中。如果你有一个简单的普通文本要导入,也没做过任何优化,你应该将其加载到一个临时表并通过 select create 放到 ORC 或 Parquet 中。不过,这有点慢。
5、开关矢量化试试
在你的脚本前面加上 set hive.vectorized.execution.enabled = true 和 set hive.vectorized.execution.reduce.enabled = true ,然后试着打开或关闭它们看看。因为最近版本的 Hive 的矢量化有点问题。
6、不要在表连接中使用 structs
我必须承认我大脑里面的 SQL 格式还是 SQL-92 时代的,所以我无论如何都不会想到去用 structs 。但是如果你做一些超级复杂的操作,比如在联合主键上使用 ON 语句,那么 structs 就很方便。不幸的是,Hive 对它们很不适应,特别是在 ON 语句上。当然,大多数情况下,在较小的数据集和 yields 下是没错误的。在 Tez 里面,你会得到一个有趣的矢量错误。这个限制并未见于我所知的任何文档,也许这是一个探索你的执行引擎内部的好办法。
7、检查你的容器大小
你也许需要为 Impala 或 Tez 增加你的容器大小。如果有你的节点大小比较大,“推荐的”容器大小可能就不适用于你的系统。你也许需要确保你的 YARN 队列和常规的 YARN 内存大小合适。你也许应该 注意默认的队列并不适合 所有的常规使用。
8、启用统计
Hive 在表连接时 会做一些蠢事 ,除非 启用了统计 。你也可以 在 Impala 中使用查询提示 。
9、考虑 MapJoin 优化
如果你分析你的查询,你可能发现***的 Hive 已经可以足够智能地进行自动优化了。但是你也许需要再调整一下。
10、如果可以, 将大表放到***
如标题。
11、分区总会帮到你,不管多少
如果你有一个出现在许多地方的东西,比如语句中的日期(但不是日期范围)或重复的地点,你也许应该做分区。分区的基本意思是“拆分到它自己的目录里面”,而不是到一个大的文件中去查找。当你在你的 join/where 语句中仅检索 location=’NC’ 这样一个小数据集时,Hive 就可以在一个文件中查找。此外,和列值不同,你可以在你的 LOAD DATA 语句中加上分区。另外,要记住, HDFS 并不喜欢小文件 。
12、使用哈希进行列比较
如果你要在每个查询中比较同样的10个字段,可以考虑使用 hash() 来比较它们的校验值。在一个输出表中展示它们也许很有用。注意,在 Hive 0.12 中,哈希功能比较差,0.13中的哈希更好一些。
感谢各位的阅读!关于“Apache Hive中的使用技巧有哪些”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
本文名称:ApacheHive中的使用技巧有哪些
转载来于:http://myzitong.com/article/gsjheh.html