请在 下方输入 要搜索的题目:

Hive表关联查询,如何解决数据倾斜的问题?

Hive表关联查询,如何解决数据倾斜的问题?

发布时间:2025-07-05 15:21:43
推荐参考答案 ( 由 快搜搜题库 官方老师解答 )
联系客服
答案:

1)倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务 数据本身的特征、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。

(1)key分布不均匀;

(2)业务数据本身的特性;

(3)建表时考虑不周;

(4)某些SQL语句本身就有数据倾斜;

    如何避免:对于key为空产生的数据倾斜,可以对其赋予一个随机值。


2)解决方案

(1)参数调节:

    hive.map.aggr = true

    hive.groupby.skewindata=true

    有数据倾斜的时候进行负载均衡,当选项设定位true,生成的查询计划会有两个MR Job。 第一个MR Job中, Map的输出结果集合会随机分布到Reduce中,每个Reduce做部分聚合操 作,并输出结果,这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce 中,从而达到负载均衡的目的;第二个MR Job再根据预处理的数据结果按照Group By Key 分布到 Reduce 中(这个过程可以保证相同的 Group By Key 被分布到同一个Reduce中), 最后完成最终的聚合操作。


(2)SQL 语句调节:

    ① 选用join key分布最均匀的表作为驱动表。做好列裁剪和filter操作,以达到两表做join 的时候,数据量相对变小的效果。

    ② 大小表Join:

    使用map join让小的维度表(1000 条以下的记录条数)先进内存。在map端完成 reduce。

    ③ 大表Join大表:

    把空值的key变成一个字符串加上随机数,把倾斜的数据分到不同的reduce上,由于 null 值关联不上,处理后并不影响最终结果。

    ④ count distinct大量相同特殊值:

    count distinct 时,将值为空的情况单独处理,如果是计算count distinct,可以不用  处理,直接过滤,在最后结果中加1 。如果还有其他计算,需要进行group by,可以先将值 为空的记录单独处理,再和其他计算结果进行union。

    ⑤ group by时, combiner在map端做部分预聚合,可以有效减少shuffle数据量。 

    ⑥ checkinterval:设置map端预聚合的行数阈值,超过该值就会分拆job。

        hive.map.aggr=true //默认

        hive.groupby.mapaggr.checkinterval=100000 // 默认

    ⑦多表join时key相同:会将多个join合并为一个MR job来处理,两个join的条件不相同, 就会拆成多个MR job计算。

    ⑧ sort by代替order by将结果按某字段全局排序,这会导致所有map端数据都进入一个reducer中,在数据量大时可能会长时间计算不完。使用sort by,那么还是会视情况启动多个reducer进行排序,并 且保证每个reducer内局部有序。为了控制map端数据分配到reducer的key,往往还要配合 distribute by一同使用。如果不加distribute by的话, map端数据就会随机分配到reducer。


(3)单独处理倾斜key

一般来讲倾斜的key都很少,可以将它们抽样出来,对应的行单独存入临时表中,然后打上 随机数前缀,最后再进行聚合。或者是先对key做一层hash,先将数据随机打散让它的并行 度变大,再汇集。

专业技术学习
专业技术学习
搜搜题库系统