Hive分区和分桶的区别
- 作者: 五速梦信息网
- 时间: 2026年04月04日 13:40
1.前言
Hive的分区和分桶都是细化数据管理,加快数据查询和分析,两者有什么区别呢?下面讲解一下分区和分桶的原理。
2.分区
(1)分区原理
Hive的分区表可以有一个或多个分区键,用于确定数据的存储方式。分区(除了作为存储单元)还允许用户有效地识别满足指定条件的数据,显著加快查询分析速度。分区字段并不是数据的一部分,而是加载时虚拟的列,数据在HDFS上存储时分区就相当于文件目录。
Hive的分区使用HDFS的子目录功能实现。每一个子目录包含了分区对应的列名和每一列的值
Hive的分区方式:由于Hive实际是存储在HDFS上的抽象,Hive的一个分区名对应一个目录名,子分区名就是子目录名,并不是一个实际字段。
(2)分区建表
分区表使用partitioned by 子句指定,以指定字段列,需要指定字段类型。
建表完成后查看LOCATION参数为:'
hdfs://ns/user/hive/warehouse/testdb.db/test_partition'。当存储数据时,2022-02-01日期的数存储在hdfs://ns/user/hive/warehouse/testdb.db/test_partition/d=2022-02-01目录下。
如果指定多个分区列用逗号分隔开,如:建表是PARTITIONED BY(d String Comment 'date',h String Comment 'hour'),分区字段日期常用格式:d=yyyy-MM-dd,h=HH。第二个参数会作为子目录存储在HDFS上:***/test_partition/d=2022-02-01/h=12
3.分桶
(1)分桶原理
分桶表是在表或者分区表的基础上,进一步对表进行组织,分桶表的数据可以根据表中某列的哈希函数的值依次划分为存储桶,用于分桶的字段是数据中实际的一列。其原理:根据分桶的列计算hash值,对hash值取模运算,将数据放到对应的桶里。保证了每个桶中都有数据,但每个桶中的数据条数不一定相等。
如要按照name属性分为3个桶,就是对name属性值的hash值对3取摸,按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件,取模为1的数据存放到一个文件,取模为2的数据存放到一个文件。
(2)分桶建表
分桶表由clustered by 子句指定,指定字段为真实字段,需要指定桶的个数,桶编号从零开始。
4.相同点和不同点
(1)相同点
分区和分桶表都是Hive细化数据管理,加快数据查询和分析。
(2)不同点
① 表现形式:
分区表是一个目录,分桶表是文件。
分桶随机分割数据库,分区是非随机分割数据库。因为分桶是按照列的哈希函数进行分割的,相对比较平均;而分区是按照列的值来进行分割的,容易造成数据倾斜。
② 创建语句:
分区表使用partitioned by 子句指定,以指定字段为伪列,需要指定字段类型。
分桶表由clustered by 子句指定,指定字段为真实字段,需要指定桶的个数。
③ 数量:
分区表的分区个数可以增长,分桶表一旦指定,不能再增长。
④ 作用:
分区避免全表扫描,根据分区列查询指定目录提高查询速度。
分桶保存分桶查询结果的分桶结构(数据已经按照分桶字段进行了hash散列)。
分桶表数据进行抽样和JOIN时可以提高MR程序效率。
- 上一篇: hive用RTRIM
- 下一篇: hive 计算去年同期
相关文章
-
hive用RTRIM
hive用RTRIM
- 互联网
- 2026年04月04日
-
home assitant和微信小程序的对接教程
home assitant和微信小程序的对接教程
- 互联网
- 2026年04月04日
-
host文件的作用和介绍
host文件的作用和介绍
- 互联网
- 2026年04月04日
-
hive 计算去年同期
hive 计算去年同期
- 互联网
- 2026年04月04日
-
Hive 导出数据到 MySQL
Hive 导出数据到 MySQL
- 互联网
- 2026年04月04日
-
hiho #1288 微软2016.4校招笔试题 Font Size
hiho #1288 微软2016.4校招笔试题 Font Size
- 互联网
- 2026年04月04日





