HIVE建表说明
物理表
CREATE TABLE `TableName`(
`id` string COMMENT 'This is primary key',
`col1` string COMMENT 'The remark of col1',
`col2` string COMMENT 'The remark of col2'
) COMMENT 'The remark of table'
PARTITIONED BY (create_day date)
CLUSTERED BY(id) INTO 6 BUCKETS
STORED AS ORC
TBLPROPERTIES (
'orc.compress'='ZLIB',
'transactional'='true'
);
临时表
CREATE TEMPORARY TABLE `TableName`(
`id` string COMMENT 'This is primary key',
`col1` string COMMENT 'The remark of col1',
`col2` string COMMENT 'The remark of col2'
) COMMENT 'The remark of table'
PARTITIONED BY (create_day date)
CLUSTERED BY(id) INTO 6 BUCKETS
STORED AS ORC
TBLPROPERTIES (
'orc.compress'='ZLIB',
'transactional'='true'
);
Hive数据类型
数据类型
类型 | 长度 | 备注 |
---|---|---|
TINYINT | 1字节 | 有符号整型 |
SMALLINT | 2字节 | 有符号整型 |
INT | 4字节 | 有符号整型 |
BIGINT | 8字节 | 有符号整型 |
FLOAT | 4字节 | 有符号单精度浮点数 |
DOUBLE | 8字节 | 有符号双精度浮点数 |
DECIMAL | -- | 可带小数的精确数字字符串 |
字符类型
类型 | 长度 | 备注 |
---|---|---|
STRING | -- | 字符串 |
VARCHAR | 字符数范围1 - 65535 | 长度不定字符串 |
CHAR | 最大的字符数:255 | 长度固定字符串 |
日期时间类型
类型 | 长度 | 备注 |
---|---|---|
TIMESTAMP | -- | 时间戳,内容格式:yyyy-mm-dd hh:mm:ss[.f...] |
DATE | -- | 日期,内容格式:YYYYMMDD |
INTERVAL | -- | -- |
布尔和字节序列类型
类型 | 长度 | 备注 |
---|---|---|
BOOLEAN | -- | 布尔类型 TRUE/FALSE |
BINARY | -- | 字节序列 |
非结构化类型
类型 | 长度 | 备注 |
---|---|---|
ARRAY | -- | 包含同类型元素的数组,索引从0开始 ARRAY |
MAP | -- | 字典 MAP |
STRUCT | -- | 结构体 STRUCT |
UNIONTYPE | -- | 联合体 UNIONTYPE |
Notice
- 分桶属性必须是哈希值散列的,例如记录唯一标识id
- 分区属性不是必需的,但在记录数大的表中建议以日期作为分区属性
- 需要对表进行事务操作,必需开启事务属性
- 指定以ORC格式存储
- 必须添加必要的属性说明和表说明
- 禁止update分区属性
Q&A
为什么使用分区属性?
在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。 Hive可以对数据按照某列或者某些列进行分区管理,所谓分区我们可以拿下面的例子进行解释。当前互联网应用每天都要存储大量的日志文件,几G、几十G甚至更大都是有可能。存储日志,其中必然有个属性是日志产生的日期。在产生分区时,就可以按照日志产生的日期列进行划分。把每一天的日志当作一个分区。 将数据组织成分区,主要可以提高数据的查询速度。至于用户存储的每一条记录到底放到哪个分区,由用户决定。即用户在加载数据的时候必须显示的指定该部分数据放到哪个分区。
为什么使用分桶属性?
对于每一个表或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是 针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。 把表(或者分区)组织成桶(Bucket)有两个理由: (1)获得更高的查询处理效率。桶为表加上了额外的结构,Hive 在处理有些查询时能利用这个结构。具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用 Map 端连接 (Map-side join)高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量。 (2)使取样(sampling)更高效。在处理大规模数据集时,在开发和修改查询的阶段,如果能在数据集的一小部分数据上试运行查询,会带来很多方便。
为什么要开启事务属性?
Hive从0.14版本开始支持事务和行级更新,但缺省是不支持的,需要一些附加的配置。要想支持行级insert、update、delete,需要配置Hive支持事务。
为什么使用ORC格式存储?
ORC文件格式是一种Hadoop生态圈中的列式存储格式,用于降低Hadoop数据存储空间和加速Hive查询速度。ORC具有以下一些优势: (1)ORC是列式存储,有多种文件压缩方式,并且有着很高的压缩比。 (2)文件是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅节省HDFS存储资源,查询任务的输入数据量减少,使用的MapTask也就减少了。 (3)提供了多种索引,row group index、bloom filter index。 (4)ORC可以支持复杂的数据结构(比如Map等) (5)只有ORC支持事务操作