millor1989/hive_notes

Apache Hive是用来读、写、管理保存在分布式存储中的大型数据集，并且使用SQL语法进行查询。

基于Apache Hadoop构建，Hive有如下特性：

Hive提供了标准的SQL支持，包括随后用于分析的SQL：2003，SQL：2011，和SQL：2016特性。

Hive的SQL可以通过UDFs（user defined functions）、UDAFs（user defined aggregates functions）、UDTFs（user defined table functions）使用用户代码进行扩展。

Hive支持多种数据格式。Hive内置了CSV、TSV、Apache Parquet、Apache ORC和其它格式的连接器（connectors）。用户可以使用其它格式的连接器对Hive进行扩展。

Hive不是为联机事务处理（OLTP）工作而设计的，最佳的用途是传统的数据建仓任务。

Hive是可扩展、高性能、容错、与输入格式低耦合的

Hive的组件包括HCatalog和WebHCat：

HCatalog：是Hadoop的一个表和存储管理层，让用户可以使用不同的数据处理工具——包括Pig和MapReduce——更简单地进行数据读写。
WebHCat：提供可以用来运行Hadoop MapReduce（或者YARN）、Pig、Hive jobs的服务。也可以使用HTTP接口进行Hive metadata操作。

millor1989 / hive_notes