orc表✉优缺点-岚柏博客

orc表✉优缺点

7小时前 • 技术教程 • 阅读 5

除了直接配置MapReduce压缩功能外，Hive的ORC表和Parquet表直接支持表的压缩属性。

但支持的压缩格式有限，ORC表支持☞None、Zlib、Snappy压缩，默认为ZLIB压缩。但这3种压缩格式不支持切分，所以适合单个文件不是特别大的场景。使用Zlib压缩率高，但效率差一些；使用Snappy效率高，但压缩率低。

Parquet表✂支持Uncompress、Snappy、Gzip、Lzo压缩，默认不压缩Uncompressed。其中Lzo压缩是支持切分的，所以在表的单个文件较大的场景会选择Lzo格式。Gzip压缩率高，效率低；而Snappy、Lzo效率高，压缩率低。

Kudo是一个列式存储的用于快速分析的NoSQL数据库，提供了类似SQL的查询语句，与RDBMS十分类似，有PRIMARY KEY ，基于主键查询而不是HBase的RowKey

低延迟随机存取

与其他大数据数据库不同，Kudu不仅仅是一个文件格式。行访问达到毫秒级延迟，支持C++ JAVA, API PyThon API 拥有简单好用的API

融会贯通入Hadoop生态系统

你可以使用♈Java Client实时导入数据，同时也支持Spark(运算) impala(分析工具，比Hive快) MapReduce HDFS HBase 很容易从HDFS中获取数据，占用内存小于1G

列式存储有利于编码和压缩，数据比使用Parquet压缩还省空间。这样的高压缩，降低了数据的IO，为计算服务。使用如laze data这样的技术，使得超高速成为可能

分布式和容错机制

Kudu通过把☪tables切分成tablets,每个表都可以配置切分的哈希，分区和✄组合

Kudu使用了Raft来复制给定的操作，保证了数据同时存储在两个节点上，因此不村子单点故障。

原创文章，作者：Ame，如若转载，请注明出处：https://www.lbseo.cn/13084.html

orc表✉优缺点