美高梅娱乐场网站hadoop文件格式和压缩算法

发布时间:2019-12-12  栏目:科技中心  评论:0 Comments

关键词: 文件格式 压缩效率 文件可分片

美高梅娱乐场网站 1

需要考虑的因素

文件格式对存储空间利用率, 程序性能都有很大的影响. 具体表现在:

  • 文件和压缩算法的组合是否支持可分片,
    MapReduce在读取数据的时候需要并行, 这就要求压缩后的文件可以分片读取.

在考虑如何压缩那些将由MapReduce处理的数据时,考虑压缩格式是否支持分割是很重要的。考虑存储在HDFS中的未压缩的文件,其大小为1GB,HDFS的块大小为64MB,所以该文件将被存储为16块,将此文件用作输入的MapReduce作业会创建1个输人分片(split,也称为“分块”。对于block,我们统一称为“块”。)每个分片都被作为一个独立map任务的输入单独进行处理。

  • io读取性能, 读取相同信息量的信息, 压缩后的文件不仅占用的存储空间低,
    而且还会提高磁盘io的读取效率. 提高程序的运行速度
  • CPU资源也是启用何种压缩算法不得不考虑的因素,
    一般来说压缩效率越高的算法对io效率和存储利用率的提升越有促进作用,
    但另一方面也会更高的消耗CPU资源. 所以我们需要在这中间寻求一个平衡点.
  • 共通性, 文件格式是否支持多种语言, 服务的读取.
    比如Hadoop主要的序列化格式为Writables, 但是Writables只支持Java,
    所以后面衍生出了Avro, Thrift等格式.
    还如OrcFile是对Hive设计的一种列式存储格式, 但是他不支持Impala,
    数据的共用性受到了制约.
  • 错误处理能力, 有的文件的某一部分坏掉之后会影响整个表,
    有的只会影响其后的数据, 有的只会影响坏掉数据块本身(Avro).
  • 读取和载入效率, RCFile的载入速度慢, 但是查询相应速度快,
    相对更适合数据仓库一次插入多次读取的特性.

文件格式

hadoop存储上没有既定的标准文件格式和压缩算法, 它和标准文件系统相同,
可以存储各种各样类型的文件, 也支持多种压缩算法.
使用什么格式和压缩算法的主动权在使用者手里.
我们可以根据具体需求来权衡使用哪种组合.

ORC File,它的全名是Optimized Row Columnar
file,其实就是对RCFile做了一些优化。据官方文档介绍,这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目标是来克服Hive其他格式的缺陷。运用ORC
File可以提高Hive的读、写以及处理数据的性能。

标准文件格式

标准文件格式可以分为文本文件(如 CSV, XML, JSON 等)和二进制文件(图像,
视频等).

官网:用于Hadoop工作负载的最小、最快的列存储。

the smallest, fastest columnar storage for Hadoop workloads.

文本数据格式

txt, csv等纯文本格式是很常见的, 比如日志的存储和分析. 一般来说,
在大多数场景中, 使用容器格式(如SequenceFile, Avro)都会带来很多好处.
后面会介绍容器格式. 文本数据有一些不可避免的缺点:

  • 存储空间利用率低
  • 会有额外的序列化反序列化开销: 比如1234存储在文件中是字符串的形式,
    转入程序中又是数字型的话读取和写入都会有额外的不必要的性能开销,
    数量大的话性能影响就会更加显著.

结构化文本格式

我们常见的json, xml格式就属于此类, 他们很难分片,
且没有hadoop内置提供的InputFormat. 使用他们的时候,
一般用第三方的提供的InputFormat,
或者是将数据转化成Avro格式的数据再进行处理.

美高梅娱乐场网站 2

二进制数据

虽然Hadoop中存储的大多都是文本, 但是我们也可以存储图像等二进制文件.
对于大多数应用场景来说使用SequenceFile等容器格式都是很适用的.

Hadoop文件类型

为了配合MapReduce, 开发一些专门格式. 基于文件的SequenceFile,
序列化的Avro和列式存储的RCFile和Parquet. 上面的这些虽然各有不同,
但是有些重要的特性是共有的, 这对MapReduce任务来说至关重要.
这些文件都支持通用的压缩算法, 也支持分片.

在工作中,用的最多的地方是在 Hive 中。我们的数据存储格式使用的 ORC

基于文件的SequenceFile

以二进制键值对的形式存储数据, 支持三种记录存储方式.

  • 无压缩, io效率较差. 相比压缩, 不压缩的情况下没有什么优势.
  • 记录级压缩, 对每条记录都压缩. 这种压缩效率比较一般.
  • 块级压缩, 这里的块不同于hdfs中的块的概念.
    这种方式会将达到指定块大小的二进制数据压缩为一个块. 相对记录级压缩,
    块级压缩拥有更高的压缩效率.
    一般来说使用SequenceFile都会使用块级压缩.
    但是SequenceFile只支持Java,
    SequenceFile一般用来作为小文件的容器使用,
    防止小文件占用过多的NameNode内存空间来存储其在DataNode位置的元数据.

插一句,如果直接把普通的文本文件直接 load 到 orc
格式的表中,是会报错的。需要先把数据 load 到一张 textFile
格式的表中,再由这张表查询插入到 orc 格式的目标表中。

序列化存储格式

序列化指的是数据格式转化为字节流的过程, 主要用于远程传输或存储.
hadoop采用的序列化格式主要是Writables. 但是它只能支持Java语言,
所以后来就出现了Thrift, Avro等格式.

存储数据除了考虑安全性,所占空间以及查询效率是直接关系到我们的业务的。数据量不压缩,对于大数据团队来说,集群的磁盘很容易不够用。数据存进去,我们是要用的,业务方提了一个小需求,你的任务跑了大半个小时,显然也是不合理的。

Thrift

Facebook开发的框架, 用于实现跨语言提供服务和接口, 满足跨平台通信.
但是Thrift不支持分片, 且缺少MapReduce的原生支持.

这些问题都可以解决掉,但并不是完全解决。

Avro

Avro是一个语言无关的数据序列化的系统,
它的出现主要是为了解决Writables缺少跨语言移植的缺陷.
Avro将模式存储在文件头中, 所以每个文件都是自描述的,
而且Avro还支持模式演进(schema evolution), 也就是说,
读取文件的模式不需要与写入文件的模式严格匹配, 当有新需求时,
可以在模式中加入新的字段.

  • Avro支持分片, 即使是进行Gzip压缩之后.
  • 支持跨语言的支持

如果我的文章对您有帮助,欢迎关注、转发。您的支持就是我更新的最大动力。

列级存储

https://www.iteblog.com/archives/1014.html

美高梅娱乐场网站 3

逻辑表, 行式存储和列式存储.png

留下评论

网站地图xml地图