Avro详解

Avro作为Hadoop下相对独立的子项目，是一个数据序列化的系统。

Avro介绍

类似于其他序列化系统，Avro可以将数据结构或对象转化成便于存储或传输的格式，特别是在设计之初它可以用来支持数据密集型应用，适合于大规模数据的存储和交换。总之，Avro可以提供以下一些特性和功能：

Avro和动态语言结合后，读写数据文件和使用RPC协议都不需要生成代码了，而代码作为一种可选的优化只需要在静态类型语言中实现。

Avro依赖于模式（Schema）。Avro数据的读/写操作很频繁，而这些操作都需要使用模式，这样可减少写入每个数据资料的开销，使得序列化快速而又轻巧。这种数据及其模式的自我描述方便了动态脚本语言的使用。

当Avro数据存储到文件中时，它的模式也随之存储，这样任何程序都可以对文件进行处理。如果读取数据时使用的模式与写入数据时使用的模式不同，那也很容易解决，因为读取和写入的模式都是已知的。

Avro模式是用JSON（一种轻量级的数据交换模式）定义的，这样对于已经拥有JSON库的语言来说就可以容易地实现。

Avro提供与诸如Thrift和Protocol Buffers等系统相似的功能，但是在一些基础方面还是有区别的，主要表现在以下几个方面：

动态类型：Avro并不需要与生成代码、模式和数据存放在一起，而整个数据的处理过程并不生成代码、静态数据类型等。这方便了数据处理系统和语言的构造。

未标记的数据：因为读取数据的时候模式是已知的，所以需要和数据一起编码的类型信息就很少了，这样序列化的规模也就小了。

不需要用户指定字段号：即使模式发生了改变，但是新旧模式都是已知的，所以处理数据时可以通过使用字段名称来解决差异问题。