博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
0016-Avro序列化&反序列化和Spark读取Avro数据
阅读量:6181 次
发布时间:2019-06-21

本文共 1834 字,大约阅读时间需要 6 分钟。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.简介

本篇文章主要讲如何使用java生成Avro格式数据以及如何通过spark将Avro数据文件转换成DataSet和DataFrame进行操作。

1.1Apache Arvo是什么?

Apache Avro 是一个数据序列化系统,Avro提供Java、Python、C、C++、C#等语言API接口,下面我们通过java的一个实例来说明Avro序列化和反序列化数据。

  • 支持丰富的数据结构
  • 快速可压缩的二进制数据格式
  • 存储持久数据的文件容器
  • 远程过程调用(RPC)
  • 动态语言的简单集成

2.Avro数据生成

2.1定义Schema文件

1.下载avro-tools-1.8.1.jar

Avro官网: Avro版本:1.8.1 下载Avro相关jar包:avro-tools-1.8.1.jar 该jar包主要用户将定义好的schema文件生成对应的java文件

2.定义一个schema文件,命名为CustomerAdress.avsc

{

"namespace":"com.peach.arvo",

"type": "record",

"name": "CustomerAddress",

"fields": [

{"name":"ca_address_sk","type":"long"},

{"name":"ca_address_id","type":"string"},

{"name":"ca_street_number","type":"string"},

{"name":"ca_street_name","type":"string"},

{"name":"ca_street_type","type":"string"},

{"name":"ca_suite_number","type":"string"},

{"name":"ca_city","type":"string"},

{"name":"ca_county","type":"string"},

{"name":"ca_state","type":"string"},

{"name":"ca_zip","type":"string"},

{"name":"ca_country","type":"string"},

{"name":"ca_gmt_offset","type":"double"},

{"name":"ca_location_type","type":"string"}

]

}

Schema说明:

  • namespace:在生成java文件时import包路径
  • type:omplex types(record, enum,array, map, union, and fixed)
  • name:生成java文件时的类名
  • fileds:schema中定义的字段及类型

3.生成java代码文件

使用第1步下载的avro-tools-1.8.1.jar包,生成java code

java -jar avro-tools-1.8.1.jar compile schema CustomerAddress.avsc .

末尾的"."代表java code 生成在当前目录,命令执行成功后显示:

0016-Avro序列化&反序列化和Spark读取Avro数据

2.2使用Java生成Avro文件

1.使用Maven创建java工程

在pom.xml文件中添加如下依赖

<dependency>

<groupId>org.apache.avro</groupId>

<artifactId>avro</artifactId>

<version>1.8.1</version>

</dependency>

0016-Avro序列化&反序列化和Spark读取Avro数据

2.新建java类GenerateDataApp,代码如下

0016-Avro序列化&反序列化和Spark读取Avro数据

0016-Avro序列化&反序列化和Spark读取Avro数据

0016-Avro序列化&反序列化和Spark读取Avro数据

动态生成avro文件,通过将数据封装为GenericRecord对象,动态的写入avro文件,以下代码片段:

0016-Avro序列化&反序列化和Spark读取Avro数据

3. Spark读Avro文件

1.使用Maven创建一个scala工程

在pom.xml文件中增加如下依赖

0016-Avro序列化&反序列化和Spark读取Avro数据

0016-Avro序列化&反序列化和Spark读取Avro数据

2.Scala事例代码片段

0016-Avro序列化&反序列化和Spark读取Avro数据

3.Spark运行结果

0016-Avro序列化&反序列化和Spark读取Avro数据

源码地址:

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
0016-Avro序列化&反序列化和Spark读取Avro数据

转载于:https://blog.51cto.com/14049791/2318560

你可能感兴趣的文章
高德地图上展示终端信息
查看>>
区块链学堂——公有链、私有链、联盟链、侧链、互联链
查看>>
恕我直言,你可能误解了微服务
查看>>
web前端性能优化总结
查看>>
玩转小程序转发——小程序探索
查看>>
【基础】小程序实现聊天气泡样式
查看>>
Docker入门(三)使用Docker Compose
查看>>
CDN知识详解
查看>>
Python爬虫:学了requests库和re库之后能做的事情
查看>>
天下无难试之HashMap面试刁难大全
查看>>
IP地址自动封与解封的shell脚本
查看>>
ubuntu 系统环境配置文件的区别
查看>>
精通visual c++指纹模式识别系统算法及实现
查看>>
博客园自定义页面风格设计 后续篇(页面设计模式及代码高亮 鼠标点击效果升级)...
查看>>
[知识盲点] 为function添加值为function的属性
查看>>
Emacs for Windows use TRAMP
查看>>
ssh登录的调试方法和常见问题
查看>>
PHP 7.3 比 PHP 7.0 快 22%,即将进入特性冻结阶段
查看>>
Java 9 文章集锦
查看>>
案例丨数据驱动的发现页最低成本改版
查看>>