本文共 1834 字,大约阅读时间需要 6 分钟。
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
1.简介
本篇文章主要讲如何使用java生成Avro格式数据以及如何通过spark将Avro数据文件转换成DataSet和DataFrame进行操作。
1.1Apache Arvo是什么?
Apache Avro 是一个数据序列化系统,Avro提供Java、Python、C、C++、C#等语言API接口,下面我们通过java的一个实例来说明Avro序列化和反序列化数据。
2.Avro数据生成
2.1定义Schema文件
1.下载avro-tools-1.8.1.jar
Avro官网: Avro版本:1.8.1 下载Avro相关jar包:avro-tools-1.8.1.jar 该jar包主要用户将定义好的schema文件生成对应的java文件
2.定义一个schema文件,命名为CustomerAdress.avsc
{
"namespace":"com.peach.arvo",
"type": "record",
"name": "CustomerAddress",
"fields": [
{"name":"ca_address_sk","type":"long"},
{"name":"ca_address_id","type":"string"},
{"name":"ca_street_number","type":"string"},
{"name":"ca_street_name","type":"string"},
{"name":"ca_street_type","type":"string"},
{"name":"ca_suite_number","type":"string"},
{"name":"ca_city","type":"string"},
{"name":"ca_county","type":"string"},
{"name":"ca_state","type":"string"},
{"name":"ca_zip","type":"string"},
{"name":"ca_country","type":"string"},
{"name":"ca_gmt_offset","type":"double"},
{"name":"ca_location_type","type":"string"}
]
}
Schema说明:
3.生成java代码文件
使用第1步下载的avro-tools-1.8.1.jar包,生成java code
java -jar avro-tools-1.8.1.jar compile schema CustomerAddress.avsc .
末尾的"."代表java code 生成在当前目录,命令执行成功后显示:
2.2使用Java生成Avro文件
1.使用Maven创建java工程
在pom.xml文件中添加如下依赖
<dependency>
<groupId>org.apache.avro</groupId>
<artifactId>avro</artifactId>
<version>1.8.1</version>
</dependency>
2.新建java类GenerateDataApp,代码如下
动态生成avro文件,通过将数据封装为GenericRecord对象,动态的写入avro文件,以下代码片段:
3. Spark读Avro文件
1.使用Maven创建一个scala工程
在pom.xml文件中增加如下依赖
2.Scala事例代码片段
3.Spark运行结果
源码地址:
醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。
转载于:https://blog.51cto.com/14049791/2318560