首页 > 作文

深入了解Hadoop如何实现序列化

更新时间:2023-04-04 10:31:51 阅读: 评论:0

目录
前言为什么要序列化为什么不使用java序列化hadoop序列化特点hadoop序列化业务场景案例业务描述编码实现

前言

序列化想必大家都很熟悉了,对象在进行网络传输过程中,需要序列化之后才能传输到客户端,或者客户端的数据序列化之后送达到服务端

序列化的标准解释如下:

序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输

对应的反序列化为序列化的逆向过程

反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象

为什么要序列化

一般来说,程序动态创建出来的“活的” 对象只生存在内存里,一旦服务停机或断电就没了。而且“活”对象只能存活于本地进程,不能发送到网络上其他的服务器或者进程中使用。 然而通过序列化之后,则可以存储“活的”对象,从而进行网络传输,提供给其他进程或机器使用。

为什么不使用java序列化

在java中,创建一个对象如果希望这个对象是序列化的对象,只需要实现rializable接口即可,但java的序列化在hadoop看来,是一个重量级序列化框架,一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),从而不便于在网络中高效传输。所以,hadoop自己开发了一套序列化机制,只需要对象实现writable接口,重写里面的两个方法。

hadoop序列化特点

紧凑 :高效使用存储空间快速:读写数据的额外开销小互操作:支持多语言的交互

hadoop序列化业务场景

在真实的业务场景中,类似于wordcount那样的单个字符串的场景很少,而且无法应对各种复杂的大数据场景和海量数据的处理业务,因此在传输过程中,为了更加灵活的进行数据在map、reduce中的传输,将解析到的数据以序列化对象的方式传输,是非常便捷的

在hadoop中,具体实现bean对象序列化步骤如下7步:

实现writable接口反序列化时,需要反射调用空参构造函数,即类对象中必须有空参构造重写序列化write的方法重写反序列化的readfields方法注意反序列化的顺序和序列化的顺序完全一致若想把结果显示在文件中,需重写tostring(),可用”\t”分开,方便后续用如果需将自定义的bean放在key中传输,还需要实现comparable接口,因为mapreduce框中shuffle过程要求对key必须能排序

案例业务描述

业务需求描述,如下数据为从某个地方导出来的一批统计手机号峰值流量和低谷流量的文本文件,现在的业务需求是,通过程序,最终输出各个手机号对应的峰值流量、低谷流量以及总流量的统计分析文件

那么最终的效果可按如下格式输出

了解了上面的业务后,下面开始按照前面描述的几个步骤进行编码实现

编码实现

1、定义一个封装手机流量各个属性的对象

从wordcount的案例中我们了解了使用mapreduce编码的基本编码套路,即map逻辑中读取原始数据文件,然后传递到reduce中

同样,在这里的map逻辑中,需要读取上面的原始的流量文本文件,但是既然在reduce中要能实现最终的统计输出,那么从map中出来的数据格式,必然是已经处理好的bean对象,key为手机号,而value值则为封装了当前手机号对应的峰值流量、低谷流量以及计算的总流量信息

了解了这一点,就大概知道这个bean对象该如何定义了

import org.apache.hadoop.io.writable;import java.io.datainput;import java.io.dataoutput;import java.io.ioexception;public class phonebean implements writable {    //峰值流量    private long upflow;    //低谷流量    private long downflow;    //总流量    private long sumflow;    //提供无参构造    public phonebean() {    }    //提供三个参数的getter和tter方法    public long getupflow() {        return upflow;    }    public void tupflow(long upflow) {        this.upflow = upflow;    }    public long getdownflow() {        return downflow;    }    public void tdownflow(long downflow) {        this.downflow = downflow;    }    public long getsumflow() {        retur营销与销售的区别n sumflow;    }    public void tsumflow(long sumflow) {        this.sumflow = sumflow;    }    public void tsumflow() {        this.sumflow = this.upflow + this.downflow;    }    //实现序列化和反序列化方法,注意顺序一定要保持一致    @override    public void write(dataoutput d好听的行会名ataoutput) throws ioexception {        dataoutput.writelong(upflow);        dataoutput.writelong(downflow);        dataoutput.writelong(sumflow);    }    @override    public void readfields(datainput datainput) throws ioexception {        this.upflow = datainput.readlong();        this.downflow = datainput.readlong();        this.sumflow = datainput.readlong();    }    //重写tostring方法    @override    public string tostring() {        return upflow + "\t" + downflow + "\t" + sumflow;    }}

2、自定义mapper类

该类读取和解析文本文件,将各个手机号的属性封装到phonebean对象中,并输出到reduce使用

import org.apache.hadoop.io.longwritable;import org.apache.hadoop.io.text;import org.apache.hadoop.mapreduce.mapper;import java.io.ioexception;public class phonemapper extends mapper<longwritable, text, text, phonebean> {    private text outk = new text();    private phonebean outv = new phonebean();    @override    protected void map(longwritable key, text value, context context) throws ioexception, interruptedexception {        string line = value.tostring();        //分割数据        string[] split = line.split("\t");        //抓取需要的数据:手机号,上行流量,下行流量        string phone = split[1];        string max = split[3];        string mine = split[4];        //封装outk outv        outk.t(phone);        outv.tupflow(long.parlong(max));        outv.tdownflow(long.parlong(mine));        outv.tsu说谎 张信哲mflow();        //写出outk outv        context.write(outk, outv);    }}

3.、自定义reduce类

关于reduce中的入参类型和出参类型,到这里想必都已经了解,就不再过多解释了

import org.apache.commons.lang3.stringutils;import org.apache.hadoop.io.longwritable;import org.apache.hadoop.io.text;import org.apache.hadoop.mapreduce.mapper;import java.io.ioexception;import java.util.linkedlist;public class phonemapper extends mapper<longwritable, text, text, phonebean> {    private text outk = new text();    private phonebean outv = new phonebean();    @override    protected void map(longwritable key, text value, context context) throws ioexception, interruptedexception {        string line = value.tostring();        //分割数据        string[] splits = line.split("\t");        linkedlist<string> linkedlist = new linkedlist<>();        for(string str:splits){            if(stringutils.isnotempty(str)){                linkedlist.add(str.trim());            }        }        //抓取需要的数据:手机号,上行流量,下行流量        string phone = linkedlist.get(1);        string max =  linkedlist.get(3);        string mine = linkedlist.get(4);        //封装outk outv        outk.t(phone);        outv.tupflow(long.parlong(max));        outv.tdownflow(long.parlong(mine));        outv.tsumflow();        //写出outk outv        context.write(outk, outv);    }}

4、job类

依照wordcount案例中的模板做即可

import org.apache.hadoop.conf.configuration;import org.apache.hadoop.fs.path;import org.apache.hadoop.io.text;import org.apache.hadoop.mapreduce.job;import org.apache.hadoop.mapreduce.lib.input.fileinputformat;import org.apache.hadoop.mapreduce.lib.output.fileoutputformat;public class phonejob {    public static void main(string[] args) throws exception {        //1 获取job对象        configuration conf = new configuration();        job job = job.getinstance(conf);        //2 关联本driver类        job.tjarbyclass(phonejob.class);        //3 关联mapper和reducer        job.tmapperclass(phonemapper.class);        job.treducerclass(phonereducer.class);        //4 设置map端输出kv类型        job.tmapoutputkeyclass(text.class);        job.tmapoutputvalueclass(phonebean.class);        //5 设置程序最终输出的kv类型        job.toutputkeyclass(text.class);        job.toutputvalueclass(phonebean.class);        //6 设置程序的输入输出路径        string inpath = "f:\\网盘\\csv\\phone_data.txt";        string outpath = "f:\\网盘\\csv\\out.txt";        fileinputformat.tinputpaths(job, new path(inpath));        fileoutputformat.toutputpath(job, new pat中国美食h(outpath));        //7 提交job        boolean b = job.waitforcompletion(true);        system.exit(b ? 0 : 1);    }}}

运行这段程序,观察是否在输出的目标路径下,生成了统计结果

打开最后那个文件,然后对比下原始的文件,正好满足预期的业务需求

以上就是深入了解hadoop如何实现抗战14年序列化的详细内容,更多关于hadoop序列化的资料请关注www.887551.com其它相关文章!

本文发布于:2023-04-04 10:31:49,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/zuowen/6ebf921b2e9cb6b9b4b923e459f8e804.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:深入了解Hadoop如何实现序列化.doc

本文 PDF 下载地址:深入了解Hadoop如何实现序列化.pdf

标签:序列化   流量   对象   数据
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图