HdfsSink原理解析

简介: <p style="margin-top:0px; margin-bottom:10px; font-family:Monaco,Menlo,'Ubuntu Mono',Consolas,source-code-pro,SimSun,Song,宋体,幼圆,Heiti,黑体,文泉驿等宽正黑,文泉驿正黑,monospace; font-size:13px; line-height:20px;

我们先了解几个概念:

  • batchSize sink从channel中取batchSize数量的event才会flush,sync到hdfs
  • transactionCapcity source在收集满transactionCapcity数量的event才会put到channel

接着看一下类图:

HDFSEventSink

HDFSEventSink,是我们在flume配置文件中指定的channel.type=hdfs时对应的java类。它主要有三个方法:

  • start() 初始化线程池等
  • stop() 清理工作
  • process() SinkRunner调用的方法

process()

HDFS sink主要处理过程为process方法。

//循环batchSize次或者Channel为空
 for (txnEventCount = 0; txnEventCount < batchSize; txnEventCount++) {
        Event event = channel.take();
        if (event == null) {
          break;
        }
    ......
    //sfWriter是一个LRU缓存,缓存对文件Handler,最大打开文件由参数maxopenfiles控制
    BucketWriter bucketWriter = sfWriters.get(lookupPath);
    // 如果不存在,则构造一个缓存
    if (bucketWriter == null) {
    //通过HDFSWriterFactory根据filetype生成一个hdfswriter,由参数hdfs.Filetype控制;eg:HDFSDataStream
    HDFSWriter hdfsWriter = writerFactory.getWriter(fileType);
    //idleCallback会在bucketWriter flush完毕后从LRU中删除;
    WriterCallback idleCallback = null;
    if(idleTimeout != 0) {
    idleCallback = new WriterCallback() {
      @Override
      public void run(String bucketPath) {
        sfWriters.remove(bucketPath);
      }
    };
    }
    bucketWriter = new BucketWriter(rollInterval, rollSize, rollCount,
    batchSize, context, realPath, realName, inUsePrefix, inUseSuffix,
    suffix, codeC, compType,hdfsWriter, timedRollerPool,
    proxyTicket, sinkCounter, idleTimeout, idleCallback,
    lookupPath, callTimeout, callTimeoutPool);
    sfWriters.put(lookupPath, bucketWriter);
    }
    ......
    // track一个事务内的bucket
    if (!writers.contains(bucketWriter)) {
    writers.add(bucketWriter);
    }
    // 写数据到HDFS;
    bucketWriter.append(event);-------------apend()内部如下------------>

    open();//如果底层支持append,则通过open接口打开;否则create接口
    //判断是否进行日志切换
    //根据复制的副本书和目标副本数做对比,如果不满足则doRotate=false
    if(doRotate) {
    close();
    open();
    }

    //写数据,超时时间hdfs.callTimeout
    callWithTimeout(new CallRunner<Void>() {
        @Override
        public Void call() throws Exception {
          writer.append(event); // could block
          return null;
        }
      });
    if(batchCounter == batchSize) {//如果达到batchSize行进行一次flush
    flush();---------->
    doFlush()--------->
    HDFSWriter.sync()----------->
    FSDataoutputStream.flush/sync
    }
    // 提交事务之前,刷新所有的bucket
    for(BucketWriter bucketWriter : writers){
    bucketWriter.flush();
    }
    transaction.commit();

BucketWriter

BucketWriter主要封装了hadoop hdfs api

Reference

http://boylook.blog.51cto.com/7934327/d-4

转载请注明:http://blog.csdn.net/wsscy2004

目录
相关文章
|
2天前
|
Java
并发编程之线程池的底层原理的详细解析
并发编程之线程池的底层原理的详细解析
12 0
|
1月前
|
关系型数据库 MySQL Shell
CMake构建Makefile深度解析:从底层原理到复杂项目(三)
CMake构建Makefile深度解析:从底层原理到复杂项目
32 0
|
1月前
|
编译器 vr&ar C++
CMake构建Makefile深度解析:从底层原理到复杂项目(二)
CMake构建Makefile深度解析:从底层原理到复杂项目
35 0
|
30天前
|
存储 安全 编译器
【C++ 17 新功能 std::visit 】深入解析 C++17 中的 std::visit:从原理到实践
【C++ 17 新功能 std::visit 】深入解析 C++17 中的 std::visit:从原理到实践
70 0
|
26天前
|
安全 Java 数据安全/隐私保护
【深入浅出Spring原理及实战】「EL表达式开发系列」深入解析SpringEL表达式理论详解与实际应用
【深入浅出Spring原理及实战】「EL表达式开发系列」深入解析SpringEL表达式理论详解与实际应用
60 1
|
2天前
|
缓存 JavaScript 前端开发
|
2天前
|
SQL 分布式计算 资源调度
一文解析 ODPS SQL 任务优化方法原理
本文重点尝试从ODPS SQL的逻辑执行计划和Logview中的执行计划出发,分析日常数据研发过程中各种优化方法背后的原理,覆盖了部分调优方法的分析,从知道怎么优化,到为什么这样优化,以及还能怎样优化。
|
2天前
|
JSON Java Maven
Javaweb之SpringBootWeb案例之 SpringBoot原理的详细解析
Javaweb之SpringBootWeb案例之 SpringBoot原理的详细解析
8 0
Javaweb之SpringBootWeb案例之 SpringBoot原理的详细解析
|
3天前
|
前端开发 JavaScript 编译器
深入解析JavaScript中的异步编程:Promises与async/await的使用与原理
【4月更文挑战第22天】本文深入解析JavaScript异步编程,重点讨论Promises和async/await。Promises用于管理异步操作,有pending、fulfilled和rejected三种状态。通过.then()和.catch()处理结果,但可能导致回调地狱。async/await是ES2017的语法糖,使异步编程更直观,类似同步代码,通过事件循环和微任务队列实现。两者各有优势,适用于不同场景,能有效提升代码可读性和维护性。
|
13天前
|
机器学习/深度学习 分布式计算 BI
Flink实时流处理框架原理与应用:面试经验与必备知识点解析
【4月更文挑战第9天】本文详尽探讨了Flink实时流处理框架的原理,包括运行时架构、数据流模型、状态管理和容错机制、资源调度与优化以及与外部系统的集成。此外,还介绍了Flink在实时数据管道、分析、数仓与BI、机器学习等领域的应用实践。同时,文章提供了面试经验与常见问题解析,如Flink与其他系统的对比、实际项目挑战及解决方案,并展望了Flink的未来发展趋势。附带Java DataStream API代码样例,为学习和面试准备提供了实用素材。
34 0

推荐镜像

更多