Apache Kafka源码分析 – Broker Server-阿里云开发者社区

Apache Kafka源码分析 – Broker Server

2017-05-02 2171

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

服务治理 MSE Sentinel/OpenSergo，Agent数量不受限

简介：

1. Kafka.scala

在Kafka的main入口中startup KafkaServerStartable, 而KafkaServerStartable这是对KafkaServer的封装

 
val kafkaServerStartble = new KafkaServerStartable(serverConfig) 
kafkaServerStartble.startup

 
package kafka.server 
class KafkaServerStartable(val serverConfig: KafkaConfig) extends Logging { 
  private var server : KafkaServer = null 
   
  private def init() { 
    server = new KafkaServer(serverConfig) 
  } 
   
  def startup() { 
    try { 
      server.startup() 
    } 
    catch {...} 
  } 
} 
 

2. KafkaServer

KafkaServer代表一个kafka broker, 这是kafka的核心.
只需要看看里面startup了哪些modules, 就知道broker做了哪些工作, 后面一个个具体分析吧

 
package kafka.server 
/** 
 * Represents the lifecycle of a single Kafka broker. Handles all functionality required 
 * to start up and shutdown a single Kafka node. 
 */ 
class KafkaServer(val config: KafkaConfig, time: Time = SystemTime) extends Logging { 
  var socketServer: SocketServer = null 
  var requestHandlerPool: KafkaRequestHandlerPool = null 
  var logManager: LogManager = null 
  var kafkaHealthcheck: KafkaHealthcheck = null 
  var topicConfigManager: TopicConfigManager = null 
  var replicaManager: ReplicaManager = null 
  var apis: KafkaApis = null 
  var kafkaController: KafkaController = null 
  val kafkaScheduler = new KafkaScheduler(config.backgroundThreads) 
  var zkClient: ZkClient = null 
   
  /** 
   * Start up API for bringing up a single instance of the Kafka server. 
   * Instantiates the LogManager, the SocketServer and the request handlers - KafkaRequestHandlers 
   */ 
  def startup() { 
    /* start scheduler */ 
    kafkaScheduler.startup() 
     
    /* setup zookeeper */ 
    zkClient = initZk() 
   
    /* start log manager */ 
    logManager = createLogManager(zkClient) 
    logManager.startup() 
   
    socketServer = new SocketServer(config.brokerId, 
                                    config.hostName, 
                                    config.port, 
                                    config.numNetworkThreads, 
                                    config.queuedMaxRequests, 
                                    config.socketSendBufferBytes, 
                                    config.socketReceiveBufferBytes, 
                                    config.socketRequestMaxBytes) 
    socketServer.startup() 
   
    replicaManager = new ReplicaManager(config, time, zkClient, kafkaScheduler, logManager, isShuttingDown) 
    kafkaController = new KafkaController(config, zkClient) 
     
    /* start processing requests */ 
    apis = new KafkaApis(socketServer.requestChannel, replicaManager, zkClient, config.brokerId, config, kafkaController) 
    requestHandlerPool = new KafkaRequestHandlerPool(config.brokerId, socketServer.requestChannel, apis, config.numIoThreads) 
    
    replicaManager.startup() 
   
    kafkaController.startup() 
     
    topicConfigManager = new TopicConfigManager(zkClient, logManager) 
    topicConfigManager.startup() 
     
    /* tell everyone we are alive */ 
    kafkaHealthcheck = new KafkaHealthcheck(config.brokerId, config.advertisedHostName, config.advertisedPort, config.zkSessionTimeoutMs, zkClient) 
    kafkaHealthcheck.startup() 
  } 
 

2.1 KafkaScheduler

KafkaSchduler用于在后台执行一些任务，用ScheduledThreadPoolExecutor实现

 
package kafka.utils 
   
/** 
 * A scheduler based on java.util.concurrent.ScheduledThreadPoolExecutor 
 *  
 * It has a pool of kafka-scheduler- threads that do the actual work. 
 *  
 * @param threads The number of threads in the thread pool 
 * @param threadNamePrefix The name to use for scheduler threads. This prefix will have a number appended to it. 
 * @param daemon If true the scheduler threads will be "daemon" threads and will not block jvm shutdown. 
 */ 
@threadsafe 
class KafkaScheduler(val threads: Int,  
                     val threadNamePrefix: String = "kafka-scheduler-",  
                     daemon: Boolean = true) extends Scheduler with Logging { 
  @volatile private var executor: ScheduledThreadPoolExecutor = null    
  override def startup() { 
    this synchronized { 
      executor = new ScheduledThreadPoolExecutor(threads) //创建ScheduledThreadPoolExecutor 
      executor.setContinueExistingPeriodicTasksAfterShutdownPolicy(false) 
      executor.setExecuteExistingDelayedTasksAfterShutdownPolicy(false) 
      executor.setThreadFactory(new ThreadFactory() { 
                                  def newThread(runnable: Runnable): Thread =  
                                    Utils.newThread(threadNamePrefix + schedulerThreadId.getAndIncrement(), runnable, daemon) 
                                }) 
    } 
  } 
   
def schedule(name: String, fun: ()=>Unit, delay: Long, period: Long, unit: TimeUnit) = { 
  val runnable = new Runnable { //将fun封装成Runnable 
    def run() = { 
      try { 
        fun() 
      } catch {...}  
      finally {...} 
    } 
  } 
  if(period >= 0) //在pool中进行delay schedule 
    executor.scheduleAtFixedRate(runnable, delay, period, unit) 
  else 
    executor.schedule(runnable, delay, unit) 
} 
 

2.2 Zookeeper Client

由于Kafka是基于zookeeper进行配置管理的，所以需要创建zkclient和zookeeper集群通信

2.3 logManager

The entry point to the kafka log management subsystem. The log manager is responsible for log creation, retrieval, and cleaning.
Apache Kafka源码分析 – Log Management

2.4 ReplicaManager

在0.8中新加入的replica相关模块

Apache Kafka Replication Design – High level
kafka Detailed Replication Design V3
Apache Kafka源码分析 – ReplicaManager

2.5 Kafka Socket Server

首先broker server是socket server，所有和broker的交互都是通过往socket端口发送request来实现的

socketServer = new SocketServer(config.brokerId...)

KafkaApis
该类封装了所有request的处理逻辑

KafkaRequestHandler

2.6 offsetManager

offsetManager = createOffsetManager()
定期清除过期的offset数据，即compact操作，

scheduler.schedule(name = "offsets-cache-compactor",
                     fun = compact,
                     period = config.offsetsRetentionCheckIntervalMs,
                     unit = TimeUnit.MILLISECONDS)

以及consumer相关的一些offset操作，不细究了，因为我们不用highlevel consumer

2.7 KafkaController

kafkaController = new KafkaController(config, zkClient, brokerState)

Apache Kafka源码分析 – Controller

0.8后，为了处理replica，会用一个broker作为master，即controller，用于协调replica的一致性

2.8 TopicConfigManager

topicConfigManager = new TopicConfigManager(zkClient, logManager)

TopicConfigManager用于处理topic config的change，kafka除了全局的配置，还有一种叫Topic-level configuration

> bin/kafka-topics.sh --zookeeper localhost:2181 --alter --topic my-topic 
    --config max.message.bytes=128000

比如你可以这样设置，那么这些topic config如何生效的？

topic-level config默认是被存储在，

/brokers/topics/<topic_name>/config

但是topic很多的情况下，为了避免创建太多的watcher，

所以单独创建一个目录

/brokers/config_changes

来触发配置的变化
所以上面的命令除了，把配置写入topic/config，还有增加一个通知，告诉watcher哪个topic的config发生了变化

/brokers/config_changes/config_change_13321

并且这个通知有个suffix，用于区别是否已处理过

/**
   * Process the given list of config changes
   */
  private def processConfigChanges(notifications: Seq[String]) {
    if (notifications.size > 0) {
      info("Processing config change notification(s)...")
      val now = time.milliseconds
      val logs = logManager.logsByTopicPartition.toBuffer
      val logsByTopic = logs.groupBy(_._1.topic).mapValues(_.map(_._2))
      for (notification <- notifications) {
        val changeId = changeNumber(notification)
        if (changeId > lastExecutedChange) {  //未处理过
          val changeZnode = ZkUtils.TopicConfigChangesPath + "/" + notification
          val (jsonOpt, stat) = ZkUtils.readDataMaybeNull(zkClient, changeZnode)
          if(jsonOpt.isDefined) {
            val json = jsonOpt.get
            val topic = json.substring(1, json.length - 1) // hacky way to dequote，从通知中获取topic name
            if (logsByTopic.contains(topic)) {
              /* combine the default properties with the overrides in zk to create the new LogConfig */
              val props = new Properties(logManager.defaultConfig.toProps)
              props.putAll(AdminUtils.fetchTopicConfig(zkClient, topic))
              val logConfig = LogConfig.fromProps(props)
              for (log <- logsByTopic(topic))
                log.config = logConfig    //真正的更新log配置
              info("Processed topic config change %d for topic %s, setting new config to %s.".format(changeId, topic, props))
              purgeObsoleteNotifications(now, notifications) //删除过期的notification，10分钟
            }
          }
          lastExecutedChange = changeId
        }
      }
    }
  }

这个failover也没问题，反正配置设置多次也是无害的，每次启动都会把所有没过期的notification处理一遍

并且broker重启后是会从zk中， loading完整的配置的，所以也ok的，这个主要用于实时更新topic的配置

2.8 KafkaHealthcheck

kafkaHealthcheck = new KafkaHealthcheck(config.brokerId, config.advertisedHostName, config.advertisedPort, config.zkSessionTimeoutMs, zkClient)

这个很简单，就像注释的，告诉所有人我还活着。。。

实现就是在，

 /brokers/[0...N] --> advertisedHost:advertisedPort

register一个ephemeral znode，当SessionExpired时，再去register，典型zk应用
所以只需要watch这个路径就是知道broker是否还活着

2.9 ContolledShutdown

对于0.8之前，broker的startup和shutdown都很简单，把上面这些组件初始化，或stop就可以了

但是0.8后，增加replica，所以broker不能自己直接shutdown，需要先通知controller，controller做完处理后，比如partition leader的迁移，或replica offline，然后才能shutdown

private def controlledShutdown()

挺长的，逻辑就是找到controller，发送ControlledShutdownRequest，然后等待返回，如果失败，就是unclean shutdown

本文章摘自博客园，原文发布日期： 2014-02-14

Apache Kafka源码分析 – Broker Server

1. Kafka.scala

2. KafkaServer

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像