2019-5-12的kafka&Flink沙龙收获

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: kafka 大会,美团、京东大厂的kafka最佳实践经验

地址 360大厦A座
花了一下午时间,总要有所收获,本人正在负责公司小kafka集群,所以对kafka相关课题比较关心,也有收获,Flink还未入坑,这里并没有Flink相关的收获。

美团

  • 介绍了现状,Kafka集群在数据平台中的功能,通过介绍得知,其负责数据传输

    • 一类是日志数据,业务日志和用户行为,一类是DB数据,应该是二进制流。
    • 下游接入的是离线计算,实时计算,日志中心和OLAP。
    • 入流峰值,3千万/s
  • 然后介绍了高吞吐方面的优化

    • 二次开发:Disk层面的Rebalance,解决了以下痛点:

      • broker分配依据是Partition数,不够精细,会产生数倾斜。
      • 新加入节点不会Rebalance
    • Flink实时入仓,这个没懂。
    • 硬件选型:与计算密集型混部,充分利用磁盘资源;JBOD最大化利用率;引入大CacheRaid卡,进一步增加缓存。
    • 新缓存架构探索:FlashCache.
  • 最后介绍了超大集群:1000+broker,40kTopics

    • 由于controller的瓶颈问题,集群规模一般不超过200broker,比如京东。
    • 找到瓶颈,做了controller与broker分离,并集群化,提高其管理能力,解决大集群瓶颈问题。
    • 建立了region隔离机制。(看来大集群还是要分割)
    • 增加了SafeMode机制,中心节点不可用时集群仍能工作。
  • 总结,目前阶段对我直接有用的(1)硬件选型和规划(2)普通集群瓶颈在哪,避免过大。

京东

  • 现状:56个集群,broker1530,topic15699,分区460301
  • 产品化:

    • 跨机房灾备:mirror maker同步数据,就近消费,跨机房容灾靠dns切换域名。
    • 读写分离:分别建立生产者集群和消费者集群,来解决消费者横向扩展问题和生产消费干扰的问题。(这个方案很新颖,是否合理呢?)
    • 安全认证改进:去keytab,去jaas,Keberos认证,增加域名认证。
    • 周边功能完善:集群管理、运维管理、权限管理、用户认证;监控,挤压监控、实时大屏;SDK封装、消息查询工具、样本提取过滤工具、运营报表
  • 探索:

    • 性能测试,挖掘:crc32优化,服务端解压缩问题,v1和v2协议性能对比
    • 全链路域名化:对跨机房灾备,对用户访问透明有非常大的好处。
    • Kafka on K8S vs 与实时计算服务器混部
  • 总结:觉得京东还是做了些有意义的工作,没有过度定制kafka,尊重生态,改进生态。很多建议和经验放到小公司也可以得到借鉴。
目录
相关文章
|
2月前
|
消息中间件 缓存 关系型数据库
Flink CDC产品常见问题之upsert-kafka增加参数报错如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
3月前
|
消息中间件 关系型数据库 MySQL
Flink问题子实现Kafka到Mysql如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
380 2
|
3月前
|
消息中间件 Kafka Apache
Flink 提供了与 Kafka 集成的官方 Connector,使得 Flink 能够消费 Kafka 数据
【2月更文挑战第6天】Flink 提供了与 Kafka 集成的官方 Connector,使得 Flink 能够消费 Kafka 数据
74 2
|
28天前
|
消息中间件 SQL Java
阿里云Flink-自定义kafka format实践及踩坑记录(以protobuf为例)
阿里云Flink-自定义kafka format实践及踩坑记录(以protobuf为例)
|
2月前
|
消息中间件 关系型数据库 MySQL
Flink CDC产品常见问题之用upsert的方式写入kafka失败如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
2月前
|
消息中间件 关系型数据库 Kafka
Flink CDC产品常见问题之Flink CDC里从kafka消费的时候顺序混乱如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
3月前
|
分布式计算 资源调度 Hadoop
Flink报错问题之Sql往kafka表写聚合数据报错如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
|
3月前
|
消息中间件 安全 Kafka
2024年了,如何更好的搭建Kafka集群?
我们基于Kraft模式和Docker Compose同时采用最新版Kafka v3.6.1来搭建集群。
462 2
2024年了,如何更好的搭建Kafka集群?
|
4月前
|
消息中间件 存储 数据可视化
kafka高可用集群搭建
kafka高可用集群搭建
46 0
|
7月前
|
消息中间件 存储 Kubernetes
Helm方式部署 zookeeper+kafka 集群 ——2023.05
Helm方式部署 zookeeper+kafka 集群 ——2023.05
253 0