Kafka实战(三) -Kafka的自我修养

  1. 云栖社区>
  2. Java技术进阶>
  3. 博客>
  4. 正文

Kafka实战(三) -Kafka的自我修养

javaedge 2019-08-25 03:16:42 浏览642
展开阅读全文

Apache Kafka是消息引擎系统,也是一个分布式流处理平台(Distributed Streaming Platform)

Kafka是LinkedIn公司内部孵化的项目。LinkedIn最开始有强烈的数据强实时处理方面的需求,其内部的诸多子系统要执行多种类型的数据处理与分析,主要包括业务系统和应用程序性能监控,以及用户行为数据处理等。

遇到的主要问题:

  • 数据正确性不足
    数据的收集主要采用轮询(Polling),确定轮询间隔时间就成了高度经验化的难题。虽然可以采用一些启发式算法(Heuristic)来帮助评估,但一旦指定不当,还是会造成较大的数据偏差。
  • 系统高度定制化,维护成本高
    各子系统都需要对接数据收集模块,引入了大量的定制开销和人工成本

LinkedIn工程师尝试过使用ActiveMQ解决这些问题,但并不理想

显然需要有一个“大一统”

网友评论

登录后评论
0/500
评论
javaedge
+ 关注
所属云栖号: Java技术进阶