基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

  1. 云栖社区>
  2. Apache Spark中国技术社区>
  3. 博客>
  4. 正文

基于Spark Streaming 进行 MySQL Binlog 日志准实时传输

开源大数据EMR 2019-03-11 11:22:48 浏览10384
展开阅读全文

基本架构

RDS -> SLS -> Spark Streaming -> Spark HDFS

上述链路主要包含3个过程:

  1. 如何把 RDS 的 binlog 收集到 SLS。
  2. 如何通过 Spark Streaming 将 SLS 中的日志读取出来,进行分析。
  3. 如何把链路 2 中读取和处理过的日志,保存到 Spark HDFS中。

环境准备

  1. 安装一个 MySQL 类型的数据库(使用 MySQL 协议,例如 RDS、DRDS 等),开启 log-bin 功能,且配置 binlog 类型为 ROW 模式(RDS默认开启)。
  2. 开通 SLS 服务。

操作步骤

  1. 检查 MySQL 数据库环境。

    1. 查看是否开启 log-bin 功能。
    mysql> show variables like "log_bin";
    +---------------+-

网友评论

登录后评论
0/500
评论