2018最常用大数据业务监控项目方案流程解析

简介:

1

根据监控对象的不同,监控系统可以分为系统监控、应用监控和业务监控。“实时交易监控系统”属于业务监控,主要用于监控客户的购买行为及订单情况,一般用于支持公司的日常运营决策和重大营销活动,如“双11”、“双12”及“双旦”等,对数据的实时性要求较高。

“实时交易监控系统”对数据的一般处理流程:实时捕获数据库中交易数据的变更、实时计算订单各维度的指标、再实时推送指标到浏览器大屏。通过采集、计算、展示三个阶段的实时性来保证整个监控系统的时效性,延迟可控制在秒级或亚秒级以内

51e219fe8bb01bafb845281f502bc0bca4a77ed8

这个是效果图,企业内上线的项目监控的需求会有很多,这个是简易版的,做了很多的需求删减。

通过“实时交易监控系统”的开发,来讲解典型的大数据实时解决方案的过程及原理,包括数据采集(kafka+canal)、数据计算(spark streaming/storm/kafka stream)、数据存储(hbase)、数据应用及可视化(echarts)等。

监控系统概述

包含要素:

  全方位的监控指标

  异常告警通知:告警触发阈值、告警监控对象、告警通知接收人以及发送渠道

  可视化图表分析

  监控规则配置化

应用场景:

  业务质量实时关注

  业务异常提前发现

  业务精细化运营/运维

实施流程:

  指标采集->指标加工->指标存储->指标可视化

项目技术架构流程图

c5a897d313f089a79424b3bf154d48cc4947fa45

看图方式为从上往下、从左往右来看,以箭头的指向,箭头指向的是原数据的流向到最终展示的路径。

MySql为例,mysql的交易数据binlog,里面的订单数据、用户的注册数据或者用户的购买信息。原数据怎么实时的往后面流转呢?这里就用到了Alibaba Canal开源组件,实时监控数据变更与捕获在推送到kafka。

Kafka是一个大型的消息队列缓冲区,是个集群模式的消息缓冲区,可以存大量的缓冲数据,如果我们的交易量较大的时候会用到kafka做一个消息缓冲作用,形成一些原始的交易数据。

缓冲完之后,会再进入到实时计算框架spark streaming中,spark streaming会消费kafka里面的这些订单数据,从spark streaming这一段的分支,分别是做监控的思路

绿色箭头方案

spark streaming把数据处理成我们想要的metric,做一些聚合与指标的处理,metric又会回流到kafka当中。

在处理完指标之后,会启一个nodejs的一个服务,这个服务会再次去消费metric的这个kafka,然后通过socket.io这样的一个web socket双向交互的工具在把数据推送到浏览器,然后就会看到整个数据是从数据库抽取出来,一系列的传递在实时推送到浏览器的,实时的处理链路就清晰了,在看到实时的动态变化的大屏。只要mysql里面有交易发生,那整个数据流就会通过这样一个管道最后到达浏览器。

红色箭头方案:

spark streaming把基础数据加工完成之后,会放到HBASE里。根据hbase里有没有新增的指标,有新增指标在传输过去做变动展示,浏览器做不定时的刷新。

技术点梳理

872de26abc5ddaba1dbdb6f0aadebdd0e20f0aeb

相信读者对于这个业务监控项目有了一定的了解,数据的处理方式与如何在浏览器上展示并且有两种方式去做到数据实时更新。

了解了大数据的入门所必须的基础知识点,不用多说,最后的实战训练是最重要的,进行一些实际项目的操作练手,可以帮助我们更好的理解所学的内容,同时对于相关知识也能加强记忆,在今后的运用中,也可以更快的上手,对于相关知识该怎么用也有了经验。


原文发布时间为:2018-08-26

本文来自云栖社区合作伙伴“大数据地盘”,了解相关信息可以关注“大数据地盘”。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
29天前
|
算法 数据处理 开发者
FFmpeg库的使用与深度解析:解码音频流流程
FFmpeg库的使用与深度解析:解码音频流流程
36 0
|
1月前
|
消息中间件 Unix Linux
Linux进程间通信(IPC)介绍:详细解析IPC的执行流程、状态和通信机制
Linux进程间通信(IPC)介绍:详细解析IPC的执行流程、状态和通信机制
53 1
|
1月前
|
数据采集 数据可视化 大数据
Python在数据科学中的实际应用:从数据清洗到可视化的全流程解析
Python在数据科学中的实际应用:从数据清洗到可视化的全流程解析
37 1
|
2月前
|
分布式计算 大数据 数据库连接
maxcompute开发环境问题之参数解析失败如何解决
MaxCompute开发环境是指设置和配置用于开发MaxCompute项目的本地或云端环境;本合集将指导用户如何搭建和管理MaxCompute开发环境,包括工具安装、配置和调试技巧。
|
12天前
|
数据采集 运维 算法
大数据项目管理:从需求分析到成果交付的全流程指南
【4月更文挑战第9天】本文介绍了大数据项目从需求分析到成果交付的全过程,包括需求收集与梳理、可行性分析、项目规划、数据准备与处理、系统开发与集成,以及成果交付与运维。文中通过实例展示了如何进行数据源接入、数据仓库建设、系统设计、算法开发,同时强调了需求理解、知识转移、系统运维的重要性。此外,还提供了Python和SQL代码片段,以说明具体技术实现。在大数据项目管理中,需结合业务和技术,灵活运用这些方法,确保项目的成功执行和价值实现。
29 1
|
2天前
|
SQL 分布式计算 资源调度
一文解析 ODPS SQL 任务优化方法原理
本文重点尝试从ODPS SQL的逻辑执行计划和Logview中的执行计划出发,分析日常数据研发过程中各种优化方法背后的原理,覆盖了部分调优方法的分析,从知道怎么优化,到为什么这样优化,以及还能怎样优化。
|
2天前
|
JSON Java Maven
Javaweb之SpringBootWeb案例之自动配置以及常见方案的详细解析
Javaweb之SpringBootWeb案例之自动配置以及常见方案的详细解析
6 0
Javaweb之SpringBootWeb案例之自动配置以及常见方案的详细解析
|
21天前
|
C++
C++ While 和 For 循环:流程控制全解析
本文介绍了C++中的`switch`语句和循环结构。`switch`语句根据表达式的值执行匹配的代码块,可以使用`break`终止执行并跳出`switch`。`default`关键字用于处理没有匹配`case`的情况。接着,文章讲述了三种类型的循环:`while`循环在条件满足时执行代码,`do/while`至少执行一次代码再检查条件,`for`循环适用于已知循环次数的情况。`for`循环包含初始化、条件和递增三个部分。此外,还提到了嵌套循环和C++11引入的`foreach`循环,用于遍历数组元素。最后,鼓励读者关注微信公众号`Let us Coding`获取更多内容。
21 0
|
23天前
|
存储 数据采集 分布式计算
构建MaxCompute数据仓库的流程
【4月更文挑战第1天】构建MaxCompute数据仓库的流程
26 2
|
26天前
|
canal 消息中间件 关系型数据库
【分布式技术专题】「分布式技术架构」MySQL数据同步到Elasticsearch之N种方案解析,实现高效数据同步
【分布式技术专题】「分布式技术架构」MySQL数据同步到Elasticsearch之N种方案解析,实现高效数据同步
74 0

推荐镜像

更多