优云Monitor:大规模Docker平台自动化监控之路

简介: 本文介绍了通过优云Monitor,如何实现大规模容器运维平台的自动化监控需求。

前言:

本文介绍了通过优云Monitor,如何实现大规模容器运维平台的自动化监控需求。

尽管Docker技术目前还处于不稳定的发展与标准制定阶段,但这门技术已经呈现了极其火热的增长状态,却已经是不争的实事。到底有多火热?让我们先来看一张来自国外监控公司DataDog 2016年最新调查报告:

b7deb2a9bb14d7eebc276ba0852c05941cf8cabf

从图中可以看出,自2015年5月后,采用容器技术的应用呈现了30%的大幅增长,放弃容器技术的的应用,则已经出现了平衡状态。

此消彼长,随着容器技术的推广,本文的主人公老葛,某互联网金融资深运维工程师,也开始受其波及。最近,老葛的公司开始也使用Docker来交付线上的应用了,一上来的第一个应用,就产生了50+的应用容器。老葛带领着运维与研发团队经过一趟艰难迈坑之旅,终于让线上的应用跑起来了。但成功的喜悦转瞬即逝,马上老葛的脸上又出现了囧字,如何优雅地监控容器平台,成了运维团队的大问号?

让我们跟随老葛的视角,来逐个审视团队面临的挑战,首先第一个问题是:

问题1:如何对容器的可用性与资源消耗进行监控?

经过一番选择后,老葛采用优云Monitor来作线上的容器监控,通过在Docker宿主机上部署Agent,实现了所有容器的动态监控,如下图所示:

6f27a84a9579d59b09f35955e44cbfc39266f379

监控代理通过获取Docker Daemon API(其本质在Docker的容器管理API与cgroup资源统计),其监控到的指标包含:运行容器数(个),停止容器数(个),容器CPU使用率(%),容器RAM使用率(%),容器磁盘读速率(B/S),容器磁盘写速率(B/S),容器文件系统大小(B)、容器文件变更大小(B)、容器网络发送速率(B/S),容器网络接收速率(B/S)。

同时Monitor Agent也针对操作系统本身进行监控,对OS、Docker的各类指标可以达到秒极的监测粒度,完全满足了团队的系统监控要求。

其次还面临:

问题2:如何对容器内的应用进行监控?

通过Monitor Agent,可以针对每一种容器应用,启用特定的采集插件,实现针对其特定应用的指标监控。如问题1中的图形所示,Agent可以通过Net端口,访问特定容器的应用,来实现应用的可用性监控与性能指标的监控。

优云Monitor支持大量的传统资源与互联网资源:

523127822b41466d60c13252e32c7cb049e7c13f

在解决上述两个问题后,工作很快走上了正轨。但应用是有生命的,它在不断发展,随着实例的增加、容器编排能力的使用,应用开始做弹性扩缩,马上新的问题又出现了:

问题3:如何对快速变更下的新增容器进行监控?

经过与优云的技术团队的沟通,老葛团队对Docker宿主机增加了容器变更触发脚本,利用Monitor Agent易于自动化配置的特性,通过脚本自动生成新容器的监控配置项,满足了对新增容器的应用自动监控。

2c32dea10be5b3dd4540b4d40e14520406a7e16a

最后,由于大量的应用使用了分布式微服务,相同的微服务在整个网络中运行了多个实例,过去再以单个应用为单位的监控已经无法满足要求,因为单个指标无法代表整个应用的性能水平,所以团队又碰到了一个监控可视化的问题:

问题4:如何可视化分布式应用的整体性能指标?

比如,目前上线的应用有6个Jetty微服务,同时还会不断增加,那么如何确认所有业务Jetty服务的负载是否均衡?

利用Agent监控时,可以为指标数据设置“来源标签”的特性,我们可以将这个应用的6个Jetty服务以及自动新增的Jetty服务,都设置上“app=shop.portal”。

然后,通过优云Monitor的多种仪表盘,通过标签可以提取到这些数据,结合奇妙的数据汇聚公式与丰富的图表,对这6个Jetty服务进行了流量访问趋势、流量访问合计、负载排名、资源消耗等可视化,如下图所示:

5a7bcdada50922faf36459045c2fb467a7bb82c3

同时类似的问题还包括,“集群中的多个Nginx服务,总共有多少HTTP连接会话?”,“集群中所有节点当前成功处理的交易量是多少?”,“集群中所有节点的CPU利用率排名是怎样的?”等等。

从老葛团队容器监控运维历程,我们发现优云Monitor天然地支持对容器以及容器内应用的监控,并且可以敏捷的应对容器的弹性扩缩容,实现自动化容器监控。同时,Monitor还拥有非常棒的数据汇聚与可视化手段,摆脱了运维人员需要逐个面对监控指标的情况,实现监控整体应用,掌控全局。

作者简介:

蒋君伟

IT运维领域资深专家,优云软件产品总监,拥有10年运维实战经验;

先后研发了网络管理、系统管理、CMDB、ITSM等产品,并成功建设了多个全国性的网络运维管理项目;

其主导研发的产品广泛应用于海关、税务、公安、社保、银行、保险、能源等20多个行业。

“ 活动期:现到2016年12月31日前使用优云产品免费,欢迎详询:https://uyun.cn

更多运维技术文章请关注优云官方微信(broada_ops)

1240
相关文章
|
1天前
|
Prometheus 监控 Cloud Native
构建高效稳定的Docker容器监控体系
【5月更文挑战第13天】在微服务架构和容器化部署日益普及的背景下,对Docker容器的监控变得尤为重要。本文将探讨一种构建高效稳定Docker容器监控体系的方法,通过集成Prometheus和cAdvisor工具,实现对容器资源使用情况、性能指标和运行状态的实时监控。同时,结合Grafana进行数据可视化,为运维人员提供直观的分析界面,以便及时发现和解决潜在问题,保障系统的高可用性和稳定性。
15 6
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
|
6天前
|
数据库 Docker 容器
【Docker 专栏】使用 Dockerfile 自动化构建 Docker 镜像
【5月更文挑战第8天】Dockerfile是构建Docker镜像的关键,它包含一系列指令,用于描述应用运行环境及所需软件包。通过自动化构建,能提高效率、保证可重复性并提升灵活性。确定基础镜像、安装依赖、设置环境后,执行Dockerfile生成镜像,用于应用程序部署。虽然需要熟悉Docker技术和应用细节,但其带来的益处使其成为现代软件开发和部署的重要工具。
【Docker 专栏】使用 Dockerfile 自动化构建 Docker 镜像
|
7天前
|
存储 运维 监控
【Docker专栏】Docker日志管理与监控的最佳方法
【5月更文挑战第7天】本文探讨了Docker容器的日志管理与监控,强调其在运维中的重要性。Docker默认使用`json-file`日志驱动,可通过`docker logs`命令查看。建议选择合适日志驱动,配置日志选项,并集成ELK Stack等工具进行高级分析。实时监控、设置警报、分析数据和审计日志是实践关键。最佳实践包括日志数据与容器数据分离、使用日志代理、保护敏感信息及遵守法规。关注新技术以提升系统稳定性和安全性。
【Docker专栏】Docker日志管理与监控的最佳方法
|
7天前
|
运维 负载均衡 持续交付
构建高效自动化运维体系:Ansible与Docker的协同实践
【5月更文挑战第7天】 在当今快速迭代的软件开发环境中,自动化运维成为确保部署效率和一致性的关键。本文将探讨如何通过结合Ansible和Docker技术,构建一个高效的自动化运维体系,旨在提升运维效率,减少人为错误,并实现持续集成与持续部署(CI/CD)的流程自动化。文章详细阐述了Ansible的配置管理机制、Docker容器化的优势,以及二者在实际运维场景中的结合应用,为读者提供一套可行的自动化运维解决方案。
|
13天前
|
机器学习/深度学习 运维 持续交付
构建高效自动化运维体系:Ansible与Docker的完美结合构建高效机器学习模型的五大技巧
【4月更文挑战第30天】 在当今快速发展的云计算和微服务架构时代,自动化运维已成为维持系统稳定性和提高效率的关键。本文将探讨如何通过结合Ansible和Docker技术构建一个高效的自动化运维体系。文章不仅介绍了Ansible与Docker的基本原理和优势,还详细阐述了如何整合这两种技术以简化部署流程、加强版本控制,并提高整体运维效率。通过案例分析,我们将展示这一组合在实际环境中的应用效果,以及它如何帮助企业实现持续集成和持续部署(CI/CD)的目标。 【4月更文挑战第30天】 在数据驱动的时代,构建一个高效的机器学习模型是获取洞察力和预测未来趋势的关键步骤。本文将分享五种实用的技巧,帮助数
|
14天前
|
弹性计算 Shell 数据安全/隐私保护
自动化构建和部署Docker容器
【4月更文挑战第30天】
15 0
|
14天前
|
弹性计算 运维 监控
自动化监控网站性能并发送警报
【4月更文挑战第30天】
5 0
|
15天前
|
运维 安全 数据安全/隐私保护
构建高效自动化运维体系:Ansible与Docker的协同实践
【4月更文挑战第29天】 在当今IT基础设施快速演变的背景下,自动化成为维护系统稳定性和提升运维效率的关键。本文将深入探讨如何利用Ansible和Docker技术搭建一个高效的自动化运维体系。通过剖析Ansible的配置管理功能与Docker容器化的优势,我们展示了一种能够实现快速部署、轻松管理和无缝扩展的自动化解决方案。文章还将分享一系列优化策略,以期帮助读者构建出既灵活又强大的自动化工具链。
|
15天前
|
运维 Prometheus 监控
构建高效稳定的Docker容器监控体系
【4月更文挑战第29天】在微服务架构日益普及的当下,Docker作为轻量级容器的代表,被广泛应用于服务部署与管理。然而,随之而来的是复杂化的服务监控问题。本文旨在探讨如何构建一个高效且稳定的Docker容器监控体系,确保服务的高可用性。我们将从监控工具的选择、关键监控指标的确定,以及告警机制的设计等方面进行详细阐述,并提供一系列优化实践,以期为运维人员提供参考和指导。