业务运维如何做?Docker集群、监控来帮忙

简介: 在2017游戏行业全球同服和安全攻防技术沙龙上,来自心动网络的吴涵分享了《浅谈Docker业务运维》。他主要从运维职责(部署阶段、运行阶段)、潜在的问题、选择Docker的原因、Docker集群、Docker监控、Docker未来六个方面以运维人员的角度分享了Docker的使用经验。

在2017游戏行业全球同服和安全攻防技术沙龙上,来自心动网络的吴涵分享了《浅谈Docker业务运维》。他主要从运维职责(部署阶段、运行阶段)、潜在的问题、选择Docker的原因、Docker集群、Docker监控、Docker未来六个方面以运维人员的角度分享了Docker的使用经验。

 

以下内容根据直播视频整理而成。

 

运维职责

大家对于Docker已经不陌生了,Docker产品在很多领域都比较火。心动网络从2015年开始接触Docker,发现Docker的整个产品模式比较适合游戏领域公司的快速发展模式,包括打包部署和发布都契合需求。

部署阶段

以前(比较大众的时期),运维同事都需要做一些部署阶段的工作,比如系统安装、编译环境、代码上传、执行编译、启动脚本。这些工作都需要运维人员在线上进行大量的手动操作,中间会出现许多问题需要人工进行定位和排查。

运行阶段

在部署完成之后,运维人员需要做服务运行阶段的工作和维护,包括配置更新、代码更新、系统更新、监控采集、故障处理。这些都是在整个运行时期,运维人员需要时刻关注的问题。

潜在问题

9a04e37b75485c96293728f6c7f143d12ce60ab9

在接触Docker之前,心动网络也是以传统模式来部署业务和维护业务的,也遇到很多潜在问题。比如:编译环境迭代更新导致库版本升级使编译出现兼容性问题;在机器数量比较庞大的情况下去上传代码,导致代码有泄露的风险;开发部、安装部的版本出现问题,导致代码编译无法通过;在编译完成之后需要把整个服务打包,需要写启动脚本使其每次都能自己运行;代码管理方面,用到SVN或者GIT仓库管理工具,有办法去切换版本,但是发布二进制服务的时候需要很麻烦的做很多标签来定位服务对应的维护版本;服务运行之后,监控服务的运行状态比较困难;做大量工作之后发现最终高投入换来了低效率。

为何选择Docker?

4e152e1da1d4157fe64f207d621ff0d840469027

在内部的测试环境使用Docker之后,发现Docker有很多优势:一次打包,各处运行;编译和运行环境分离;服务端只需安装Docker运行组件;Docker镜像标签用作版本管理;API调度管理容器,实时监控容器的运行状态;多种语言支持的SDK,可以与业务深度结合;部署模式统一,易于维护。使用Docker之后,大幅减少了在部署和监控上的精力,把更多的时间花在对接更高级的业务运行模式上。底层的很多东西直接使用Docker,时间成本大幅减少。

Docker集群

在机器节点非常庞大的情况下,由于Docker是单机的服务,所以会出现一些问题。心动网络的测试环境都是以小量机器为规模,不是特别注重节点之间的管理,但是上线之后,在庞大的集群(以百、千为计量单位)中需要一个能够统一管理的模式,即需要Docker集群模式。

9fcc3dbbe68f39e96cf8014d34bcd5b32b183901

在对比之后,最终选择了Docker内置的集群模式Docker Swarm。Swarm在Docker1.12之前是以独立进程的方式运行的。在Docker1.12之后,官方把Swarm集群模式集成在Docker Engine中。Swarm采用去中心化设计,分为很多角色,比如Manager和Worker,在各个节点之间的通信都是TS加密的,可以保障一定的通信安全。Swarm支持服务编排,可以把多个服务打包成一个Application来发布,比如采用Web+DB的模式。可伸缩性是指,比如定义集群里的一个启动数量为10,Swarm会根据预定的启动值以自动调度的策略来保证整个集群的预设值能够始终满足需求。Swarm具有自愈能力,很多服务是无状态的或者微服务,在一个集群里会有很多的容器,其实本地是不留存信息的,而是集中化的存在缓存或者数据库中,这些容器可以看作是一个Runtime环境,只负责处理不负责存储,自愈能力是针对这些服务出现Crash之后可以自动的在其他可用节点上再去启动新的容器来弥补已经Crash的容器,保证整个集群里的数量符合预期值。Swarm支持滚动更新,当滚动失败或者更新失败之后,需要进行回退,但是有些回退的操作比较复杂,需要回退所有的配置文件,基于Docker的滚动更新是比较方便的,因为是作为容器来发布,更新失败后,只要上一个版本的容器还存在就可以无缝切换过来,整个Runtime的环境可以保证一致。

Docker监控

关于Docker监控,官方一直没有给出一个比较好的方法,反而是很多第三方的开源项目在实现Docker监控。此时就需要对Docker API的调度非常熟悉,但是很多时候大家只是想能够很快的起一个服务能够调用Docker的API把数据存储在自己的存储中,通过前端的页面转接出来。

bfc15d436828b436fba16f3cd7ac84af76d24f19

Docker本地CLI有Docker state指令,可以关注比较通用的监控参数,包括CPU、内存、IO使用率、网络使用率等。在有一定研发能力的基础上,可以考虑使用Docker Remote API自己去抓监控数据,通过某种方式展现出来。Google Cadvisor是比较成熟的第三方项目,可以和Docker无缝贴合,能够监控单台物理机上面所有容器的状态,其本身是不存储数据的,但是支持加载后端的存储把数据写到存储中。Shipyard是Docker的一个核心成员开发的,带UI,本身不是做监控的,是作为Docker Front-end Web前端去管理Docker,也包含了对Docker API的调用,可以作为一个简单的监控工具来使用。

Docker未来

Docker 并不是完美无缺的,在以下方面期待改进:Docker对高密度写入场景并不是特别友好,不是作为存储直接写入数据到容器中,还需要通过加载第三方的Volume或者本地的主机目录关联到容器里面来实现,对数据库写入优化不适合;Docker Daemon API是中心化设计的,使用时如果Docker Daemon发生Crash,会导致所有的API不可用,此时不管通过命令行还是remote API都不能管理上面的容器,只能非常麻烦的重启Docker Daemon,造成业务的闪断或者各种各样的问题;API是完全没有验证的,只要抓到API地址就可以通过特定的协议交互,在内网环境问题不大,但是在外网开放API的风险成本比较高。
相关文章
|
27天前
|
存储 运维 安全
构建高效自动化运维体系:Ansible与Docker的完美结合
【2月更文挑战第31天】 随着云计算和微服务架构的兴起,自动化运维成为保障系统稳定性和提升部署效率的关键手段。本文将详细探讨如何通过Ansible和Docker的结合来构建一个高效、可靠且易于管理的自动化运维体系。首先,介绍自动化运维的必要性及其在现代IT基础设施中的作用;然后,分别阐述Ansible和Docker的技术特点及优势;最后,提供一个基于Ansible和Docker结合使用的实践案例,以及实施过程中遇到的挑战和解决方案。
|
28天前
|
运维 Kubernetes 监控
构建高效自动化运维体系:基于Docker和Kubernetes的实践指南
【2月更文挑战第30天】 在当今快速发展的云计算时代,传统的IT运维模式已难以满足业务的敏捷性和稳定性需求。本文深入探讨了如何通过Docker容器化技术和Kubernetes集群管理工具构建一个高效、可靠的自动化运维体系。文章首先概述了容器化技术和微服务架构的基本概念,随后详细阐述了基于Docker的应用打包、部署流程,以及Kubernetes在自动化部署、扩展和管理容器化应用中的关键作用。最后,文中通过案例分析,展示了如何在实际场景中利用这些技术优化运维流程,提高系统的整体效率和可靠性。
|
29天前
|
运维 安全 网络安全
构建高效自动化运维体系:Ansible与Docker的完美融合
【2月更文挑战第30天】在当今快速迭代和持续部署的软件发展环境中,自动化运维成为确保效率和稳定性的关键。本文将探讨如何通过结合Ansible和Docker技术,构建一个高效的自动化运维体系。我们将分析Ansible的配置管理功能和Docker容器化的优势,并展示它们如何协同工作以简化部署流程,增强应用的可移植性,并提供一致性的系统环境。此外,文章还将介绍一些最佳实践,帮助读者在真实环境中实现这一整合方案。
|
20天前
|
运维 Kubernetes 持续交付
构建高效自动化运维体系:基于Docker和Kubernetes的最佳实践
在现代云计算环境中,自动化运维成为保障系统稳定性与提升效率的关键。本文深入探讨了如何利用Docker容器化技术和Kubernetes容器编排工具构建一个高效、可靠的自动化运维体系。文中不仅介绍了相关的技术原理,还结合具体案例分析了实施过程中的常见问题及解决方案,为读者提供了一套行之有效的最佳实践指南。
|
30天前
|
负载均衡 容灾 安全
Docker Swarm总结+基础、集群搭建维护、安全以及集群容灾(1/5)
Docker Swarm总结+基础、集群搭建维护、安全以及集群容灾(1/5)
65 2
|
30天前
|
NoSQL Redis Docker
使用Docker搭建一个“一主两从”的 Redis 集群(超详细步骤)
使用Docker搭建一个“一主两从”的 Redis 集群(超详细步骤)
31 0
|
30天前
|
关系型数据库 MySQL 数据库
使用 Docker 搭建一个“一主一从”的 MySQL 读写分离集群(超详细步骤
使用 Docker 搭建一个“一主一从”的 MySQL 读写分离集群(超详细步骤
59 0
|
1月前
|
存储 负载均衡 网络协议
docker集群的详解以及超详细搭建
手拿把掐学会搭建docker集群
|
2月前
|
开发工具 Docker 容器
docker安装集群版ElasticSearch
docker安装集群版ElasticSearch
|
2月前
|
缓存 监控 测试技术
【Docker项目实战】使用Docker部署miniboard轻量级监控仪表板
【2月更文挑战第5天】使用Docker部署miniboard轻量级监控仪表板
82 0