成功的虚拟化系统是如何炼成的?实施及运维

简介:






作者:范军 (Frank Fan)

新浪微博:frankfan7

如果把虚拟化系统比作一座房子,好的设计就使建筑框架图,实施就要一砖一瓦的把房子搭起来。缺工减料,延误工期的后果不言自明。而运维就是对房子的维护,改建和保养了。

本文设计篇我们讲了设计对于一个成功虚拟化系统的重要性,这只是一个好的开头。行百里路者半九十,实施及运维也要给力才成。

   实施

架构师们,如果你真的在意你精心设计的方案,那么在实施过程中也不能松懈啊。我曾经也作过项目经理,这段经历对我在架构设计中帮助很大。架构师是项目经理的军师,你要帮助设计高效合理项目计划,并且能预计并控制风险。比如我们常见的物理机虚拟化的项目中,要考虑分阶段进行。把重要的关键服务器放在后面得到阶段,利用前期积累的经验就能将风险降低。

实施中常见的问题有:

人员浪费:有的人忙死,有的人闲死。因为项目任务的安排不合理,或者依赖条件不满足,有的人无法开始执行任务。

建议:架构师对人员的能力水平和需要的技能要有数,合理安排人员,及时向项目经理提出建议增加或者减少人员。密切关注假设条件和依赖条件是否变化,并及时应对。

 额外工作量:就算诸葛亮也有算不到的时候,再有经验的架构师也无法预计到实施中可能会遇到的特殊情况造成工作量超出预算。

建议: 可以从两个方面来着手:  在估计工作量是要有应急措施并且预留资金,以备不时之需。   工作量增加是由什么因素造成的? 是由于当初的假设条件不成立,还是新增的需求,还是技术问题没有考虑到等等。如果在合同中对假设和需求有清晰的说明,就不至于被动。

测试不完善或者过度测试:

测试很重要,却往往容易被忽视。有时会因为时间压力跳过一些重要测试,有时也因为过度模式化,而在测试上花费太多人力及时间。

建议:测试人员提前进入状态,制定精简并充分的测试计划。尽可能把大的测试任务分离成小的测试任务,缩短测试及反馈周期,能及时修正发现错误。避免在后期才发现重大问题,造成时间的延误和前期工作的浪费。虽然敏捷多应用于软件开发,不妨在虚拟化项目中也考虑哪些测试可以借鉴敏捷的理念。

实施与设计不符

参与实施的人员可能很多,互相的合作有可能不足,也有实施人员的经验和能力的限制,没能很好了解设计意图。

建议:一个完善的可执行的安装文档可以避免这个问题。文档中特别表明针对需求所定制的部分,以及配置的细节、参数等等。

   运维

项目实施完是不是就完事大吉了?庆功酒喝完后还得想想怎么能顺利得移交项目,并且帮助支持部门把这个系统管好。

一个好的系统,如果没有完善的管理,没过多久就会漏洞百出。运维指导应该规范运维中的关键几个方面:

权责分明  (Role & Responsibilities)

别随便给管理员权限,别以为这是信任同事,你可能好心办坏事,权限意味着责任。知识能力不具备的人得到过多的权限,也多了犯错误的机会,反受其害。

谁有什么权限,应该一清二楚,并尽量流程化,规范化。人员入职离职,权限需要及时更改。

权责分明也降低了由于人为失误造成的风险。

 容量管理(Capacity  Management

人们往往对虚拟化平台有个误区,认为不需要额外购买硬件,有需求就建虚拟机呗。常常见到大量的虚拟机没能很好利用,过度浪费服务器资源,造成整个平台性能下降。

建议: 规范虚拟机的配置,比如设定初级(1vCPU 4G)、中级(1vCPU 8G)和高级 2vCP 16G)供用户选择。缺省1vCPU,用户要求多vCPU时要具体问题具体分析。是否应用支持多CPU,是否该服务器能有效支持。在CPU调度时,有些情况多CPU VM无法快速获得申请的资源,等待时间延长,性能反而更差。

vCenter  Operation Suite 可以很好的帮助容量管理。

问题管理 incident/problem  Management

小问题如果不及时补救会成大患。有时迫于时间压力,我们会采取一些措施暂时解决表象问题,可是没有能分析根本原因。这样你就会成为一个救火队员,每天忙得要死,还没人领情。有VM出现性能问题,vMotion到另外主机暂时缓解。可有可能一段时间后会拖垮那台主机。

变更管理 (Change Management)

因为变更失误造成灾难性的事件屡见不鲜,对于运行关键业务的虚拟化平台,变更管理必不可少。

运维人员是要充分理解架构设计原意的。否则开始平常的改动可能和原来的设计冲突。比如管理员添加了备份Port  Group,  和工作网络的Port Group共享一个上行物理网卡。 一到备份任务运行的时候,就会发现虚拟机上的应用程序极慢。因为备份抢占了网络带宽。

在存储管理员更改存储设备时,虚拟化管理员要评估对平台带来的影响。

自动化 Automation

有些系统管理员每天埋没于很多重复的任务之中,比如创建新用户,建虚拟机,出报告等等,其实很多都可以自动化的。即减少了人为错误,也能有时间花在更有意义的工作上。何乐而不为?

造就一个成功的虚拟化平台,靠的是项目经理,架构师和整个团队的不懈努力。 只要你能考虑到设计,实施及运维中的重要方面,成功还会远么?

如果您希望更多了解虚拟化设计,大中国区首场攀顶云端尖峰认证,备战VCDX专题讲座” 将在2013320VMware合作伙伴大会上隆重推出,地点:北京JW万豪酒店。 届时张纲、@FrediYao和我@frankfan7将面对面和您一起探讨.











本文转自frankfan751CTO博客,原文链接:http://blog.51cto.com/frankfan/1157145 ,如需转载请自行联系原作者




相关文章
|
18天前
|
机器学习/深度学习 运维 监控
智能监控系统在运维中的应用与优势
传统的运维管理方式在面对日益复杂的IT系统时显得力不从心,智能监控系统的出现为运维工作带来了新的机遇。本文将探讨智能监控系统在运维中的应用与优势,介绍其工作原理以及如何有效地利用智能监控系统提升运维效率和质量。
33 2
|
25天前
|
运维 监控 安全
现代化运维管理系统的关键特征与实践指南
在当今数字化时代,现代化运维管理系统正日益成为企业提升效率、降低成本的关键工具。本文将深入探讨现代化运维管理系统的关键特征,以及实践指南,帮助企业更好地应对技术挑战,提升运维效率。
|
28天前
|
人工智能 运维 监控
现代化运维管理系统的关键性作用与挑战
随着信息技术的快速发展,现代化运维管理系统在企业中扮演着越来越重要的角色。本文将探讨现代化运维管理系统的关键作用和面临的挑战,帮助读者深入了解该领域的发展趋势。
|
28天前
|
人工智能 运维 监控
现代化运维系统的关键技术与挑战
随着信息技术的快速发展,现代化运维系统成为企业管理的重要组成部分。本文将探讨现代化运维系统中的关键技术和面临的挑战,从自动化运维、容器化技术到监控与安全性等方面展开讨论,帮助读者更好地理解和应对运维领域的挑战。
|
29天前
|
运维 Prometheus 监控
构建高效自动化运维系统的关键策略
【2月更文挑战第30天】随着云计算和微服务架构的兴起,现代IT运维环境变得愈加复杂多变。为保持业务连续性、提高响应速度并降低成本,企业亟需构建一个高效的自动化运维系统。本文将深入探讨自动化运维系统构建过程中的关键策略,包括工具和技术选型、流程优化、监控与告警体系搭建以及持续集成/持续部署(CI/CD)实践,旨在为读者提供一个清晰的构建蓝图和实用的实施建议。
|
29天前
|
人工智能 运维 监控
构建高性能微服务架构:现代后端开发的挑战与策略构建高效自动化运维系统的关键策略
【2月更文挑战第30天】 随着企业应用的复杂性增加,传统的单体应用架构已经难以满足快速迭代和高可用性的需求。微服务架构作为解决方案,以其服务的细粒度、独立性和弹性而受到青睐。本文将深入探讨如何构建一个高性能的微服务系统,包括关键的设计原则、常用的技术栈选择以及性能优化的最佳实践。我们将分析微服务在处理分布式事务、数据一致性以及服务发现等方面的挑战,并提出相应的解决策略。通过实例分析和案例研究,我们的目标是为后端开发人员提供一套实用的指南,帮助他们构建出既能快速响应市场变化,又能保持高效率和稳定性的微服务系统。 【2月更文挑战第30天】随着信息技术的飞速发展,企业对于信息系统的稳定性和效率要求
|
23天前
|
运维 监控 数据可视化
现代化运维管理系统的关键特性及实践应用
随着信息技术的迅猛发展,现代企业对于运维管理系统的需求日益增长。本文将探讨现代化运维管理系统的关键特性,以及在实际应用中的重要性和优势所在,帮助企业更好地理解和应用现代化运维管理系统。
13 2
|
30天前
|
运维 监控 Cloud Native
现代化运维管理系统的关键技术与应用
随着信息技术的不断进步,现代企业对运维管理系统的需求日益增长。本文将重点探讨现代化运维管理系统所涉及的关键技术,包括自动化运维、云原生架构、容器化技术等,并分析这些技术在实际应用中的优势和挑战。
|
1月前
|
运维 安全 网络安全
带你读《网络安全等级保护2.0定级测评实施与运维》精品文章合集
带你读《网络安全等级保护2.0定级测评实施与运维》精品文章合集
|
3月前
|
运维 Linux 项目管理