《IT运维之道》——3.2 IT运维服务的原则

简介:

本节书摘来自异步社区《IT运维之道》一书中的第3章,第3.2节,作者: 李鹏 更多章节内容可以访问云栖社区“异步社区”公众号查看。

3.2 IT运维服务的原则

前面大家了解了IT运维服务的主要工作内容,作为我们IT运维服务者如何做好这份工作呢?运维服务工作看似简单,不少人认为就是修修电脑、调调软件等,自比物业,不善总结,结果一年忙到头,既不被用户认可也不被老板重视,面对困惑我们多少会问下自己,自己是做得多好呢还是做得少好,是忙点好呢还是闲点好,我们这里要回答:“不!是做到点上才好,怎样才能做到点上呢?”

首先是要用心,用心做事才能成功,当然这里面确实有技巧,我们首先要知道IT运维服务的总体原则:事先讲计划、重承诺,事中讲规范、重控制、有反馈,事后重效率、能应急、有保障。这几个方面是相辅相成的,有了计划才能按照计划与承诺去开展相关工作,在这个过程中要体现出规范性,并有效控制各种风险,对于服务过程与结果应向用户进行报告和反馈;同时,整个运维工作应体现出积极的效果,包括运维效率、应急与保障能力等。只有这样,运维工作才能满足用户的需求,并达到预期的效果,实现用户放心、舒心、开心的目标。

3.2.1 讲计划
《草船借箭》是我国三国时期的一个故事。周瑜 为陷害诸葛亮 ,要诸葛亮在十天之内造好十万支箭。诸葛亮算定了大雾之日,便借子敬二十只草船驶往曹营,曹操因疑雾中有埋伏,便令以乱箭射之。待至日高雾散,孔明令收船急回,船轻水急,曹操追之不得,使孔明既安全借得箭,又挫败了周瑜的暗算,表现了诸葛亮有胆有识,才智过人。《草船借箭》中诸葛亮的胆识才智受到后人的赞美,不过我以为诸葛孔明最令人叫绝的是他的这次策划,因为有这次天衣无缝的策划,所以胸有成竹,轻轻松松,成绩显著。而策划用在运维上就是计划。

所以,想在运维过程中轻轻松松,又能做到点上,就要重视事先的计划,计划来源于和客户达成的承诺或领导的命令,在整个运维过程中,计划是整个工作流程的核心,年度计划(依据服务承诺制定)又是计划中的龙头,按照计划先行的原则,依据本年度工作计划制定分项工作计划(如巡检计划、监控计划、培训计划等)和时间维度计划(季度工作计划、月度工作计划等),并遵流程、按计划进行实施和保障。所以,工作计划是真正运维具体工作的龙头,它是围绕实现服务承诺而制定的,各分项工作计划(如巡检计划、监控计划、培训计划等)和时间维度计划(季度工作计划、月度工作计划等),都应以确保实现服务承诺为前提。其中,现场巡检计划是运维工作计划的核心,因为现场巡检工作具有重要的作用和意义,通过现场巡检能够发现系统薄弱环节、关键业务节点、存在的隐患,尤其是对制定应急预案及备品备件计划至关重要。当然,写得再完美的方案如果不做就等于纸上谈兵、水中之月,所以,计划执行应是重点,企业的成功很多时候是赢在执行,运维体系能否严格按照工作计划执行是运维服务效果能否达标的关键因素之一。当然,如果计划发生变化,那么如何执行也应进行相应更新和变动,以适应工作计划需要。在运维执行过程中,应严格按照流程规范开展运维,并注重控制以降低运维风险。针对运维执行情况,应定期向用户进行反馈。不过计划的粗细、时间跨度要依据项目和公司情况而定。

最后,要将工作计划的执行效果及运维结果与服务承诺进行对比,对比的结果应作为改进工作计划的输入,确保对用户的承诺能够达成。在此过程中,运维人员将根据工作需要定期或不定期将运维工作情况向用户进行反馈与汇报,让用户全面了解整个系统运行情况及运维工作情况。因此,总结起来可以说,运维工作执行来源于计划,受控于流程,输出于反馈,更新于实践。
**
3.2.2 重承诺**
获得用户的信任是长期、稳定、深入开展运维工作的基础和前提,而要获得用户的信任,很重要的一点就是讲求信用,即重承诺。重承诺是IT运维服务商向用户提出具体的运维服务承诺,并认真做好运维工作,确保各项运维指标达到标准,从而获得用户的信任,让用户放心。用户对运维工作的信任需要长期、耐心、深入地开展工作。

对于用户的任何承诺,都应严格予以履行,确因特殊原因导致无法履行时,应提前和用户进行说明和解释,并获得对方的谅解。简单来说,对于用户不要轻易许诺,而一旦许诺,就要做到。具体体现在以下方面:

(1)事先和用户约定服务级别协议(Service Level Agreement,SLA),对于所承诺的服务级别目标应严格履行。

(2)对于给用户所做的书面或口头承诺,包括提供的资源、提供的方案、应给与的回复,都应在约定的时间内、按约定的要求予以提供或实现。

(3)向用户进行承诺后要认真执行相应的工作任务,确保服务承诺可以达成,重点是给用户的各种计划,应按计划安排予以执行,确需调整应提前向用户进行说明以调整计划。

(4)对用户做出的书面服务承诺必须达成,当预判对用户的承诺在既定的时间内可能无法达到时,应提前向用户解释,并提出补救措施,以尽量达到服务承诺的标准。

(5)及时向用户汇报各项服务承诺达成的情况,让用户了解我们对运维承诺的重视和执行力。

3.2.3 讲规范
没有规矩,不成方圆。运维工作尤其需要注重规范性,讲规范就是按照既定的工作流程、礼仪、制度、要求等开展工作,这会让用户感受到我们的运维服务是透明的,符合科学流程的。这项工作的价值还体现出服务的一致性,无论用户在何时向任何运维工程师提出运维服务要求,他们均享受品质一致的运维服务,获得良好的服务体验。

讲规范,具有以下好处:

(1)对于所有运维人员,能够按照统一的服务规范开展工作,使运维参与者均能形成优良的服务意识,以确保运维服务质量。

(2)清晰的工作流程能够使用户感受到运维服务的专业性、一贯性。

(3)有效的执行服务流程能够确保其中的每个角色职责清晰,进而提高运维效率。

(4)统一的服务礼仪能够体现运维工作者的良好形象,规范的文档编写能够体现运维人员的专业素养,这均有利于用户满意度的提升。

要做到讲规范,重点要做好以下工作:

(1)按照运维管理体系制定完备的运维工作流程,按照流程的角色定义,明确各角色在流程中的职责。

(2)通过培训让全体运维人员熟悉并掌握运维工作规范的要求,通过沟通让用户充分理解运维工作流程的执行效果对用户的重要性。

(3)运维服务者通过日常工作认真落实各项运维工作流程与规范,借助运维服务管理平台记录工作执行的过程与结果。

(4)运维管理者通过定期汇总分析常见故障和突发事件量及事件完成质量,了解流程规范执行的落实效果,并在此效果基础上持续改进。

3.2.4 重控制
重控制是为了控制运维服务质量达到运维服务承诺的要求而开展的工作。主要涉及两个方面:一是确保运维服务目标按要求达成,二是有效控制运维服务过程中的系统风险。在运维过程中,若不注重控制,将很难保证运维服务结果达到约定的要求,而且,有可能发生一些影响较为恶劣的重大事故,比如业务中断、数据丢失等。因此,在运维过程中注重控制,将有效规避风险,保障运维服务质量。

重控制包括关键流程节点控制、操作痕迹化管理、变更控制、发布控制、定期回顾并出具服务质量报告等。具体措施包括:

(1)按照运维服务的特点梳理运维服务流程的关键节点,将关键节点的日常运维工作文档化。

(2)运维过程要体现痕迹化管理,所有事件、变更、发布等环节的处理细节均应被完整记录下来,作为质量跟踪的依据。

(3)对于系统变更,均应受控于变更管理流程;所有变更均应充分评估风险,并在实施前经过严格测试,制定好回退机制,确保风险可控的情况下进行变更实施;若因故变更失败,亦能通过回退机制恢复服务。

(4)对于系统发布,均应受控于发布管理流程和变更管理流程;所有发布均应提前进行严格测试,制定好回退机制,确保风险可控的情况下进行发布实施。在应用部署发布前制定测试方案及运维保障实施方案。

(5)定期开展事件流程的回顾会议,对于存在的问题或风险进行分析并提出改进措施,并在下一个周期内改善服务质量、规避系统风险,以有效控制整体运维服务质量。

(6)内部严格按照“运维报告机制”进行内部报告和审核,以对相关情况纳入跟踪控制范畴,按照统一口径进行处理。

(7)在运维实施过程中定期(如每月或每个季度)进行流程执行过程与结果的检查与回顾,对于存在的问题或风险进行分析并提出改进措施,可在下一个周期内改善服务质量、规避系统风险,以有效控制整体运维服务质量。

3.2.5 有反馈
与用户建立良好的沟通是做好运维服务的关键。有反馈主要指运维服务者向用户及时反馈信息。有反馈就是在做好运维服务的基础上,让用户及时了解我们的工作情况,适当的运维信息反馈给用户是必不可少的。用户作为运维服务的消费者也是最终受益者,如果对运维工作不了解或了解不透彻,从某种意义上说是用户的损失,也是运维服务者对运维服务质量不够重视的体现。

向用户进行必要的反馈,能达到以下目的。

(1)对于用户的关切点,包括系统运行状况、潜在风险情况、运维工作情况等,定期通过书面方式报告给用户,这充分尊重了用户的知情权,并且可让用户全面了解系统整体情况及运维情况,进而对运维产生信任感。

(2)对于重大事件的处理进展,定时向用户进行报告,有利于缓解用户的紧张和急躁情绪,避免运维工作陷入被动。

(3)对于用户提出的需求,按时予以反馈,能让用户感到自己的建议和意见获得足够的重视,从而建立良好的工作关系。

做好运维过程中的沟通反馈主要包括以下几方面。

(1)定期向用户出具运维工作情况报告(如周报、月报、年报),向用户展现系统运行情况、潜在风险分析、隐患发现情况、故障受理情况、其他各类服务情况及运维服务建议等。

(2)在处理重大事件过程中,按与用户约定的频次主动(如每半小时1次)向用户报告故障的排查情况、处理进展和预计恢复时长等。

(3)对于各项需要向用户进行反馈的信息,应事前制定“运维报告机制”,运维服务者都应该按照“运维报告机制”进行内部报告,并有各级管理人员审核,从而可以将相关情况纳入内部质量跟踪控制范畴。同时经过报告和审核的内容要按照报告机制及时向用户做出口头或书面等报告。

(4)对于用户提出的各类咨询或服务请求,应在处理过程中及时向用户报告处理进展或解决建议,积极主动和用户进行沟通交流。

3.2.6 重效率
一般来说系统一旦发生故障,用户往往希望能够在最短时间内解决,对运维效率提出了很高的要求,尽量减少对业务造成的时间或金钱上的损失。重效率是指在处理各类故障和咨询服务时,我们始终做到快速响应、迅速处理。这需要运维服务者能够做到及时响应需求、快速定位故障、安全排除故障。运维服务者如果能够满足将重效率和有反馈有效地加以运用,可获得用户的充分信赖。

(1)运维服务者均应树立“想用户之所想,急用户之所急“的观念,将用户对解决问题的迫切性放在首要位置。

(2)运维管理者应该按照科学化的理念测算各类故障级别的平均恢复时长,安排运维工程师对每一个级别的故障排除方案进行反复演练,一旦故障发生能够熟练地处理故障,快速解决问题,稳妥恢复业务。

(3)运维质量管理部门通过日常事件处理的服务恢复时长检查运维事件处理是否能够达到快速响应和处理的要求。

(4)建立IT服务管理体系,定期回顾事件处理效率在哪些方面存在改进的空间,定期发起持续改进。

3.2.7 能应急
对于用户而言,IT系统仅仅是帮助他们完成业务的工具,只有当用户使用的过程中出现故障,用户才会感到运维服务者的重要性。IT运维专家作为IT系统的保健医生,一方面要预见到系统的故障,另一方面也应该能够排除故障,这是成为一名IT运维专家的核心要求。对于系统突发的故障,尤其是影响程度高的故障,若能快速应急响应并迅速解决,就会在用户和我们之间建立充分的信任关系,若所有突发故障均能迅速解决,将使用户对我们产生信赖感,即在信任的基础上形成依赖。因此,整个运维服务团队的应急保障能力至关重要。

为了体现应急保障能力,可采取以下措施。

(1)建立应急预案,提前做好各类预判与准备,必要时定期对应急预案进行演练,包括:不同类型事件的应急保障团队、保障服务方式等,确保一旦突发故障真实发生能够有条不紊地按照预案进行应急响应和处理。

(2)配备一定的应急服务装备,如处理故障的必备工具、排除故障的必需备件、恢复系统的必备软件、3G无线网卡、精确检测仪器等,IT运维专家首先是能够依靠技术手段提升应急保障能力的专家。

(3)对于信息化系统中包含硬件设备的用户,我们应该建议用户储备必要的备品、备件和备机,一旦突发硬件故障且短时间内无法修复时,能够利用备品备件先行顶替故障设备,从而尽快恢复业务。

3.2.8 有保障
运维服务的效果体现为“有保障”,运维队伍给用户的感觉简单来说就是:召之即来,来之能战,战之能胜,从而让用户对系统放心、对运维放心。如果运维工作是有保障的,就能够消除用户的后顾之忧。

要做到有保障,可采取以下措施。

(1)通过网络互动服务、电话服务热线,现场服务等多种运维服务途径让用户随时随地有问题都能够找到我们。

(2)如果IT系统较大或较复杂,运维服务商内部建立起一线、二线、三线的运维梯队,二线对一线进行支持,三线对二线进行支持;系统开发商、设备供应商都属于我们的三线支持,必要时能够给予二线足够的支持与保障,确保整个运维工作是有保障的。如果IT系统较小或较简单,运维服务商不一定需要建立完备的一线、二线、三线队伍,但需要在岗位职责中包含相应的职责,从而确保运维工作流程是闭环的。

(3)运维服务商内部有完善的软硬件支撑环境,包括:IT服务管理平台、电话呼叫系统、网上培训平台、全套运维模拟环境、运维协同办公系统等。

(4)在重要时期,比如业务高峰期或重点节假日期间制定重点保障预案,严格按照保障预案执行,并在结束时向用户提交重点保障完成情况报告。

要做好IT运维就要理解这八项原则的要义,如果把IT行业比作江湖,那么知道IT运维需要做什么就是了解江湖的第一课。遵循IT运维服务的原则就好比一门高深的武功,练好武功首先要练好内功,这八项原则就是练好内功的秘籍,练到炉火纯青的时候,不但拳脚不能伤其毫发,就用刀劈剑刺亦难伤其毫发。

相关文章
|
运维 监控 数据可视化
未来企业级IT运维的发展趋势-华汇数据
IT监控运维的高要求与低成本之间的矛盾日益突出,对企业的IT运维提出了严峻的挑战。基于大数据的智能系统,逐渐取代了仅由人来操控规则系统的传统,让运维从成本中心的定位发展成服务中心。
186 0
未来企业级IT运维的发展趋势-华汇数据
|
运维 监控 数据可视化
政府企业网络设备如何实时监控?-华汇数据IT运维监控平台
平台可实时监控网络设备的运行状态、端口信息、流量状况、丢包情况和链路拥塞等指标信息,对关键指标异常可即时产生事件并实时报警,帮助运维人员在设备故障发生第一时间介入处理,有效保障网络设备的可靠性。
118 0
政府企业网络设备如何实时监控?-华汇数据IT运维监控平台
|
运维 调度 数据中心
如何推进IT运维数据中心问题管理
在数据中心的管理中,问题管理通常因为没有事件管理、变更管理那么直接影响服务的可用性而被忽视,使得遗留下来的问题没有被及时解决,也会导致事件的重复发生,从而降低系统和服务的整体可用性
134 0
如何推进IT运维数据中心问题管理
|
存储 数据采集 人工智能
用积木讲运维,这样的IT人太会了
日志服务SLS提供数据采集、加工、分析、告警可视化与投递功能,为AIOps、大数据分析、运营服务、大数据安全等场景提供支撑,并能以搭积木的方式适配各类运维场景,辅助企业的IT决策。近日,日志服务SLS新增了两项重磅功能,有助于进一步提升研发、运维等场景数字化能力。
388 0
用积木讲运维,这样的IT人太会了
|
人工智能 运维 监控
|
运维 监控 小程序
2022 企业应用运维管理指标体系白皮书发布:企业 IT 运维正在经历从“后台”向“中台”的转变
InfoQ 获悉,近日,博睿数据联合艾瑞咨询共同发布了《2022企业应用运维管理指标体系白皮书》(以下简称《白皮书》)。 《白皮书》从企业 IT 运维的内涵以及在当前数字经济发展的大环境下企业 IT 运维工作在技术、战略、组织架构等方面面临的变化和问题做了详细说明,并展示了一种以业务和应用为着眼点的企业应用运维管理指标体系,对该体系的原理、设计和实践进行了详细说明。
1245 0
2022 企业应用运维管理指标体系白皮书发布:企业 IT 运维正在经历从“后台”向“中台”的转变
|
运维 搜索推荐
企业IT运维的目的?华汇数据
在企业IT工程师团队中,对“三分技术,七分管理”这句箴言的信奉者占据了绝大数。当多个行业企业信息化建设走过大规模新建期后,IT运维成为企业IT的常态。系统、数据与业务的日益复杂,都加剧了企业IT运维的难度。
268 0
|
人工智能 运维 监控
IT运维人员,把握现在展望未来
  近年来,互联网在中国的发展势头迅猛并呈现出广阔前景。根据中国互联网络信息中心报告显示,截至2020年3月,我国网民规模已经达到9.04亿,互联网普及率增至67.0%,超全球平均水平。   互联网强劲发展的背后是整个IT行业的蓬勃。国家统计局发布的2019平均工资数据表明,工资最高的行业是信息传输、软件和信息技术服务业,IT行业从业人员平均年薪已超16万元。
215 0
|
运维
IT运维系统可用性分析
提供对应用可用性与负载之间的变化规律进行分析,以了解负载是否是造成可用性问题的原因。并且提供从应用模块、地域、用户组、服务器等多个角度对可用性进行对比分析,帮助用户了解问题是全局性还是局域性,以逐步缩小问题范围。同时系统也提供前N位最不可用的动作(页面)清单,以帮助用户找出经常出错页面供研究分析。
226 0
IT运维系统可用性分析
|
运维 监控 BI
报表管理在IT运维系统中主要有哪些?
DCOM提供各种监控统计分析,包括TopN排名分析、指标趋势分析、统计分析、时段对比分析、资源对比分析等,帮助运维人员准确评估IT环境运行情况,及早发现故障隐患和变化趋势,为IT运维决策提供参考依据。
336 0
报表管理在IT运维系统中主要有哪些?