用数据灭火 ——如何积极主动预防故障,避免IT消防演练

简介:

IT部门作为基础设施提供者的传统角色正受到云服务提供商、紧缩预算以及新数字业务战略技术需求的挑战,且这些挑战不会自动消失。随着企业对移动设备和云服务的采用,对新型高效IT服务的需求也在不断增加。

这种需求几乎不容许有犯错的余地。企业需要快速可靠地获取此类新的IT服务。任何延误和故障都可能导致企业丧失竞争优势甚至影响收入。IT部门必须学会更具战略性的思维,否则就会卡在传统的运维方式上。

新常态:IT成为业务伙伴

我们已步入新的服务交付时代,IT部门必须发展成为商业计划的主动合作伙伴。这是一个转变,要求IT部门提高运维效率,为战略性、创收型和客户导向型业务释放各类资源。而且这种转变必须快速发生:Gartner最近的一次首席信息官(CIO)调查显示,CIO们正在努力了解各项业务重点,以便宣布和实施数字化转型。CIO们正在转变投资模式以应对数字业务。到2018年,投资增长预计将高达44%,从而推动实现数字生态系统的业务目标。

这个转变虽然不简单,却颇有价值。这是提高IT部门声誉并与业务重点协调一致的好机会。这需要IT部门通过信息管理和分析获得新的应用和业务洞察力,发挥业务加速器职能。

IT部门如何实现这一转变?

转变IT运维的关键是利用来自整个基础设施不断增长的海量数据,从服务和业务角度做出基于事实的决策。离开数据驱动的见解,就很难准确测量服务绩效。

此外,无论是虚拟服务器和网络,还是安全和用户支持,IT部门都必须从整体上考虑以成功交付业务服务。这种整体观使得包括IT部门和业务部门在内的所有信息消费者都能够从所提供的服务和最终用户体验方面看到整体绩效。结果是什么?IT部门可以在危机发生之前预见到相关问题。也可以化被动为主动,并提供商业用户所需的服务情报。

什么是服务情报?

IT部门采取全面主动的方式离不开服务情报,后者具有三个主要特征:

1. 对与业务有关指标的测量和报告

2. 通过收集和关联IT竖井上的数据,解锁运维效率

3. 使用数据分析提供业务洞察力并推动决策

以下是查看服务情报三要素的另一种方式。


spacer.gif2018-01-25-5076c74e4e-64bd-41a3-9472-19e

鉴于IT基础架构所产生数据的复杂性,交付服务情报需要具备下列能力的高级软件

能从任何系统和应用自动收集数据

结合数据过滤和统计引擎以实行预测分析,并推动问题解决和故障排除

使任何人,无论是业务用户还是IT人员,都可以生成可视化和仪表板

通过非程序员轻松定制,启用衡量关键绩效指标(KPI)的特定服务仪表板

具备从可视化中钻取数据的能力以了解背景和详细信息

是时候转变了

随着新的数字服务的发展,数据驱动洞察力和决策以及竞争灵活性需要对IT的角色进行根本重塑,IT部门正处于转型的十字路口。IT部门的关注点必须从传统的基础设施运维和反应式防火演练转向主动服务管理和智能化。

这一演变的一个重要环节是IT人员通过使用新的数据驱动软件开展价值创造活动。 主动型IT部门必须能够提供端到端的服务情报和报告、跨IT竖井自动收集和分析数据的工具,通过数据和机器学习实现智能化的可定制可视化和仪表板功能。





本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。
目录
相关文章
|
7月前
|
运维 监控 测试技术
故障治理:如何进行故障复盘
故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。以下内容为本人从网上查阅学习多个专家经验,并结合工作经历总结而来,仅供参考。
|
8月前
|
安全 关系型数据库 MySQL
【网络安全】护网系列-应急响应排查
【网络安全】护网系列-应急响应排查
314 0
|
11月前
|
运维 监控
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.2故障应急
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.2故障应急
192 0
|
11月前
|
运维 NoSQL 容器
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.3 故障快恢
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.3 故障快恢
135 0
|
数据采集 数据可视化 安全
预防山体滑坡安全监测系统
滑坡泥石流是地质灾害中的重要组成部分,我国地质和地理环境复杂,气候条件时空差异大,地质灾害种类动、分布广、危害大,是世界上地质灾害最严重的国家之一。河北稳控科技充分利用在滑坡监测方面的技术积累,建立了一套科学完善的滑坡监测预警平台,实现了滑坡防治管理的科学化、信息化、标准化和可视化。为防灾减灾决策提供科学依据。
预防山体滑坡安全监测系统
|
缓存 运维 监控
IT硬件故障的主要原因和预防的最佳实践
企业组织面临的超过 45% 的网络中断完全是由于硬件故障造成的,因此 24x7 全天候监控硬件至关重要
234 0
IT硬件故障的主要原因和预防的最佳实践
|
运维 监控 云计算
关于故障复盘、容忍度和SLO
关于故障复盘、容忍度和SLO
306 0
电脑主板最易故障
电脑主板最易故障
108 0
|
容灾
面向失败的设计-故障与攻防演练锤炼容灾应急能力
阿里巴巴经过多年的技术演进,系统工具和架构已经高度垂直化,服务器规模也达到了比较大的体量。当服务规模大于10000台时,小概率的硬件故障每天都会发生。这时如果需要人的干预,系统就无法可靠的伸缩。为此每一层的系统都会面向失败做设计,对下游组件零信任,确保在故障发生时可以快速的发现和处理。
3122 0