AIOPS提升数据驱动的云托管服务

简介: 本篇文稿由驻云信息科技有限公司执行总监李俊涛在上海云栖大会的演讲整理而成,为我们准确的介绍了托管运维的概念与优势,并详细解读包括基础运维、应用运维、和业务运维的整套企业级运维服务体系,从多个角度阐述了如何使用AIOps提升数据驱动的企业级云托管运维服务。

日前,大热的AIOps有着非常丰富的应用场景,那么,该怎样才能将这些应用方向落实,成为助力企业运维的整套产品体系呢?驻云科技正是这样一家将理论化为实践,帮助企业用户将这些AIOps产品实际落地的企业服务商。本篇文稿由驻云信息科技有限公司执行总监李俊涛在上海云栖大会的演讲整理而成,准确的为我们介绍了托管运维的概念与优势,并详细解读包括基础运维、应用运维、和业务运维的整套企业级运维服务体系,从多个角度阐述了如何使用AIOps提升数据驱动的企业级云托管运维服务。

 

本场视频观看请戳:https://yunqi.aliyun.com/2018/shanghai/review

PPT下载请戳:https://yq.aliyun.com/articles/602764 

演讲嘉宾简介:

李俊涛 上海驻云信息科技有限公司执行总监

这篇文章的分享共三个部分

1.介绍云计算时代的托管服务和传统运维的差别

2.介绍托管运维中,包括基础运维、应用运维、业务运维的整套服务体系

3.分享驻云科技如何借助AIOps产品来帮助企业客户完成从传统运维到业务运维、智能运维的转型。

 

我们可以将企业IT的构成划分为三个层面,基础设施,应用,业务,

相对的,企业关心的核心则可以概括为可用、可靠和可维护性。

2f8d06a997728123308f4a9d3cb0235aa850dc62

在基础运维层面,企业的核心挑战是IT资产的最大可用率,如何将最基础的存储和计算资源通过云计算进行转换,来丰富运维体系的整体高度,把云计算运维付诸实践。

在应用系统层面,企业会更关心FFSF的实践:无论是监控、日志、DevOps还是容器,都要全方位保证业务的连续性。

在业务系统层面,IT运维要从辅助性角色转化成决策性角色,用数据来洞察各类事件对应的解决方案。

因此,在这三个层面上,驻云科技都能够提供对应的服务,帮助企业更好地对业务运维进行展开。

 

基础运维托管服务体系

8ad7f3d7a61e67b2bfcf39803c9eaf9b290d2b5b

从图中可以看出,对应着一套完整的基础托管服务体系,阿里云在最底层提供计算资源和技术资源,驻云科技则提供包括应用/操作系统、中间件、数据服务以及访问层面的监控保障和应急响应。整套体系由驻云科技和客户企业IT团队,运维团队共同实践和实现,有着足够强的针对性。

 

基础运维体系三张截图:

3b5fbd9aea4b4e88bfbc0b37c6066ca8dc46f3d6

第一张截图反映了基础托管服务在移动终端对告警通知的推送,将传统的短信、邮件等通知方式加以改进,进行移动端的集成。

第二张截图体现了运维体系中调用阿里云api做的云平台api整合,用图表的方式进行最直观的体现。

第三张截图则是把告警信息和钉钉进行集成,记录告急和恢复信息并进行保存,便于后期的分析、复盘以及优化。

 

应用系统托管服务体系

在应用托管服务体系方面,企业用户往往面临着诸多挑战:

首先,IT边界被扩展,CMS服务不仅为企业内部管理提供支撑,同时还要保证互联网用户的业务连续性

其次,如何在大量告警中第一时间发现问题,快速定位问题并进行处理也是重要的课题之一。

另外,基于互联网敏捷模式下的DevOps需求。提升研发,测试,运维以及IT运营团队的整体效率也是企业希望追求的一项重点

 

针对这些重点和难点,驻云科技提供了对应的了两类解决方案

A:日志服务 探索与具体应用问题相关的日志。 利用机器学习,高效分析和探索日志数据。 从日志数据中获取业务和 IT 洞察。 从日志中快速获取价值。

B:基于Docker的CI/CD解决方案。

 

日志服务方面:面向中小型客户进行服务时,通常基于阿里云SLS的日志服务来进行,其优势在于日志信息存储于用户自身的阿里云账号和体系内部,可以有效防止日志中业务数据泄露,保证日志数据安全。阿里云AK能够及时发现业务问题,并调用SLS的API进行告警。而面向大客户,则多数采用用ELK,EFK等开源组件由用户自行对采集日志,再进行整理以及分析。

a5da043e7fb8a19a1d052c2588b542a3e6c91f6b

驻云的日志团队会和企业的产品和研发团队一起,在研发阶段即做好日志方面的预判,发生故障可以从前到后探测,了解日志上下文关系,帮助运维人员直接定位问题

2bd6db365b1f7f6e3ecd4510080ceed653088646

这里是一张AIOps对客户业务数据的访问基线监控分析:AIOps对外提供轻量、智能的算法和解决方案,企业可以尝试通过提供一定时长内的历史数据,来生成极限,寻找毛刺点,从而自动进行告警。通过将阈值和智能基线算法结合起来的方法使告警结果更加精准,

bc20fd03e607ad8304a83bd9aaf57eaa52fbeb08

最后,日志和数据分析进行结合也是服务中的重点:

1.基于业务日志做业务数据大屏 2.基于访问日志做用户分析

 

基于容器的托管服务:如今,在应用层访问 AIOps是一项很热门的课题。 从传统运维到现在的AI智能运维,驻云作为落地企业服务商,大多数企业没做好AIOps转移,驻云倾向于和客户一起,共同搭建专属AIOps平台,提供容器托管方案。

 

相关的多种解决方案:

基于Docker运维体系结构的整体设计,以及现有应用的Docker化改造方案

工具平台:

Confluence 文档知识库管理; Jira项目管理平台 ;Gitlab等代码管理平台集成与改造

赋能体系:

现有团队人员的Docker培训与赋能、定期技术沙龙主题,以及专业Docker线下课程培训。

技术实施:

使用Jenkins 与Gitlab 持续集成自动化部署

环境快速部署、整体交付和管理

应用服务CI/CD配置和协助

容器调度规则和健康检查

黑盒监控和白盒监控

基础资源 容器 业务日志

故障快速定位和排查、自动/手动修复

日志分析、预测和业务运营支撑

运维和运营大屏接入

 b11133ff441674fdbbfe44ae1f029762b3af3ba7

对大多数企业来说,企业只要把应用搭建在Docker平台上,就能够享受到完整的容器监控以及日志服务,完整而容器化的解决方案会利用开源软件对存在问题进行整合与处理。

c76f3bf87efb56bf90a0ffb1c0ddf47929448d6c

 

业务运维托管服务体系:

在业务运维方面,驻云的核心思想就是像运营业务一样运营IT,包括但不限于:

通过智能预测,为未来业务发展合理制定规划。 最大限度地提高数据库和中间件的性能;

对IT数据进行多维分析,从中获取洞察,轻松搜索应用和系统组件;

以及快速构建自定义仪表板来发布分析结果。

4fb8b8c3fabc1f87aa0a42ccc6db4fd0d3a0a4af

我们可以看到一份业务运维大屏输出的例子,数据源、服务器数据以及中间件数据都基于阿里云的技术体系,而后再针对这些数据进行汇集数据,输出和展现,从而实现业务大屏输出。

 

以数据为核心的业务运维云托管服务,经过整理加工后,生成有价值的数据,同样能为业务运营提供强大的支持

3af461f46b19543c4f128c768944048652c803ac

驻云科技以企业云托管服务解决方案为中心,提供解决方案组合,匹配企业深度云化全场景需求,形成了多种多样的企业级云托管服务解决方案。

397978efd844dce943f5ddb60a084df80ee06c5e



本文由云栖志愿小组森柠整理

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
15天前
|
人工智能 运维 监控
现代化运维中的自动化趋势与挑战
在当今数字化快速发展的时代,现代化运维已经成为企业不可或缺的一环。本文探讨了现代化运维中自动化的趋势和面临的挑战,分析了自动化在提高效率、降低成本、保障安全等方面的重要作用,同时也提出了在实践中需要注意的问题与解决方案。
15 0
|
13天前
|
机器学习/深度学习 运维 监控
智能化运维:利用机器学习优化IT基础设施管理
【4月更文挑战第6天】 在信息技术日益发展的今天,企业对IT基础设施的依赖性愈发增强。有效的运维管理成为确保系统稳定性与业务连续性的关键。随着人工智能技术的不断进步,特别是机器学习的应用,运维领域正在经历一场革命。本文将探讨机器学习如何与传统的IT运维流程相结合,以及它如何提高故障预测的准确性、优化资源分配、自动化常规任务和增强安全性。通过分析具体案例,我们将了解智能化运维在提升效率、降低成本以及增强用户体验方面的潜力。
|
17天前
|
存储 人工智能 运维
构建高效自动化运维体系的五大支柱
【4月更文挑战第2天】在数字化转型的浪潮中,企业IT基础设施的管理与维护日益复杂。传统的手动运维方式已无法满足快速迭代和高稳定性的需求,因此,构建一个高效的自动化运维体系成为提升IT效率的关键。本文将探讨构建自动化运维体系的五大支柱:标准化、自动化工具的选择与应用、监控与报警、日志管理以及持续集成与持续部署(CI/CD),并分析每个支柱的核心要素及其在整体运维体系中的作用。通过实践案例和最佳实践的分享,为读者提供构建和维护自动化运维体系的具体策略和方法。
|
5月前
|
机器学习/深度学习 运维 算法
AIOps
AIOps
80 0
|
9月前
|
机器学习/深度学习 人工智能 运维
AIOps,你或許想了解的
自 Gartner 在 2016 年创造 AIOps 一词以来,人工智能已成为先进技术世界的流行语。AIOps 的目标便是自动化复杂的 IT 系统解决方案,同时简化其运营。
94 0
|
11月前
|
数据采集 存储 运维
SREWorks云原生数智运维工程实践-SREWorks 介绍篇-基于Elasticsearch 生长的SREWorks 数据化运维体系(下)
SREWorks云原生数智运维工程实践-SREWorks 介绍篇-基于Elasticsearch 生长的SREWorks 数据化运维体系
|
12月前
|
运维 Kubernetes 监控
SREWorks 云原生数智运维平台揭秘 | 突破规模化智能运维aiops瓶颈
一套规模化运维的流水线——交付、监测、管理、控制、运营、服务。
|
运维 监控 数据可视化
未来企业级IT运维的发展趋势-华汇数据
IT监控运维的高要求与低成本之间的矛盾日益突出,对企业的IT运维提出了严峻的挑战。基于大数据的智能系统,逐渐取代了仅由人来操控规则系统的传统,让运维从成本中心的定位发展成服务中心。
189 0
未来企业级IT运维的发展趋势-华汇数据