阿里巴巴发布智能运维故障管理AI+生态计划

简介: 为响应马老师“家国情怀,世界担当”的号召,开放“AI+”生态计划,将让集团内部服务过程中积累下的技术与经验更好地回馈社会,任何企业或合作伙伴均可以简单方便的接入阿里巴巴智能故障管理平台,通过对接入数据的训练学习实时提供异常检测、关联分析、根因定位的能力,使原有的IT管理模型瞬间实现低成本的智能化升级,为IT同行们更便捷的提升工作效率、降低人力成本尽一份绵薄之力。

0602ced832a29b0b1d65278b30108df76a1b4d39

       6月7日,2018云栖大会·上海峰会在上海世博中心举行。本次大会以“驱动数字中国”为主题,聚焦人工智能、金融、零售、IoT等行业,聚焦产业生态新发展,展现产业链上下游新应用,推动云端新融合,降低行业企业信息化成本,助力上海经济新发展。大会全面展现数字化魅力,如何利用“数字”带动企业转型、促进业态发展、创造产业新动能,激发数字经济新引擎。

  对于当前IT运维圈子里最火爆的AIOps概念,本次大会也设立了主题分会场,共同探讨人工智能在IT运维领域的应用与实践。

 

开放“AI+”生态计划,回馈社会


  阿里巴巴全球运行指挥中心(GOC)掌门人沈乘黄首先分享了“智能运维在阿里巴巴线上故障管理领域的应用经验”。沈乘黄站在集团业务连续性保障的角度,讲述了GOC团队如何通过机器学习应对每秒数千万数据的处理,把握阿里每一项业务的运行状况,实现对近百个技术团队、数万名研发人员的应急信息实时互联,让一切线上问题无所遁形,让所有阿里技术团队令行禁止。

3510fc1524f5b5c5d0902477a59e8425057b747c

  同时,沈乘黄正式宣布,为响应马老师“家国情怀,世界担当”的号召,开放“AI+”生态计划,将让集团内部服务过程中积累下的技术与经验更好地回馈社会,任何企业或合作伙伴均可以简单方便的接入阿里巴巴智能故障管理平台,通过对接入数据的训练学习实时提供异常检测、关联分析、根因定位的能力,使原有的IT管理模型瞬间实现低成本的智能化升级,为IT同行们更便捷的提升工作效率、降低人力成本尽一份绵薄之力。

 

智能算法,为业务稳定连续运行保驾护航


阿里巴巴高级技术专家王肇刚由浅入深分享了“全球运行指挥中心(GOC)团队提供的智能算法模块的技术实现与应用心得”,讲述了如何在复杂的业务场景下迅速发现异常事件,并从千万个指标中寻找关联事件,最终确定异常事件的根源,并通过应急、通知、恢复、复盘、演练等一系列动作完成故障管理的闭环,最终确保业务稳定连续的运行。

12deb0dfd6375cc457cfb7e101f4f15034a912dc


ffee68933aa85960c4ece392af0227a067c517a5


4b2b28d102f12f1d6c83709e8e7962fb1c6a18e9



单指标多维下钻分析

当业务指标总量异常出现时,准确地智能定位到出现异常的分量或分量组合。

 

7092f6c6507ce7574b5a52ec54d8e1aa400a09d6

多指标相关性分析

        当指标异常时,动态发现有相似下跌形态的相关指标,为原因定位提供重要线索。
        通过离线分析,发现业务报警之间的关联规则,当单业务异常时能够对其它业务进行提前预警。

b43156c99b6a6a9b58bac2b2361c640fc4f62342

可疑应用/事件分析

       自动基于运维数据仓库进行相关应用/事件检索,锁定怀疑范围。

       自动根据指标异常和事件相关性进行推荐排序,筛掉无关事件。

7cba829d2e09e8f8c4ae32f042678984588379bc

 

开放合作,为用户带来更多价值


      大会所在的世博中心曾经是上海世博会的会议中心,秉承着平等开放、合作共赢的理念向全世界展示了中国的新面貌,本次云栖大会也正传承了开放合作的理念,首批“AI+”生态合作伙伴涵盖了网络分析、应用交付、云计算服务、日志分析、业务运维等不同领域。


其中成都科来软件有限公司技术副总裁龙成、深信服科技股份有限公司研发部总经理邱亮、上海驻云信息科技有限公司执行总监李俊涛、北京优特捷信息技术有限公司(日志易)技术总监饶琛琳、云智慧(北京)科技有限公司高级技术顾问杨路分别在其各自领域就智能运维的落地实践,以及与阿里巴巴智能故障管理平台结合后为客户带来的价值提升做了分享,让企业在智能化升级的过程中有更多的方案选择。

bf4abd5e911f3507609937c88ef8dc336d5a02ac


      分会场上技术专家的精彩演讲,得到了广泛好评,智能运维等词成为会场热议话题。不少参加会议的专家和观众表示,演讲很有收获,从技术和应用的层面对AI在运维领域的应用与实践有了更多更深的了解,也希望未来能够了解更多智能运维领域的技术和发展。 

 

了解更多AIOps故障管理解决方案,欢迎访问阿里云AIOps解决方案:

https://www.aliyun.com/solution/aiops

目录
相关文章
|
1月前
|
人工智能 程序员 数据处理
AI如何重塑软件开发生态
AI如何重塑软件开发生态
32 12
|
1月前
|
机器学习/深度学习 运维 监控
智能监控系统在运维中的应用与优势
传统的运维管理方式在面对日益复杂的IT系统时显得力不从心,智能监控系统的出现为运维工作带来了新的机遇。本文将探讨智能监控系统在运维中的应用与优势,介绍其工作原理以及如何有效地利用智能监控系统提升运维效率和质量。
51 2
|
28天前
|
存储 机器学习/深度学习 人工智能
AI仓库管理
AI仓库管理运用人工智能优化存储、订单处理、路径规划和库存管理,提高效率、准确性,降低成本。包括智能存储推荐、订单分配、拣选路径规划、图像识别、自然语言处理、预测分析、自动化操作和实时库存跟踪。此外,集成物联网、无人机、机器人和区块链技术,提升效率和安全性。AI仓库管理为商家带来智能化决策支持和自动化解决方案。
48 1
|
2月前
|
机器学习/深度学习 人工智能 运维
《未来智能运维:AI技术的应用与展望》
在当今数字化时代,智能运维正日益成为企业提升效率、降低成本的关键。本文将探讨人工智能技术在运维领域的应用现状与未来发展趋势,展望未来智能运维的发展前景。
134 1
|
1天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AIOps在未来网络管理中的应用与挑战
【5月更文挑战第4天】随着人工智能和大数据技术的飞速发展,智能化运维(AIOps)正逐渐成为IT运维领域的革新力量。本文探讨了AIOps在现代网络管理中的关键作用,分析了其在故障预测、自动化处理、以及提升决策效率方面的潜力。同时,文章还针对AIOps实施过程中面临的技术挑战、数据隐私及安全性问题进行了深入讨论,并提出了相应的解决策略。通过实际案例分析,本文旨在为读者提供一个关于AIOps在网络管理领域应用的全面视角。
|
3天前
|
运维 算法 物联网
五大智能运维场景
【5月更文挑战第3天】智能运维场景分5类:异常检测、根因诊断、故障自愈、事件预警、效能优化。
|
5天前
|
人工智能 运维 自然语言处理
构建高效自动化运维体系:DevOps与AI的融合之路
【4月更文挑战第30天】在数字化转型的大潮中,企业IT基础设施的复杂性日益增加,传统的运维模式已难以满足快速变化的业务需求。本文深入探讨了如何通过融合DevOps和人工智能(AI)技术构建一个高效、自动化的运维体系。文章首先概述了现代运维面临的挑战,接着分析了DevOps的核心理念以及AI如何在故障预测、智能决策支持等方面提升运维效率。最后,本文提出了一个具体的实施框架,并讨论了在推进过程中可能遇到的挑战及应对策略。
|
5天前
|
人工智能 运维 监控
构建高效自动化运维体系:DevOps与AI的融合实践
【4月更文挑战第30天】 在当今快速迭代的软件开发环境中,高效的自动化运维体系成为确保交付速度和服务质量的关键。本文探讨了如何通过整合DevOps理念和人工智能(AI)技术来构建一个更加智能、高效的运维体系。文章将详细阐述自动化运维的核心组件,以及如何利用AI技术优化这些组件的性能和决策过程。通过实际案例分析,本文展示了这种融合实践在提高运维效率、降低错误率以及提升系统稳定性方面的显著成效。
|
10天前
|
存储 人工智能 测试技术
【AI智能体】SuperAGI-开源AI Agent 管理平台
【4月更文挑战第9天】智能体管理平台SuperAGI简介及实践
|
12天前
|
存储 人工智能 数据库
【AI大模型应用开发】MemGPT原理与快速上手:这可能是目前管理大模型记忆的最专业的框架和思路
【AI大模型应用开发】MemGPT原理与快速上手:这可能是目前管理大模型记忆的最专业的框架和思路
28 0