阿里云监控服务 关注
手机版

上云就用云监控-新一代云监控

  1. 云栖社区>
  2. 阿里云监控服务>
  3. 博客>
  4. 正文

上云就用云监控-新一代云监控

裴旻 2018-05-22 15:07:32 浏览1101 评论0

摘要: 2018年4月2号,新一代的云监控正式上线商业化,为阿里云上用户提供功能强大,却简单易用的监控服务。让用户在上云后更放心,让云上的it基础设施更透明。 云监控 产生于阿里云飞天基础监控平台,内部服务于阿里百万级服务器和全球IDC监控。

2018年4月2号,新一代的云监控正式上线商业化,为阿里云上用户提供功能强大,却简单易用的监控服务。让用户在上云后更放心,让云上的it基础设施更透明。

云监控 产生于阿里云飞天基础监控平台,内部服务于阿里百万级服务器和全球IDC监控。

背景

未来是数字化经济时代,越来越多的企业接受并使用云计算服务,尤其是大企业,会使用包括IAAS,PAAS,SAAS等不同层次的服务。深度使用云计算服务,将给企业带来更高的IT效率,更低的IT成本,并享受云厂商提供的安全,弹性,高质量网络等在传统时代需要极高成本才能获取的价值,从而给企业带来更大的竞争力,使用企业在高竞争时代,更容易胜出。

但企业上云后,资源种类越来越多,资源数越来越多,为满足高可用、低延迟等用户诉求,资源会跨区域分布,节点遍布全国甚至全球,网络拓扑也越来越复杂。同时,资源也越来越不固定,传统物理机被虚拟机,容器,甚至serverless架构取代,原来相对固定的资源也被慢慢不断的弹性伸缩取代,以天猫双11为例,阿里产生数十万的虚拟机,在狂欢过后再回收,极大的提高效率,节省成本。

挑战

上云后,IT优势越来越明显,然而在这些优势下,IT基础设施也变得更加难以清晰掌握,这些资源的背后,在发生什么?系统运行的怎么样?如何快速全面的掌握IT系统的运转情况,实时了解系统发生的事件,及时了解系统瓶颈,变得越来越重要。

也就是说,面对这么复杂多变的it系统,面对各种服务实例的大量指标,事件,用户如何能快速的上手,快速完成监控的覆盖,变得极为重要。

简单易用且全面的监控变得越来越重要。

新一代的阿里云监控: 省时,省力,省心

--- 省时,省力

核心理念:效率,为云上用户提供全面却简单易用的监控服务。

基于云监控,您可以一键开启基础监控覆盖;打开某产品的一键报警开关,就可以为该产品的所有实例,都默认覆盖监控报警,非常便捷。

基于分组和报警模板,将报警模板,批量应用于不同的应用分组,可以快速实现大规模it基础设施的监控配置。

--- 省心

核心理念:全面,让用户可以获得一站式的监控体验。

云监控是云产品云服务的统一的监控入口。云服务的监控指标会在云监控统一汇总,目前汇总的指标包括30多款产品的500+的指标。所有这些指标都支持openapi获取,以集成到用户线下的it系统。在云监控,所有指标都可以在dashboard中配置展示可视化,都可以配置报警,

云监控同时也提供开放的接口,支持用户上报自定义的指标和错误事件。让用户可以将业务指标和系统基础监控整合在一起,提供更全面的监控。

核心理念:场景化解决方案,监控和其他产品深度打通。

云监控产品应用分组已经和包括PTS,云效,容器服务K8S集群,EMR,EHPC,ESS等产品尝试打通,在这些产品的应用,会直接在云监控中创建分组,并产生分组维度的聚合,并支持跨产品的资源加入一个应用分组。

很快,我们还将支持动态化的应用分组,进一步方便用户运维。进而实现运维自动化。

同时,云监控与Function Computer的集成也在进行中。未来基于FC,与云监控的系统事件,将进一步产生化学反应。实现云上的运维自动化。

云监控业务架构视图

阿里云监控致力于打造,面向云上企业级用户的开放的一站式的云监控服务.

image.png | left | 748x419

云监控产品功能集

一站式的面向企业级用户的开放式的云监控服务

Pasted Graphic 1.png | center | 748x457

云监控产品功能截图

app移动端运维周报

通过阿里云app查收运维周报,统计本周使用情况。

image.png | left | 748x425

资源概览

全局资源统计,水位,重要事件,报警概况等。

image.png | left | 748x416

遍布全球的网站监控

覆盖全球20+国家地区的阿里云IDC探测点,覆盖全国绝大多数地市级运营商的lastime的终端探测点。
为用户提供网站可靠性监控,竞品分析,域名劫持发现,互联网故障等高价值服务。

image.png | left | 748x418

只需一步,开启监控

image.png | left | 748x419

总结,新一代云监控的优势:

  • 全面指标丰富,近1000个的系统监控指标,以及越来越多的云系统事件(包括,宕机,hang机,rdsfailover等)
  • 灵活开放的自定义错误事件和指标,支持用户上报错误事件和指标,并支持按业务分组,跟云平台的系统事件统一展示管理
  • 全面开放的api,平台上的所有指标,报警,都可以通过api对接到用户线下的IT系统。
  • 越来越丰富的报警渠道,邮件,旺旺,钉钉,短信,电话,http,MNS,functioncomputer(正在接入中),
  • 一键安装却指标丰富的主机监控,支持准秒级(秒级采集,15秒聚合上报,平衡功能和和性能),进程级监控。
  • 灵活的资源分组, 支持将不同产品不同地域的资源回到一个分组统一管理,实现业务集群级监控管理。
  • 跟其他云服务深度集成,通过分组和pts,arms,云效,容器服务K8S集群,ehpc集群, emr集群等。为其他服务提供集群维度的更易用的监控视角。
  • 一站式的监控功能栈:主机监控,云服务监控,自定义指标,错误事件,站点监控,日志监控(结合阿里云日志服务)
  • 强大的站点监控,遍布全球20个国家地区的探针,覆盖全国约大部分地地市运营商的lastmile探针。

未来:

  1. 基于分组的主子账号授权,跨账号授权。提供企业级资源管理支持。
  2. 打通自动化运维,基于报警打通通知,运维。使更多运维动作自动化,
  3. 提供更高精度的监控指标。
  4. 云监控支持大型化,小型化部署,能够输出所有形态专有云。

云上监控就用云监控

云监控服务了数十万家阿里云的企业级用户,用户在云监控上创建了数以几十万计的监控大盘和应用分组,数以百万的报警规则。

云监控让云更透明,让用户上云更放心。让用户省时、省力、省心。

最后

云监控产品正在快速演进中,已经跟两年前的产品形态大不一样,欢迎过来看看,也欢迎加入云监控用户群,获得更多支持。

image.png | left | 748x987

【云栖快讯】阿里云栖开发者沙龙(Java技术专场)火热来袭!快来报名参与吧!  详情请点击

网友评论