优云APM最佳实践: 诊断平安城市视频网性能问题

简介: 平安城市已经是一个关系你我他的民生工程,但由于本身系统的复杂性,给运维工作带来了极大的挑战。如何保障摄像头在线率?
3a0e0190bb689750e37f85d6b01e341a9502af6c 
5 分钟前 上传
下载附件 (166.88 KB)


前言:

平安城市已经是一个关系你我他的民生工程,但由于本身系统的复杂性,给运维工作带来了极大的挑战。如何保障摄像头在线率?如何在系统中找到视频系统故障的问题所在?在我们某一次项目经历中, 优云APM 在发现问题,定位故障等方面,起了很大作用,帮助我们顺利的定位到了系统的故障所在。

平安城市是一个特大型、综合性非常强的管理系统,不仅需要满足治安管理、城市管理、交通管理、应急指挥等需求,而且还要兼顾灾难事故预警、安全生产监控等方面对图像监控的需求,同时还要考虑报警、门禁等配套系统的集成以及与广播系统的联动。

处于平安城市系统核心地位的视频监控系统,架构复杂。组成系统有成千上万的高清摄像头、数以千计视频系统、数以百计的卡口系统、以及背后复杂的存储和管理系统;同时横跨多种网络,包括4G,以太网,光纤网。摄像头在线率,随时随地迅速调取视频,就是整个视频系统成效的关键指标。

最近接到客户反馈,视频网看起来挺正常,监控看到摄像头在线率也挺好,各个市级子系统检测结果都挺正常,但就是打开视频很慢。接到情况, 优云 马上组织了技术人员前往。

>>>>业务请求跟踪,什么慢?

在初步了解后,我们对视频应用平台整体结构进行了梳理,整个应用平台分成两个层次,省级和各个市级,多达十几个个子系统,这里我们介绍一下主要的架构,并且选定关键路径侦听镜像。

41ab1107d17f1b032d91204b3e7a4dc71dbf7a84 

通过安装部署 优云APM ,跟踪观察省级SIP信令,横向综合比较请求多维度信息。我们发现成功率和响应时间与请求量存在明显的关系,当请求量上升时,系统成功率大幅下降,而响应时间大幅上升。省级SIP请求次数与成功率、响应时间的变化关系如下图所示:

f5fc09ac0465ebd4ce8fdaed99967177d4657bf4 

>>>>单次业务链跟踪,哪里慢?

在发现了请求响应迟缓之后,我们进一步用 优云APM 单笔跟踪功能,跟踪单一次SIP请求过程,发现大量的错误和时延,确定最终错误根源在某市级SIP服务器,即省级向市级发起SIP调用过程,市级返回错误,调用失败。

fd42a295f6bafe6a1b78997aef35eb64653a0ea3 

从一次摄像头视频请求的过程来看,从省级发起视频请求,到返回,市级SIP服务器响应时间过长。

>>>> 模拟分析,为什么慢?

到目前为止,问题基本上锁定在市级的SIP服务器一端。我们对市级的两万多摄像头巡检。发现成功率4.4%,有返回,但是错误返回9.6%,无返回超时86%。

从市级SIP服务器指令监控结果来看,同样发现成功率和响应时间与请求量存在明显的关系,当请求量上升时,系统成功率大幅下降,同时响应时间大幅上升。甚至有到1分钟以上。

8675cc3e876401bbc766d9efb1cbdcd1d425ccda 

是什么原因导致了市级的服务器在处理连续请求,仅仅响应了部分请求之后就连续报出错误信息?我们分析了市级SIP服务器的每次响应的时间和状态关系,最终发现高并发的情况下SIP服务器没有正确结束请求,释放资源,导致不能继续处理后续的请求。

事情终于有了一个结果,但对运维探索却才刚刚开始。由于一般客户的视频系统大量的采用了虚拟化,云化系统建设,使得传统运维,定点监测的方案在当前的系统架构下已经不能完全胜任。运维如何跟上业务系统的敏捷开发的脚步?得益于优云前瞻的运维方案,快速的、敏捷的,动态跟踪用户的软件架构,有效的帮助定位和解决问题。

作者:刘成穆

·          优云软件 资深架构师
·         10多年IT运维管理软件的研发经验
·         主要从事应用性能管理的研究和开发工作

优云:秉承devops的理念,从监控、到应用体验,到自动化持续交付,全栈运维服务平台。

“ 活动期:现到2016年12月31日前免费,欢迎详询:https://uyun.cn ”


更多运维技术文章请关注优云官方微信(broada_ops)

1917ca1fc8557ca87de0380e0cd17470f2b57de1

相关文章
产品设计-服务拓扑关系-apm-基础设施-paas-产品设计-调用关系-性能
产品设计-服务拓扑关系-apm-基础设施-paas-产品设计-调用关系-性能
70 0
产品设计-服务拓扑关系-apm-基础设施-paas-产品设计-调用关系-性能
|
监控 Java 数据挖掘
Android线上轻量级APM性能监测方案
Android线上轻量级APM性能监测方案
855 0
Android线上轻量级APM性能监测方案
|
监控 测试技术 API
移动端性能监测工具篇之U-APM
移动端性能监测工具篇之U-APM
312 0
|
运维 监控 Java
APP性能监测工具之友盟的 U-APM产品入门使用
最近公司做了一款新的APP,要求能够看到用户每天的新增量和活跃量,还有一些页面的点击量、停留时间等的监测,还有更重要的一点就是能够监测到app的异常情况。于是开始对第三方工具开始一番研究,对比之后我选择使用了友盟。
APP性能监测工具之友盟的 U-APM产品入门使用
|
2月前
|
监控 Java 索引
|
存储 JSON 监控
APM监控 · 入门篇 · Android端测监控平台建设(1)
APM 全称 Application Performance Management & Monitoring (应用性能管理/监控) 性能问题是导致 App 用户流失的罪魁祸首之一,如果用户在使用我们 App 的时候遇到诸如页面卡顿、响应速度慢、发热严重、流量电量消耗大等问题的时候,很可能就会卸载掉我们的 App。这也是我们在目前工作中面临的巨大挑战之一,尤其是低端机型。
2062 0
APM监控 · 入门篇 · Android端测监控平台建设(1)
|
2月前
|
Kubernetes 监控 安全
Kustomize 生产实战 - 注入监控 APM Agent
Kustomize 生产实战 - 注入监控 APM Agent
|
7月前
|
消息中间件 监控 Java
消息队列和应用工具产品体系-ARMS 监控种类简介(2)
消息队列和应用工具产品体系-ARMS 监控种类简介(2)
308 1
消息队列和应用工具产品体系-ARMS 监控种类简介(2)
|
4月前
|
监控 Kubernetes Cloud Native
多语言应用监控最优选,ARMS 应用监控 eBPF 版正式发布
多语言应用监控最优选,ARMS 应用监控 eBPF 版正式发布
131276 41
|
5月前
|
存储 监控 Java
微服务轮子项目(22) -APM监控(SkyWalking)
微服务轮子项目(22) -APM监控(SkyWalking)
220 0