Kubernetes Ingress 日志分析与监控的最佳实践

2019-03-14 24561

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

容器镜像服务 ACR，镜像仓库100个不限时长

简介： Ingress主要提供HTTP层（7层）路由功能，是目前K8s中HTTP/HTTPS服务的主流暴露方式。为简化广大用户对于Ingress日志分析与监控的门槛，阿里云容器服务和日志服务将Ingress日志打通，只需要应用一个yaml资源即可完成日志采集、分析、可视化等一整套Ingress日志方案的部署。

前言

目前Kubernetes（K8s）已经真正地占领了容器编排市场，是默认的云无关计算抽象，越来越多的企业开始将服务构建在K8s集群上。在K8s中，组件通过Service对外暴露服务，常见的包括NodePort、LoadBalancer、Ingress等。其中Ingress主要提供HTTP层（7层）路由功能，相比TCP（4层）的负载均衡具备非常多的优势（路由规则更加灵活、支持金丝雀、蓝绿、A/B Test发布模式、SSL支持、日志、监控、支持自定义扩展等），是目前K8s中HTTP/HTTPS服务的主流暴露方式。

Ingress简介

K8s中Ingress只是一种API资源的声明，具体的实现需要安装对应的Ingress Controller，由Ingress Controller接管Ingress定义，将流量转发到对应的Service。目前Ingress Controller的实现有非常多种（具体可以参考Ingress Controller官方文档），比较流行的有Nginx、Traefik、Istio、Kong等，在国内接受度最高的是Nginx Ingress Controller。

日志与监控

日志和监控是所有Ingress Controller都会提供的基础功能，日志一般包括访问日志（Access Log）、控制日志（Controller Log）和错误日志（Error Log），监控主要从日志以及Controller中提取部分Metric信息。这些数据中访问日志的量级最大、信息最多、价值也最高，一般7层的访问日志包括：URL、源IP、UserAgent、状态码、入流量、出流量、响应时间等，对于Ingress Controller这种转发型的日志，还包括转发的Service名、Service响应时间等额外信息。从这些信息中，我们能够分析出非常多的信息，例如：

网站访问的PV、UV；
访问的地域分布、设备端分布；
网站访问的错误比例；
后端服务的响应延迟；
不同URL访问分布。

我们的开发、运维、运营、安全等人员可以基于这些信息完成各自的需求，例如：

新老版本发布前后的数据指标对比；
网站质量监控、集群状态监控；
恶意攻击检测、反作弊；
网站访问量统计、广告转化率统计。

然而手动搭建、运维一整套的Ingress日志分析与监控系统非常复杂，系统所需要的模块有：

部署日志采集Agent并配置采集、解析规则；
由于K8s集群中，访问量相对较大，因此需要搭建一个缓冲队列，例如Redis、Kafka等；
部署实时数据分析引擎，例如Elastic Search、clickhouse等；
部署可视化组件并搭建报表，例如grafana、kibana等；
部署告警模块并配置告警规则，例如ElastAlert、alertmanager等。

阿里云日志服务Ingress解决方案

为简化广大用户对于Ingress日志分析与监控的门槛，阿里云容器服务和日志服务将Ingress日志打通（官方文档），只需要应用一个yaml资源即可完成日志采集、分析、可视化等一整套Ingress日志方案的部署。

Ingress可视化分析

日志服务默认为Ingress创建5个报表，分别是：Ingress概览、Ingress访问中心、Ingress监控中心、Ingress蓝绿发布监控中心、Ingress异常检测中心。不同角色的人员可根据需求使用不同的报表，同时每个报表均提供筛选框用于筛选特定的Service、URL、状态码等。所有的报表均基于日志服务提供的基础可视化组件实现，可根据公司实际场景进行定制化调整。

Ingress概览

Ingress概览报表主要展示当前Ingress的整体状态，主要包括以下几类信息：

整体架构状态（1天），包括：PV、UV、流量、响应延迟、移动端占比、错误比例等；
网站实时状态（1分钟），包括：PV、UV、成功率、5XX比例、平均延迟、P95/P99延迟等；
用户请求类信息（1天），包括：1天/7天访问PV对比、访问地域分布、TOP访问省份/城市、移动端占比、Android/IOS占比等；
TOPURL统计（1小时），包括：访问TOP10、延迟TOP10、5XX错误TOP10、404错误TOP10。

Ingress访问中心

Ingress访问中心主要侧重于用于访问请求相关的统计信息，一般用于运营分析，包括：当日UV/PV、UV/PV分布、UV/PV趋势、TOP访问省份/城市、TOP访问浏览器、TOP访问IP、移动端占比、Android/IOS占比等。

Ingress监控中心

Ingress监控中心主要侧重于网站实时监控数据，一般用于实时监控与告警，包括：请求成功率、错误比例、5XX比例、请求未转发比例、平均延迟、P95/P99/P9999延迟、状态码分布、Ingress压力分布、Service访问TOP10、Service错误TOP10、Service延迟TOP10、Service流量TOP10等。

Ingress蓝绿发布监控中心

Ingress蓝绿发布监控中心主要用于版本发布时的实时监控与对比（版本前后对比以及蓝绿版本当前对比），以便在服务发布时快速检测异常并进行回滚。在该报表中需要选择进行对比的蓝绿版本（ServiceA和ServiceB），报表将根据选择动态显示蓝绿版本相关指标，包括：PV、5XX比例、成功率、平均延迟、P95/P99/P9999延迟、流量等。

Ingress异常检测中心

Ingress异常检测中心基于日志服务提供的机器学习算法，通过多种时序分析算法从Ingress的指标中自动检测异常点，提高问题发现的效率。

实时监控与告警

Ingress作为K8s网站请求的主要入口，实时监控与告警是必不可少的Ops手段之一。在日志服务上，基于上述的报表，只需3个简单的步骤即可完成告警的创建。下述示例为Ingress配置5XX比例的告警，告警每5分钟执行一次，当5XX比例超过1%时触发。

除了通用的告警功能外，日志服务还额外支持：

多维度数据关联，即通过多组SQL结果交叉判断进行告警，增加告警准确度；
除支持短信、语音、通知中心、email外，还支持钉钉机器人通知、自定义WebHook扩展；
告警的记录也以日志的形式记录，可以实现对告警失败进行告警的双保险。

订阅报告

日志服务除支持通过告警方式通知外，还支持报表订阅功能，可使用该功能将报表定期渲染成图片并通过邮件、钉钉群等方式发送。例如每天早上10点向运营群中发送昨日网站访问情况、每周发送报告到邮件组中存档、新版本发布时每5分钟发送一次监控报表...

自定义分析

如果容器服务Kubernetes版提供的默认报表无法满足你的分析需求，可以直接使用日志服务SQL、仪表盘等功能进行自定义的分析和可视化。

尝鲜

为了让大家可以体验Kubernetes审计日志功能，我们特别开通了体验中心，大家可以通过 https://sls.aliyun.com 进入，该页面提供了非常多和Kubernetes相关的报表。

Kubernetes Ingress 日志分析与监控的最佳实践

前言

Ingress简介

日志与监控

阿里云日志服务Ingress解决方案

Ingress可视化分析

Ingress概览

Ingress访问中心

Ingress监控中心

Ingress蓝绿发布监控中心

Ingress异常检测中心

实时监控与告警

订阅报告

自定义分析

尝鲜

参考文档

容器服务

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

Kubernetes Ingress 日志分析与监控的最佳实践

前言

Ingress简介

日志与监控

阿里云日志服务Ingress解决方案

Ingress可视化分析

Ingress概览

Ingress访问中心

Ingress监控中心

Ingress蓝绿发布监控中心

Ingress异常检测中心

实时监控与告警

订阅报告

自定义分析

尝鲜

参考文档

容器服务

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

推荐镜像