容器服务Docker&Kubernetes 关注
手机版

Docker日志收集新方案:log-pilot

  1. 云栖社区>
  2. 容器服务Docker&Kubernetes>
  3. 博客>
  4. 正文

Docker日志收集新方案:log-pilot

太公 2017-02-09 20:35:01 浏览12069 评论8

摘要: 今天,我们将隆重介绍一款新的docker日志收集工具:fluentd-pilot。你可以在每台机器上部署一个fluentd-pilot实例,就可以收集机器上所有Docker应用日志。fluentd-pilot具有如下特性 一个单独fluentd进程,收集机器上所有容器的日志。

今天,我们将隆重介绍一款新的docker日志收集工具:log-pilot Github项目地址:https://github.com/AliyunContainerService/log-pilot 你可以在每台机器上部署一个log-pilot实例,就可以收集机器上所有Docker应用日志。log-pilot具有如下特性

  1. 一个单独log进程,收集机器上所有容器的日志。不需要为每个容器启动一个log进程
  2. 支持文件日志和stdout。docker log dirver亦或logspout只能处理stdout,log-pilot不光支持收集stdout日志,还可以收集文件日志。
  3. 声明式配置。当你的容器有日志要收集,只要通过label声明要收集的日志文件的路径,无需改动其他任何配置,log-pilot就会自动收集新容器的日志。
  4. 支持多种日志存储方式。无论是强大的阿里云日志服务,还是比较流行的elasticsearch组合,甚至是graylog,log-pilot都能把日志投递到正确的地点。
  5. 开源。log-pilot完全开源,代码在这里。如果现有的功能不满足你的需要,欢迎提issue,如果能贡献代码就更好了。

快速启动

下面我们先演示一个最简单的场景:我们先启动一个log-pilot,再启动一个tomcat容器,让log-pilot收集tomcat的日志。为了简单起见,这里先不涉及sls或者elk,如果你想在本地玩玩,只需要有一台运行docker的机器就可以了。

首先启动log-pilot。要注意的是,以这种方式启动,由于没有配置后端使用的日志存储,所有收集到的日志都会直接输出到控制台,所以主要用于调试。

打开终端,输入命令:

docker run --rm -it \
    -v /var/run/docker.sock:/var/run/docker.sock \
    -v /:/host \
    --privileged \
    registry.cn-hangzhou.aliyuncs.com/acs-sample/log-pilot:0.1

Screen_Shot_2017_02_08_at_10_15_18_PM

你会看到log-pilot启动的日志。别关终端。新开一个终端启动tomcat。tomcat镜像属于少数同时使用了stdout和文件日志的docker镜像,非常适合这里的演示。

docker run -it --rm  -p 10080:8080 \
-v /usr/local/tomcat/logs \
--label aliyun.logs.catalina=stdout \
--label aliyun.logs.access=/usr/local/tomcat/logs/localhost_access_log.*.txt \
tomcat

先解释下这里的配置。aliyun.logs.catalina=stdout告诉log-pilot这个容器要收集stdout日志,aliyun.logs.access=/usr/local/tomcat/logs/localhost_access_log.*.txt则表示要收集容器内/usr/local/tomcat/logs/目录下所有名字匹配localhost_access_log.*.txt的文件日志。后面会详细介绍label的用法。

如果你在本地部署tomcat,而不是在阿里云容器服务上,-v /usr/local/tomcat/logs也需要,否则log-pilot没法读取到日志文件。容器服务自动做了优化,不需自己加-v了。

log-pilot会监控Docker容器事件,发现带有aliyun.logs.xxx容器的时候,自动解析容器配置,并且开始收集对应的日志。启动tomcat之后,你会发现log-pilot的终端立即输出了一大堆的内容,其中包含tomcat启动时输出的stdout日志,也包括log-pilot自己输出的一些调试信息。

Screen_Shot_2017_02_08_at_10_27_59_PM
你可以打开浏览器访问刚刚部署的tomcat,你会发现每次刷新浏览器,在log-pilot的终端里都能看到类似如下的记录。其中message后面的内容就是从/usr/local/tomcat/logs/localhost_access_log.XXX.txt里收集到的日志。

使用Elasticsearch+Kibana

首先我们要部署一套Elastichsearch+Kibana,前面的文章里介绍过如何在阿里云容器服务里部署ELK,你可以参照文章在容器服务上直接部署,或者按照Elasticsearch/Kibana的文档直接在机器上部署,这里不再赘述。假设已经部署好了这两个组件。

如果你还在运行刚才启动的log-pilot,先关掉,使用下面的命令启动,执行之前,注意先把ELASTICSEARCH_HOST ELASTICSEARCH_PORT两个变量替换成你实际使用的值。ELASTICSEARCH_PORT一般是9200

docker run --rm -it \
    -v /var/run/docker.sock:/var/run/docker.sock \
    -v /:/host \
    -e FLUENTD_OUTPUT=elasticsearch \
    -e ELASTICSEARCH_HOST=${ELASTICSEARCH_HOST} \
    -e ELASTICSEARCH_PORT=${ELASTICSEARCH_PORT} \
    --privileged \
    registry.cn-hangzhou.aliyuncs.com/acs-sample/log-pilot:0.1

相比前面启动log-pilot的方式,这里增加了三个环境变量:

  • FLUENTD_OUTPUT=elasticsearch: 把日志发送到elasticsearch
  • ELASTICSEARCH_HOST=${ELASTICSEARCH_HOST}: elasticsearch的域名
  • ELASTICSEARCH_PORT=${ELASTICSEARCH_PORT}: elasticsearch的端口号

继续运行前面的tomcat,再次访问,让tomcat产生一些日志,所有这些新产生的日志都讲发送到elasticsearch里。打开kibana,这时候你应该还看不到新日志,需要先创建index。log-pilot会把日志写到elasticsearch特定的index下,规则如下

1. 如果应用上使用了标签aliyun.logs.tags,并且tags里包含target,使用target作为elasticsearch里的index,否则
2. 使用标签aliyun.logs.XXX里的XXX作为index

在前面tomcat里的例子里,没有使用aliyun.logs.tags标签,所以默认使用了accesscatalina作为index。我们先创建index access

Screen_Shot_2017_02_09_at_8_08_23_PM

创建好index就可以查看日志了。

Screen_Shot_2017_02_09_at_8_09_01_PM

在阿里云容器服务里使用log-pilot

容器服务是最适合log-pilot运行的地方,专门为log-pilot做了优化。要在容器服务里运行log-pilot,你需要做的仅仅是使用下面的编排文件创建一个新应用。

pilot:
  image: registry.cn-hangzhou.aliyuncs.com/acs-sample/log-pilot:0.1
  volumes:
    - /var/run/docker.sock:/var/run/docker.sock
    - /:/host
  privileged: true
  environment:
    FLUENTD_OUTPUT: elasticsearch #按照你的需要替换 
    ELASTICSEARCH_HOST: ${elasticsearch} #按照你的需要替换
    ELASTICSEARCH_PORT: 9200
  labels:
    aliyun.global: true

接下来,你就可以在要收集日志的应用上使用aliyun.logs.xxx标签了。

Label说明

启动tomcat的时候,我们声明了这样下面两个,告诉log-pilot这个容器的日志位置。

--label aliyun.logs.catalina=stdout 
--label aliyun.logs.access=/usr/local/tomcat/logs/localhost_access_log.*.txt 

你还可以在应用容器上添加更多的标签

  • aliyun.logs.$name = $path

    • 变量name是日志名称,具体指随便是什么,你高兴就好。只能包含0-9a-zA-Z_-
    • 变量path是要收集的日志路径,必须具体到文件,不能只写目录。文件名部分可以使用通配符。/var/log/he.log/var/log/*.log都是正确的值,但/var/log不行,不能只写到目录。stdout是一个特殊值,表示标准输出
  • aliyun.logs.$name.format,日志格式,目前支持

    • none 无格式纯文本
    • json: json格式,每行一个完整的json字符串
    • csv: csv格式
  • aliyun.logs.$name.tags: 上报日志的时候,额外增加的字段,格式为k1=v1,k2=v2,每个key-value之间使用逗号分隔,例如

    • aliyun.logs.access.tags="name=hello,stage=test",上报到存储的日志里就会出现name字段和stage字段
    • 如果使用elasticsearch作为日志存储,target这个tag具有特殊含义,表示elasticsearch里对应的index

扩展log-pilot

对于大部分用户来说,log-pilot现有功能足以满足需求,如果遇到没法满足的场景怎么办?

  1. https://github.com/AliyunContainerService/log-pilot/issues 提交issue
  2. 直接改代码,再提pr

地址

【云栖快讯】阿里云栖开发者沙龙(Java技术专场)火热来袭!快来报名参与吧!  详情请点击

网友评论

1F
heizi

犀利

2F
小子黑

你好,我是运维人员,请教下在日志输出的时候如果把容器镜像名称加入到输出中?

3F
小猫11

感觉收集的日志很乱

4F
dadfd

你好,启动容器报错, 环境 17.05.0-ce On CentOS 7.3 , registry.cn-hangzhou.aliyuncs.com/acs-sample/fluentd-pilo

docker run --rm -it \

-v /var/run/docker.sock:/var/run/docker.sock \
-v /:/host \
registry.cn-hangzhou.aliyuncs.com/acs-sample/fluentd-pilot

use default output

umount: can't unmount /host/var/lib/docker/devicemapper/mnt/f90da78a0ab43ae8d092d27f441742edf10de163dc7a3d9bc3938a08696d3feb/rootfs/sys/fs/cgroup/systemd: Operation not permitted
Traceback (most recent call last):
File "/pilot/entrypoint", line 34, in

cleanup()

File "/pilot/entrypoint", line 24, in cleanup

umount(volume)

File "/pilot/entrypoint", line 12, in umount

subprocess.check_call('umount %s' % volume, shell=True) 

File "/usr/lib/python2.7/subprocess.py", line 186, in check_call

raise CalledProcessError(retcode, cmd)

subprocess.CalledProcessError: Command 'umount /host/var/lib/docker/devicemapper/mnt/f90da78a0ab43ae8d092d27f441742edf10de163dc7a3d9bc3938a08696d3feb/rootfs/sys/fs/cgroup/systemd' returned non-zero exit status 1

帮忙看下,谢谢。

dzhmfc

偿试使用之前的fluentd-pilotr的版本进行启动,应该没问题。
我们这里显示fluentd-pilotr最新发布版本是6天前85.2MB:registry.cn-hangzhou.aliyuncs.com/acs-sample/fluentd-pilot latest fed8218d6363 6 days ago 85.2MB
好在我们其它节点有不能联互联网的保存了一个老版本(registry.cn-hangzhou.aliyuncs.com/acs-sample/fluentd-pilot latest 44de776774db 4 months ago 51.5MB),替换后正常启动并正常收集日志。

如果还是不行,就只能再等新版本,这两天我发现已经无法pull这个镜像,我这里报404错误。

我们的环境:centos7.3 docker-managers:17.06.0-ce, build 02c1d87 docker-worker:17.06.1-ce, build 874a737

新版本问题不断,慎用:...(

dadfd

谢谢,已经使用老板本的 fluentd-pilot:0.3 , 目前大概测试两周左右,发现2个新的问题,
1是: 创建容器时使用参数 -v /:/host ,导致系统频繁报错,rnode-4 systemd-logind: Failed to remove runtime directory /run/user/0: Device or resource busy 或者 remove /var/lib/docker/containers/cd5de061ad2a304d90f8766270e0782a16b15db649fb7d1a33d754d71243ba59/shm: device or resource busy"

2是: 如果重启 fluentd-pilot 容器,将导致 目标容器日志重复的,fluentd-pilot 重启次数与 目标日志重复数量成正比,例如 nginx 的日志,因为 重启过 fluentd-pilot 3次,则 nginx 容器的日志收集了3次;
2017-09-05 18:23:34.000 20da0f89abbb
10.0.x.23 - - [05/Sep/2017:18:23:34 +0800] "HEAD / HTTP/1.1" 200 0 "-" "curl/7.35.0" 123.124.21x.21x, 150.138.21x.13x 0.015
2017-09-05 18:23:34.000 20da0f89abbb
10.0.x.23 - - [05/Sep/2017:18:23:34 +0800] "HEAD / HTTP/1.1" 200 0 "-" "curl/7.35.0" 123.124.21x.21x, 150.138.21x.13x 0.015
2017-09-05 18:23:34.000 20da0f89abbb
10.0.x.23 - - [05/Sep/2017:18:23:34 +0800] "HEAD / HTTP/1.1" 200 0 "-" "curl/7.35.0" 123.124.21x.21x, 150.138.21x.13x 0.015

31346755

现在是17年11月份,laitest版本还是报这个错误

棍爷

启动后 一直报错 [error]: closed stream

太公

latest需要privileged权限启动,在docker run参数上加上--privileged就可以了。抱歉,这个文档一直没有更新。

评论
5F
1057383962432521

TIM_20180315125423请问这个组件对elasticsearch和kibana的版本有要求吗?我用的是6.2版本的es和kibana,但是log-pilot并没有把日志数据写入es中

6F
磨铁17号

如何让index按照天分割?

7F
220096809674882059

请问这个组件对elasticsearch和kibana的版本有要求吗?我用的是6.2版本的es和kibana,但是log-pilot并没有把日志数据写入es中

8F
1934824468994034

你好,我需要将取出的数据输出至多个redis中
-e REDIS_HOST=10.20.99.31,10.20.99.32,10.20.99.33 -e REDIS_PORT=6379
请问这里需要怎么写才可以成功输出至多个redis中呢

太公
文章17篇 | 关注346
关注
提供了高性能可伸缩的容器应用管理服务,支持在一组云服务器上通过Docker容器来进行应用生命... 查看详情
针对日志类数据的一站式服务,用户无需开发就能快捷完成数据采集、消费、投递以及查询分析等功能,... 查看详情
在云上签发Symantec、WoSign、CFCA证书,实现网站HTTPS化,使网站可信,防... 查看详情
为您提供简单高效、处理能力可弹性伸缩的计算服务,帮助您快速构建更稳定、安全的应用,提升运维效... 查看详情
双12

双12