201601上海云栖大会Workshop - 通过日志服务采集、分析日志

2016-01-18 3614

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通过日志服务采集、分析日志 (ETA: 20 分钟) 目标掌握阿里云日志服务基本功能成功收集Docker中日志，利用EMR（Spark Streaming，Hive）进行日志分析准备工作产品基本介绍(链接) 注意事项：日志服务当前免费使用，无耗费 Docker运行集群会产

通过日志服务采集、分析日志

(ETA: 20 分钟)

目标

掌握阿里云日志服务基本功能
成功收集Docker中日志，利用EMR（Spark Streaming，Hive）进行日志分析

准备工作

产品基本介绍(链接)
注意事项：
- 日志服务当前免费使用，无耗费
- Docker运行集群会产生费用

步骤1:收集容器、云主机日志

Logtail是Linux、Windows客户端，无需代码就能便捷完成日志收集工作，下面我们会演示如何收集Docker中WordPress日志数据。

收集wordpress访问日志，打开日志服务控制台，点击右上角"创建项目"，在这里我们可以创建yunqi-wordpress项目。当名字被占用后，请更换一个项目名
在项目下创建日志库（logstore），例如: wordpress-accesslog
日志服务提供两种方式进行日志收集：通过API或Agent（Logtail），这里我们演示客户端的流程
1. 选择linux服务器
2. 我们的日志位于"/var/log/wordpress.log"，因此分别填写父目录，以及日志文件路径
  - 父目录: /var/log
  - 文件路径：wordpress.log
3. 在服务器中添加Wordpress中访问日志，可以点击常见样例中的__示例四：WordPress默认日志格式__进行参考。WordPress访问日志如下:
```
172.64.0.2 - - [07/Jan/2016:21:06:39 +0800] "GET /wp-admin/js/password-strength-meter.min.js?ver=4.4 HTTP/1.0" 200 776 "http://wordpress.c4a1a0aecdb1943169555231dcc4adfb7.cn-hangzhou.alicontainer.com/wp-admin/install.php" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36"
```
4. 点击生成行首正则表达式
  
  行首正则表达式为了区分换行部分属于本行、还是换行日志，例如我们认为以ip开头的是独立的日志
5. 指定日志解析正则表达式。Logtail 提供本地结构化功能，用户可以生成在客户端对日志进行切分。如果不需要，也可将整条日志作为一个Key、Value进行切分
  - 通过正则表达式将文本进行切分，在收集端对日志进行切分对于格式固定的日志，能够减少后期分析的代价，用户也可以将整条日志一并发送到Server端进行处理。可以在刚才打开的常见样例中的__示例四：WordPress默认日志格式__直接复制。
```
(\S+) - - \[([^\]]*)] "(\S+) ([^"]+)" (\S+) (\S+) "([^"]+)" "([^"]+)"
```
  - 对每一个切分单元提供标签,例如
```
| Key | Value |
|-----|-------|
| ip  | 127.64.0.2| 
| time  | 07/Jan/2016:21:06:39 +0800 |
| method | GET |
| url | /wp-admin/js/password-strength-meter.min.js?ver=4.4 HTTP/1.0 |
| status | 200 |
| length | 776 |
| ref      | http://wordpress.c4a1a0aecdb1943169555231dcc4adfb7.cn-hangzhou.alicontainer.com/wp-admin/install.php |
| user-agent | Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36 |
```
  __注意__:Key列表中需要包含__time__字段，以让系统识别日中中时间
6. 配置完成后，需要添加机器组，并应用配置使得收集生效
7. 创建一个机器组“wordpress-group"，填写需要收集日志机器内网IP至机器组
  - 内网IP获取方法：打开容器服务控制台，集群->集群名称/ID->配置信息->内网IP
8. 大功告成！一分钟内日志收集配置就会生效，开始收集实时日志数据
  __提示__:可以通过项目中"机器组管理" 查看状态，以验证是否生效。如果状态是Fail，请根据提示排查
点击"日志消费"->"预览"既可以顺序浏览指定Shard中日志数据。

为了加快日志产生速度，我们可以尝试在wordpress中发帖，回复，浏览等以产生访问日志

步骤2:消费日志数据(实时分析、日志查询、日志投递）

日志服务与多个下游产品进行集成，可以实时、离线、批量消费日志数据。以下我们演示实时分析、以及查询两个场景。

实时消费: 我们启动Dashboard应用演示对博客日志实时分析效果
1. 打开容器服务控制台，选择编排模板->yunqi-wordpress-view->创建应用。
2.选择创建名为"yunqi-wordpress-view-default"应用，部署在"yunqi-test"集群中

3.点击菜单中的服务, "wordpress-view", 访问端点打开应用

4.该应用通过实时读取日志服务中的日志，统计博客访问情况，各参数如下:
- LogService服务地址: http://cn-hangzhou.sls.aliyuncs.com/ (默认无需修改)
- AccessKeyId/AccessKey: 在AK页面上可以获得
- Project/LogStore：收集wordpress访问日志的Project, Logstore
  
  5.点击刷新、发表一些博客，看看日志实时分析的结果:
日志查询: LogSearch提供了对日志索引，支持基于关键词的查询。
1. 回到Project，对wordpress-accesslog日志库__日志消费模式__下__日志索引__点击创建，对需要查询的字段建立索引
1. 一分钟内配置生效，既可进行日志查询
离线消费
1. 日志服务可以将日志投递至OSS、ODPS进行离线计算，感兴趣可以点击日志投递进行了解

补充材料

日志服务：针对日志垂直场景的一站式服务，在阿里巴巴集团内部被广泛使用，参见介绍页面
项目（Project） : 每个项目具有唯一的地址和名字，提供唯一的访问地址
日志库（Logstore） :
- 日志库是日志管理单元，在项目下唯一。例如应用有access-log, click-log, error-log等三种日志，我们就可以创建三个logstore。
- 日志库提供48小时临时存储，用户可以实时消费48小时内任意区间的日志文件，如果需要更长时间存储，可以投递到OSS、ODPS，或建立索引进行查询
Logtail：收集日志客户端，参考
除杭州外其他Region需要修改地方：
1. wordpress资源编排模板environment:- log_region=cn_hangzhou，改为对应Region，如cn_shenzhen
2. 实时消费程序LogService服务地址: http://cn-hangzhou.sls.aliyuncs.com/ 改为对应Region，如 http://cn-shenzhen.sls.aliyuncs.com/

201601上海云栖大会Workshop - 通过日志服务采集、分析日志

通过日志服务采集、分析日志

目标

准备工作

步骤1:收集容器、云主机日志

步骤2:消费日志数据(实时分析、日志查询、日志投递）

补充材料

热门文章

最新文章

相关课程

相关电子书

相关实验场景