Logtail从入门到精通（四）：正则表达式Java日志采集实战

2018-05-12 7373

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，20GB 3个月

对象存储 OSS，恶意文件检测 1000次 1年

日志服务 SLS，月写入数据量 50GB 1个月

简介： 为简化日志接入门槛，我们提供了极简模式的日志解析方式（如[开启日志采集之旅]()中的介绍）。为了更好的对日志进行分析，我们还提供了其他解析方式，例如：分隔符模式、完整正则模式、JSON模式等。本文将为大家介绍如何使用完整正则解析模式。

前言

为简化日志接入门槛，我们提供了极简模式的日志解析方式（如开启日志采集之旅中的介绍）。为了更好的对日志进行分析，我们还提供了其他解析方式，例如：分隔符模式、完整正则模式、JSON模式等。本文将为大家介绍如何使用完整正则解析模式。

日志解析介绍

日志采集最终目的还是为了分析，通常分析都要基于结构化或半结构化的数据，因此日志解析是整个日志解决方案中非常重要的一个部分。解析可以理解为从无结构化到半结构化的过程，即将文件中一行或多行文本变为一个个key&value对。

示例

例如对以下日志/log/error.log：

[2018-05-11T20:10:16,000] [INFO] [SessionTracker] [SessionTrackerImpl.java:148] Expiring sessions
java.sql.SQLException: Incorrect string value: '\xF0\x9F\x8E\x8F",...' for column 'data' at row 1
at org.springframework.jdbc.support.AbstractFallbackSQLExceptionTranslator.translate(AbstractFallbackSQLExceptionTranslator.java:84)
at org.springframework.jdbc.support.AbstractFallbackSQLException

可以解析成

time : 2018-05-11T20:10:16,000
level : INFO
method : SessionTracker
file : SessionTrackerImpl
line : 148
message : Expiring sessions
            java.sql.SQLException: Incorrect string value: '\xF0\x9F\x8E\x8F",...' for column 'data' at row 1
            at org.springframework.jdbc.support.AbstractFallbackSQLExceptionTranslator.translate(AbstractFallbackSQLExceptionTranslator.java:84)
            at org.springframework.jdbc.support.AbstractFallbackSQLException

解析所处阶段

对于不同的产品，日志解析在整个链路中所处的位置会有一定的区别，一般分为两类：schema on write 和 schema on read：

schema on write 是在进入存储系统前就已经将数据半结构化完毕。例如ES、GrayLog、MaxCompute等
schema on read 在写入时并不进行解析，只存储原始数据，当读取时再进行解析。例如Splunk、Sumologic

关于schema on write 还是 schema on read 的比较这里就不再展开，目前日志服务是采用的schema on write形式，Logtail在写入前会将原始日志解析成Key&Value对。

解析方式

Logtail会不定期增加新的解析方式，具体可参考文本日志采集。

正则解析配置

正则解析配置流程如下文所示，下面我们将以解析/log/error.log为示例来向大家介绍如何使用正则方式解析日志。

创建正则模式采集配置

在Logstore列表页面中，点击待存储logstore的数据接入向导图标。
选择自建软件中的文本文件。
在跳转的采集配置页面中选择完整正则模式。

正则解析配置

自动配置

为尽可能减轻您的配置负担，我们提供了自动生成的配置方式，您可以使用鼠标点击、拖拽即可完成采集配置。具体配置请参考以下视频：

此处为语雀视频卡片，点击链接查看：

手动配置

自动生成正则的配置方式较为简单，但有可能存在以下情况：

生成的正则并不一定能完全匹配您的日志模式
某些复杂的日志样例无法自动提取出可用模式
自动生成的正则匹配效率无法达到最优

因此某些情况下您还需要手动去提取正则。Logtail支持的是PCRE方式的正则表达式，建议您使用一些正则表达式工具进行编写和调试，例如regextester, regex101等

手动配置正则模式主要分为下述三个过程

配置行首正则

对于Java应用中的程序日志，一条日志通常会跨越多行，因此只能通过日志开头的特征区分每条日志行首。这里我们的示例是一个典型的Java错误堆栈日志，因此需要配置行首正则表达式。

注意：行首正则表达式需要完整匹配一行，因此一般在表达式最后加上.*

解析字段

通过行首正则能够从原始文件中将日志一条条切分出来，接下来需要将切分后的整条日志再次分解成key&value对。

注意：需要提取的字段用()包裹；key不要填在正则中，直接在控制台输入

提取时间

每条日志在服务日志都必须包括该日志发生的时间戳信息。Logtail默认会将采集时间作为日志时间。如果您的日志中有时间信息，建议配置时间提取规则，将日志时间映射为日志服务中的日志时间戳。

Logtail时间解析使用的是UNIX的strftime规则，具体请参考配置时间格式

注意：时间默认从日志key中的time字段提取

Logtail从入门到精通（四）：正则表达式Java日志采集实战

前言

日志解析介绍

示例

解析所处阶段

解析方式

正则解析配置

创建正则模式采集配置

正则解析配置

自动配置

手动配置

配置行首正则

解析字段

提取时间

数据采集效果

相关文档和参考

云存储

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

Logtail从入门到精通（四）：正则表达式Java日志采集实战

前言

日志解析介绍

示例

解析所处阶段

解析方式

正则解析配置

创建正则模式采集配置

正则解析配置

自动配置

手动配置

配置行首正则

解析字段

提取时间

数据采集效果

相关文档和参考

云存储

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景