0、引言

在处理日志数据时,我们经常面临将非结构化文本转换为结构化数据的挑战。

Logstash 作为一个强大的日志管理工具,提供了一个名为 Grok 的过滤器插件,专门用于解析复杂的文本数据。

后文会解读,功能远不止于此......

关于 Grok 过滤器插件,咱们之前有过两篇文章讲解:

1、干货 | Logstash自定义正则表达式ETL实战

2、干货 | Logstash Grok数据结构化ETL实战

Grok 在日志分析和管理中发挥着关键作用,尤其是在解构和解析原始非结构化日志数据时。

d7c17e8e8b24cdf445c237bcc6e3eee0.jpeg

1、Grok 过滤器功能

正如 Elastic 官方文档介绍:Grok 过滤器是一个用于将非结构化日志数据解析成结构化且可查询格式的强大工具。

https://www.elastic.co/guide/en/logstash/current/plugins-filters-grok.html

这个工具特别适用于系统日志、Apache 以及其他 Web 服务器日志、MySQL 日志,以及通常为人类阅读而非计算机处理而编写的任何日志格式。

Logstash 默认携带大约 120 种模式。

1ce56b1c1a2cbba56e19f75d288cf8ab.png

参见:

https://github.com/logstash-plugins/logstash-patterns-core/tree/master/patterns

如果需要帮助来构建匹配你的日志的模式,你会发现这两个应用程序非常有用!

  • http://grokdebug.herokuapp.com

  • http://grokconstructor.appspot.com/

第一个链接已无法访问,第二个链接是 grok 构建工具,实际其功能在 kibana 端已经完美集成,后文会有解读。

74ff5a0c7bc558c83434acd771985e00.png

Grok过滤器不仅仅是一个简单的文本匹配工具;它是一个强大的数据解析和转换工具,具有广泛的应用范围和灵活性。

以下是Grok过滤器的一些高级功能:

  • 功能1:复杂日志解析

Grok能够处理复杂的、多格式的日志数据。

如前所述,它可以解析不同格式和结构的日志,如Apache日志、系统日志、数据库日志等,将非结构化文本转换为结构化数据。

  • 功能2:模式重用和模块化

Grok通过预定义的模式提供了高度的模块化和重用性。

用户可以根据需要组合这些模式,甚至可以创建自定义模式。

这种模式的重用性大大降低了解析复杂日志的复杂性。

  • 功能3:字段提取和转换

Grok不仅可以匹配日志中的数据,还可以将匹配的数据提取为字段

这些字段可以进一步用于日志数据的分析、可视化和报告。

  • 功能4:数据类型转换

Grok在提取数据时,还支持基本的数据类型转换

例如,它可以将匹配的字符串转换为整数、浮点数或布尔值,这对于后续的数据处理尤为重要。

  • 功能5:日志数据清洗和标准化

Grok过滤器可以帮助清洗日志数据,去除无用信息,同时标准化不同源的日志格式,使其具有一致性,便于集中处理和分析。

  • 功能6:错误处理和调试

在解析复杂日志时,可能会遇到格式不匹配的情况。

Grok 允许用户为这些情况配置错误处理逻辑,如忽略错误、记录错误等。

此外,使用 Grok Debugger 可以帮助用户快速定位修复模式匹配中的问题,后文会介绍。

db923133039d8f7a86313abb09dde181.png

2、Grok 过滤器工作原理

Grok 工作原理是:基于正则表达式。它预定义了大量的模式,用于匹配文本中的特定结构,如IP地址、时间戳、引号字符串等。

Grok 使用户能够通过组合这些模式来匹配、解析并重构日志数据。

用户可以根据需求,自定义模式来匹配特定的日志格式。

刚才提到了几个关键字:基于正则表达式、模式组合、自定义模型、命名捕获组。

我们逐一展开讨论一下。

2.1 基于正则表达式

  • 原理:Grok使用正则表达式来解析文本。每个Grok模式都是一个命名的正则表达式,用于匹配日志中的特定部分。

  • 例子:使用 %{IP:client} 模式来匹配并命名一个IP地址。

在日志文本 "Client IP: 192.168.1.1" 中,该模式将匹配并提取 192.168.1.1 作为字段 client。

8c46f2429159d61a889df2f6c2092558.png 00c235e2bac26b330a7882ab2a8cba53.png

2.2 模式组合

  • 原理:用户可以将预定义的模式组合起来,以匹配和解析复杂的日志格式。这允许灵活处理多种日志结构。

  • 例子:结合 %{IPORHOST:client} 和 %{TIMESTAMP_ISO8601:timestamp} 来匹配日志条目 "192.168.1.1 [2021-01-01T12:00:00]",提取出客户端IP和时间戳。

43bc5053468d0a1b1f486631a44ceb8a.png

2.3 自定义模式

  • 原理:如果预定义的模式不足以满足特定需求,用户可以创建自定义模式。

  • 例子:创建一个模式%{YEAR:year}-%{MONTHNUM:month}-%{MONTHDAY:day}来匹配日期格式 "2021-01-01",这个模式可以用于解析特定格式的日期数据。

9e817be5fe26583619217e1e1c6a663d.png

2.4 命名捕获组

  • 原理:Grok 模式中的每个正则表达式部分都可以被命名和捕获,这样解析出的每一部分都可以被赋予一个易于理解的字段名。

  • 例子:在日志条目 "Error: File Not Found" 中,使用模式 %{WORD:error_type}: %{GREEDYDATA:message} 来分别捕获和命名错误类型和错误消息。

31421989891621ddbfac334e64e7d66e.png

3、Grok 应用场景解读

如前所述:Grok过滤器在各种日志分析场景中都非常有用。例如:

  • 场景1:对于安全日志分析,Grok可以帮助提取IP地址、用户名、时间戳等关键信息;

  • 场景2:在系统监控中,它可以解析和格式化系统日志,以便于监控工具的进一步分析。......

4、Grok 过滤器实战问题引出

来自微信群实战问题:一个常见的应用场景是,当日志数据由多个字段组成,且以特定分隔符(如"|")分隔时,我们需要从中提取和转换关键信息。

c66768f8e1f6061e3b78d0a68f848a0a.png

以以下日志为例:

2023-12-26 05:50:12,169 | INFO | HiveServer2-Handler-Pool: Thread-1689368 | UserName=sjzt_dwzyywzt UserIP=172.10.10.97 Time=2023/12/26 05:50:12 Operation=ExecuteStatement stmt={select * from ywzt.VOLT_SINGLE_RATE_D where dt = '2023-12-22' and rownum > 4482000 and rownum <= 4484000} Result= Detail= | org.apache.hive.service.cli.thrift.ThriftCLIService.logAuditEvent(ThriftCLIService.java:496)

5、Grok 过滤器解答实战问题

为了从上述日志中提取有用信息,我们可以使用Logstash的Grok过滤器。

以下是针对该日志的Grok模式配置:

filter {
  grok {
    match => { "message" => "%{TIMESTAMP_ISO8601:log_timestamp} \| %{LOGLEVEL:log_level} \| %{DATA:thread} \| %{GREEDYDATA:message_detail}" }
  }
}

在这个配置中:

  • %{TIMESTAMP_ISO8601:log_timestamp} 匹配并提取日志的时间戳。

  • %{LOGLEVEL:log_level} 用于识别日志级别(如INFO)。

  • %{DATA:thread} 匹配线程信息。

  • %{GREEDYDATA:message_detail} 匹配剩余的详细信息。

e9d477ec79179f8e2d53bd3683f3f8fd.png

6、Grok Debugger 是个好工具

为了确保 Grok 模式正确无误,建议使用Grok Debugger进行测试和调整。

这是一个在线工具,能够帮助您验证和优化您的 Grok 模式。其实前面都反复介绍了,黑色的几个截图就是。

建议咱们要使用好这个调试工具,提高我们的效率。

7、结论

综上所述,Grok过滤器是Logstash的核心组件之一,提供了强大而灵活的日志解析能力。

它可以大大简化日志数据处理的过程,帮助用户从庞大而复杂的日志数据中提取有价值的信息

Grok的高级功能使其成为日志分析领域不可或缺的工具,无论是对于初学者还是经验丰富的专业人士。

通过精确和高效的日志解析,Grok帮助用户提升了对日志数据的理解,加快了问题的定位和解决,从而提升了整体的运维和监控效率。


新书上线一周,荣登京东编程语言与程序设计榜热卖榜第6名,多谢各位读者的鼎力支持,一并感谢!

0ec851fba8c2c088643fa6ed3db16533.png

7 年+积累、 Elastic 创始人Shay Banon 等 15 位专家推荐的 Elasticsearch 8.X新书已上线

9acb935edb0de217fc8bf7b8f56da49f.jpeg

更短时间更快习得更多干货!

和全球 近2000+ Elastic 爱好者一起精进!

83694c3a83964ea2a4ad5efd6e808713.gif

比同事抢先一步学习进阶干货!

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐