日志解析神器——Logstash中的Grok过滤器使用详解

0、引言在处理日志数据时，我们经常面临将非结构化文本转换为结构化数据的挑战。Logstash 作为一个强大的日志管理工具，提供了一个名为 Grok 的过滤器插件，专门用于解析复杂的文本数据。后文会解读，功能远不止于此......关于 Grok 过滤器插件，咱们之前有过两篇文章讲解：1、干货 | Logstash自定义正则表达式ETL实战2、干货 | Logstash Grok数据结构化ETL实战G

铭毅天下

2857人浏览 · 2024-01-23 07:30:57

铭毅天下 · 2024-01-23 07:30:57 发布

0、引言

在处理日志数据时，我们经常面临将非结构化文本转换为结构化数据的挑战。

Logstash 作为一个强大的日志管理工具，提供了一个名为 Grok 的过滤器插件，专门用于解析复杂的文本数据。

后文会解读，功能远不止于此......

关于 Grok 过滤器插件，咱们之前有过两篇文章讲解：

1、干货 | Logstash自定义正则表达式ETL实战

2、干货 | Logstash Grok数据结构化ETL实战

Grok 在日志分析和管理中发挥着关键作用，尤其是在解构和解析原始非结构化日志数据时。

1、Grok 过滤器功能

正如 Elastic 官方文档介绍：Grok 过滤器是一个用于将非结构化日志数据解析成结构化且可查询格式的强大工具。

https://www.elastic.co/guide/en/logstash/current/plugins-filters-grok.html

这个工具特别适用于系统日志、Apache 以及其他 Web 服务器日志、MySQL 日志，以及通常为人类阅读而非计算机处理而编写的任何日志格式。

Logstash 默认携带大约 120 种模式。

参见：

https://github.com/logstash-plugins/logstash-patterns-core/tree/master/patterns

如果需要帮助来构建匹配你的日志的模式，你会发现这两个应用程序非常有用！

http://grokdebug.herokuapp.com
http://grokconstructor.appspot.com/

第一个链接已无法访问，第二个链接是 grok 构建工具，实际其功能在 kibana 端已经完美集成，后文会有解读。

Grok过滤器不仅仅是一个简单的文本匹配工具；它是一个强大的数据解析和转换工具，具有广泛的应用范围和灵活性。

以下是Grok过滤器的一些高级功能：

功能1：复杂日志解析

Grok能够处理复杂的、多格式的日志数据。

如前所述，它可以解析不同格式和结构的日志，如Apache日志、系统日志、数据库日志等，将非结构化文本转换为结构化数据。

功能2：模式重用和模块化

Grok通过预定义的模式提供了高度的模块化和重用性。

用户可以根据需要组合这些模式，甚至可以创建自定义模式。

这种模式的重用性大大降低了解析复杂日志的复杂性。

功能3：字段提取和转换

Grok不仅可以匹配日志中的数据，还可以将匹配的数据提取为字段。

这些字段可以进一步用于日志数据的分析、可视化和报告。

功能4：数据类型转换

Grok在提取数据时，还支持基本的数据类型转换。

例如，它可以将匹配的字符串转换为整数、浮点数或布尔值，这对于后续的数据处理尤为重要。

功能5：日志数据清洗和标准化

Grok过滤器可以帮助清洗日志数据，去除无用信息，同时标准化不同源的日志格式，使其具有一致性，便于集中处理和分析。

功能6：错误处理和调试

在解析复杂日志时，可能会遇到格式不匹配的情况。

Grok 允许用户为这些情况配置错误处理逻辑，如忽略错误、记录错误等。

此外，使用 Grok Debugger 可以帮助用户快速定位和修复模式匹配中的问题，后文会介绍。

2、Grok 过滤器工作原理

Grok 工作原理是：基于正则表达式。它预定义了大量的模式，用于匹配文本中的特定结构，如IP地址、时间戳、引号字符串等。

Grok 使用户能够通过组合这些模式来匹配、解析并重构日志数据。

用户可以根据需求，自定义模式来匹配特定的日志格式。

刚才提到了几个关键字：基于正则表达式、模式组合、自定义模型、命名捕获组。

我们逐一展开讨论一下。

2.1 基于正则表达式

原理：Grok使用正则表达式来解析文本。每个Grok模式都是一个命名的正则表达式，用于匹配日志中的特定部分。
例子：使用 %{IP:client} 模式来匹配并命名一个IP地址。

在日志文本 "Client IP: 192.168.1.1" 中，该模式将匹配并提取 192.168.1.1 作为字段 client。

2.2 模式组合

原理：用户可以将预定义的模式组合起来，以匹配和解析复杂的日志格式。这允许灵活处理多种日志结构。
例子：结合 %{IPORHOST:client} 和 %{TIMESTAMP_ISO8601:timestamp} 来匹配日志条目 "192.168.1.1 [2021-01-01T12:00:00]"，提取出客户端IP和时间戳。

2.3 自定义模式

原理：如果预定义的模式不足以满足特定需求，用户可以创建自定义模式。
例子：创建一个模式%{YEAR:year}-%{MONTHNUM:month}-%{MONTHDAY:day}来匹配日期格式 "2021-01-01"，这个模式可以用于解析特定格式的日期数据。

2.4 命名捕获组

原理：Grok 模式中的每个正则表达式部分都可以被命名和捕获，这样解析出的每一部分都可以被赋予一个易于理解的字段名。
例子：在日志条目 "Error: File Not Found" 中，使用模式 %{WORD:error_type}: %{GREEDYDATA:message} 来分别捕获和命名错误类型和错误消息。

3、Grok 应用场景解读

如前所述：Grok过滤器在各种日志分析场景中都非常有用。例如：

场景1：对于安全日志分析，Grok可以帮助提取IP地址、用户名、时间戳等关键信息；
场景2：在系统监控中，它可以解析和格式化系统日志，以便于监控工具的进一步分析。......

4、Grok 过滤器实战问题引出

来自微信群实战问题：一个常见的应用场景是，当日志数据由多个字段组成，且以特定分隔符（如"|")分隔时，我们需要从中提取和转换关键信息。

以以下日志为例：

2023-12-26 05:50:12,169 | INFO | HiveServer2-Handler-Pool: Thread-1689368 | UserName=sjzt_dwzyywzt UserIP=172.10.10.97 Time=2023/12/26 05:50:12 Operation=ExecuteStatement stmt={select * from ywzt.VOLT_SINGLE_RATE_D where dt = '2023-12-22' and rownum > 4482000 and rownum <= 4484000} Result= Detail= | org.apache.hive.service.cli.thrift.ThriftCLIService.logAuditEvent(ThriftCLIService.java:496)

5、Grok 过滤器解答实战问题

为了从上述日志中提取有用信息，我们可以使用Logstash的Grok过滤器。

以下是针对该日志的Grok模式配置：

filter {
  grok {
    match => { "message" => "%{TIMESTAMP_ISO8601:log_timestamp} \| %{LOGLEVEL:log_level} \| %{DATA:thread} \| %{GREEDYDATA:message_detail}" }
  }
}

在这个配置中：