Grafana 进阶教程:使用 Loki、Tempo 进行日志与追踪可视化

在现代运维和开发环境中,日志和追踪是观测系统健康状态、分析问题和优化性能的重要手段。Grafana 是一款广泛使用的开源数据可视化和监控平台,它支持与多种数据源的集成,能够提供灵活和强大的仪表板功能。Loki 和 Tempo 是由 Grafana Labs 提供的专用于日志和追踪的开源工具,它们与 Grafana 无缝集成,使得日志管理和分布式追踪的可视化变得简单和高效。

本文将详细介绍如何使用 Grafana、Loki 和 Tempo 进行日志与追踪的可视化。通过本文,你将学习如何配置和使用这些工具来提升系统的可观测性。


一、Loki 简介与安装

1. 什么是 Loki?

Loki 是一款为 Prometheus 设计的日志聚合系统。与传统的日志管理工具(如 Elasticsearch)不同,Loki 不会对日志内容进行索引,而是以分片和流的形式存储日志,并通过标签来进行查询。这种设计使 Loki 成为一种高效、可扩展且成本较低的日志解决方案。

Loki 的主要特点包括:

  • 轻量级:Loki 仅索引元数据而不是完整的日志内容。
  • 与 Prometheus 紧密集成:可以通过相同的标签进行日志和指标的关联查询。
  • 易于部署:支持 Docker、Kubernetes 等多种部署方式。
2. Loki 的安装与配置

Loki 可以通过多种方式安装,包括 Docker、Helm(用于 Kubernetes 集群)和直接运行二进制文件。以下是使用 Docker 进行 Loki 安装的步骤:

使用 Docker 安装 Loki:

docker run -d --name loki -p 3100:3100 grafana/loki:2.5.0 -config.file=/etc/loki/loki-local-config.yaml

在安装 Loki 之前,你需要一个配置文件(例如 loki-local-config.yaml),用于定义 Loki 的行为。以下是一个简单的 Loki 配置示例:

auth_enabled: false

server:
  http_listen_port: 3100

ingester:
  lifecycler:
    ring:
      kvstore:
        store: inmemory
      replication_factor: 1
  chunk_idle_period: 5m
  chunk_retain_period: 30s
  max_transfer_retries: 0

schema_config:
  configs:
    - from: 2020-10-24
      store: boltdb
      object_store: filesystem
      schema: v11
      index:
        prefix: index_
        period: 24h

storage_config:
  boltdb:
    directory: /loki/index
  filesystem:
    directory: /loki/chunks

limits_config:
  enforce_metric_name: false
  reject_old_samples: true
  reject_old_samples_max_age: 168h

chunk_store_config:
  max_look_back_period: 0s

table_manager:
  retention_deletes_enabled: false
  retention_period: 0s

配置文件解释:

  • server:定义 Loki 的服务配置,例如监听的端口。
  • ingester:配置日志的入库方式,包括日志存储的周期和重试次数。
  • schema_config:定义日志存储的模式和时间序列。
  • storage_config:定义存储的位置和格式,可以是本地文件系统、云存储等。
  • limits_configchunk_store_config:限制配置,定义日志数据的限制和存储的回看周期。

二、Grafana 与 Loki 的集成

为了在 Grafana 中查看 Loki 的日志数据,需要将 Loki 配置为 Grafana 的数据源。

1. 添加 Loki 数据源
  1. 打开 Grafana 控制面板,点击左侧的 “Configuration”(配置)图标,然后选择 “Data Sources”(数据源)。
  2. 点击 “Add data source”(添加数据源),然后选择 “Loki”
  3. 在配置页面中,输入 Loki 的 URL,例如 http://localhost:3100
  4. 点击 “Save & Test”(保存并测试),确保 Grafana 能够成功连接到 Loki。
2. 创建日志仪表板
  1. 在 Grafana 中,点击 “Create”(创建)按钮,然后选择 “Dashboard”(仪表板)。

  2. 点击 “Add new panel”(添加新面板),在面板的配置页面中选择 Loki 作为数据源。

  3. 使用 LogQL(Loki 查询语言)查询日志数据,例如:

    {job="varlogs"} |= "error"
    

    这将过滤出包含 “error” 字符串的日志条目。

  4. 配置面板的显示格式,如条形图、时间序列等,以实现可视化效果。

  5. 保存并命名你的仪表板。


三、Tempo 简介与安装

1. 什么是 Tempo?

Tempo 是 Grafana Labs 推出的分布式追踪系统,专为低成本、高效率的追踪存储和查询而设计。Tempo 的设计理念是去索引化,它不会为每个追踪生成索引,而是通过追踪 ID 查找完整的追踪数据。这种方式使 Tempo 可以在大规模分布式系统中轻松处理大量的追踪数据。

Tempo 的主要特点包括:

  • 无索引设计:节省存储和计算资源。
  • 与 Grafana、Loki 等工具无缝集成:能够在单一仪表板中展示日志和追踪数据。
  • 支持多种追踪协议:如 Jaeger、Zipkin、OpenTelemetry。
2. Tempo 的安装与配置

Tempo 可以通过多种方式安装,包括 Docker 和 Kubernetes。以下是通过 Docker 安装 Tempo 的步骤:

使用 Docker 安装 Tempo:

docker run -d --name tempo -p 3200:3200 grafana/tempo:latest

与 Loki 类似,Tempo 也需要一个配置文件(例如 tempo-local-config.yaml),以下是一个基本的 Tempo 配置示例:

server:
  http_listen_port: 3200

distributor:
  receivers:
    jaeger:
      protocols:
        thrift_http:
        thrift_compact:
        thrift_binary:
    otlp:
      protocols:
        grpc:
        http:

ingester:
  lifecycler:
    ring:
      kvstore:
        store: inmemory
      replication_factor: 1

compactor:
  compaction:
    block_retention: 24h

storage:
  trace:
    backend: local
    local:
      path: /tempo/traces

querier:
  frontend_worker:
    frontend_address: 127.0.0.1:9095
  query_timeout: 30s

query_frontend:
  max_outstanding_per_tenant: 100

配置文件解释:

  • server:定义服务的端口。
  • distributor:定义接收器,支持 Jaeger、OpenTelemetry 等多种追踪协议。
  • ingester:定义数据的入库方式,类似于 Loki 的日志入库配置。
  • compactor:配置数据压缩和存储的保留策略。
  • storage:定义追踪数据的存储方式,可以是本地文件系统、对象存储等。

四、Grafana 与 Tempo 的集成

要在 Grafana 中查看 Tempo 的追踪数据,需要将 Tempo 配置为 Grafana 的数据源。

1. 添加 Tempo 数据源
  1. 打开 Grafana 控制面板,点击左侧的 “Configuration”(配置)图标,然后选择 “Data Sources”(数据源)。
  2. 点击 “Add data source”(添加数据源),然后选择 “Tempo”
  3. 在配置页面中,输入 Tempo 的 URL,例如 http://localhost:3200
  4. 点击 “Save & Test”(保存并测试),确保 Grafana 能够成功连接到 Tempo。
2. 创建追踪仪表板
  1. 在 Grafana 中,点击 “Explore”(探索)按钮,然后选择 Tempo 数据源。
  2. 使用 Trace ID 查询具体的追踪数据。例如,输入特定的 Trace ID 来查看该追踪的详细信息。
  3. 配置面板以展示追踪的时间轴、调用链路和相关的日志信息。
  4. 通过链接日志与追踪,可以实现日志与追踪的关联性分析,从而提高故障诊断和性能优化的效率。

五、Loki 与 Tempo 的联合使用

Loki 和 Tempo 的强大之处在于它们可以在 Grafana 中联合使用,实现日志与追踪的无缝集成。这种集成为用户提供了统一的观测视图,大大提升了问题诊断的效率。

1. 集成日志与追踪

在追踪过程中,你可以将追踪 ID

注入日志中。例如,在应用程序的日志中添加如下信息:

{
  "level": "info",
  "message": "User login successful",
  "traceID": "abcd1234efgh5678"
}

通过这种方式,你可以在 Grafana 的仪表板中使用 Trace ID 进行查询,定位相关的日志和追踪数据。这样做可以帮助你快速从日志中找到对应的追踪,并且更全面地理解问题的上下文。

2. 实现跨系统的观测

借助 Grafana、Loki 和 Tempo 的联合使用,你可以实现跨系统的观测。例如,通过在不同微服务中配置一致的标签策略,你可以在 Grafana 中跨多个系统进行统一的日志和追踪展示。这种全局视图对分布式系统的运维和调试尤其有帮助。


六、案例:日志与追踪的可视化应用

案例背景

某电商平台采用微服务架构,每个微服务记录自身的日志并产生分布式追踪数据。为了提升系统的可观测性,该平台使用 Grafana、Loki 和 Tempo 来管理日志与追踪。

实施步骤
  1. 部署 Loki 和 Tempo:按照上述步骤,分别部署 Loki 和 Tempo,并配置为 Grafana 的数据源。

  2. 日志注入 Trace ID:在微服务的日志中注入追踪 ID,通过统一的格式记录。

  3. 创建联合仪表板:在 Grafana 中创建联合仪表板,通过 Loki 展示日志,通过 Tempo 展示追踪。使用 Trace ID 进行日志与追踪的关联查询。

  4. 设置告警规则:在 Grafana 中设置告警规则,例如,当特定的错误日志出现或某些追踪的延迟超出预期时,触发告警通知。

效果展示

通过这种方式,电商平台实现了统一的日志与追踪管理,运维人员可以快速定位问题源头,提升了问题响应速度和系统稳定性。


七、总结

使用 Grafana 与 Loki、Tempo 进行日志与追踪的可视化,能够显著提升系统的可观测性。通过将日志和追踪数据无缝集成,你可以在同一个仪表板中展示系统的不同维度信息,从而快速发现和解决问题。本文介绍了 Loki 和 Tempo 的安装、配置及其与 Grafana 的集成方法,并通过案例展示了如何实际应用这些工具。

在现代分布式系统中,有效的观测手段是保障系统稳定运行的关键。Loki 和 Tempo 作为轻量级、可扩展的解决方案,与 Grafana 的深度集成,使得日志和追踪的管理和可视化变得更为简单高效。无论你是系统运维人员还是开发工程师,掌握这些工具都将有助于你更好地监控和优化系统性能。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐