01 数据驱动的智能运维

传统运维 👴 是指通过网络监控、事件预警、业务调度、故障诊断与排障等手段,使服务处于长期稳定可用的状态。随着业务的发展、服务器规模的扩大,以及虚拟化技术的发展 🐋,运维工作扩展到了容量管理、弹性扩缩容、安全管理,以及故障分析根因定位等范围。

进一步的,云原生的概念被广泛关注 🔥,也对云原生时代下的运维工作提出了更高的要求,这就是云原生可观测性。不仅仅是系统监控和人工排障,可观测性是从系统内部出发,基于白盒化的思路去监测系统内部的运行情况,它贯穿应用开发的整个声明周期,通过分析应用的指标、日志和链路等数据,去构建完整的观测模型,从而实现故障诊断、根因分析和快速恢复 👷。

如此自动化 ✈️ 、智能化 🚀 的可观测性应用也得益于近些年来人工智能(AI,Artificial Intelligence)技术的发展,这也催生了另一个可观测领域的重要概念–智能运维(AIOps, Artificial Intelligence for IT Operations)智能运维是指通过机器学习等人工智能算法,自动地从来自于多种运维工具和设备的大规模数据中学习并总结规则,并作出决策的智能化运维方式 📑。智能运维能快速分析处理海量数据,并得出有效的运维决策,执行自动化脚本以实现对系统的整体运维,能有效运维大规模系统。

更简单 👦 的理解:智能运维是人工智能技术在运维领域的应用。我们熟知在人工智能技术蓬勃发展的背后是我们所处的大数据时代,数据作为技术发展的基石,发挥出越来越重要的作用。智能运维技术的发展同样离不开海量运维数据的支撑,但是智能运维还处于 🐣 起步阶段 🐣 ,产业界和学界的结合不够密切,企业拥有大量运维数据但无法有效利用,而研究者无法获取真实生产数据使得很多智能运维技术无法成功部署到生产环境中。

为了打破这一僵局,有很多实验室和企业向社会公开生产环境中的真实运维数据,本文要介绍的就是其中之一 🌼 LogHub 🌼 一个大型的日志数据集集合

在这里插入图片描述

02 日志数据的价值与优势

LogHub 是一个大型的日志数据集集合,除了日志数据之外,智能运维技术分析的数据对象还包括很多其他的运维数据,这些 📏 多源运维数据 📐 总体上可以分为系统运行时数据和历史记录数据。历史记录数据通常是一些用于备份等行为的数据,如表单、系统更新文档等。与历史记录数据相比,👉 系统运行时数据更能够反映系统的动态特征及系统发生故障时的上下文信息,对未知故障具有更好的探测和表达能力

系统运行时数据主要包括监控数据日志数据,这也是传统运维最为关注的数据。监控数据一般是系统运行状态下的资源占用情况用于观察系统的状态和趋势 📈,例如 CPU使用率、内存使用率、网络流量、进程数目以及进程资源使用率等。日志数据则是程序开发人员为辅助调试在程序中嵌入的打印输出代码所产生的文本数据 📑 ,用以记录程序运行时的变量信息、程序执行状态等。

可以看出监控数据关注的是系统状态和粗粒度的应用状态,如系统资源使用情况、进程状态、服务状态等;而日志数据则更加关注细粒度的应用状态和跨组件的程序执行逻辑。所以对与故障诊断和根因定位等任务而言,日志数据相较监控数据更具优势 💪:

1️⃣日志能够支持更加细粒度的故障诊断与根因分析。根据监控数据的故障诊断往往只能定位到某一个资源指标出现异常波动,而基于日志数据的故障诊断技术可以定位到特定的出错日志及事件信息 🎯。

2️⃣ 日志能够支持对程序执行逻辑的跟踪,实现跨组件、跨服务地捕捉程序执行异常和性能异常。每一条请求在系统内部的执行逻辑通常会经过多个组件或程序模块,每一个组件或程序模块均会输出日志,这些日志可以在一定程度上反映该请求的执行轨迹。通过对这些日志进行关联和建模,可以刻画复杂的请求执行路径,进而诊断故障组件及故障程序执行位置 🚉。

3️⃣ 日志能够支持定位异常请求实例,并捕捉故障细节。根据监控数据的故障诊断偏重于统计意义上的故障症状,而基于日志数据的故障诊断则可以跟踪每一个请求实例,识别异常,并刻画异常请求执行路径上的相关细节 🔫。

03 Loghub 数据集

系统运行时数据是运维的主要关注对象,而日志数据相较于监控数据包含更加丰富 🙆 的系统运行时信息而被广泛应用于软件系统的开发和维护。

我们已经提到过,不管是软件发展趋势,还是云原生概念,软件规模和复杂度是在确定性的增加的,这也导致日志量的快速增长 📈。为了高效和有效地处理这些大量日志,智能运维技术被提出,这些研究重点关注使用人工智能技术提供支持的智能日志分析。

我们也提到了,智能运维领域刚起步不久 🐣,由于缺乏公共日志数据集和必要的基准测试,智能运维技术中只有一小部分在工业中成功部署。为了填补学术界和工业界之间的这一重大差距,并促进对 AI 驱动的日志分析的更多研究,香港中文大学 🏰 的智能运维研究团队收集并组织了一个大型的日志数据集集合 loghub

Loghub 维护的日志数据集大小总计超过 77GB。其中一些日志是从以前的研究中发布的生产数据 📬,而另一些日志是从他们的实验室系统中收集的真实数据 📨。这些日志来着各种类型的系统,如下图所示,目前包括分布式系统日志(Distributed systems)、超级计算机集群日志(Supercomputers)、操作系统日志(Operating systems)、移动应用日志(Mobile systems)、服务器应用日志(Server applications)和独立软件日志(Standalone software)

👉 Loghub 日志数据集开源项目地址 👈 | 👍 👍 👍

在这里插入图片描述

04 分布式系统日志

笔者目前关注分布式系统日志较多,本文仅介绍 LogHub 中的分布式系统日志 👀,其他类型的日志,如有需要可以参考文章 📚《Loghub: A Large Collection of System Log Datasets towards Automated Log Analytics

4.1 HDFS

​ HDFS(Hadoop Distributed File System)是一个被设计成适合运行在通用硬件上的分布式文件系统(Distributed File System)。HDFS 是一个高度容错性的系统,适合部署在廉价的机器上,并能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。loghub 中提供了两套 HDFS 日志数据:HDFS-1,HDFS-2

​ 🅰️ HDFS-1 是在一个 203 个节点的 HDFS 集群中使用基准工作负载产生的,在日志产生过程中根据手工制定的规则通过人工来识别并标记异常 ✅。这些日志数据根据块 ID 分割成称为追踪(trace)的日志序列,然后每条与块 ID 关联的追踪都被标记了正常或异常的标签。除此之外,HDFS-1日志数据集还包括具体异常类型的信息,所以也可以将它用于重复问题识别的研究。

​ 🅱️ HDFS-2 则是在一个包括 1 个名称节点和 32 个数据节点的实验室环境中产生的,这些日志数据是节点级别的聚合收集。这是一个没有标签 ❎ 的原生巨大数据集,日志量超过 16 GB,其中可能包含异常数据。

📬 样例数据下载地址 HDFS-1

📬 样例数据下载地址 HDFS-2

4.2 Hadoop

​ Hadoop是一种分布式数据和计算的框架。其底部是 HDFS 存储 Hadoop 集群中所有存储节点上的文件;HDFS 上层是 MapReduce 计算引擎,除了这两个核心部分还有数据仓库工具 Hive 和分布式数据库 Hbase等。这些组成元素的有机结合使得 Hadoop 很擅长存储大量的半结构化的数据集,数据可以随机存放,所以一个磁盘的失败并不会带来数据丢失;另外,Hadoop 也非常擅长分布式计算,能够快速地跨多台机器处理大型数据集合。

​ 这些特性让 Hadoop 大受欢迎,在工业界 🏭 得到了广泛的应用,也更多地被研究者所关注。loghub 中提供了由 46 个内核,跨越 5 台物理机的 Hadoop 集群产生的日志数据。这些日志数据记录的是 Hadoop 集群上 WordCountPageRank 两个测试应用的运行数据。为了模拟生产环境中的服务故障,在该 Hadoop 集群运行过程中通过如下三种方式注入故障:

  • 机器停机:在应用程序运行时,关闭一台服务器以模拟机器故障;
  • 网络断开连接:断开一台服务器与网络的连接以模拟网络连接失败;
  • 磁盘已满:引用运行期间,手动填满一台服务器的硬盘来模拟磁盘完全失败。

​ 在该数据集中提供了不同故障的标签 ✅,所以也可以用于重复问题识别的研究。

📬 样例数据下载地址 Hadoop

4.3 OpenStack

​ OpenStack 是一种云操作系统 ⛅️,可控制整个数据中心内的大型计算、存储和网络资源池。因为 OpenStack 是一个开源云计算软件,它由许多不同的组件构成,这些组件又可以通过一个独特的仪表盘进行管理,该仪表盘为管理员提供了完全控制权,同时授权最终用户通过 Web 界面配置资源。

​ Openstack 项目虽然诞生时间不长,但其发展之迅速,在云计算领域的影响力扩展,使得这个年轻的项目成为业内的焦点,也有学者参与到 OpenStack 的研究中。loghub 收集的 OpenStack 数据集是在 Cloud Lab 上生成的,这是一个用于云研究的灵活的科学基础设施计算。该数据集中提供了正常日志和故障注入异常案例 ✅ ,使数据更容易被使用于异常检测研究。

📬 样例数据下载地址 OpenStack

4.4 Spark

​ Apache Spark 是一个统一的大型数据处理与分析引擎,内置流、SQL、机器学习和图处理逻辑。目前,Spark 已被广泛部署在工业领域。loghub 中提供的 Spark 数据集是在一个包含 32 台物理机的实验室环境中聚合收集的。该日志数据集是在机器级别进行聚合,日志的大小超过 2 GB。该数据集也没有做人工处理,提供的是原始数据 ❎,无需进一步的修改或标签,其中也可能包含异常的应用程序运行记录。

📬 样例数据下载地址 Spark

4.5 ZooKeeper

​ ZooKeeper 是一个为分布式应用程序提供协调服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。loghub 中提供的 ZooKeeper 日志数据集也是通过从一个包含 32 台物理机的实验室环境中聚合日志收集的,日志数据涵盖的时间段为 26.7 天。

📬 样例数据下载地址 ZooKeeper

参考资料

[1] Shilin He, Jieming Zhu, Pinjia He, Michael R. Lyu. Loghub: A Large Collection of System Log Datasets towards Automated Log Analytics. Arxiv, 2020.

[2] 贾统, 李影, 吴中海. 基于日志数据的分布式软件系统故障诊断综述 J. 软件学报, 2020, 31(7):22.

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐