用于时间序列异常检测的公共数据集
这里我总结了一些公开可用的时间序列异常检测数据集。
时间序列异常检测数据集
这里我总结了一些公开可用的时间序列异常检测数据集。
1. 异常值检测数据集(ODDS)
ODDS 网页在这里。请注意,数据集不仅包含时间序列,还包含其他数据类型(视频、文本和图表)。ODDS
2. Kaggle 信用卡欺诈检测数据集(CCFD)
主页在这里。数据集包含欧洲持卡人在 2013 年 9 月使用信用卡进行的交易,但由于隐私和安全原因,我们看到的是 PCA 变换的结果。CCFD
3. Yahoo 时间序列异常检测基准
在此请求访问此数据集。
包含 4 个文件夹,A1、A2、A3、A4。
A1Benchmark 基于部分 Yahoo! 资产的实际生产流量。其他 3 个基准测试基于合成时间序列。A2 和 A3 基准测试包括异常值,而 A4Benchmark 包括变化点异常。基于实际数据的基准测试已删除资产和地理位置。每个数据文件中的字段都以 (“,”) 字符分隔。Yahoo
4.Numenta 异常基准(NAB)
NAB 的描述可以在这里找到。NAB描述
数据集存储库在这里。NAB
5. 安全水处理 (SWaT) 数据集
“新加坡科技设计大学网络安全研究中心 iTrust” 收集的多元时间序列数据集。请访问此处的网站以请求访问数据集并检查使用要求。
SWaT
6. 水分布(WADI)数据集
还由“新加坡科技设计大学网络安全研究中心 iTrust”收集。请访问此处的网站以请求访问数据集(实际上可以在请求 SWaT 时同时请求)并检查使用要求。
WADI
7. 服务器机器数据集(SMD)
此处发布的数据集是其 KDD 2019 论文“通过随机循环神经网络对多元时间序列进行稳健异常检测”作者存储库的一部分。
SMD
8. UCR 时间序列异常档案
包含超过 250 个数据集。数据集的下载链接在此处。
该档案的维护者还建议在使用数据集之前阅读以下论文“UEA 多元时间序列分类档案,2018”和“当前时间序列异常检测基准存在缺陷并正在创造进步的假象” 。
taset)UCR
9. 土壤湿度主动被动(SMAP)卫星数据集
数据集网页在这里SMAP。点击此处查看数据集描述。SMAP描述
NASA 的KDD 2018 论文“使用 LSTM 和非参数动态阈值检测航天器异常”是第一篇使用该数据集的论文。他们在其repo中提供了该数据集的下载链接。repo
请注意, “通过随机循环神经网络对多元时间序列进行稳健异常检测”的作者也在他们的repo中使用了相同版本的 SMAP 和 MSL. repo
上述两篇论文使用的数据集版本可以使用以下命令下载:
wget https://s3-us-west-2.amazonaws.com/telemanom/data.zip && unzip data.zip && rm data.zip
cd data && wget https://raw.githubusercontent.com/khundman/telemanom/master/labeled_anomalies.csv
10.火星科学实验室 (MSL) 好奇号探测器数据集
数据集网页在这里。MSL
NASA 的KDD 2018 论文“使用 LSTM 和非参数动态阈值检测航天器异常”是第一篇使用该数据集的论文。他们在其repo中提供了该数据集的下载链接。repo
请注意, “通过随机循环神经网络对多元时间序列进行稳健异常检测”的作者也在他们的repo中使用了相同版本的 SMAP 和 MSL.repo
上述两篇论文使用的数据集版本可以使用以下命令下载:
wget https://s3-us-west-2.amazonaws.com/telemanom/data.zip && unzip data.zip && rm data.zip
cd data && wget https://raw.githubusercontent.com/khundman/telemanom/master/labeled_anomalies.csv
11. Skoltech 异常基准(SKAB)
数据集 repo 在这里。skab
12. IT 运营人工智能 (AIOps) 挑战数据集
数据集由清华大学网络人实验室维护,其团队的 GitHub 个人资料可在此处找到。
here
他们 2018 年挑战的 KPI 数据集在这里here,2020 年的数据在这里。here
13.池化服务器指标 (PSM) 数据集
该数据集由 eBay 收集,并在他们提出的名为RANSynCoders的异常检测模型库中发布。PSM
14. PhysioNet 开放获取数据库
在此处查看 PhysioNet 数据网页PHYSIONET。这些数据集均与医学相关。
数据集之一MIT-BIH 室上性心律失常数据库被用于 VLDB 2022 论文TranAD:用于多元时间序列数据异常检测的深度变换网络。
15. IEEE Dataport的电力系统相关数据集
a)MITM攻击下的硬件在环网络物理电力系统测试平台的网络物理数据集
数据集主页在这里。here
该数据集是通过在美国德克萨斯农工大学 RESLab 测试平台的合成网络物理电网中执行不同的中间人 (MiTM) 攻击收集的。
b) 仿真测试平台和硬件在环测试平台的端口扫描攻击数据集
数据集主页在这里。here
该数据集是通过在三个不同的环境下对 8 变电站监控和数据采集 (SCADA) 系统执行四种场景的端口扫描攻击生成的,包括桑迪亚国家实验室 (SNL) 的 minimega、德克萨斯 A&M 大学的通用开放研究模拟器 (CORE) 和德克萨斯 A&M 大学的硬件在环 RESLab 测试平台。
c) 用于智能电网异常检测的 ICS 数据集
数据集主页在这里。here数据集包含正常流量和异常通信(网络攻击、链接故障等)。
16. GECCO 2018 挑战赛水质数据集
在此处下载数据集。GECCO
17. 应用服务器数据集(ASD)
该数据集可以在这里找到,here它位于KDD 2021 论文的代码库中。
可能用于异常检测的时间序列分类数据集
我看到人们做的另一种常见方法是使用时间序列分类数据集进行异常检测——您可以通过选择一个或几个少数类并将其标记为异常来预处理数据集。
3.工业控制系统(ICS)网络攻击数据集
数据集网页在这里。here
4.Ausgrid 太阳能家庭电力数据集
数据集主页在这里here。数据集提供商发表了一篇论文《住宅负荷和屋顶光伏发电:澳大利亚配电网数据集》描述了他们的数据集。还有一个 GitHub repo分析了此数据集的特征。这里有一篇论文使用此数据集进行异常检测,题为“智能电表数据中的异常检测以防止潜在的智能电网不平衡” 。here
- 伦敦家庭智能电表能源消耗数据
数据集网页在此处here。它包含 2011 年 11 月至 2014 年 2 月期间参与英国电网牵头的低碳伦敦项目的 5,567 个伦敦家庭样本的能源消耗读数。读数以半小时为间隔进行。试验中的客户被招募为大伦敦人口的平衡样本代表。CSV 文件(每半小时的能源消耗量(千瓦时)、唯一家庭标识符、日期和时间)解压后约为 10GB,包含约 1.67 亿行。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)