1、数据集介绍

       在开始介绍数据集之前,冷漠先帮大家理清一下涡扇发动机的数据(NASA提供,本文中称为数据集A)和PHM2008竞赛数据(本文称为数据集B)的关系。

       之所以将数据集A和数据集B放在一篇文章中,是因为数据集A和数据集B都是利用MATLAB所搭建的航空发动机Simulink模型搭建的。换句话说,它们的试验平台是一致的,但是其输入是存在差异的,具体可查看参考文献1和2。借用文献2中关于数据的介绍,数据集A和数据集B之间的联系如下表所示:

      从上表中能发现,数据集A由4个不同故障模式、不同条件的涡扇发动机数据集组成,而数据集B是由2个涡扇发动机数据集组成,这些涡扇发动机数据其实是相似的,仅仅是由于其条件和故障模式不同而已。

      值得注意的是,数据集A中#1、#2、#3都是#4的特殊情况,即#4是最复杂的情况,故障模式多并且条件多。对比数据集A,数据集B并没有给出测试样本的剩余寿命值,这是其重要差异。数据集B中#5v的435个测试样本是用于最终不同选手模型的打分所用的,其也缺乏寿命预测真值。在比赛中,选手通过上传自己的模型RUL,来获得最终打分。

      因此,在我看来,数据集A是完整的,可以全部使用,而数据集B则仅只有#5T的训练样本可以使用,数据集B的其他数据缺乏RUL真值,因此我们并不知道,无法在论文实验中使用。

      综上所述,数据集B的价值不大,因此本篇文章主要解读数据集A。

2、试验说明

 

       数据集A即C-MAPSS模拟数据,该数据是模拟大型商用涡扇发动机的数据, 发动机简图如上图所示。该数据的代码采用了MATLAB及其Simulink模块。该模型的详细细节参考文献1。

3、数据解读

        1、所有数据均为txt文件,文件数量不多,大家可以手动读取,利用MATLAB“主页”菜单下的“导入数据”进行自行读取,不懂得大家可以百度。

        2、文件分为三类:训练数据 train_FD00x.txt ;测试数据test_FD00x.txt,以及测试数据每个样本最后时刻时,其涡扇发动机的剩余使用寿命,对应文件RUL_FD00x.txt。(x可以为1、2、3,4,x取值不同,即改涡扇发动机的故障模式和条件不同)

       3、训练数据 train_FD00x.txt与测试数据test_FD00x.txt内容想类似,其均为nX26的数值矩阵。该矩阵n表示不同样本的不同循环周期(循环周期可以理解成时间),26维度分别对应样本编号、时间循环、操作1、操作2、操作3、传感器1、传感器2、.......、传感器21。该矩阵从第一行到后,先是第一个样本的不同时刻的操作和传感器输出,然后是第二样本的,直至所有样本的。

        4、剩余寿命预测数据RUL_FD00x.txt其大小为max(样本编号)X1,比如FD001数据集有100个样本,那么其RUL_FD001.txt的大小为100X1。该数据的含义为第i个样本的最后监测时刻其对应的剩余寿命预测值。

        5、据集A网址:https://data.nasa.gov/Aerospace/CMAPSS-Jet-Engine-Simulated-Data/ff5v-kuh6   

        数据集A和B的网址(NASA):https://www.nasa.gov/content/prognostics-center-of-excellence-data-set-repository

4、附件

C-MAPSS涡扇发动机仿真数据(PHM2008)

fv38

内容简介:

1、数据集A和数据集B所有数据。(数据集A即为CMAPSSData/原始数据/  下的数据,数据集B即为PHM2008/Challenge_Data/ 下的数据。

2、所有参考文献。(文献1和2位于CMAPSSData/下,文献3、4和5位于CMAPSSData/PHM2008\比赛相关的获奖论文 下)

关注公众号“故障诊断与寿命预测工具箱”,每天进步一点点。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐