2015年,论文 Person Re-Identification Meets Image Search 提出了 Market 1501 数据集,现在 Market 1501 数据集已经成为行人重识别领域最常用的数据集之一。

百度云下载链接
Market-1501-v15.09.15.zip


Market 1501 的行人图片采集自清华大学校园的 6 个摄像头,一共标注了 1501 个行人。其中,751 个行人标注用于训练集,750 个行人标注用于测试集,训练集和测试集中没有重复的行人 ID,也就是说出现在训练集中的 751 个行人均未出现在测试集中。

  • 训练集:751 个行人,12936 张图片
  • 测试集:750 个行人,19732 张图片
  • query 集:750 个行人,3368 张图片

query 集的行人图片都是手动标注的图片,从 6 个摄像头中为测试集中的每个行人选取一张图片,构成 query 集。测试集中的每个行人至多有 6 张图片,query 集共有 3368 张图片。

网络模型训练时,会用到训练集;测试模型好坏时,会用到测试集和 query 集。此时测试集也被称作 gallery 集。因此实际用到的子集为,训练集、gallery 集 和 query 集。


一、 数据集结构

下载好的 Market 1501 包括以下几个文件夹:

  • bounding_box_test 是测试集,包括 19732 张图片。
  • bounding_box_train 是训练集,包括 12936 张图片。
  • gt_bbox 是手工标注的训练集和测试集图片,包括 25259 张图片,用来区分 “good” “junk” 和 “distractors” 图片。
  • query 是待查找的图片集,在 bounding_box_test 中实现查找。这些图片是手动绘制生成的。而 gallery 是通过 DPM 检测器生成的。
  • gt_query 是一些 Matlab 格式的文件,里面记录了 “good” 和 “junk” 图片的索引,主要被用来评估模型。
    跨境搜索

在这里插入图片描述

二、 数据集命名

以图片 0012_c4s1_000826_01.jpg 对数据集命名进行说明。
在这里插入图片描述

  1. 0012 是行人 ID,Market 1501 有 1501 个行人,故行人 ID 范围为 0001-1501
  2. c4 是摄像头编号(camera 4),表明图片采集自第4个摄像头,一共有 6 个摄像头
  3. s1 是视频的第一个片段(sequece1),一个视频包含若干个片段
  4. 000826 是视频的第 826 帧图片,表明行人出现在该帧图片中
  5. 01 代表第 826 帧图片上的第一个检测框,DPM 检测器可能在一帧图片上生成多个检测框
Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐