1.COCO数据集

COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。目前为止有语义分割的最大数据集,提供的类别有80 类,有超过33 万张图片,其中20 万张有标注,整个数据集中个体的数目超过150 万个。这就是YOLOV3采用的数据集。
该数据集主要解决3个问题:目标检测,目标之间的上下文关系,目标的2维上的精确定位。COCO数据集有91类,虽然比ImageNet和SUN类别少,但是每一类的图像多,这有利于获得更多的每类中位于某种特定场景的能力,对比PASCAL VOC,其有更多类和图像。

1.2COCO数据集类别

person(人)

bicycle(自行车) car(汽车) motorbike(摩托车) aeroplane(飞机) bus(公共汽车) train(火车) truck(卡车) boat(船)

traffic light(信号灯) fire hydrant(消防栓) stop sign(停车标志) parking meter(停车计费器) bench(长凳)

bird(鸟) cat(猫) dog(狗) horse(马) sheep(羊) cow(牛) elephant(大使用和下载象) bear(熊) zebra(斑马) giraffe(长颈鹿)

backpack(背包) umbrella(雨伞) handbag(手提包) tie(领带) suitcase(手提箱)

frisbee(飞盘) skis(滑雪板双脚) snowboard(滑雪板) sports ball(运动球) kite(风筝) baseball bat(棒球棒) baseball glove(棒球手套) skateboard(滑板) surfboard(冲浪板) tennis racket(网球拍)

bottle(瓶子) wine glass(高脚杯) cup(茶杯) fork(叉子) knife(刀)

spoon(勺子) bowl(碗)

banana(香蕉) apple(苹果) sandwich(三明治) orange(橘子) broccoli(西兰花) carrot(胡萝卜) hot dog(热狗) pizza(披萨) donut(甜甜圈) cake(蛋糕)

chair(椅子) sofa(沙发) pottedplant(盆栽植物) bed(床) diningtable(餐桌) toilet(厕所) tvmonitor(电视机)

laptop(笔记本) mouse(鼠标) remote(遥控器) keyboard(键盘) cell phone(电话)

microwave(微波炉) oven(烤箱) toaster(烤面包器) sink(水槽) refrigerator(冰箱)

book(书) clock(闹钟) vase(花瓶) scissors(剪刀) teddy bear(泰迪熊) hair drier(吹风机) toothbrush(牙刷)

1.3COCO数据集的特点

在这里插入图片描述

1.3COCO数据集结构

下载完COCO2014数据集后解压目录如下

images
—train2014
—val2014
—test2014
annotations

其中,images中的文件夹各自放置了训练、验证和测试的数据集图片。annotations文件夹中放置了标签文件,可以理解为Label,简要的来说,就是包含了某一类在图片中的具体位置的信息。
在这里插入图片描述

1.4COCO数据集标注信息

COCO的数据标注信息包括:
-----类别标志
-----类别数量区分
-----像素级的分割

在这里插入图片描述
2014年版本的数据为例,一共有20G左右的图片和500M左右的标签文件。标签文件标记了每个segmentation+bounding box的精确坐标,其精度均为小数点后两位。一个目标的标签示意如下:

{"segmentation":[[392.87, 275.77, 402.24, 284.2, 382.54, 342.36, 375.99, 356.43, 372.23, 357.37, 372.23, 397.7, 383.48, 419.27,407.87, 439.91, 427.57, 389.25, 447.26, 346.11, 447.26, 328.29, 468.84, 290.77,472.59, 266.38], [429.44,465.23, 453.83, 473.67, 636.73, 474.61, 636.73, 392.07, 571.07, 364.88, 546.69,363.0]], "area": 28458.996150000003, "iscrowd": 0,"image_id": 503837, "bbox": [372.23, 266.38, 264.5,208.23], "category_id": 4, "id": 151109}

这里的数据采用了JSON格式。需要转成xml格式的话可以这方面有很多文章不再陈述。

2.COCO数据下载

2.1 方式1

使用迅雷下载,直接下载慢,迅雷下载大概有5M,地址

2.2方式2
http://images.cocodataset.org/zips/train2014.zip

http://images.cocodataset.org/annotations/annotations_trainval2014.zip

http://images.cocodataset.org/zips/val2014.zip

http://images.cocodataset.org/annotations/image_info_test2014.zip

http://images.cocodataset.org/zips/test2014.zip

http://images.cocodataset.org/annotations/image_info_test2015.zip

这个是下载地址。不要直接点击。linux可以用wget -c http下载,不需要翻墙,比如

cd Downloads
打开终端
wget -c http://images.cocodataset.org/annotations/annotations_trainval2014.zip

windows可用软件下载,我自己迅雷不好使,但是浏览器下载速度大约1M,不需要翻墙
依次下载,完成后解压就可以了

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐