如果你遇到以下问题,很适合阅读本篇文章

  1. 数据集太小太零散,找不到合适数据?
  2. 数据集不知道从哪里获得,很容易得到的都是外国的
  3. 数据集不均匀训练的模型不准确、不收敛、很偏见
  4. 在犹豫优化模型还是继续找数据集
  5. 是否花钱购买数据
  6. 还在发愁找不到数据集训练你的模型?

 

如果用一个句子总结学习数据科学的本质,那就是: 学习数据科学的最佳方法就是应用数据科学。 如果你是一个初学者,你每完成一个新项目后自身能力都会有极大的提高,如果你是一个有经验的数据科学专家,你已经知道这里所蕴含的价值。

首先,在选择数据集时要记住几个重要标准:

 

  •      数据集不能过于混乱,过于混乱的数据会导致模型难以收敛,加大了训练难度。
  •      与训练目标相一致的数据集才能更高效的完成识别任务
  •      数据集量级是否符合模型规模,复杂的深度网络需要更多的数据才能发挥能力。

 

数据至关重要

       数据质量决定着模型的准确率,技巧模型比重很小。好的数据是成功的90%,数据采集,数据标注,数据清洗,数据预处理,有着至关重要的作用。如果你是学生,下面文章提供几个下载数据集的网站及标注工具,方便快速跑起来你的代码。把精力都用在模型学习和优化上而非枯燥的数据处理。如果你是从业者,更多的数据才是制胜的法宝,可以采用下面列出的工具例如Aidiscovery快速收集尽可能多的数据。利用Labelme图像分割标注

 

数据集划分

      训练集、验证集、测试集,这三个集合不能有交集,常见的比例是8:1:1。

 

 

 

数据准备之数据采集标注软件

【Labelme】 图像分割标注推荐

简单介绍:LabelMe的目标是提供一个在线注释工具,以建立用于计算机视觉研究的图像数据库。如果未完全标记图像,则用户可以使用鼠标在图像中绘制一个包含对象的多边形。LabelMe项目提供了一组工具,用于使用Matlab中的LabelMe数据集。

功能:

  • 对图像进行多边形,矩形,圆形,多段线,线段,点形式的标注(可用于目标检测,图像分割,等任务)。
  • 对图像进行进行 flag 形式的标注(可用于图像分类 和 清理 任务)。
  • 视频标注
  • 生成 VOC 格式的数据集(for semantic / instance segmentation)
  • 生成 COCO 格式的数据集(for instance segmentation)

地址:http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

点击下载

 

【Aidiscovery】数据采集自动分类推荐

http://aidiscovery.wntime.com/

简单介绍:无需登陆注册,即可免费下载。人脸数据自动收集,界面友好、操作简单、其中包含的数据采集是其他软件不具备的,包括数据增强自动分类,解决标注头疼问题。除此之外,对数据集的采集来源、数据采集量、数据分布等进行统计分析,以可视化图表的形式展现,辅助评判数据集可用性。

功能:

  • 数据采集,从视频和屏幕采集数据,实时标注
  • 数据增强,提供数据增强详细的参数选择及预览,有单一数据增强和组合数据增强
  • 数据处理,对于采集结果进行自动处理,再对不正确的手动处理
  • 统计分析,对于采集资源的优劣进行统计

地址:http://aidiscovery.wntime.com/

点击下载

 

 

 

常用数据集下载网站

一、【Kaggle 地址:https://www.kaggle.com/datasets

kaggle网站
kaggle

 

介绍:一个竞赛网站,上面有很多有价值的数据集和题目。每个比赛都是独立的。无需确定自己的项目范围并收集数据,可以腾出时间专注于其他技能。实践就是实践。

 

 

 

二、【ImageNet 地址:http://image-net.org/

网站
image net

 

介绍:ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象;在至少一百万个图像中,还提供了边界框。ImageNet包含2万多个类别

 

 

 

四、【MS COCO 地址 :https://cocodataset.org/#download

 

 介绍 :COCO是大规模的对象检测,分割和字幕数据集。COCO具有以下功能:对象分割、上下文识别、超像素东西分割、330K图像(已标记> 200K)、150万个对象实例、80个对象类别、91个东西类别、每个图像5个字幕、有关键点的250,000人

 

 

 

 

 

五、【COIL100 地址:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

 

 

介绍:100 个不同的物体在 360°旋转中以每个角度成像

 

 

 

 

 

六、【Visual Genome】地址:http://visualgenome.org/ 

 

介绍:非常详细的视觉知识库,配有约 100K 个图像的注释。

 

 

 

 

七、【Labelled Faces in the Wild】地址:http://vis-www.cs.umass.edu/lfw/

 

 

介绍:13000 张贴有标签的人脸图像,用于作为人脸识别测试集。

 

 

 

 

八、【Stanford Dogs Dataset】地址:http://vision.stanford.edu/aditya86/ImageNetDogs/

 

 

介绍:包含 20580 个图像和 120 个不同品种的狗类别。注释:类别标签,边界框

 

 

 

九、【Indoor Scene Recognition】地址:http://web.mit.edu/torralba/www/indoor.html

 

介绍:该数据库包含67个室内类别,共15620张图像。图像的数量因类别而异,但每个类别至少有100张图像。所有图像均为jpg格式。此处提供的图像仅用于研究目的。

 

 

 

 

十、【vggface】地址:http://www.shujujishi.com/dataset/f66a2818-dd92-4c6e-bb83-a32f59f86170.html

 

介绍:VGG-Face中的身份分布数据集可能无法代表全球人口。在训练或部署根据此数据训练的模型时,根据场景使用,避免学习结果有偏见

VGGFace2数据集具有9131个身份的新的大规模面部数据集。
VoxCeleb1251个VGG Face身份的YouTube视频的URL和时间戳。

 

 

 

 

 

十一、【MS-Celeb-1M】地址:http://academictorrents.com/details/9e67eb7cc23c9417f39778a8e06cca5e26196a97

介绍:用于识别人脸图像的相关数据集,一百万名人。知识库提供的丰富信息有助于进行消歧和提高识别精度,并有助于各种现实应用,如图像字幕和新闻视频分析。是世界上最大的公开数据集,在版本1中包含1000万幅图像。

 

 

 

十二、PubFig: Public Figures Face Database】地址:https://www.cs.columbia.edu/CAVE/databases/pubfig/

介绍:PubFig数据库是一个大型的真实人脸数据集,58797张图像200人。与大多数其他现有的人脸数据集不同,这些图像是在完全不受控制的情况下拍摄的,对象不合作。因此,在姿势、照明、表情、场景、相机、成像条件和参数等方面有很大的变化。

 

 

 

 

十三、megaface】地址:http://megaface.cs.washington.edu/dataset/download_training.html

介绍:megaface训练数据集是最大的(在身份数量上)可公开获得的面部识别数据集,具有470万张脸、672个身份和它们各自的边界框。

 

十四、【Yale Face Database 】http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html

介绍:耶鲁人脸数据库包含28个人在9种姿势和64种光照条件下的16128幅图像

 

其他

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐