最全图像识别数据集网站和工具
首先,在选择数据集时要记住几个重要标准:数据集不能过于混乱,过于混乱的数据会导致模型难以收敛,加大了训练难度。与训练目标相一致的数据集才能更高效的完成识别任务数据集量级是否符合模型规模,复杂的深度网络需要更多的数据才能发挥能力。常用数据集下载网站一、【Kaggle】 地址:https://www.kaggle.com/datasetskaggle介绍:一个竞赛网站,上面有很多有价值的数据集和题目。
如果你遇到以下问题,很适合阅读本篇文章
- 数据集太小太零散,找不到合适数据?
- 数据集不知道从哪里获得,很容易得到的都是外国的
- 数据集不均匀训练的模型不准确、不收敛、很偏见
- 在犹豫优化模型还是继续找数据集
- 是否花钱购买数据
- 还在发愁找不到数据集训练你的模型?
如果用一个句子总结学习数据科学的本质,那就是: 学习数据科学的最佳方法就是应用数据科学。 如果你是一个初学者,你每完成一个新项目后自身能力都会有极大的提高,如果你是一个有经验的数据科学专家,你已经知道这里所蕴含的价值。
首先,在选择数据集时要记住几个重要标准:
- 数据集不能过于混乱,过于混乱的数据会导致模型难以收敛,加大了训练难度。
- 与训练目标相一致的数据集才能更高效的完成识别任务
- 数据集量级是否符合模型规模,复杂的深度网络需要更多的数据才能发挥能力。
数据至关重要
数据质量决定着模型的准确率,技巧模型比重很小。好的数据是成功的90%,数据采集,数据标注,数据清洗,数据预处理,有着至关重要的作用。如果你是学生,下面文章提供几个下载数据集的网站及标注工具,方便快速跑起来你的代码。把精力都用在模型学习和优化上而非枯燥的数据处理。如果你是从业者,更多的数据才是制胜的法宝,可以采用下面列出的工具例如Aidiscovery快速收集尽可能多的数据。利用Labelme图像分割标注
数据集划分
训练集、验证集、测试集,这三个集合不能有交集,常见的比例是8:1:1。
数据准备之数据采集标注软件
【Labelme】 图像分割标注推荐
简单介绍:LabelMe的目标是提供一个在线注释工具,以建立用于计算机视觉研究的图像数据库。如果未完全标记图像,则用户可以使用鼠标在图像中绘制一个包含对象的多边形。LabelMe项目提供了一组工具,用于使用Matlab中的LabelMe数据集。
功能:
- 对图像进行多边形,矩形,圆形,多段线,线段,点形式的标注(可用于目标检测,图像分割,等任务)。
- 对图像进行进行 flag 形式的标注(可用于图像分类 和 清理 任务)。
- 视频标注
- 生成 VOC 格式的数据集(for semantic / instance segmentation)
- 生成 COCO 格式的数据集(for instance segmentation)
地址:http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
点击下载
【Aidiscovery】数据采集自动分类推荐
简单介绍:无需登陆注册,即可免费下载。人脸数据自动收集,界面友好、操作简单、其中包含的数据采集是其他软件不具备的,包括数据增强自动分类,解决标注头疼问题。除此之外,对数据集的采集来源、数据采集量、数据分布等进行统计分析,以可视化图表的形式展现,辅助评判数据集可用性。
功能:
- 数据采集,从视频和屏幕采集数据,实时标注
- 数据增强,提供数据增强详细的参数选择及预览,有单一数据增强和组合数据增强
- 数据处理,对于采集结果进行自动处理,再对不正确的手动处理
- 统计分析,对于采集资源的优劣进行统计
常用数据集下载网站
一、【Kaggle】 地址:https://www.kaggle.com/datasets
介绍:一个竞赛网站,上面有很多有价值的数据集和题目。每个比赛都是独立的。无需确定自己的项目范围并收集数据,可以腾出时间专注于其他技能。实践就是实践。
二、【ImageNet】 地址:http://image-net.org/
介绍:ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象;在至少一百万个图像中,还提供了边界框。ImageNet包含2万多个类别
四、【MS COCO】 地址 :https://cocodataset.org/#download
介绍 :COCO是大规模的对象检测,分割和字幕数据集。COCO具有以下功能:对象分割、上下文识别、超像素东西分割、330K图像(已标记> 200K)、150万个对象实例、80个对象类别、91个东西类别、每个图像5个字幕、有关键点的250,000人
五、【COIL100】 地址:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php
介绍:100 个不同的物体在 360°旋转中以每个角度成像
六、【Visual Genome】地址:http://visualgenome.org/
介绍:非常详细的视觉知识库,配有约 100K 个图像的注释。
七、【Labelled Faces in the Wild】地址:http://vis-www.cs.umass.edu/lfw/
介绍:13000 张贴有标签的人脸图像,用于作为人脸识别测试集。
八、【Stanford Dogs Dataset】地址:http://vision.stanford.edu/aditya86/ImageNetDogs/
介绍:包含 20580 个图像和 120 个不同品种的狗类别。注释:类别标签,边界框
九、【Indoor Scene Recognition】地址:http://web.mit.edu/torralba/www/indoor.html
介绍:该数据库包含67个室内类别,共15620张图像。图像的数量因类别而异,但每个类别至少有100张图像。所有图像均为jpg格式。此处提供的图像仅用于研究目的。
十、【vggface】地址:http://www.shujujishi.com/dataset/f66a2818-dd92-4c6e-bb83-a32f59f86170.html
介绍:VGG-Face中的身份分布数据集可能无法代表全球人口。在训练或部署根据此数据训练的模型时,根据场景使用,避免学习结果有偏见
VGGFace2数据集 具有9131个身份的新的大规模面部数据集。 VoxCeleb 1251个VGG Face身份的YouTube视频的URL和时间戳。
十一、【MS-Celeb-1M】地址:http://academictorrents.com/details/9e67eb7cc23c9417f39778a8e06cca5e26196a97
介绍:用于识别人脸图像的相关数据集,一百万名人。知识库提供的丰富信息有助于进行消歧和提高识别精度,并有助于各种现实应用,如图像字幕和新闻视频分析。是世界上最大的公开数据集,在版本1中包含1000万幅图像。
十二、【PubFig: Public Figures Face Database】地址:https://www.cs.columbia.edu/CAVE/databases/pubfig/
介绍:PubFig数据库是一个大型的真实人脸数据集,58797张图像200人。与大多数其他现有的人脸数据集不同,这些图像是在完全不受控制的情况下拍摄的,对象不合作。因此,在姿势、照明、表情、场景、相机、成像条件和参数等方面有很大的变化。
十三、【megaface】地址:http://megaface.cs.washington.edu/dataset/download_training.html
介绍:megaface训练数据集是最大的(在身份数量上)可公开获得的面部识别数据集,具有470万张脸、672个身份和它们各自的边界框。
十四、【Yale Face Database 】http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html
介绍:耶鲁人脸数据库包含28个人在9种姿势和64种光照条件下的16128幅图像
其他
- Datahub – a community-managed home for open data sets
- Data.gov – the U.S. Government's open data
- data.world
- GCMD – the Global Change Master Directory containing over 20,000 descriptions of Earth science and environmental science data sets and services
- Humanitarian Data Exchange(HDX) – The Humanitarian Data Exchange (HDX) is an open humanitarian data sharing platform managed by the United Nations Office for the Coordination of Humanitarian Affairs.
- NYC Open Data – free public data published by New York City agencies and other partners.
- Relational data set repository
- Research Pipeline – a wiki/website with links to data sets on many different topics
- StatLib–JASA Data Archive
- UCI – a machine learning repository
- UK Government Public Data
- World Bank Open Data – Free and open access to global development data by World Bank
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)