本文将为您介绍10个经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

MAI (Multi-scene Aerial Image)

  • 发布方:

    不列颠哥伦比亚大学·德国航空航天中心·慕尼黑大学

  • 发布时间:

    2021

  • 简介:

    MAI 是用于在单个航拍图像中进行多场景识别的数据集。它由来自 Google 地球图像的 3,923 张标记的大型图像组成,覆盖美国、德国和法国。每张图像的尺寸为 512 × 512,空间分辨率从 0.3 m/pixel 到 0.6 m/pixel 不等。在捕获航拍图像后,从总共 24 个场景类别中为每个图像手动分配多个场景级标签,包括围裙、棒球、海滩、商业、农田、林地、停车场、港口、住宅、河流、储罐、海洋、桥, 湖, 公园, 迂回, 足球场, 体育场, 火车站, 作品, 高尔夫球场, 跑道, 稀疏灌木和网球场

  • 下载地址:

    https://github.com/Hua-YS/Prototype-based-Memory-Network

  • 论文地址:

    https://arxiv.org/pdf/2104.11200v1.pdf

2

TrashCan

  • 发布方:

    University of Minnesota

  • 发布时间:

    2020-07-23

  • 简介:

    TrashCan 数据集由带注释的图像(目前为 7,212 张图像)组成,其中包含对垃圾、ROV 和各种海底动植物的观察。此数据集中的注释采用实例分割注释的格式:包含掩码的位图,标记图像中的哪些像素包含每个对象。 TrashCan 中的图像来自日本海洋地球科学技术局 (JAMSTEC) 策划的 J-EDI(JAMSTEC 深海图像电子图书馆)数据集。该数据集包含来自 JAMSTEC 自 1982 年以来主要在日本海中运营的 ROV 的视频。该数据集有两个版本,TrashCan-Material 和 TrashCan-Instance,分别对应不同的对象类配置。最终目标是开发适用于车载机器人部署的高效准确的垃圾检测方法。虽然之前已经创建了包含海洋环境中垃圾边界框级别注释的数据集,但据我们所知,TrashCan 是第一个实例分割注释的水下垃圾数据集。我们希望该数据集的发布将有助于进一步研究这一具有挑战性的问题,使海洋机器人社区更接近于解决自动垃圾检测和清除这一紧迫问题的解决方案。

  • 下载地址:

    https://conservancy.umn.edu/handle/11299/214865

  • 论文地址:

    https://arxiv.org/pdf/2007.08097.pdf

3

NOAA Atmospheric Temperature Dataset

  • 发布方:

    南加州大学

  • 发布时间:

    2012-11-28

  • 简介:

    该数据集包含位于美国的陆基气象站的气象观测(温度),收集自美国国家海洋和大气管理局 (NOAA) 的在线气候数据目录。气象站采样自 2015 年期间积极测量气象观测的西部和东南部各州。每小时温度记录的 1 年连续数据分为 24 小时的小序列。对于训练、验证和测试,使用连续的 8-2-2(月)拆分。

  • 下载地址:

    https://www.ncei.noaa.gov/access/metadata/landing-page/bin/iso?id=gov.noaa.ncdc:C00761

  • 论文地址:

    https://openreview.net/pdf?id=r1gelyrtwH

4

WATB

  • 发布方:

    大连民族大学

  • 发布时间:

    2022

  • 简介:

    我们提出了第一个基准,命名为野生动物跟踪基准 (WATB),以鼓励视觉对象跟踪在野生动物保护中的研究和应用的进一步进展。 我们的跟踪基准包括: 包括206序列。 涵盖陆地、海洋和天空的不同种类的动物。 WATB的总帧超过203,000。 平均序列长度超过980帧。 所有序列都标有13个挑战属性。

  • 下载地址:

    https://w-1995.github.io/index.html

  • 论文地址:

    https://link.springer.com/content/pdf/10.1007/s11263-022-01732-3.pdf

5

General 100

  • 发布方:

    Chinese University of Hong Kong

  • 发布时间:

    2016

  • 简介:

    General-100 数据集包含 100 个 bmp 格式的图像(无压缩)。我们在 FSRCNN ECCV 2016 论文中使用了这个数据集。这 100 张图像的尺寸范围从 710 x 704(大)到 131 x 112(小)。它们的质量都很好,边缘清晰,但平滑区域较少(例如天空和海洋),因此非常适合超分辨率训练。

  • 下载地址:

    http://mmlab.ie.cuhk.edu.hk/projects/FSRCNN.html

  • 论文地址:

    https://arxiv.org/pdf/1608.00367v1.pdf

6

SUIM (Segmentation of Underwater IMagery)

  • 发布方:

    University of Minnesota

  • 发布时间:

    2020

  • 简介:

    水下图像分割 (SUIM) 数据集包含超过 1500 张图像,其中包含八个对象类别的像素注释:鱼(脊椎动物)、珊瑚礁(无脊椎动物)、水生植物、沉船/废墟、人类潜水员、机器人和海底。这些图像是在海洋探索和人机协作实验期间严格收集的,并由人类参与者进行注释。

  • 下载地址:

    http://irvlab.cs.umn.edu/resources/suim-dataset

  • 论文地址:

    https://arxiv.org/pdf/2004.01241v3.pdf

7

MARIDA (Marine Debris Archive)

  • 发布方:

    雅典国家技术大学

  • 发布时间:

    2022

  • 简介:

    MARIDA (Marine Debris Archive) 是第一个基于多光谱 Sentinel-2 (S2) 卫星数据的数据集,它将海洋碎片与共存的各种海洋特征区分开来,包括马尾藻大型藻类、船舶、天然有机材料、波浪、尾流、泡沫、不同的水类型(即清澈、浑浊的水、富含沉积物的水、浅水)和云。 MARIDA 是一个开放访问数据集,使研究界能够探索某些漂浮物质、海况特征和水类型的光谱行为,开发和评估基于人工智能和深度学习架构的海洋碎片检测解决方案,以及卫星预处理管道。尽管它的设计目的是对多个机器学习任务有益,但它主要旨在对弱监督的像素级语义分割学习方法进行基准测试。 MARIDA 可以从存储库 Zenodo (https://doi.org/10.5281/zenodo.5151941) 下载。有关所有 ML 基准测试的快速入门指南和数据集的详细概述,请访问 https://marine-debris.github.io/。

  • 下载地址:

    https://mlhub.earth/data/marida_v1

  •  论文地址:

    https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0262247&type=printable

8

WHOI-Plankton

  • 发布方:

    ROIS-DS Center for Open Data in the Humanities

  • 发布时间:

    2015

  • 简介:

    带注释的浮游生物图像 - 用于开发和评估分类方法的数据集 此处可用的数据集包含超过 350 万张微型海洋浮游生物图像,这些图像根据伍兹霍尔海洋研究所 (WHOI) 研究人员提供的类别标签进行组织。这些图像目前被归入 103 个类别之一。

  • 下载地址:

    https://github.com/hsosik/WHOI-Plankton

  • 论文地址:

    https://arxiv.org/pdf/1510.00745v1.pdf

9

DeepTrash

  • 发布方:

    加州州立大学·杰克逊实验室·斯克里普斯海洋研究所·Ocean Cleanup Foundation·夏威夷太平洋大学

  • 发布时间:

    2021-04-16

  • 简介:

    正浮力海洋塑料碎片的量化对于理解塑料是如何产生的至关重要 垃圾在世界海洋中堆积,对于识别目标热点也至关重要 清理工作。目前,量化海洋塑料最常用的方法是使用蝠鲼拖网 用于手动采样。然而,这种方法成本高,需要人工。这项研究 通过使用神经网络的自主方法消除了手动采样的需要,并且 计算机视觉模型,对从海柱各层捕获的图像进行训练 进行实时塑料量化。表现最好的模型具有平均平均精度 85% 和 0.89 的 F1 分数,同时保持接近实时的处理速度 2 ms/img。

  • 下载地址:

    https://zenodo.org/record/5562940#.YpAzcuhBw2w

  •  论文地址:

    https://arxiv.org/pdf/2105.01882v4.pdf

 温馨  小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐