引言:

随着遥感技术和无人机技术的快速发展,我们获取高分辨率图像的能力越来越强。然而,如何从这些海量的图像数据中提取有用的信息,尤其是进行像素级的语义分割,成为了一个亟待解决的问题。本文将介绍图像语义分割中的关键技术,包括编码器-解码器结构、多尺度和特征融合策略以及关系建模方法,并特别探讨 Segment Anything 这一新兴技术在遥感与无人机图像语义分割中的应用。

遥感影像分割,源码下载(点击下方小程序):

1

编码器-解码器结构

Summer IS HERE

0fa87361c04e8fa33055f762420687f3.png

编码器-解码器结构是图像语义分割任务中的基础框架。编码器通过卷积操作对输入图像进行降维和特征提取,而解码器则负责将这些特征映射回原始分辨率,生成像素级的预测结果。这种结构在降低计算复杂度和减少参数数量的同时,实现了高效且准确的图像语义分割。

在遥感与无人机图像中,由于图像尺寸大、细节丰富,编码器-解码器结构显得尤为重要。FCN、SegNet 和 DeconvNet 等典型模型在此类任务中得到了广泛应用。它们通过不同的设计,如全连接层的卷积化、最大池化索引的上采样以及反卷积操作等,有效地实现了从图像到像素级预测的转换。

2

多尺度和特征融合策略

Summer IS HERE

f027c706a8669574363a60c1d39be820.png

在遥感与无人机图像中,不同尺度的信息对于提高分割精度至关重要。为了捕获和处理这些信息,研究人员提出了多种多尺度和特征融合策略。

DeepLab 系列(v### v3+)通过引入 ASPP 模块,控制了不同采样率下的特征提取,有效融合了低级和高级特征。PSPNet 则采用了金字塔池化模块,聚合了多尺度的上下文信息,进一步提高了分割精度。U-Net 系列和 HRNet 则通过跳跃连接和并行多分辨率分支,实现了深浅层特征的有效融合和多尺度信息的交互。

3

关系建模方法

Summer IS HERE

e45367af912cc9de01b6e2fade8b5b9f.png

关系建模方法通过显式地建立特征之间的关系,改善了预测结果。在遥感与无人机图像中,这种关系建模尤为重要,因为图像中的物体往往存在复杂的空间关系。

Non-local mappings 通过建立特征内局部接受场的空间和通道关系,增强了特征表示的丰富性。自注意力机制则通过计算注意力权重来确定输入数据中不同部分的重要性,实现了对关键信息的有效关注。分层注意力机制在多个级别或尺度上计算注意力,整合了不同尺度的信息,进一步提高了分割精度。

Summer

0be582c46d3dee84f191bdd185321297.png

03bffa4a10f2004834090c65a31e1484.png

DeepLab 系列

f80e0961fcbe0384a83b981dafacd910.png

DeepLab 是 Google 研发的一系列深度学习模型,主要用于图像语义分割任务。它结合了深度卷积神经网络(DCNNs)和条件随机场(CRFs)两种强大的技术,以实现高效和准确的语义图像分割。DeepLab 模型结构基于卷积神经网络(CNN),并引入了空洞卷积(Atrous Convolution)和空间金字塔池化(Spatial Pyramid Pooling)等创新技术,以获取多尺度上下文信息。

DeepLab 系列模型包括多个版本,如 DeepLab v1、v2、v3 等。其中,DeepLab v1 将深度卷积神经网络和条件随机场相结合,通过空洞卷积来扩大感受野,并解决由于最大池化和下采样导致的分辨率下降问题。DeepLab v2 进一步引入了 ASPP(atrous spatial pyramid pooling)模块,融合了不同尺度下的空洞卷积采样结果,提高了分割效果。DeepLab v3 则采用 Multi Grid 策略,对原先模型的超参进行优化,以获得更好的分割效果。

DeepLab 系列模型在多个公开数据集上取得了卓越的性能,如 PASCAL VOC-2012、PASCAL-Context、PASCAL-Person-Part 和 Cityscapes 等。这些数据集为图像语义分割领域的研究提供了丰富的资源和基准测试平台。

Summer

d54a3bc7bd91742d5eec8f8574390879.png

a3da91cc4489d1e5488e813ed0ce07ad.png

PSPNet

ab7e220966787eed8e67e04cae2fc3f0.png

PSPNet(Pyramid Scene Parsing Network)是深度学习领域中用于图像语义分割的重要模型,由 Sony 公司的研究人员在 2016 年提出。其主要目标是对输入图像进行像素级别的分类,即每个像素都被分配到一个类别,如人、车、道路等。

PSPNet 采用金字塔池化模块来聚合多尺度上下文信息,从而提高了模型对图像中不同尺度物体的分割能力。该模块包括四个不同尺度的池化层,它们将特征图的不同部分下采样并合并成一个单一的输出特征。这种设计使得 PSPNet 能够同时考虑图像的局部和全局信息,从而提高分割精度。

PSPNet 在多个公开数据集上表现出色,包括 PASCAL VOC、Cityscapes 等。这些数据集涵盖了不同场景和物体类别,为 PSPNet 的训练和测试提供了丰富的资源。

Summer

d378430b9b5b06dfabddb78e5e2e6336.png

00adfcc3c4df1376317d0ba952e091f2.png

U-Net

49c24f2667c752c732233c958cd05b6b.png

U-Net 模型是一种改进的 FCN 结构,因其结构形似字母 U 而得名。它广泛应用于医学图像的语义分割任务中。U-Net 由左半边的压缩通道(Contracting Path)和右半边扩展通道(Expansive Path)组成。压缩通道采用典型的卷积神经网络结构,通过卷积和池化操作逐渐减小特征图的尺寸并增加通道数。在扩展通道中,模型通过反卷积操作恢复特征图的尺寸,并与压缩通道中对应层的特征图进行拼接,以保留更多的上下文信息。

U-Net 在医学图像分割领域取得了显著成果,并在多个公开数据集上进行了验证,如 ISIC(国际皮肤图像分析挑战赛)等。这些数据集提供了大量的医学图像数据,包括不同类型的病变和正常组织样本,为 U-Net 的训练和测试提供了有力支持。

Summer

36da0b11dc7b9b148f33459a014052c6.png

27a34aa29463884f2ce86d46bc3e1959.png

HRNet

88b8b68b632c1af33317ea0a846473c5.png

HRNet(High-Resolution Network)是一种用于图像识别、语义分割等计算机视觉任务的神经网络模型。它以高分辨率特征作为基础,通过保持多尺度信息的完整性,能够在保持较高分辨率的同时兼顾全局和局部信息的获取。

HRNet 采用并行多分辨率分支进行特征交互和融合,从而在不同尺度上保持高分辨率表示。这种设计使得 HRNet 能够在处理图像时同时考虑不同尺度的信息,提高了对图像中不同大小物体的分割能力。

HRNet 在多个公开数据集上表现出色,如 Cityscapes、PASCAL VOC 等。这些数据集涵盖了不同类型的图像和场景,为 HRNet 的训练和测试提供了丰富的资源。通过在这些数据集上的训练和验证,HRNet 已经证明了其在图像语义分割领域的强大性能和广泛应用前景。

4

Segment Anything 技术

Summer IS HERE

921b9accf8b9affc1250cb5b5b19c82f.png

Segment Anything 是一项新兴的技术,它旨在解决图像中任意物体的分割问题。该技术基于强大的深度学习模型,能够实现对图像中任意区域的精确分割。在遥感与无人机图像中,Segment Anything 技术具有广阔的应用前景。

由于遥感图像和无人机图像中往往包含大量的不同物体和场景,传统的语义分割方法往往难以应对。而 Segment Anything 技术则能够实现对这些复杂图像的精确分割,为后续的图像理解和应用提供了有力支持。

5

遥感与无人机图像分割公开数据集

Summer IS HERE

d96044228121cdeaedf7a400fec9ce24.png

Summer

5b9a1a2f068c07c3523725aeefb2bcb9.png

7d1fc5d51dd279a6cc5f05d0d2085de6.png

a63207c941f800c93c72ef99ee7564b7.png

GID 是一个用于土地利用和土地覆盖(LULC)分类的大型遥感数据集。它包含来自中国 60 多个不同城市的 150 幅高质量高分二号(GF-2)图像,这些图像覆盖的地理区域超过了 5 万 km²。GID 图像具有较高的类内多样性和较低的类间可分离性。GF-2 卫星包括了空间分辨率为 1m 的全色图像和 4m 的多光谱图像,多光谱提供了蓝色、绿色、红色和近红外波段的图像。

Summer

b3f0a67eec527bdbf41b4ea29ba4f9cd.png

ce2a009d7f75e9f20d76cb0bf4e3fd5a.png

f7fa7049477bc82c170e16db474ee12a.png

这是一个专注于城市场景的无人机语义分割数据集。它包含了从无人机视角拍摄的图像,并标注了 20 类常见的城市目标,如树、草、其他植被、污垢、碎石、岩石、水、铺砌面积、水池、人、狗、车、自行车、屋顶、墙、栅栏、栅栏杆、窗户、门和障碍物等。

Summer

f747eb57edb1643c9c422fa1bb2f3b18.png

4cf64305d4e6c1a376a0bb63e6ce354d.png

f49e6dc467ab6461dc50d8f30e2c5b9d.png

EvLab-SS 数据集是一个来源于中国地理条件调查和绘图项目的遥感数据集。它包含 11 个大类,分别是背景、农田、花园、林地、草地、建筑、道路、构筑物、挖孔桩、沙漠和水域。数据集包括 60 幅图像,其中 35 幅为卫星图像,25 幅为航空图像。这些图像的空间分辨率有所不同,为模型提供了丰富的多尺度信息。

Summer

f0457a1464e2f1745b0d7fc62b7d78f2.png

7b3a3103ce78e26e29d261fa40eab0dd.png

c4fb600c785ed84d8d5607cf885b843f.png

这是一个专注于城市场景语义理解的无人机数据集。它包含了从距地面 5 至 30 米的高度拍摄的 20 多座房屋的图像。这些图像使用高分辨率相机获取,尺寸为 6000x4000px (24Mpx)。数据集包括 20 个类别,与 Urban Drone Dataset 类似,但具体的图像和标注可能有所不同。

6

结论

Summer IS HERE

3243fed3348b4d054220ce5c413be0bf.png

本文介绍了遥感与无人机图像中的语义分割技术,包括编码器-解码器结构、多尺度和特征融合策略以及关系建模方法。同时,特别探讨了 Segment Anything 技术在这一领域的应用前景。这些技术和方法不仅提高了分割的精确度和鲁棒性,还为遥感与无人机图像的理解和应用提供了有力支持。未来,随着技术的不断发展,我们有理由相信这些技术将在更多领域展现出其巨大的潜力。

246d8ac3ed2ac7344d91fe3e719f4c2b.png

本公众号只做干货,分享实际项目中的点点滴滴

希望您阅读后有所收获

同时,也希望您能在下方给个赞赏

您的赞赏

是我持续创作的最大动力!

非常感谢!

a9e0072bd96c482912c8b611f1a095ef.gif

1、集齐49款GIS常用软件,总有一款是你需要的!

2、ArcGIS Pro中常用的空间分析功能

3、开源 Web GIS 制作3D建筑

4、ArcGIS Pro 和 ChatGPT集成思路

5、Segment Anything 模型的 3 个地理空间和遥感用例

6、Segment Anything模型用于地理空间数据

7、卫星基础知识&&遥感卫星

8、市面上10款GIS软件优劣性比较

81f26d7fa4bbd2263af4ec1ffb1f5578.gif

df7305a8c98e51f4c087908107efb1df.gif

点分享

b584345174cabbb87b64aed6ace8ce0a.gif

点点赞

e16526506432f20e1b6b69b516321a55.gif

点在看

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐