Paper1 MFP: Making Full Use of Probability Maps for Interactive Image Segmentation

摘要小结: 最近的交互式分割算法中,将先前的概率图作为网络输入,以帮助当前分割轮次的预测。然而,尽管使用了先前的掩膜,概率图中包含的有用信息并没有很好地传播到当前预测中。在本文中,为了克服这一局限性,我们提出了一种新颖有效的基于点击的交互式图像分割算法MFP,该算法试图充分利用概率图。首先,我们调节先前的概率图,以增强它们对用户指定对象的表示。然后,我们将调节后的概率图作为附加输入送入分割网络。我们基于ResNet-34、HRNet-18和ViT-B骨干网络实现了提出的MFP算法,并在各种数据集上广泛评估了其性能。结果显示,MFP在相同骨干网络下明显优于现有算法。源代码可在https://github.com/cwlee00/MFP获取。

概述主要内容:
这段话介绍了交互式分割算法中的一个新方法MFP,它旨在更好地利用先前的概率图来提高图像分割的准确性。作者提出了一种方法来调节概率图,并将它们作为输入,然后展示了MFP算法在多个数据集上的性能,并指出它优于现有算法。

Paper2 Fusing Personal and Environmental Cues for Identification and Segmentation of First-Person Camera Wearers in Third-Person Views

摘要小结: 随着可穿戴摄像头的普及,一个重要的问题出现了:如何从传统静态摄像头的视角识别出摄像头的佩戴者。第一人称(以自我为中心)和第三人称(以外在为中心)的摄像头视角之间的巨大差异使得这一任务颇具挑战性。我们提出了PersonEnvironmentNet(PEN)框架,旨在整合两个视角中个体信息和从背景环境中推断出的几何线索。为了促进这一方向的研究,我们还介绍了TF2023,这是一个新颖的数据集,包含同步的第一人称和第三人称视角,以及摄像头佩戴者的掩码和将这些掩码与相应第一人称视角相关联的标签。此外,我们提出了一种新颖的定量指标,旨在测量模型理解两种视角之间关系的能力。实验结果表明,PEN优于现有方法。代码和数据集可在https://github.com/ziweizhao1993/PEN找到。

主要内容概述:
这段话介绍了随着可穿戴摄像头流行的一个挑战:如何从静态摄像头视角识别佩戴者。提出了PersonEnvironmentNet框架来解决这一问题,并介绍了TF2023数据集来支持研究。还提出了一个定量指标来衡量模型理解视角关系的能力,实验显示PEN表现优于现有方法。

Paper3 Bi-level Learning of Task-Specific Decoders for Joint Registration and One-Shot Medical Image Segmentation

摘要小结:

一次性医学图像分割(MIS)旨在应对昂贵、耗时且固有的人类偏见注释问题。解决一次性MIS的一种流行方法是联合配准和分割(JRS),该方法使用共享编码器,主要探索标记数据和无标记数据之间的体素级对应关系以实现更好的分割。然而,这种方法忽略了分割和配准任务特定解码器之间的潜在联系,导致训练不稳定。在本文中,我们提出了一种新颖的针对一次性MIS的双层次学习任务特定解码器,采用预训练的固定共享编码器,这被证明比现有没有固定共享编码器范式的JRS更快地适应全新数据集。具体来说,我们引入了一种双层次优化训练策略,将配准视为主要目标,将分割视为通过利用任务间耦合依赖性而可学习到的约束。此外,我们设计了一种外观一致性约束策略,该策略学习反向变换生成用于执行数据增强的伪标记数据,而不是使用标记图像,以避免因无标记数据和标记数据之间的不一致风格导致性能下降。在ABIDE、ADNI和PPMI数据集上的大脑MRI任务上的广泛实验表明,所提出的Bi-JROS在分割和配准任务上均优于现有的一次性MIS方法。代码将可在https://github.com/Coradlut/Bi-JROS提供。

主要内容概述:

这段话介绍了一种针对一次性医学图像分割(MIS)的新方法,即双层次学习任务特定解码器。该方法使用预训练的固定共享编码器,并通过双层次优化训练策略来提高分割和配准的稳定性。此外,它还采用了外观一致性约束策略来避免性能下降。实验证明,该方法在分割和配准任务上优于现有的一次性MIS方法。

Paper4 PH-Net: Semi-Supervised Breast Lesion Segmentation via Patch-wise Hardness

摘要小结: 我们提出了一种新颖的半监督框架,用于乳腺超声(BUS)图像分割,这是一个非常具有挑战性的任务,原因包括:(1)乳腺病变的大小和形状变化很大;(2)BUS图像中大量的斑点噪声和伪影导致边界极其模糊。尽管现有模型在这个任务上取得了一定的进展,但我们认为目前进一步改进的主要瓶颈是我们仍无法很好地处理困难情况。我们的框架旨在突破这一瓶颈,包括两个创新组件:一个自适应补丁增强方案和一个困难补丁对比学习模块。我们首先通过计算每个补丁的平均熵来识别困难补丁,然后在执行随机补丁cutmix时屏蔽困难补丁,以防止它们被裁剪掉。这样的方案能够防止在强增强下困难区域训练不足。我们进一步开发了一种新的困难补丁对比学习算法,通过在困难补丁的像素上施加额外对比,引导模型关注困难区域,从而进一步提高困难情况的分割性能。

以下主要内容概述:

翻译:
我们提出了一种针对乳腺超声图像分割的新型半监督框架。这是一个挑战性任务,因为病变的变化和图像噪声。我们认为当前的瓶颈是无法处理困难案例。我们的框架包括两个创新部分,旨在解决这个问题。

概述:
这段话介绍了一种新的半监督学习框架,用于分割乳腺超声图像。这个任务很困难,框架包括了两个关键部分:自适应补丁增强和困难补丁对比学习模块。这些部分帮助提高对困难案例的处理,并且在两个知名数据集上展示了优于现有方法的性能。

Paper5 BSNet: Box-Supervised Simulation-assisted Mean Teacher for 3D Instance Segmentation

摘要小结: 3D实例分割(3DIS)是一项关键任务,但在全监督设置中,点级别的注释工作繁重。因此,使用边界框(bboxes)作为注释显示出巨大的潜力。当前主流的方法是一个两步过程,涉及从边界框注释生成伪标签,并使用伪标签训练3DIS网络。然而,由于边界框之间存在交叉,不是每个点都有确定的实例标签,特别是在重叠区域。为了生成更高质量的伪标签并实现更精确的弱监督3DIS结果,我们提出了Box-Supervised Simulation-assisted Mean Teacher for 3D Instance Segmentation (BSNet),该方案设计了一种新颖的伪标签器,称为Simulation-assisted Transformer。

以下是对主要内容概述:

翻译:
3D实例分割(3DIS)是一项重要任务,但在全监督环境下,点级注释非常繁琐。使用边界框(bboxes)作为注释的方法显示出很大的潜力。目前主流的方法分为两步,首先从边界框注释生成伪标签,然后使用这些伪标签训练3DIS网络。但是,由于边界框之间的交集,特别是在重叠区域,不是每个点都有明确的实例标签。为了生成更高质量的伪标签并实现更精确的弱监督3DIS结果,我们提出了BSNet,其中包含了一种新颖的伪标签器。

概述:

主要内容是,作者提出了一种新的方法BSNet,以应对3DIS中的挑战。这个方法使用边界框作为注释,并通过Simulation-assisted Transformer来生成更高质量的伪标签。该方法特别关注重叠区域的问题,并通过两个主要组件来实现这一目标,包括Simulation-assisted Mean Teacher和Local-Global Aware Attention。实验结果在ScanNetV2和S3DIS数据集上验证了其设计的优越性。

Paper6 Prompt-Driven Referring Image Segmentation with Instance Contrasting

摘要小结: 指代图像分割(RIS)的目标是对自然语言描述的目标实体进行分割。最近,大规模预训练模型如CLIP和SAM已成功应用于许多下游任务,但由于任务间的差异,它们并不完全适用于RIS任务。在本文中,我们提出了一种新的基于提示的框架Prompt-RIS,它将CLIP和SAM端到端连接起来,并通过提示学习将它们的丰富知识和强大能力转移到RIS任务上。为了使CLIP适应像素级任务,我们首先提出了一种跨模态提示方法,通过进行双向提示,获得更全面的视觉-语言交互和细粒度的文本到像素对齐。然后,经过提示调整的CLIP为SAM生成掩膜点和平文提示,以生成更准确的掩膜预测。此外,我们进一步提出了实例对比学习,以提高模型对不同实例的区分能力和对描述同一实例的多种语言的鲁棒性。大量实验表明,我们的方法在通用和开放词汇设置下的性能均优于现有最佳方法。

主要内容概述:本文介绍了一种名为Prompt-RIS的新框架,用于指代图像分割任务。该框架将CLIP和SAM模型相结合,通过提示学习将它们的能力转移到RIS任务上。文章还提出了一种跨模态提示方法和实例对比学习,以提高模型在分割任务中的性能。实验证明,该方法在通用和开放词汇设置下均优于现有最佳方法。

Paper7 Diversified and Personalized Multi-rater Medical Image Segmentation

摘要小结: 由于内在数据不确定性,如医学扫描中模糊的边界以及不同观察者之间的专业知识和偏好差异,注释不确定性已经成为训练基于深度学习的医学图像分割模型的主要障碍。为了解决这个问题,常见的做法是从不同专家那里收集多个注释,从而设立多评分者医学图像分割。现有工作旨在将不同注释合并为“地面真相”,这在许多医学背景下往往是无法实现的,或者生成多样化的结果,或产生与个人专家评分者相对应的个性化结果。在这里,我们为多评分者医学图像分割提出了一个更为雄心勃勃的目标,即获得多样化和个性化的结果。具体来说,我们提出了一个名为D-Persona的两阶段框架(首先是多样化,然后是个性化)。以下是主要内容概述:

翻译:
注释不确定性,由于医学扫描中模糊边界等固有数据不确定性以及不同观察者专业知识和偏好的差异,已成为训练基于深度学习的医学图像分割模型的主要障碍。为了应对这一问题,通常的做法是收集不同专家的多个注释,从而进行多评分者医学图像分割。现有研究要么将不同注释合并为“地面真相”,这在许多医学情境中难以实现,要么生成多样化结果,或产生与个人专家评分者的个性化结果。本文提出了一个更为大胆的多评分者医学图像分割目标,即同时获得多样化和个性化结果。具体来说:

主要内容概述:

  • 文章提出D-Persona两阶段框架。
  • 阶段I利用多个给定注释训练一个概率U-Net模型,以改善预测多样性。
  • 在阶段II,设计多个基于注意力的投影头,以适应性地查询共享潜在空间中的相应专家提示,并进行个性化医学图像分割。
  • 文章在内部鼻咽癌数据集和公共肺结节数据集(即LIDC-IDRI)上评估了模型。
  • 实验证明D-Persona可以同时提供多样化和个性化结果,并为多评分者医学图像分割实现新的SOTA性能。
  • 代码将在GitHub上发布。

Paper8 OmniSeg3D: Omniversal 3D Segmentation via Hierarchical Contrastive Learning

摘要小结: 为了全面理解3D场景,需要一种通用的3D分割方法,该方法能够在不限制对象数量或类别的情况下分割不同对象,同时反映固有的层次结构。为此,我们提出了OmniSeg3D,这是一种全能的分割方法,旨在一次性分割3D空间中的所有事物。关键洞察是将多视图不一致的2D分割提升到一个一致性的3D特征场,通过一个层次对比学习框架实现,这一过程分为两步。首先,我们设计了一种新颖的层次表示,基于类别无关的2D分割来建模像素之间的多级关系。其次,从3D特征场渲染的图像特征在不同层次上进行聚类,根据不同层次之间的层次关系可以进一步拉近或推开。这个框架解决了不一致2D分割带来的挑战,产生了一个全局一致性的3D特征场,进一步实现了层次分割、多对象选择和全局离散化。

以下是主要内容概述:

翻译内容:
为了实现对3D场景的整体理解,我们需要一种通用的3D分割方法,能够无限制地分割多种对象,并且反映出内在的层次结构。

概述:
文章介绍了OmniSeg3D,这是一种新的分割方法,能够一次性处理3D空间中的所有分割。它通过层次对比学习框架实现,并且有效处理了以下内容:

  • 新颖的层次表示设计。
  • 不同层次上的特征聚类。
  • 全局一致性的3D特征场生成。

实验证明该方法在高质量的3D分割和精确的层次结构理解方面是有效的,且提供了一个图形用户界面,便于灵活交互。

Paper9 PrPSeg: Universal Proposition Learning for Panoramic Renal Pathology Segmentation

摘要小结: 理解肾脏病理学的解剖结构对于推进疾病诊断、治疗评估和临床研究至关重要。复杂的肾脏系统包括多个层面的各种组成部分,包括区域(皮质、髓质)、功能单位(肾小球、肾小管)和细胞(肾小球中的足细胞、系膜细胞)。先前的研究大多忽视了临床知识中各对象之间复杂的空间相互关系。在这项研究中,我们引入了一种新的通用命题学习方法,称为全景肾脏病理分割(PrPSeg),旨在通过整合肾脏解剖学的广泛知识,全面分割肾脏内的全景结构。在本文中,我们提出:(1)设计一个全面的通用命题矩阵,用于肾脏病理学,便于将分类和空间关系融入分割过程;(2)一种基于标记的动态头单网络架构,改进了部分标签图像分割,并具备未来数据扩展的能力;(3)一个解剖损失函数,量化肾脏内各对象之间的关系。

主要内容概述:这段话强调了理解肾脏病理学解剖结构的重要性,并介绍了一项新的研究方法——全景肾脏病理分割(PrPSeg)。该方法旨在全面分割肾脏结构,通过整合肾脏解剖学知识,设计了一种通用命题矩阵,并提出了新的网络架构和损失函数来改进图像分割和量化肾脏内对象间的关系。

Paper10 USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation

摘要小结:

开放词汇图像分割任务涉及将图像分割成具有语义意义的片段,并用灵活的文本定义的类别对它们进行分类。最近的基于视觉的基础模型,如Segment Anything Model (SAM),在生成类不可知的图像片段方面表现出卓越的性能。目前,开放词汇图像分割的主要挑战在于将这些片段准确分类到文本定义的类别中。在本文中,我们介绍了通用片段嵌入(USE)框架来解决这一挑战。该框架由两个关键组成部分构成:1)一个数据管道,旨在高效地整理大量不同粒度的片段-文本对;2)一个通用片段嵌入模型,能够精确地将片段分类到广泛的文本定义的类别中。USE模型不仅可以帮助开放词汇图像分割,还可以促进其他下游任务(例如查询和排序)。通过在语义分割和部分分割基准上进行全面的实验研究,我们证明了USE框架优于现有的开放词汇分割方法。

主要内容概述:
这段话讨论了开放词汇图像分割的任务,并指出了当前的主要挑战。随后,引入了Universal Segment Embedding (USE)框架来应对这些挑战。框架包括数据管道和片段嵌入模型,能够进行精确分类。此外,USE模型对其他下游任务也有帮助,并通过实验证明了其优越性。

Paper11 OMG-Seg: Is One Model Good Enough For All Segmentation?

摘要小结: 在这项工作中,我们解决了各种分割任务,这些任务传统上是由不同的或部分统一的模型来处理的。我们提出了OMG-Seg,这是一个足够好的单一模型,能够高效且有效地处理所有分割任务,包括图像语义、实例和全景分割以及它们的视频对应任务,还包括开放词汇设置、提示驱动的交互式分割(如SAM)和视频对象分割。据我们所知,这是第一个在一个模型中处理所有这些任务并取得满意性能的模型。我们展示了OMG-Seg,一个基于变压器的编码器-解码器架构,具有特定任务的查询和输出,可以支持超过十个不同的分割任务,同时在各种任务和数据集上显著降低计算和参数开销。我们严格评估了共同训练过程中的任务间影响和相关性。代码和模型可在https://github.com/lxtGH/OMG-Seg获取。

主要内容概述:
这段话介绍了OMG-Seg模型,这是一个能够处理多种分割任务的单一模型。它包括图像和视频分割的各种任务,并且是首个在一个模型中实现这一点的。模型基于变压器架构,并能有效减少计算和参数开销。作者还进行了严格的评估,并提供了一个链接来获取代码和模型。

Paper12 MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation

摘要小结:

开放词汇的3D实例分割是前沿技术,因为它能够在没有预定义类别的情况下分割3D实例。然而,由于有限的标注3D数据,3D的进展落后于其2D对应物。为了解决这一问题,最近的工作首先通过2D模型生成2D开放词汇掩码,然后根据相邻两帧之间计算的指标将它们合并成3D实例。与这些局部指标相比,我们提出了一种新颖的指标——视图一致性率,以提高多视图观测的利用率。关键洞察是,如果大量来自不同视图的其他2D掩码同时包含这两个掩码,那么两个2D掩码应被视为同一3D实例的一部分。使用这个指标作为边权重,我们构建了一个全局掩码图,其中每个掩码都是一个节点。通过迭代聚类显示高视图一致性的掩码,我们生成了一系列代表不同3D实例的簇。值得注意的是,我们的模型是无需训练的。通过对公开数据集(包括ScanNet++、ScanNet200和MatterPort3D)的广泛实验,我们证明了我们的方法在开放词汇3D实例分割中达到了最先进的性能。

主要内容概述:

这段话主要讨论了开放词汇3D实例分割的一项新技术。由于3D数据的限制,这项技术进展缓慢,但研究者提出了一种新方法,通过视图一致性率来提高多视图观测的利用。他们使用这一指标构建全局掩码图,并通过聚类生成代表不同3D实例的簇。此外,该模型无需训练,且在多个数据集上展示了最先进的性能。

Paper13 Addressing Background Context Bias in Few-Shot Segmentation through Iterative Modulation

暂无整理

Paper14 pix2gestalt: Amodal Segmentation by Synthesizing Wholes

摘要小结: 我们介绍了pix2gestalt,这是一个用于零样本非模态分割的框架,它能够学习估计仅在遮挡物后面部分可见的整体对象的形状和外观。通过利用大规模扩散模型并将它们的表示转移到这个任务上,我们学习了一个条件扩散模型,用于在具有挑战性的零样本情况下重建整个对象,包括打破自然和物理先验的例子,如艺术。作为训练数据,我们使用了一个合成的数据集,其中包含遮挡对象及其完整对应物。实验表明,我们的方法在既定基准上优于监督基线。此外,我们的模型还可以显著提高存在遮挡时现有对象识别和3D重建方法的性能。

概述主要内容:
这段话介绍了名为pix2gestalt的框架,该框架用于零样本非模态分割。它通过学习估计部分可见对象的形状和外观来工作。它利用了大规模扩散模型,并在合成数据集上进行训练。实验证明,该方法在基准测试中表现优异,并能提高存在遮挡时的其他方法性能。

Paper15 Mudslide: A Universal Nuclear Instance Segmentation Method

摘要小结: 核实例分割在病理图像分析中起着至关重要的作用。主要挑战来自于精确分割密集重叠实例的困难和精确掩膜级别注释的高成本。现有的全监督核实例分割方法,如基于边界的方法,在捕捉重叠实例之间的差异方面存在困难,因此在密集分布的模糊区域中失败。它们也面临着向点监督过渡的挑战,那里的注释简单而有效。受自然泥石流的启发,我们提出了一种通用方法称为Mudslide,它使用简单的表示来表征不同实例之间的差异,并且可以很容易地从全监督扩展到点监督。

具体内容如下:

翻译:
核实例分割在病理图像分析中起着至关重要的作用。主要的挑战来自于精确分割紧密重叠的实例以及精确掩膜级别注释的高成本。现有的全监督核实例分割方法,例如基于边界的方法,在捕捉重叠实例之间的差异方面存在困难,因此在密集分布的模糊区域中往往失败。它们在过渡到点监督时也面临挑战,那里的注释简单而有效。受自然泥石流的启发,我们提出了一种名为Mudslide的通用方法,它使用简单的表示来区分不同实例,并且可以轻松地从全监督扩展到点监督。

概述:

这段话的主要内容是:

  • 核实例分割在病理图像分析中很重要。
  • 面临的主要挑战包括分割重叠实例和注释成本。
  • 现有方法在处理这些问题时存在困难。
  • 提出了一种名为Mudslide的新方法,受泥石流启发,能够更好地处理这些挑战,并可以从全监督扩展到点监督。

Paper16 COCONut: Modernizing COCO Segmentation

摘要小结: 在近几十年中,视觉识别领域取得了显著的进步,部分得益于数据集基准的改进。特别是COCO基准的建立推动了现代检测和分割系统的发展。然而,COCO分割基准在过去十年中的改进相对较慢。最初,它配备了用于事物实例的粗略多边形注释,后来逐渐增加了用于物质区域的粗略超像素注释,这些注释随后通过启发式方法合并以产生全景分割注释。这些由不同评分小组执行的注释不仅导致了粗略的分割掩模,而且导致了不同分割类型之间的不一致性。在这项研究中,我们对COCO分割注释进行了全面的重新评估。

这段话的主要内容:

  1. COCO分割基准改进缓慢,存在注释问题。
  2. 研究对COCO分割注释进行了重新评估。
  3. 引入了COCONut,这是一个新的数据集。

以下是翻译:

在过去几十年中,视觉界见证了视觉识别方面的显著进步,部分原因是数据集基准的进步。特别是,建立的COCO基准推动了现代检测和分割系统的发展。然而,COCO分割基准在过去的十年中改进相对较慢。最初,它配备了用于事物实例的粗略多边形注释,并逐渐增加了用于物质区域的粗略超像素注释,这些注释随后被启发式合并以产生全景分割注释。这些由不同评分组执行的解释不仅导致了粗略的分割掩模,还导致了分割类型之间的一致性。

在这项研究中,我们对COCO分割注释进行了全面的重新评估。通过提高注释质量和扩展数据集,我们涵盖了383K图像和超过5.18M的全景掩模,我们引入了COCONut,即COCO Next Universal segmenTation数据集。COCONut统一了语义实例和全景分割的分割注释,并通过精心制作的高质量掩模建立了强大的所有分割任务的基准。据我们所知,COCONut是首个经人类评分员验证的大规模通用分割数据集。我们预计COCONut的发布将显著提高社区评估新型神经网络进展的能力。

Paper17 MemSAM: Taming Segment Anything Model for Echocardiography Video Segmentation

摘要小结: 我们提出了一种新颖的超声心动图视频分割模型,通过将SAM适应于医学视频,以解决超声视频分割中存在的一些长期挑战,包括(1)大量斑点噪声和伪影(2)边界极其模糊(3)目标物体在帧间存在较大变化。我们模型的核心技术是一种时间感知和抗噪声提示方案。具体来说,我们使用一个包含空间和时间信息的时空记忆来提示当前帧的分割,因此将提出的模型称为MemSAM。在提示记忆时,依次提示携带时间线索的视频分割帧逐帧。同时,随着记忆提示传播高级特征,它避免了由掩膜传播引起误识别的问题,并提高了表示一致性。为了解决斑点噪声的挑战,我们进一步提出了一种记忆强化机制,利用预测的掩膜在存储之前提高记忆的质量。我们在两个公共数据集上广泛评估了我们的方法,并与现有模型相比展示了最先进的性能。特别是,我们的模型在有限注释的情况下,实现了与完全监督方法的可比性能。代码可在 https://github.com/dengxl0520/MemSAM. 获得。

概述:
这段话主要介绍了作者提出的一种新的超声心动图视频分割模型MemSAM。该模型通过适应SAM到医学视频,解决了超声视频分割中的几个挑战。模型使用时间感知和抗噪声提示方案,以及提出了一种记忆强化机制。研究在公共数据集上展示了优异性能,并与完全监督方法相比表现良好。代码已公开。

Paper18 UniVS: Unified and Universal Video Segmentation with Prompts as Queries

摘要小结: 尽管在统一图像分割(IS)方面取得了最近的进展,但开发一个统一的视频分割(VS)模型仍然是一个挑战。这主要是因为通用类别指定的VS任务需要检测所有对象并跟踪它们在连续帧之间,而提示引导的VS任务需要在整个视频中用视觉/文本提示重新识别目标,这使得用相同的架构处理不同的任务变得困难。我们试图解决这些问题,并提出了一种新颖的统一VS架构,名为UniVS,通过使用提示作为查询。UniVS通过平均目标从前一帧的提示特征作为其初始查询来显式解码掩码,并在掩码解码器中引入了一个目标提示交叉注意力层,以整合内存池中的提示特征。通过将先前帧中实体的预测掩码作为它们的视觉提示,UniVS将不同的VS任务转换为提示引导的目标分割,消除了启发式的帧间匹配过程。我们的框架不仅统一了不同的VS任务,而且自然地实现了通用训练和测试,确保在不同情况下都有强大的性能。UniVS在涵盖视频实例、语义、全景、对象和指称分割任务的10个具有挑战性的VS基准上显示了性能和通用性之间的良好平衡。代码可在https://github.com/MinghanLi/UniVS找到。

主要内容概述:
这段话介绍了开发统一视频分割(VS)模型的挑战,并提出了一种新的统一VS架构——UniVS。UniVS使用提示作为查询来处理不同的VS任务,通过在掩码解码器中引入目标提示交叉注意力层来提高性能。该方法能够统一不同的VS任务,并实现在不同情况下的稳健性能。作者在多个VS基准上验证了UniVS的性能和通用性。

Paper19 Rethinking Prior Information Generation with CLIP for Few-Shot Segmentation

摘要小结:

少量样本分割仍然具有挑战性,这是由于未见类别的标签信息存在局限性。大多数以前的 方法依赖于从冻结的视觉编码器中提取高级特征图,以计算像素级的相似性,作为解码器的主要先验指导。然而,这种先验表示由于这些高级特征图具有明显的类别偏差,因此存在粗糙的粒度和对新类别的泛化能力差的问题。在这项工作中,我们提议用视觉-文本对齐能力取代视觉先验表示,以捕捉更可靠的指导并增强模型的泛化能力。具体来说,我们设计了两类无需训练的先验信息生成策略,试图利用对比语言-图像预训练模型(CLIP)的语义对齐能力来定位目标类别。此外,为了获得更准确的先验指导,我们构建了注意力图的高阶关系,并利用它来细化初始先验信息。在PASCAL-5i和COCO-20i数据集上的实验表明,我们的方法获得了明显的实质性改进,并达到了新的最先进性能。代码可在项目网站上获取。

主要内容概述:

这段话讨论了少量样本分割的挑战,并提出了一种新的方法来提高这一领域的性能。主要挑战是未见类别的标签信息有限。传统方法使用高级特征图作为先验指导,但这些方法存在泛化问题。文中提出用视觉-文本对齐能力替代传统方法,并设计了两种无需训练的先验信息生成策略。此外,通过构建注意力图的高阶关系来细化先验信息。实验结果显示,该方法显著提高了性能,并达到了新的最先进水平。

Paper20 Mask Grounding for Referring Image Segmentation

摘要小结: 参考图像分割(RIS)是一项具有挑战性的任务,它要求算法对由自由形式语言表达式所指的对象进行分割。尽管近年来取得了显著进展,但大多数最先进(SOTA)的方法在像素和单词级别上仍然存在相当大的语言-图像模态差距。

翻译:
指代图像分割(RIS)是一项具有挑战性的任务,它需要算法对由自由形式语言表达式指代的目标进行分割。尽管近年来取得了显著的进展,但大多数最先进(SOTA)的方法在像素和单词级别上仍然存在相当大的语言-图像模态差距。这些方法通常1)依赖于句子级别的语言特征进行语言-图像对齐,并且2)缺乏对细粒度视觉接地明确的训练监督。因此,它们在视觉和语言特征之间表现出较弱的对象级别对应关系。在没有良好接地特征的情况下,先前的方法很难理解需要在对多个对象之间的关系进行强烈推理的复杂表达,尤其是处理很少使用或模糊的从句时。为了应对这一挑战,我们引入了一种新颖的Mask Grounding辅助任务,通过显式教导模型学习被遮蔽文本标记与其匹配视觉对象之间的细粒度对应,显著提高了语言特征内的视觉接地。Mask Grounding可以直接用于之前的RIS方法,并一致带来改进。

以下是主要内容概述:

  • RIS任务的挑战和现有方法的不足。
  • 引入Mask Grounding和其他技术来解决这些问题。
  • MagNet架构的表现优于先前技术。

Paper21 ZePT: Zero-Shot Pan-Tumor Segmentation via Query-Disentangling and Self-Prompting

摘要小结: 这段话的中文翻译如下:

在医学图像分析中的长尾分布问题反映了常见病症的高发生率以及罕见病症的低发生率,这对开发一个能够识别训练过程中未遇到的罕见或新颖肿瘤类别的统一模型构成了重大挑战。在本文中,我们提出了一种新的零样本泛肿瘤分割框架(ZePT),该框架基于查询解耦和自我提示来分割训练集之外的未见肿瘤类别。ZePT将对象查询解耦为两个子集,并分两个阶段对它们进行训练。最初,它通过对象感知的特征分组策略学习一组基本查询以进行器官分割,该策略收集器官级别的视觉特征。随后,它细化了另一组高级查询,这些查询专注于针对未见肿瘤分割的自动生成的视觉提示。此外,我们在特征层面引入了查询-知识对齐,以增强每个查询的判别表示和泛化能力。在各种肿瘤分割任务上的广泛实验证明了ZePT的性能优势,其超越了之前的对应技术,并证明了在现实世界设置中进行零样本肿瘤分割的潜力。

主要内容概述:

这段话主要讨论了医学图像分析中的长尾分布问题,并提出了一个新的解决方案——零样本泛肿瘤分割框架(ZePT)。ZePT通过查询解耦和自我提示来处理训练集之外的肿瘤类别。它分两个阶段训练查询,并通过特征分组策略和查询-知识对齐提高性能。实验表明,ZePT在肿瘤分割任务上具有优越的性能。

Paper22 Multi-Space Alignments Towards Universal LiDAR Segmentation

摘要小结: 这段话的中文翻译如下:

一个具有强大鲁棒性和泛化能力的统一且多功能的激光雷达分割模型对于安全的自主驾驶感知是理想的。本研究提出了M3Net,这是一种独一无二的框架,能够以通用方式完成多任务、多数据集、多模态激光雷达分割,仅使用一组参数。为了更好地利用数据量和多样性,我们首先结合了不同类型传感器在不同场景下获取的大规模驾驶数据集,然后在训练过程中在数据、特征和标签三个空间中进行对齐。因此,M3Net能够驯服异构数据,用于训练最先进的激光雷达分割模型。在十二个激光雷达分割数据集上的大量实验验证了我们的有效性。值得注意的是,使用共享的一组参数,M3Net在SemanticKITTI、nuScenes和Waymo Open的官方基准上分别取得了75.1%、83.1%和72.4%的mIoU分数。

主要内容概述:

这段话介绍了一种名为M3Net的激光雷达分割模型,该模型具有统一、多功能、鲁棒性强和泛化能力强的特点。M3Net能够使用一组参数处理多任务、多数据集和多模态的激光雷达分割。通过结合不同传感器和场景的大规模数据集,并在训练中进行多空间对齐,M3Net能有效处理异构数据。实验证明,该模型在多个激光雷达分割数据集上取得了优异的效果。

Paper23 Hierarchical Histogram Threshold Segmentation - Auto-terminating High-detail Oversegmentation

摘要小结: 超级像素在图像处理中起着至关重要的作用,它通过将图像分割成具有相似视觉属性的像素聚类来实现。这有助于后续的图像处理任务,相比于操纵单个像素,它提供了计算上的优势。近年来,虽然出现了许多过分割技术,但许多技术依赖于预定义的初始化和终止准则。在本文中,引入了一种新的自顶向下超级像素分割算法,称为层次直方图阈值分割(HHTS)。它消除了初始化的需求,并实现了自动终止,优于现有技术的边界回忆。这是通过迭代地将单个像素段分割为前景和背景,并在多个颜色通道上应用强度阈值实现的。底层迭代过程构建了一个超级像素层次结构,该结构适应局部细节分布,直至颜色信息耗尽。实验结果表明,在BSDS500和NYUV2数据集上,提出的方法在边界附着性方面具有优越性,同时保持了有竞争力的运行时间性能。

以下是主要内容概述:

  • 超级像素在图像处理中的作用。
  • 现有技术的缺点,如依赖预定义初始化和终止准则。
  • 介绍了一种新的分割算法HHTS。
  • HHTS如何实现自动终止并优于边界回忆。
  • 实验结果证明了HHTS在边界附着性和运行时间性能方面的优势。
  • HHTS在细化基于机器学习的语义分割掩模中的应用。

以下是翻译:

超级像素在将图像分割成具有相似视觉属性的像素聚类方面发挥着关键作用,这有助于后续的图像处理任务,并提供了比操纵单个像素更优的计算优势。近年来,尽管出现了许多过分割技术,但许多依赖预定义的初始化和终止准则。本文介绍了一种新的自顶向下超级像素分割算法——层次直方图阈值分割(HHTS)。它无需初始化,并实现自动终止,在边界回忆方面优于现有技术。这是通过在多个颜色通道上迭代地将单个像素段分割为前景和背景并应用强度阈值来实现的。迭代过程构建了一个适应局部细节分布的超级像素层次结构,直到颜色信息耗尽。实验结果显示,在BSDS500和NYUV2数据集上,该方法在边界附着性方面具有优势,同时保持了竞争性的运行时间性能。此外,还介绍了HHTS在细化基于Segment Anything Foundation Model (SAM)的机器学习语义分割掩模中的应用。

Paper24 Rethinking Interactive Image Segmentation with Low Latency High Quality and Diverse Prompts

摘要小结: 互动式图像分割的目标是通过视觉或语言提示来描绘图像中的特定区域。现有的专业模型和通用模型在实现具有多样化提示的低延迟和高质量互动分割方面仍然具有挑战性。专业模型由于其有限的提示和特定任务的设计,在每次更新提示时都因图像和视觉提示的联合编码而必须重新计算图像,从而体验高延迟。以Segment Anything Model (SAM)为代表的通用模型最近在提示多样性和效率方面取得了显著成果,将图像分割提升到了基础模型时代。然而,对于高质量分割,SAM仍然落后于最先进的专业模型,尽管SAM接受了100倍以上的分割掩模训练。在这项工作中,我们深入探讨了这两种模型之间的架构差异。我们观察到,视觉提示的密集表示和融合是专业模型高分割质量的关键设计选择。因此,我们将这种密集设计重新引入通用模型中,以促进高质量通用模型的发展。为了密集表示多样化的视觉提示,我们提议使用一个密集图来捕捉五种类型:点击、框、多边形、涂鸦和掩模。因此,我们提出了SegNext,这是一种下一代互动分割方法,提供低延迟、高质量和多样化的提示支持。我们的方法在HQSeg-44K和DAVIS上定量和定性都超过了当前最先进的方法。

主要内容概述:
这段话主要讨论了互动式图像分割的目标和现有模型的挑战。它指出了专业模型和通用模型之间的差异,并提出了一种新的方法SegNext,旨在提供低延迟、高质量和多样化的提示支持,同时超越了现有的最先进方法。

Paper25 Progress-Aware Online Action Segmentation for Egocentric Procedural Task Videos

摘要小结: 我们解决了以自我为中心的程序性任务视频在线动作分割的问题。尽管之前的研究主要集中在线下动作分割,即整个视频在训练和推理阶段都是可用的,但向在线动作分割的转变对于AR/VR任务助手等实际应用至关重要。值得注意的是,将离线训练的模型直接应用于在线推理会导致性能显著下降,这是由于训练和推理之间的不一致性。我们提出了一个在线动作分割框架,首先修改现有架构使它们具有因果关系。其次,我们开发了一个新颖的动作进度预测模块,以动态估计正在进行的动作的进度,并使用它们来优化因果关系动作分割的预测。第三,我们提议从训练视频中学习任务图,并利用它们获得平滑且符合程序一致性的分割。通过结合进度和任务图与因果关系动作分割,我们的框架有效地解决了在线动作分割中的预测不确定性和过分割问题,并在三个以自我为中心的数据集上取得了显著的改进。

主要内容概述:
这段话主要讨论了作者提出的在线动作分割框架,用于处理以自我为中心的程序性任务视频。该框架解决了从离线到在线分割的性能下降问题,并通过三个关键点进行了改进:1) 修改架构以实现因果关系;2) 开发动作进度预测模块;3) 学习任务图以获得更一致的分割。最终,该框架在多个数据集上取得了显著改进。

Paper26 Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance

摘要小结: 我们介绍了Open3DIS,这是一种新颖的解决方案,旨在解决3D场景中的开放词汇实例分割问题。3D环境中的物体具有不同的形状、尺度和颜色,这使得精确的实例级识别成为一项具有挑战性的任务。在开放词汇场景理解方面的最新进展,通过使用类不可知的3D实例提案网络进行物体定位和为每个3D掩模学习可查询特征,在这个领域取得了重大突破。尽管这些方法产生了高质量的实例提案,但它们在识别小尺度以及几何上模糊的物体方面存在困难。

翻译:
我们引入了Open3DIS,这是一种新颖的解决方案,旨在应对3D场景中的开放词汇实例分割问题。3D环境中的物体展现出多样的形状、尺度和颜色,使得精确的实例级识别变得极具挑战性。最近在开放词汇场景理解方面的进展,通过使用类不可知的3D实例提案网络进行物体定位,并为每个3D掩模学习可查询特征,已在此领域取得了显著进展。然而,这些方法在处理小尺度及几何上模糊的物体时仍存在困难。

主要内容概述:

  • Open3DIS是一种新的解决方案。
  • 解决的问题是3D场景中的开放词汇实例分割。
  • 3D物体具有多样性,使得实例级识别困难。
  • 现有方法在处理小尺度物体时遇到挑战。
  • 我们的方法引入了新模块,能够提高物体提案质量。
  • 这些提案与3D类不可知实例提案结合,涵盖现实世界中的广泛物体。
  • 实验在三个著名数据集上进行,显示了性能的显著提升。

Paper27 ShapeMatcher: Self-Supervised Joint Shape Canonicalization Segmentation Retrieval and Deformation

摘要小结: 在这篇文章中,我们介绍了ShapeMatcher,一个统一的自监督学习框架,用于联合形状规范化、分割、检索和变形。给定一个任意姿态下的部分可观察对象,我们首先通过提取点态仿射不变特征来规范化对象,将对象的结构与其姿态和大小分离。然后,利用这些学习到的特征来预测语义一致的部件分割和相应的部件中心。接下来,我们的轻量级检索模块将每个部件内的特征聚合成其检索令牌,并将所有令牌与预建立数据库中的源形状进行比较,以找到几何上最相似的形状。最后,在变形模块中,我们通过利用部件中心引导的神经笼变形使检索到的形状紧密拟合输入对象。ShapeMaker的关键见解是同时训练四个高度相关的过程:规范化、分割、检索和变形,利用跨任务一致性损失进行相互监督。

以下主要内容概述:

  • 翻译内容:本文介绍了ShapeMatcher框架。
  • 主要内容:框架是自监督的,用于形状的多个任务,包括规范化、分割、检索和变形。它通过实验展示了超越竞争对手的表现。

以下是翻译:

本文中,我们提出了ShapeMatcher,一个统一的自我监督学习框架,用于联合形状规范化、分割、检索和变形。给定一个任意姿态下的部分可观察物体,我们首先通过提取点态仿射不变特征来规范化物体,将其固有的结构与姿态和大小分离。这些学习到的特征随后被用来预测语义一致的部分分割和相应的部分中心。接着,我们的轻量级检索模块将每个部分内的特征聚合成检索令牌,并与预建数据库中的源形状比较所有令牌,以识别几何上最相似的形状。最后,我们在变形模块中对检索到的形状进行变形,以紧密拟合输入物体,通过利用部分中心引导的神经笼变形。ShapeMaker的关键在于同时训练四个高度关联的过程:利用跨任务一致性损失进行相互监督的规范化、分割、检索和变形。在合成数据集PartNet、ComplementMe和真实世界数据集Scan2CAD上的大量实验表明,ShapeMatcher大幅超越了竞争对手。代码已发布在 https://github.com/Det1999/ShapeMaker。

Paper28 GraCo: Granularity-Controllable Interactive Segmentation

摘要小结: 交互式分割(IS)根据用户输入对图像中的特定对象或部分进行分割。当前的IS流程分为两类:单粒度输出和多粒度输出。后者旨在缓解前者中存在的空间模糊性。然而,多粒度输出流程在交互灵活性方面受限,并产生冗余结果。在这项工作中,我们介绍了粒度可控交互式分割(GraCo),这是一种新颖的方法,通过引入附加参数到输入,允许精确控制预测粒度。这增强了交互式系统的定制性,并在解决模糊性的同时消除冗余。然而,多粒度掩膜注释的高昂成本以及缺乏带有粒度注释的数据集,使得模型难以获得控制输出粒度所需的指导。为了解决这个问题,我们设计了一个任意粒度掩膜生成器,利用预训练的IS模型的语义属性自动生成丰富的掩膜-粒度对,而无需额外的手动注释。

  • 段落内容:
    翻译:
    互动分割(IS)根据用户输入对图像中的特定对象或部分进行分割。目前的IS管道分为两种类型:单粒度输出和多粒度输出。后者旨在减轻前者中存在的空间模糊性。然而,多粒度输出管道在交互灵活性方面受限,并产生冗余结果。

概述:
以下是本文的关键内容:

  • Gaco方法允许控制预测粒度。
  • 它通过引入额外参数来增强交互系统。
  • 它解决了冗余和模糊性问题。
  • 存在的数据集和注释问题,本文提出了解决方案。
  • 本文进行了大量实验,证明GraCo优于之前的方法。

关键点:
GraCo可能成为一种灵活的注释工具,能够适应多样的分割场景。

以下是主要内容:

翻译内容:
当前的工作引入了GraCo,它通过输入额外参数来控制预测粒度,解决了冗余问题,并提出了针对数据集问题的解决方案。实验证明其优势。以下是项目页面链接。

Paper29 Tyche: Stochastic In-Context Learning for Medical Image Segmentation

摘要小结: 现有的基于学习的医学图像分割解决方案存在两个重要缺陷。首先,对于大多数新的分割任务,必须训练或微调一个新的模型。这需要大量的资源和机器学习专业知识,因此通常对医学研究人员和临床医生来说是不切实际的。其次,大多数现有的分割方法为给定的图像生成一个单一的确定性分割掩模。然而,在实践中,往往存在很大的不确定性,即什么是正确的分割,不同的专家注释者通常会以不同的方式对同一张图像进行分割。我们通过Tyche框架解决了这两个问题,该框架使用上下文集为之前未见过的任务生成随机预测,而无需重新训练。Tyche与其他上下文分割方法有两个重要的不同之处。(1)我们引入了一种新颖的卷积块架构,使得预测之间能够互动。(2)我们引入了上下文测试时增强,这是一种新的机制来提供预测的随机性。结合适当的模型设计和损失函数,Tyche可以预测一组合理的、多样化的分割候选方案,用于新的或未见过的医学图像和分割任务,而无需重新训练。

以下是主要内容概述:

翻译内容描述了基于学习的医学图像分割的现有解决方案的缺陷,包括需要重新训练模型和产生单一确定性分割的问题。然后介绍了Tyche框架,它能够解决这些问题,提供随机预测,并且不需要重新训练。Tyche的两个关键区别也被提及。

以下是翻译:

当前基于学习的医学图像分割解决方案存在两个重要的不足。首先,对于大多数新的分割任务,必须训练或微调一个新的模型。这需要大量的资源和机器学习专业知识,因此对于医学研究人员和临床医生来说通常是不可行的。其次,大多数现有的分割方法为给定的图像生成一个单一的确定性分割掩模。然而,实际上,对于什么是正确的分割往往存在很大的不确定性,不同的专家注释者经常会对同一张图像有不同的分割结果。我们通过Tyche框架解决了这两个问题,该框架使用上下文集为之前未见过的任务生成随机预测,无需重新训练。Tyche与其他上下文分割方法在两个重要方面有所不同。⑴我们引入了一种新的卷积块架构,允许预测之间的互动。⑵我们引入了上下文测试时增强,这是一种新的机制来提供预测的随机性。结合适当的模型设计和损失函数,Tyche能够为新或未见过的医学图像和分割任务预测一组合理的、多样化的分割候选方案,无需重新训练。代码可在以下地址找到:https://tyche.csail.mit.edu/…

Paper30 Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation

摘要小结:

开放词汇语义分割旨在对以文本形式表达的任意类别进行分割。先前的工作已经在大量的图像-字幕对上进行了训练,以强制实现像素级别的多模态对齐。然而,字幕提供了关于给定图像语义的全局信息,但缺乏对单个概念的直接定位。在大型数据集上进一步训练无疑会带来巨大的计算成本。在本文中,我们提出了FreeDA,一种无需训练的扩散增强方法,用于开放词汇语义分割,该方法利用扩散模型在视觉上定位生成概念以及局部-全局相似性,以匹配与语义类别无关的区域。我们的方法包括一个离线阶段,从大量字幕开始,利用视觉和语义上下文收集文本-视觉参考嵌入。在测试时,这些嵌入被查询以支持视觉匹配过程,该过程是通过同时考虑类无关区域和全局语义相似性来进行的。广泛的分析表明,FreeDA在五个数据集上达到了最先进的性能,在mIoU方面超过了先前的方法超过7.0平均分,且无需任何训练。

主要内容概述:

这段话介绍了一种名为FreeDA的方法,这是一种无需训练的扩散增强方法,用于开放词汇语义分割。该方法旨在解决传统训练方法中的计算成本问题,并通过利用扩散模型来视觉定位概念。FreeDA在离线阶段收集文本-视觉参考嵌入,并在测试时使用这些嵌入进行视觉匹配。结果显示,FreeDA在多个数据集上取得了最先进的性能。

Paper31 Infer from What You Have Seen Before: Temporally-dependent Classifier for Semi-supervised Video Segmentation

摘要小结: 由于人力劳动成本高昂,现实场景中的语义分割面临的一个主要挑战是缺乏足够的像素级标签,这在处理视频数据时更为严重。为了利用未标记的数据进行模型训练,半监督学习方法试图构建伪标签或各种辅助约束作为监督信号。然而,其中大多数方法只是将视频数据作为一组独立图像,以逐帧的方式进行处理。丰富的时态关系被忽略了,这些关系可以作为表征学习的宝贵线索。此外,这种逐帧识别范式与人类的识别方式大相径庭。实际上,得益于视频数据内部的时态相关性,人类会明智地使用历史帧中独特的语义概念来辅助当前帧的识别。基于这一观察,我们提出了一种新颖的时态依赖分类器(TDC),以模仿类似人类的识别过程。

翻译:
由于人力成本高昂,现实世界语义分割的主要挑战是缺乏足够的像素级标签,这在处理视频数据时尤为严重。为了利用未标记数据进行模型训练,半监督学习方法试图使用伪标签或各种辅助约束作为监督信号。但大多数方法仅将视频数据作为独立图像集逐帧处理,忽略了丰富的时态关系。

主要内容概述:

  1. 语义分割在现实世界中面临挑战,特别是缺乏像素级标签。
  2. 半监督学习方法被用来处理未标记数据。
  3. 大多数方法忽略了视频数据中的时态关系。
  4. 提出了一种新的时态依赖分类器(TDC)来模仿人类识别过程。
  5. TDC在实验中表现出优于先前先进方法,代码可用。

以下是翻译:

由于人力成本高昂,现实世界中语义分割的一个主要挑战是缺乏足够的像素级标签,这在处理视频数据时问题更为严重。为了利用未标记数据进行模型训练,半监督学习方法试图构建伪标签或各种辅助约束作为监督信号。然而,大多数方法只是将视频数据作为一系列独立图像以逐帧方式处理。这种做法忽略了丰富的时态关系,这些关系本可以作为表征学习的宝贵线索。此外,这种逐帧识别范式与人类的识别方式有很大不同。实际上,人类会利用视频数据内部的时态相关性,明智地使用历史帧中的显著语义概念来辅助当前帧的识别。受此启发,我们提出了一种新颖的时态依赖分类器(TDC),以模仿类似人类的识别过程。与传统的分类器相比,TDC可以指导模型学习跨帧的一系列时态一致的语义概念,这本质上提供了一个隐性和有效的约束。我们在Cityscapes和CamVid上进行了大量实验,结果证明了我们提出的方法优于之前的最先进方法。代码可在 https://github.com/jfzhuang/TDC 查找。

Paper32 MRFS: Mutually Reinforcing Image Fusion and Segmentation

摘要小结: 这篇论文提出了一种耦合学习框架,称为MRFS,旨在突破红外与可见图像融合及分割的性能瓶颈。该框架通过利用视觉与语义之间的内在一致性,强调任务之间的相互强化,而不是将它们视为独立的问题。以下是翻译和概述:

翻译:
本文提出了一个名为MRFS的耦合学习框架,用以突破红外-可见图像融合与分割的性能瓶颈。通过利用视觉与语义之间的固有一致性,它强调相互强化,而不是将这些任务视为独立的问题。首先,我们采用基于CNN的交互式门控混合注意力(IGM-Att)模块进行图像融合任务,嵌入弱化信息恢复和显著信息整合,以提取高质量的视觉特征。这旨在满足人类视觉感知,生成具有丰富纹理、高对比度和鲜艳颜色的融合图像。其次,开发了一个基于变压器的渐进循环注意力(PC-Att)模块以增强语义分割。它建立单模态自增强和跨模态相互补充,使机器在语义感知中做出更准确的决策。然后,IGM-Att和PC-Att的级联隐式耦合了图像融合和语义分割任务,使视觉相关和语义相关的特征更加一致。因此,它们相互为对方提供学习先验,从而产生视觉上令人满意的融合图像和更准确的分割决策。公共数据集上的大量实验展示了我们方法在视觉满意度和决策准确性方面的优势。代码公开可用,地址为https://github.com/HaoZhang1018/MRFS.

概述:
这段话主要介绍了论文中提出的一种名为MRFS的耦合学习框架,该框架通过相互强化图像融合和语义分割任务来提高性能。具体来说,它使用CNN和变压器模块来提取高质量特征,并确保两者之间的特征更加一致,最终导致更好的融合图像和分割决策。实验结果表明该方法在视觉和决策准确性方面具有优势。

Paper33 Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation

摘要小结:

临床成像工作流程的一个主要焦点是疾病诊断和管理,这使得医学成像数据集与特定的临床目标紧密相关。这种情况导致了开发特定任务的分割模型的做法盛行,而无需从广泛的成像队列中获得见解。受到医学放射科住院医师培训计划的启发,我们提出了向通用医学图像分割转变的设想,这一范式旨在通过利用临床目标、身体区域和成像方式之间的多样性和共性,构建医学图像理解的基础模型。为了实现这一目标,我们开发了Hermes,这是一种新颖的上下文先验学习方法,用于解决医学图像分割中的数据异质性和注释差异的挑战。在跨越五种模态(CT、PET、T1、T2和电影MRI)和多个身体区域的十一组多样化数据集(2438个3D图像)中,我们证明了通用范式在单个模型内处理多个任务方面优于传统范式。通过利用任务之间的协同作用,Hermes在所有测试数据集上均取得了最先进的性能,并显示出卓越的模型可扩展性。

以下是主要内容概述:

这段话主要讨论了临床成像工作流程,特别是提出了一个新方法——向通用医学图像分割转变。这种方法旨在通过新开发的Hermes,解决数据异质性和注释差异问题。Hermes在多个数据集和模态上展示了优越的性能,包括转移学习、增量学习和泛化到下游任务的能力。此外,Hermes的学习先验能够反映任务和模态之间的复杂关系,这与放射学中的解剖学和成像原理相一致。以下是关键点:

  • 专注于疾病诊断和管理的医学成像数据集。
  • 提出通用医学图像分割的新范式。
  • 开发了Hermes,一种新的上下文先验学习方法。
  • 在多个数据集上展示了优越的性能。
  • 代码是可用的。

Paper34 Adaptive Bidirectional Displacement for Semi-Supervised Medical Image Segmentation

摘要小结: 一致性学习是半监督医学图像分割(SSMIS)中处理未标记数据的核心策略,它迫使模型在扰动下产生一致的预测。然而,大多数现有方法仅关注利用特定的单一扰动,这只能应对有限的情况,而同时使用多个扰动很难保证一致性学习的质量。在本文中,我们提出了一种自适应双向位移(ABD)方法来解决上述挑战。具体来说,我们首先设计了一种基于未标记数据的可靠预测置信度的双向块位移,以生成新样本,这些样本能有效抑制不可控区域并仍保留输入扰动的影响。同时,为了使模型学习潜在的不可控内容,我们提出了对标记图像进行具有反向置信度的双向位移操作,生成具有更多不可靠信息的样本以促进模型学习。大量实验表明,ABD显著提高了SSMIS的新状态艺术表现,显著改善不同基线。

以下是主要内容概述:

  • 翻译内容:上述段落已经翻译成中文。
  • 主要内容:本文提出了一种新的方法(ABD)来处理SSMIS中的挑战,即一致性学习的问题。该方法通过双向位移来改善单一扰动的限制,并在未标记和标记数据上进行了特殊处理,最终实现了状态艺术的表现提升。

Paper35 Clustering Propagation for Universal Medical Image Segmentation

摘要小结: 这段话的中文翻译如下:

针对医学图像分割的突出解决方案通常是为自动或交互式设置量身定制的,这使得将一个任务中的进展转移到另一个任务中变得具有挑战性。这也需要为每个任务分别建立模型,从而重复训练时间和参数。为了解决上述问题,我们引入了S2VNet,这是一个通用框架,利用切片到体积分割传播将自动/交互式分割统一到单个模型和一次训练过程中。受基于聚类的分割技术的启发,S2VNet充分利用了体数据的切片结构,通过从上一切片的聚类结果初始化聚类中心。这使得从前一切片获得的知识能够协助当前切片的分割,进一步高效地使用仅有的2D网络桥接远距离切片之间的通信。此外,这种框架无需改变架构,只需从用户输入初始化质心,就可以轻松适应交互式分割。

主要内容概述:

  • S2VNet是一个通用框架,旨在解决医学图像分割中的问题。
  • 它通过切片到体积分割传播,统一了自动和交互式分割。
  • S2VNet利用聚类技术,通过前一切片的结果来初始化聚类中心。
  • 它具有快速推理速度和相比主流3D解决方案减少的内存消耗。
  • S2VNet能够处理多类交互,且在三个基准测试上的实验显示,它超越了特定任务的解决方案。

Paper36 Transferable and Principled Efficiency for Open-Vocabulary Segmentation

摘要小结: 最近,预训练的基础视觉-语言模型的成功使得开放词汇分割(OVS)成为可能。尽管这种方法表现出色,但它带来了沉重的计算负担,主要面临两个挑战:1)骨干模型的大尺寸;2)微调过程中的高昂成本。这些挑战阻碍了OVS策略在现实场景中的广泛应用和可负担性。尽管传统方法如模型压缩和高效微调可以解决这些挑战,但它们通常依赖于启发式方法。这意味着它们的解决方案不能轻易转移,需要在不同模型上重新训练,这会带来成本。

以下是主要内容概述:

这段话讲述了以下内容:

  • 预训练模型让OVS成为可能,但存在计算负担。
  • 主要挑战包括模型大小和微调成本。
  • 传统方法有局限,需要重新训练。
  • 作者旨在通过使用更小的模型来实现高效OVS,以下是翻译:

翻译:
最近的预训练基础视觉-语言模型的成功使得开放词汇分割(OVS)成为可能。尽管这种方法表现出色,但它引入了沉重的计算开销,主要因为两个挑战:1)骨干模型的大尺寸;2)微调过程中的高昂成本。这些挑战阻碍了这种OVS策略在现实世界场景中的广泛应用和可负担性。尽管传统方法如模型压缩和高效微调可以解决这些挑战,但它们通常依赖于启发式方法。这意味着它们的解决方案不能轻易转移,需要在不同模型上重新训练,这有其成本。

在高效OVS的背景下,我们目标是通过利用训练成本较低的更小模型,实现与甚至优于之前基于大型视觉-语言基础模型的OVS工作的性能。核心策略是使我们的效率原则化,从而无需进一步定制即可从一个OVS框架无缝转移到其他框架。在多样化的OVS基准上的全面实验证明了我们在分割准确性和计算成本之间的优越权衡超过了之前的工作。我们的代码可在https://github.com/Xujxyang/OpenTrans上找到。

Paper37 ODIN: A Single Model for 2D and 3D Segmentation

摘要小结: 这段话的中文翻译如下:

最先进的模型在当代3D分割基准测试(如ScanNet)上消耗并标记由感测多视角RGB-D图像后处理获得的3D点云数据集。它们通常在领域内进行训练,不进行大规模的2D预训练,并优于那些特征化所提供的RGB-D多视角图像的替代方法。消耗摆好姿势的图像与处理后3D点云之间的性能差距加剧了人们的信念,即2D和3D感知需要不同的模型架构。在本文中,我们挑战这一观点,并提出了ODIN(全维度实例分割),这是一种可以使用变压器架构在2D视图内和3D跨视图信息融合之间交替,对2D RGB图像和3D点云进行分割和标记的模型。我们的模型通过参与令牌的位置编码来区分2D和3D特征操作,这些编码捕获2D补丁令牌的像素坐标和3D特征令牌的3D坐标。ODIN在ScanNet200、Matterport3D和AI2THOR 3D实例分割基准测试上取得了最先进的性能,并在ScanNet、S3DIS和COCO上取得了有竞争力的表现。当使用感测的3D点云代替从3D网格采样的点云时,它优于所有之前的工作。当用作可指导的实体代理架构中的3D感知引擎时,它在TEACh对话行动基准上设置了新的最先进水平。我们的代码和检查点可以在项目网站上找到:https://odin-seg.github.io。

主要内容概述:

这段话介绍了一种名为ODIN的模型,该模型能够在2D和3D数据上实现高性能的分割和标记。ODIN使用变压器架构处理2D和3D信息,并在多个3D分割基准测试上取得了最先进的性能。此外,该模型在替代传统方法时表现优异,并挑战了2D与3D感知需要不同模型架构的观点。最后,它在实体代理架构中也有显著的应用。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐