CVPR2024论文速读（51-100）

CVPR2024论文摘要速览

木木阳

1572人浏览 · 2024-06-13 22:18:02

木木阳 · 2024-06-13 22:18:02 发布

Paper51 Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching

摘要小结: 点云匹配是计算机视觉、医学和机器人领域的一项关键技术在实践中，主要关注于寻找点云或体素对之间的对应关系。在某些实际场景中，强调局部差异对于准确识别正确匹配至关重要，从而提高匹配过程的整体健壮性和可靠性。常用的形状描述符存在一些局限性，通常无法提供有关配对几何形状的有意义的局部见解。在这项工作中，我们提出了一种基于图拉普拉斯特征映射的新技术，通过考虑精细的局部结构来匹配点云。以下是翻译和概述：

翻译：
点云匹配是计算机视觉、医学和机器人领域的一项关键技术，主要关注于在点云或体素对之间寻找对应关系。在某些实际场景中，强调局部差异对于准确识别正确匹配至关重要，从而提高匹配过程的整体健壮性和可靠性。常用的形状描述符存在多种限制，并且经常无法提供有关配对几何形状的有意义的局部见解。在这项工作中，我们提出了一种基于图拉普拉斯特征映射的新技术，通过考虑细微的局部结构来匹配点云。为了处理拉普拉斯特征映射的顺序和符号模糊性，我们引入了一个新的算子，称为耦合拉普拉斯，它允许轻松地为多个已注册的几何形状生成对齐的特征空间。我们展示了这些对齐的高维空间之间的相似性为匹配形状提供了一个局部有意义的分数。以下是概述：

概述：

主要内容讲述了以下几点：

点云匹配是一项关键技术。
在实际场景中，局部差异对于匹配非常重要。
常用形状描述符存在局限性。
提出了一种基于图拉普拉斯特征映射的新技术。
引入了耦合拉普拉斯算子来处理对齐问题。
通过两个任务（物体异常定位和BSE自动骨侧估计）评估了技术的性能。
该技术在两个任务上都取得了令人印象深刻的准确率，超过了其他方法。

Paper52 Overcoming Generic Knowledge Loss with Selective Parameter Update

摘要小结: 这段话的中文翻译是：

基础模型包含了广泛的知识库，并提供了显著的迁移能力。然而，随着时间的推移，这些知识会变得过时或不足。挑战在于不断地更新基础模型以容纳新信息，同时保留其原有的能力。利用基础模型在各个任务和领域上具有初始知识的事实，我们提出了一种新颖的方法，该方法不是平等地更新所有参数，而是将更新定位到与正在学习的任务相关的稀疏参数集。我们在保持基础模型的迁移能力和泛化能力的同时，实现了效率和新任务性能之间的平衡。我们在基础视觉-语言模型上广泛评估了我们的方法，这些模型具有一系列连续学习任务的多样化谱系。我们的方法在保持预训练知识的同时，使新学习任务的准确度提高了7%，而在代表性控制集准确度上几乎没有下降，仅减少了0.9%。

主要内容概述：
这段话介绍了基础模型在知识迁移方面的优势以及面临的挑战，即随着时间的推移，模型的知识会变得过时。作者提出了一种新的方法，通过局部化更新稀疏参数集来优化模型，而不是更新所有参数。这种方法在保持模型原有能力的同时，提高了模型在处理新任务时的效率和准确度。作者通过在视觉-语言模型上进行的一系列实验，证明了这种方法的有效性。

Paper53 Desigen: A Pipeline for Controllable Design Template Generation

摘要小结: 这段话的中文翻译如下：

模板是实施设计（如横幅幻灯片）的良好起点，但设计师需要付出巨大努力才能手动创建。在本文中，我们介绍了Desigen，一个自动模板创建管道，它不仅生成背景图像，还在背景上生成和谐的布局元素。与自然图像不同，背景图像应保留足够的非显著空间用于叠加布局元素。为了使现有的基于扩散的高级模型具有更强的空间控制能力，我们提出了两种简单但有效的方法，在背景生成过程中限制显著度分布并减少所需区域的注意力权重。然后，在背景的条件下，我们使用基于Transformer的自回归生成器合成布局。为了实现更和谐的组合，我们提出了一种迭代推理策略，以多轮调整合成的背景和布局。我们构建了一个包含超过4万张广告横幅的设计数据集来验证我们的方法。大量实验表明，所提出的管道生成的高质量模板堪比人类设计师。不仅仅是单页设计，我们还进一步展示了一个演示文稿生成的应用，输出一系列主题一致的幻灯片。数据和代码可在 https://whaohan.github.io/desigen. 获得。

主要内容概述：

这段话介绍了一篇论文，该论文提出了一种名为Desigen的自动模板创建管道。这个管道可以生成背景图像和和谐的布局元素。为了增强空间控制，提出了一些技术来限制背景生成过程中的显著度分布。此外，使用基于Transformer的生成器合成布局，并通过迭代推理策略进行优化。论文中还包含了一个大型数据集来验证方法，实验结果显示生成的模板质量高，且堪比人类设计师。最后，还展示了该技术在演示文稿生成中的应用。

Paper54 Diff-BGM: A Diffusion Model for Video Background Music Generation

摘要小结: 当编辑视频时，一首吸引人的背景音乐是不可或缺的。然而，视频背景音乐生成任务面临几个挑战，例如缺乏合适的训练数据集，以及灵活控制音乐生成过程和顺序对齐视频和音乐的困难。在这项工作中，我们首先提出了一个高质量的音乐视频数据集BGM909，带有详细的注释和镜头检测，以提供关于视频和音乐的多模态信息。然后，我们提出了评估音乐质量的指标，包括音乐的多样性和音乐与视频之间的对齐，以及检索精度指标。最后，我们提出了Diff-BGM框架，以自动为给定视频生成背景音乐，该框架在生成过程中使用不同信号来控制音乐的不同方面，例如使用动态视频特征来控制音乐节奏，使用语义特征来控制旋律和气氛。我们建议通过引入一个片段感知的跨注意力层来顺序对齐视频和音乐。实验验证了我们提出方法的有效性。代码和模型可在以下地址获取：https://github.com/sizhelee/Diff-BGM。

概述主要内容：
这段话主要讲述了在视频编辑中背景音乐的重要性，并指出了视频背景音乐生成任务的挑战。作者提出了一个新的数据集BGM909，以及评估音乐质量的指标，并介绍了Diff-BGM框架来自动生成背景音乐，同时描述了如何对齐视频和音乐。最后，实验验证了该方法的有效性。

Paper55 Looking Similar Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning

摘要小结: 视听表征学习通常依赖于视觉和声音之间的对应关系。然而，一个视觉场景可能对应多个音轨。例如，在同一个拥挤的街道上有不同的对话。这种反事实对视听表征学习的影响尚未被探讨。为了研究这个问题，我们使用配音的电影和电视节目来增强跨模态对比学习。我们的方法能够学习表示仅语音不同的备用音轨，类似于同一视频。我们通过一系列全面的实验研究了不同的训练策略，结果表明，这种通用方法在不显著影响整体语言任务性能的情况下，提高了各种下游听觉和视听任务的性能。这些发现强调了在学习场景级视听对应关系时考虑语音变化的重要性，并表明配音音频可以是一种有用的增强技术，用于训练视听模型，使其在多样化的下游任务上具有更稳健的性能。

主要内容概述：这段话讲述了一项关于视听表征学习的研究，指出以往的研究通常依赖于视觉和声音之间的对应关系，但未考虑多个音轨可能对应同一视觉场景的情况。研究通过使用配音电影和电视节目增强跨模态对比学习，发现了一种新的学习方法，可以更好地处理多个音轨的情况，并通过实验证明这种方法可以提高模型在下游听觉和视听任务上的性能，同时不会显著影响语言任务性能。

Paper56 Multi-criteria Token Fusion with One-step-ahead Attention for Efficient Vision Transformers

摘要小结: 这段话的中文翻译如下：

视觉变压器（ViT）已经成为计算机视觉中的一个突出骨干网络。近期的工作为了提高ViT的效率，通过剪枝或融合冗余标记来降低自注意力层的二次成本。然而，这些工作都面临着由于信息丢失导致的速度-准确度权衡问题。在这里，我们认为标记融合需要考虑标记之间多样化的关系，以最小化信息损失。在本文中，我们提出了一种多准则标记融合（MCTF），它根据多准则（即相似性、信息性和融合标记的大小）逐渐融合标记。此外，我们利用了一步提前注意力，这是捕捉标记信息性的改进方法。通过使用标记减少一致性训练配备MCTF的模型，我们在图像分类（ImageNet1K）中实现了最佳的速度-准确度权衡。实验结果证明，MCTF始终超越之前的减少方法，无论是否训练。特别是，带有MCTF的DeiT-T和DeiT-S将FLOPs减少了大约44%，同时分别提高了基准模型的性能（+0.5%和+0.3%）。我们还证明了MCTF在各种视觉变压器（如T2T-ViT、LV-ViT）中的适用性，实现了至少31%的速度提升，而不会降低性能。代码可在 https://github.com/mlvlab/MCTF 上获取。

主要内容概述：
这段话主要介绍了视觉变压器（ViT）的一个新方法——多准则标记融合（MCTF）。该方法旨在通过考虑标记之间的多样化关系来减少信息损失，并在图像分类任务中实现了最佳的速度-准确度权衡。实验表明，MCTF能够有效提升ViT的效率，并在不同模型中取得了显著的速度提升，而不会影响性能。

Paper57 Towards HDR and HFR Video from Rolling-Mixed-Bit Spikings

摘要小结: 这段话的中文翻译如下：

尖峰相机具有高动态范围（HDR）、高时间分辨率和低数据冗余的优点。然而，在高速条件下，使用单比特尖峰重建HDR视频存在挑战，原因是有限的比特深度。增加尖峰的比特深度有利于提升HDR性能，但读出效率会降低，这对实现高帧率（HFR）视频是不利的。为了解决这些挑战，我们提出了一种读出机制，以获得滚动混合比特（RMB）尖峰，这涉及在单比特尖峰中以滚动方式交错多比特尖峰，从而结合高比特深度和高效读出的特点。此外，我们引入了RMB-Net来重建HDR和HFR视频。RMB-Net包括一个交叉比特注意力块，用于融合混合比特尖峰，以及一个跨时间注意力块，用于实现时间融合。在合成数据和真实合成数据上进行的广泛实验证明了我们方法的优势。例如，纯3比特尖峰会导致数据量增加3倍，而我们的方法在数据量增加不到2%的情况下就能达到相当的性能。

主要内容概述：

这段话介绍了一种新型的读出机制，即滚动混合比特（RMB）尖峰，用于尖峰相机以改善HDR和HFR视频的重建。该方法结合了高比特深度和高效读出的特点。同时，作者提出了RMB-Net网络，该网络包含用于融合混合比特尖峰的交叉比特注意力块和用于时间融合的跨时间注意力块。实验结果表明，该方法在数据量增加很少的情况下，性能优于纯多比特尖峰方法。

Paper58 Scaling Up Video Summarization Pretraining with Large Language Models

摘要小结: 这段话的中文翻译如下：

长视频内容构成了互联网流量的重要部分，使得自动视频摘要成为一个必要的研究问题。然而，现有的视频摘要数据集在规模上明显有限，这限制了最先进方法的泛化效果。我们的工作旨在通过利用大量具有密集语音-视频对齐的长视频以及最近大型语言模型（LLMs）在总结长文本方面的显著能力来克服这一限制。我们引入了一个自动且可扩展的管道，用于生成大规模视频摘要数据集，使用LLMs作为Oracle摘要器。通过利用生成的数据集，我们分析了现有方法的局限性，并提出了一个新的视频摘要模型，有效地解决了这些问题。为了进一步促进该领域的研究，我们的工作还提供了一个新的基准数据集，其中包含1200个长视频，每个视频都有专业人员标注的高质量摘要。广泛的实验清楚地表明，我们提出的方法在多个基准上设置了视频摘要的新行业标准。

主要内容概述：
这段话主要讨论了长视频内容在互联网流量的重要性，指出了自动视频摘要研究的必要性。现有数据集的规模限制被提及，作者的工作旨在克服这一限制。他们利用大型语言模型来生成大规模的视频摘要数据集，并提出了一个新的视频摘要模型。此外，还介绍了一个新的基准数据集，并通过实验证明了他们方法的有效性。

Paper59 Continuous Optical Zooming: A Benchmark for Arbitrary-Scale Image Super-Resolution in Real World

摘要小结: 当前大多数任意尺度的图像超分辨率（SR）方法通常依赖于简单的合成退化模型（例如双三次下采样）在连续的不同尺度上生成的模拟数据，因此未能捕捉到真实世界图像的复杂退化。这一限制阻碍了这些方法在真实世界图像上的视觉质量。为了解决这一问题，我们提出了连续光学变焦数据集（COZ），通过构建一个自动成像系统来收集特定范围内的细粒度不同焦距的图像，并提供严格的图像对齐。以下是翻译和概述：

翻译：
大多数现有的任意尺度图像超分辨率（SR）方法通常依赖于通过简单的合成退化模型（例如双三次下采样）在连续的不同尺度上生成的模拟数据，因此在捕捉真实世界图像的复杂退化方面存在不足。这个局限性阻碍了这些方法在应用于真实世界图像时的视觉质量。为了解决这一问题，我们提出了连续光学变焦数据集（COZ），通过构建一个自动成像系统来收集在特定范围内的细粒度不同焦距的图像，并提供严格的图像对齐。COZ数据集作为一个基准，为训练和测试任意尺度SR模型提供真实世界数据。为了提高模型对真实世界图像退化的鲁棒性，我们提出了一个基于MLP-mixer架构和元学习的局部混合隐式网络（LMI），它通过同时混合多个独立点的特征和坐标直接学习局部纹理信息。广泛的实验证明了在COZ数据集上训练的任意尺度SR模型相比模拟数据的模型具有更优越的性能。我们的LMI模型相比其他模型展现了更优越的有效性。

概述：
这段话主要内容是介绍了现有图像超分辨率方法的一个局限，即它们依赖于简单合成退化模型生成的模拟数据，这在处理真实世界图像时效果不佳。为了克服这一点，作者提出了一个新的数据集COZ，以及一个新型网络LMI。COZ数据集通过自动成像系统收集真实世界图像，而LMI网络则提高了模型对真实图像退化的鲁棒性。实验表明，这种方法在性能上优于基于模拟数据训练的模型。

Paper60 Sharingan: A Transformer Architecture for Multi-Person Gaze Following

摘要小结: 这段话的中文翻译如下：

凝视是一种强大的人际非言语交流方式，人类从很小的时候就开始发展这种能力。因此，模拟这种行为是一项重要的任务，可以为从机器人学到社会学等广泛的应用领域带来好处。特别是，在计算机视觉中的注视跟随任务被定义为预测图像中人物注视的2D像素坐标。此前在这一领域的工作主要集中基于CNN的架构上，但它们受限于一次处理一个人的需要，这证明是非常低效的。在本文中，我们引入了一种新颖有效的基于多人物变换器的注视预测架构。虽然之前有使用变换器进行多人物注视预测的工作，但它们使用一组固定的可学习嵌入来解码人物及其注视目标，这需要之后的匹配步骤来将预测与注释联系起来。因此，很难用现有的基准可靠地定量评估这些方法，或将其整合到更大的人行为理解系统中。相反，我们是第一个提出的多人物变压器架构，保持了原始任务制定并确保对输入的人有控制。我们的主要贡献在于将人物特定信息编码到一个单一的控制标记中，与图像标记一起处理，并使用其输出基于一种新颖的多尺度解码机制进行预测。我们的新架构在GazeFollow、VideoAttentionTarget和ChildPlay数据集上取得了最先进的结果，并且明显优于可比的多人物架构。我们的代码检查点和数据提取将很快公开。

主要内容概述：
这段话介绍了注视作为一种非言语交流方式的重要性，并讨论了在计算机视觉中注视跟随任务的挑战。文章提出了一种基于多人物变换器的新型架构，用于注视预测，克服了之前方法的局限性。新架构通过一种多尺度解码机制取得了先进的结果，并在多个数据集上表现优于其他方法。作者还计划公开代码和数据。

Paper61 ViewFusion: Towards Multi-View Consistency via Interpolated Denoising

摘要小结: 这段话的中文翻译如下：

通过扩散模型的新视角合成已显示出生成多样化和高质量图像的显著潜力。然而，这些流行方法中图像生成的独立过程导致了保持多视角一致性的挑战。为解决这一问题，我们引入了ViewFusion，这是一种新颖的训练自由算法，可以无缝集成到现有的预训练扩散模型中。我们的方法采用了一种自回归方法，该方法隐式地利用之前生成的视角作为下一个视角生成的上下文，确保在新视角生成过程中具有稳健的多视角一致性。通过融合已知视角信息的插值去噪的扩散过程，我们的框架成功地扩展了单视角条件模型，使其能够在多视角条件设置中工作，而无需任何额外的微调。广泛的实验结果证明了ViewFusion在生成一致和详细的新视角方面的有效性。

主要内容概述：
这段话介绍了一种名为ViewFusion的新算法，它可以解决现有扩散模型在新视角图像生成中保持多视角一致性方面的挑战。ViewFusion是一种训练自由的算法，能够与现有的预训练扩散模型无缝集成，并采用自回归方法利用之前生成的视角信息来确保生成图像的多视角一致性。此外，这种方法能够在不需要额外微调的情况下，将单视角条件模型扩展到多视角条件设置中。实验结果表明，ViewFusion能够有效生成一致和详细的新视角图像。

Paper62 SketchINR: A First Look into Sketches as Implicit Neural Representations

摘要小结: 我们提出了SketchINR，用以推进向量草图与隐性神经模型的表示方法。一个可变长度的向量草图被压缩到一个固定维度的潜在空间中，这个空间隐式地编码了随时间和笔触变化的底层形状。学习到的函数可以预测草图中每个时间和笔触的xy点坐标。尽管其简单，但SketchINR在多项任务中的表现超过了现有的表示方法：

以下是翻译内容：

我们提出了SketchINR，以推进向量草图与隐性神经模型的表示。

以下概述主要内容：

SketchINR能够将整个草图数据集编码成一个固定大小的潜在向量，提供了比光栅和向量草图更好的数据压缩，分别是60倍和10倍。
SketchINR的自解码器提供了比其他学习到的向量草图表示更高保真的表示，并且能够独特地扩展到复杂的向量草图，如FS-COCO。
SketchINR支持并行化，解码/渲染速度比其他学习到的向量表示（如SketchRNN）快100倍。
SketchINR首次模拟了人类能够以不同抽象程度（笔触数量和复杂性）再现草图的能力。

以下是概述：

SketchINR提出了一种新的表示方法，它在数据压缩、高保真表示、并行化处理以及模拟人类草图能力方面都超越了现有技术。

Paper63 Open-Vocabulary Segmentation with Semantic-Assisted Calibration

摘要小结: 这篇论文通过将词汇表内和领域偏差的嵌入空间与CLIP的广义上下文先验进行校准，研究了开放词汇分割（OVS）。开放词汇理解的核心是视觉内容与无限文本语义的对齐，这已成为该领域的瓶颈。为了应对这一挑战，近期的工作提出利用CLIP作为额外的分类器，并将模型预测与CLIP分类结果聚合。尽管取得了显著进展，但在相关场景下，OVS方法的性能仍不如监督学习对手。我们将这归因于词汇表内嵌入和领域偏差的CLIP预测。为此，我们提出了一个语义辅助校准网络（SCAN）。在SCAN中，我们将CLIP的广义语义先验融入提案嵌入，以避免在已知类别上崩溃。此外，还应用了上下文转移策略，以减轻全局上下文的缺乏和不自然的背景噪声。凭借上述设计，SCAN在所有流行的开放词汇分割基准测试中取得了最先进的性能。此外，我们还关注现有评估系统忽略类别间语义重复的问题，并提出了一种新的度量标准，称为语义引导IoU（SG-IoU）。

概述主要内容：
这篇论文主要研究了开放词汇分割（OVS），并通过CLIP的广义上下文先验进行校准。论文指出了当前OVS方法的性能问题，并归因于嵌入和CLIP预测问题。为此，提出了SCAN模型，并介绍了其设计和性能。同时，还提出了一个新的评估度量标准SG-IoU。

Paper64 MatchU: Matching Unseen Objects for 6D Pose Estimation from RGB-D Images

摘要小结: 这段话的中文翻译如下：

最新的物体姿态估计学习方法需要对每个单独的物体实例或类别进行资源密集型的训练，这在面对之前未见过的物体时，阻碍了它们在实际应用中的可扩展性。在本文中，我们提出了MatchU，一种基于RGB-D图像的6D姿态估计的Fuse-Describe-Match策略。MatchU是一种通用方法，它融合了2D纹理和3D几何线索来预测未见物体的6D姿态。我们依赖学习几何3D描述符，这些描述符在设计上对旋转不变。通过编码与姿态无关的几何形状，学习的描述符自然地推广到未见物体，并捕捉对称性。为了仅使用3D几何解决模糊关联问题，我们将额外的RGB信息融合到我们的描述符中。这是通过一种新颖的基于注意的机制实现的，该机制融合跨模态信息，同时使用匹配损失利用从RGB数据中学习的潜在空间来指导描述符学习过程。大量实验揭示了RGB-D融合策略以及描述符有效性的泛化能力。得益于新颖的设计，MatchU在准确性和速度方面均超过了所有现有方法，即使在没有昂贵的重新训练或渲染要求的情况下。

主要内容概述：

这段话介绍了一种名为MatchU的6D姿态估计方法。该方法采用了一种Fuse-Describe-Match策略，通过融合2D纹理和3D几何线索来预测未见物体的6D姿态。它使用了对旋转不变的3D描述符，这些描述符可以自然地推广到新物体。此外，它通过一种基于注意的机制融合RGB信息，以提高描述符的准确性。实验表明，MatchU在准确性和速度方面都优于现有方法，且不需要昂贵的重新训练或渲染。

Paper65 Towards a Perceptual Evaluation Framework for Lighting Estimation

摘要小结: 翻译：光照估计的进展是通过计算标准数据集中的图像现有图像质量评估（IQA）指标来追踪的。虽然这可能看起来是一个合理的方法，但我们证明，当使用估计的光照将虚拟场景重新照亮到真实照片中时，这样做与人的偏好并不相关。为了研究这个问题，我们设计了一个受控的心理学实验，其中人类观察者必须在从近期文献中选择的一组光照估计算法渲染的场景中选择他们的偏好，并使用它来分析这些算法根据人类感知的表现如何。然后我们证明，文献中单独采用的最流行的IQA指标均不能正确代表人类的感知。最后，我们显示通过学习现有IQA指标的组合，我们可以更准确地代表人类的偏好。这提供了一个新的感知框架，以帮助评估未来的光照估计算法。为了鼓励未来的研究，所有（匿名）的感知数据和代码都可以在 https://lvsn.github.io/PerceptionMetric/ 上找到。

概述主要内容：
这段话主要讨论了光照估计进展的评估问题。目前评估方法是通过标准数据集的图像进行IQA指标计算，但作者表明这种方法与人类偏好不相关。因此，他们设计了一个实验来分析人类感知下算法的表现，并发现单独的IQA指标不能代表人类感知。最终，通过学习IQA指标的组合，可以更准确代表人类偏好，这为评估未来光照估计算法提供了新框架。同时，相关数据和代码已公开供研究使用。

Paper66 Bridging the Synthetic-to-Authentic Gap: Distortion-Guided Unsupervised Domain Adaptation for Blind Image Quality Assessment

摘要小结: 这段话的中文翻译如下：

盲图像质量评估（BIQA）的注释工作既费力又耗时，尤其是对于真实图像。虽然期望在合成数据上训练能够带来好处，但合成数据训练的模型由于域差距，在真实领域往往存在泛化能力差的问题。在这项工作中，我们有一个关键观察，即在合成数据集中引入更多失真类型可能不会改善甚至对真实图像质量评估的泛化有害。为了解决这一挑战，我们提出了失真引导的无监督域自适应方法用于BIQA（DGQA），这是一种新颖的框架，它利用基于失真的先验知识进行自适应多域选择，以匹配源域和目标域之间的数据分布，从而减少来自异常源域的负转移。在两种跨域设置（合成失真到真实失真，合成失真到算法失真）上的大量实验已经证明了我们提出的DGQA的有效性。此外，DGQA与现有的基于模型的BIQA方法是正交的，并且可以与这些模型结合使用，以在更少的训练数据下提高性能。

主要内容概述：

这段话讨论了BIQA（盲图像质量评估）的挑战，特别是注释工作的劳动密集型和耗时问题。它指出，在合成数据上训练虽然有帮助，但模型在真实领域的泛化能力较差。文中提出了一个新方法DGQA，这是一种失真引导的无监督域自适应框架，旨在减少域差距问题。该方法通过实验证明有效，并且可以与现有模型结合使用，提高性能。

Paper67 Coherent Temporal Synthesis for Incremental Action Segmentation

摘要小结: 数据重放是一种针对图像的成功增量学习技术。它通过保留以前数据的原始或合成储备池，以防止灾难性遗忘，确保模型在适应新概念的同时保留过去的知识。然而，在视频领域，其应用还处于初级阶段，因为它只是简单地存储用于动作识别的帧示例。本文首次探索了针对增量动作分割的视频数据重放技术，重点关注动作时间建模。我们提出了一种时间一致性行动（TCA）模型，该模型使用生成模型来表示动作，而不是存储单个帧。通过整合一个捕捉时间一致性的条件变量，我们的模型能够理解动作特征随时间的变化。因此，TCA生成的用于重放的行动片段既多样又具有时间一致性。在Breakfast数据集上的10任务增量设置中，我们的方法将准确率提高了22%，与基线相比有显著提升。

概述主要内容：
这段话介绍了数据重放技术在视频领域的应用，特别是针对增量动作分割。文章提出了一种新的模型TCA，该模型使用生成模型表示动作，并能够提高时间一致性。在实验中，该方法在准确率上取得了显著提升。

Paper68 HiFi4G: High-Fidelity Human Performance Rendering via Compact Gaussian Splatting

摘要小结: 最近，我们在照片级真实感人体建模和渲染方面取得了巨大进展。然而，高效地渲染真实感人体表演并将其集成到光栅化管道中仍然具有挑战性。在本文中，我们介绍了HiFi4G，这是一种基于显式和紧凑的高斯方法，用于从密集视频素材中渲染高保真人体表演。我们的核心思想是将3D高斯表示与非刚性跟踪相结合，实现紧凑且易于压缩的表示。以下是翻译：

翻译：
我们最近在照片级真实感人体建模和渲染方面取得了巨大进步。然而，高效渲染真实感人体表现并将其融入光栅化管线仍然具有挑战性。在本文中，我们提出了HiFi4G，这是一种基于显式且紧凑的高斯方法，用于从密集镜头中渲染高保真人体表现。我们的核心直觉是将3D高斯表示与非刚性跟踪相结合，实现紧凑且易于压缩的表示。

主要内容概述：

文章介绍了一种名为HiFi4G的方法，用于渲染高保真人体表演。
方法结合了3D高斯表示和非刚性跟踪，实现紧凑且易压缩的表示。
提出了双重图机制，用于获取运动先验，包括粗略变形图和细粒度高斯图。
使用4D高斯优化方案和自适应空间-时间正则化器来平衡非刚性先验和高斯更新。
提出了压缩方案，实现沉浸式体验，压缩率高达25倍，每帧存储空间不到2MB。
实验证明，该方法在优化速度、渲染质量和存储开销方面显著优于现有方法。

Paper69 G-FARS: Gradient-Field-based Auto-Regressive Sampling for 3D Part Grouping

摘要小结: 这篇论文提出了一项名为“3D部件分组”的新任务。假设有一个包含来自不同形状的散乱部件的混合集合。这个任务要求算法找出所有部件之间可能的所有组合。为了应对这一挑战，我们提出了所谓的基于梯度场的自回归采样框架（G-FARS），专门为3D部件分组任务量身定制。在我们的框架中，我们设计了一个基于梯度场的选择图神经网络（GNN），用于学习部件选择方面的对数条件概率密度的梯度，其中条件是给定的混合部件集合。

以下是翻译和主要内容概述：

翻译：
本文提出了一个名为“3D部件分组”的创新任务。假设存在一个混合集合，其中包含来自各种形状的散乱部件。此任务需要算法找出所有部件之间的每一个可能组合。为了应对这一挑战，我们提出了针对3D部件分组任务特别定制的所谓基于梯度场的自回归采样框架（G-FARS）。在我们的框架中，我们设计了一个基于梯度场的选择图神经网络（GNN），以学习关于部件选择的对数条件概率密度的梯度，条件是给定的混合部件集合。这种创新方法通过基于梯度场的选择GNN有效捕捉了输入中所有部件之间的复杂关系。在完成训练过程后，我们的框架能够通过利用训练有素的基于梯度场的选择GNN获取的知识，自主地从混合部件集合中迭代选择3D部件进行分组。我们的代码可在以下地址获取：https://github.com/J-F-Cheng/G-FARS-3DPartGrouping.

主要内容概述：
这篇论文介绍了一种新的3D部件分组任务，并提出了一个基于梯度场的自回归采样框架（G-FARS）来解决这个任务。该框架使用了一种新的图神经网络来学习部件选择的对数条件概率密度，从而有效地处理部件之间的关系，并在训练后能够自主进行3D部件分组。

Paper70 Towards High-fidelity Artistic Image Vectorization via Texture-Encapsulated Shape Parameterization

摘要小结: 我们开发了一种新颖的向量化图像表示方案，以一种特别适合艺术/设计图像（如表情符号和剪贴画）的重建和编辑任务的方式，解耦地容纳形状/几何和纹理。这种表示的核心是一组稀疏且不均匀分布的2D控制点。一方面，这些点构成了一组参数化/向量化几何基元（如曲线和封闭形状）的集合，描述了目标图像的形状特征。另一方面，局部纹理代码以隐式神经网络参数的形式分布在每个控制点中，生成每个控制点锚定区域内的局部坐标到RGB的映射。同时，开发了一种零样本学习算法，将任意光栅图像分解为上述表示，以实现高保真的图像向量化，并具有方便的编辑能力。一系列图像向量和编辑任务的广泛实验充分证明了我们提出方法的高准确性和显著高于先前艺术的高图像压缩比。

概述：
这段话主要介绍了一种新的图像表示方案，该方案通过解耦的方式处理形状/几何和纹理，专为艺术/设计图像的重建和编辑任务设计。它使用2D控制点作为核心，并通过这些控制点实现了高保真的图像向量化，同时提供了零样本学习算法来支持这一过程。实验证明，这种方法在准确性和图像压缩比方面都优于之前的技术。

Paper71 On Exact Inversion of DPM-Solvers

摘要小结: 扩散概率模型（DPMs）是现代生成模型中的关键组成部分。DPM-solvers在降低延迟和提升质量方面取得了显著成果，但寻找确切的逆运算（即从给定的图像中找到初始噪声）带来了挑战。本文研究了DPM-solvers的确切逆运算，并提出了在由一阶和高阶DPM-solvers生成样本时执行这些逆运算的算法。对于DPM-solvers中的每个显式去噪步骤，我们使用隐式方法（如梯度下降或前向步进方法）来制定逆运算，以确保对大型分类器无关指导的鲁棒性，这与之前使用固定点迭代的方法不同。实验结果表明，我们提出的确切逆运算方法显著降低了图像和噪声重建的错误，大幅提高了区分不可见水印的能力，并在图像编辑过程中一致地预防了意外背景变化。

翻译内容概述：
这段话的主要内容是介绍了扩散概率模型（DPMs）在生成模型中的重要性，并讨论了DPM-solvers在逆运算方面的挑战。作者提出了新的算法来处理逆运算问题，并通过实验证明了这些方法在降低错误和提升能力方面的有效性。

Paper72 EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything

摘要小结: 段落的中文翻译如下：

Segment Anything Model（SAM）已经成为众多视觉应用中的强大工具。推动其在零样本迁移和高通用性方面表现出令人印象深刻的性能的一个关键组件是，在广泛的高质量SA-1B数据集上训练的超级大型Transformer模型。虽然SAM模型带来了好处，但其巨大的计算成本限制了其在更广泛的实际应用中的使用。为了解决这一限制，我们提出了EfficientSAMs，这是一种轻量级的SAM模型，它在大大降低复杂性的同时展现出良好的性能。我们的想法是基于利用掩膜图像预训练SAMI，它学会从SAM图像编码器重构特征，以进行有效的视觉表示学习。进一步地，我们使用SAMI预训练的轻量级图像编码器和掩膜解码器构建EfficientSAMs，并在SA-1B上微调模型以执行“分割任何事物”任务。

以下是主要内容概述：

段落讨论了SAM作为一个强大的视觉应用工具。
SAM的计算成本限制了其应用。
提出了EfficientSAMs，这是一种轻量级模型，可以减少复杂性但保持性能。
这是通过使用SAMI（掩膜图像预训练）来实现的。
EfficientSAMs在多个视觉任务上进行了评估，包括图像分类等。
结果显示，SAMI预训练方法优于其他掩膜图像预训练方法。
在某些任务（如零样本实例分割）上，EfficientSAMs表现显著优于其他快速SAM模型。
相关代码和模型可在GitHub上获取。

Paper73 ChatScene: Knowledge-Enabled Safety-Critical Scenario Generation for Autonomous Vehicles

摘要小结: 我们介绍了ChatScene，这是一个基于大型语言模型（LLM）的代理，它利用LLM的能力为自动驾驶车辆生成安全关键场景。该代理首先根据非结构化语言指令使用LLM生成文本描述的交通场景。然后，这些场景描述被分解为几个子描述，用于指定车辆的行为和位置等细节。接着，代理将文本描述的子场景独特地转换为领域特定语言，进而生成用于模拟器预测和控制的实际代码，便于在CARLA模拟环境中创建多样化和复杂的场景。我们代理的一个关键部分是全面的知识检索组件，它通过训练包含场景描述和代码对的知识数据库，有效地将特定文本描述转换为相应的领域特定代码片段。

以下是对主要内容概述：

翻译内容：
我们提出了ChatScene，一个基于大型语言模型（LLM）的代理，它能够生成自动驾驶车辆的安全关键场景。以下是概述：

主要内容：

ChatScene使用LLM生成文本描述的交通场景。
场景描述被分解为更详细的子描述。
这些子场景被转换为领域特定语言，用于生成模拟器代码。
ChatScene包含一个知识检索组件，用于将文本转换为代码片段。
实验结果显示，ChatScene在提高自动驾驶车辆安全性方面非常有效。
与现有技术相比，ChatScene生成的场景在碰撞率上提高了15%。
使用这些场景微调自动驾驶模型后，碰撞率减少了9%，超过了当前SOTA方法。
ChatScene有效桥接了交通场景文本描述与CARLA模拟之间的差距。

Paper74 CAMEL: CAusal Motion Enhancement Tailored for Lifting Text-driven Video Editing

摘要小结: 文本驱动的视频编辑在展现无闪烁的视觉连续性同时保留原始视频固有的运动模式方面存在重大挑战。现有方法在一个运动和外观紧密交织的范式下运作。这种耦合导致网络要么过度拟合外观内容——无法捕捉运动模式，要么专注于运动模式，但牺牲了内容在多样化文本场景中的泛化能力。受到小波变换在剖析视频序列中的关键作用的启发，我们提出了专为提升文本驱动视频编辑的Lifting设计的CAusal Motion Enhancement（CAMEL），这是一种具有两个核心设计的新技术。

以下是主要内容概述：

这段话的主要内容是：

文本概述了CAMEL技术，它面对的挑战和其设计的两个核心方面。

以下是翻译和详细内容：

翻译：
文本驱动的视频编辑在展现无闪烁视觉连续性同时保留原始视频固有的运动模式方面提出了重大挑战。现有方法在一个运动和外观紧密交织的范式下操作。这种耦合导致网络要么过度拟合外观内容——无法捕捉运动模式——要么专注于运动模式，但牺牲了内容泛化到多样化文本场景的能力。受到小波变换在剖析视频序列中的关键作用的启发，我们提出了专为提升文本驱动视频编辑（CAMEL）设计的CAusal Motion Enhancement，这是一种新颖的技术，包含两个核心设计。首先，我们引入了运动提示，旨在通过直接优化从视频模板中总结运动概念。优化的提示被有意整合到扩散模型的潜在表示中，以增强生成结果的运动保真度。其次，为了增强运动连贯性并将外观内容的泛化扩展到创造性文本提示，我们提出了因果运动增强的注意力机制。这种机制与新颖的因果运动滤波器一起实施，协同增强分解的高频组件的运动连贯性，同时保持外观内容在各种文本场景中的泛化。

详细内容：

CAMEL技术包括两个核心设计。
第一个是运动提示，用于优化并增强生成结果的运动保真度。
第二个是因果运动增强的注意力机制，用于提升运动连贯性。
实验结果显示CAMEL具有优越的性能。

Paper75 Teeth-SEG: An Efficient Instance Segmentation Framework for Orthodontic Treatment based on Multi-Scale Aggregation and Anthropic Prior Knowledge

摘要小结: 这段话的中文翻译如下：

在2D图像中进行牙齿定位、分割和标注在现代牙科中具有巨大的潜力，可以增强牙齿诊断、治疗规划以及对口腔健康的基于人群的研究。然而，由于以下原因，一般的实例分割框架是不胜任的：1）某些牙齿形状之间的微妙差异（例如上颌第一前磨牙和第二前磨牙）；2）牙齿的位置和形状在不同受试者之间的变化；3）牙齿异常的存在（例如龋齿和无牙）。为了解决这些问题，我们提出了一个基于ViT的框架，名为TeethSEG，它由堆叠的多尺度聚合（MSA）块和一个人类先验知识（APK）层组成。具体来说，为了构建这两个模块，我们设计了1）一种独特的基于排列的上采样器，以确保在建立清晰的分割边界时的高效率；以及2）多头自/交叉门控层，以强调特定的语义，同时保持标记嵌入之间的差异。此外，我们还收集了3）第一个开源的口内图像数据集IO150K，该数据集包含超过15万张口内照片，所有照片都通过正畸医生使用人机混合算法进行了标注。在IO150K上的实验表明，我们的TeethSEG在牙齿图像分割上优于现有的最先进分割模型。

主要内容概述：
这段话介绍了一种名为TeethSEG的基于ViT的牙齿图像分割框架，旨在提高2D图像中牙齿定位、分割和标注的准确性。该框架考虑了牙齿形状的微妙差异、个体间牙齿位置和形状的变化以及牙齿异常情况。TeethSEG框架包括多尺度聚合块和人类先验知识层。文章还提到了设计的一种上采样器和门控层，以及收集的第一个开源口内图像数据集IO150K，并展示了TeethSEG在牙齿图像分割任务上的优越性能。

Paper76 FocSAM: Delving Deeply into Focused Objects in Segmenting Anything

摘要小结: 段落的中文翻译如下：

Segment Anything Model（SAM）在分割模型中标志着一个显著的里程碑，其突出特点是强大的零样本能力和处理多样化提示的能力。SAM遵循一个流程，该流程将交互式分割分为通过大型编码器的图像预处理和通过轻量级解码器的交互式推理，确保了高效的实时性能。然而，在这个流程中，SAM在具有挑战性的样本上面临稳定性问题。这些问题主要源于两个因素。首先，图像预处理使SAM无法在交互过程中动态使用图像级放大策略来重新聚焦目标对象。其次，轻量级解码器难以充分整合交互信息与图像嵌入。为了解决这两个限制，我们提出了FocSAM，这是一个在两个关键方面重新设计的管道。

以下是主要内容概述：

文章讨论了SAM模型，其在分割领域是一个重要的里程碑。
SAM存在稳定性问题，尤其是在挑战性样本上。
问题主要由图像预处理和轻量级解码器的挑战引起。
提出了FocSAM，这是对SAM的改进，包括两个关键方面的重新设计。
FocSAM实验上提高了SAM的性能，并且仅需要现有方法5.6%的推理时间。

以下是具体改进：

提出了Dynamic Window Multi-head Self-Attention（Dwin-MSA），用于动态重新聚焦SAM的图像嵌入在目标对象上。
提出了Pixel-wise Dynamic ReLU（P-DyReLU），以实现从初始点击中充分整合交互信息，这对整体分割结果有重大影响。

代码可在 https://github.com/YouHuang67/focsam 获得。

Paper77 DMR: Decomposed Multi-Modality Representations for Frames and Events Fusion in Visual Reinforcement Learning

摘要小结: 我们探讨了使用两种互补视觉模态的视觉强化学习（RL）：基于帧的RGB摄像头和基于事件动态视觉传感器（DVS）。现有的多模态视觉RL方法在有效提取多模态中与任务相关的信息同时抑制噪声时，常常遇到挑战，这些仅使用间接奖励信号而非像素级监督。为了解决这一问题，我们提出了一个分解多模态表示（DMR）框架用于视觉RL。它将输入明确分解为三个不同的组件：组合的任务相关特征（共同特征）、RGB特有噪声和DVS特有噪声。共同特征表示两种模态中与RL任务相关的全部信息；两种噪声组件分别通过数据重建损失进行约束以避免信息泄露，与共同特征形成对比以最大化它们的差异。大量实验表明，通过明确分离不同类型的信息，我们的方法在策略性能上显著优于现有先进方法。

概述主要内容：
这段话介绍了研究者在视觉强化学习领域的一个新方法，即使用两种互补视觉模态（RGB和DVS）。他们提出了一个名为分解多模态表示（DMR）的框架，该框架能够有效分离任务相关信息和噪声。通过这种方式，他们实现了比现有方法更优的策略性能。

Paper78 DiffuseMix: Label-Preserving Data Augmentation with Diffusion Models

摘要小结: 最近，一些基于图像混合的数据增强技术被引入，以提高深度神经网络的泛化能力。在这些技术中，随机选择两个或更多自然图像混合在一起生成增强图像。然而，这些方法可能会忽略输入图像的重要部分，还可能通过跨标签混合图像引入标签模糊性，导致误导性的监督信号。为了解决这些局限性，我们提出了DIFFUSEMIX，这是一种新颖的数据增强技术，它利用扩散模型根据我们定制的条件提示重塑训练图像。

以下是主要内容概述：

翻译内容：
最近，一些基于图像混合的增强技术被提出，以提高深度神经网络的泛化能力。在这些技术中，会随机选择两个或更多的自然图像混合在一起生成一个增强图像。这些方法不仅可能忽略输入图像的重要部分，而且可能通过混合跨标签的图像引入标签模糊性，导致误导性的监督信号。

概述：

文段介绍了一种新技术DIFFUSEMIX。
DIFFUSEMIX使用扩散模型来重塑训练图像。
3.以下是翻译：

翻译：

最近，提出了一些基于图像混合的增强技术，以提高深度神经网络的泛化能力。在这些技术中，会混合两个或更多随机选定的自然图像来生成增强图像。这些方法不仅可能遗漏输入图像的重要部分，还可能通过跨标签混合图像引入标签模糊性，从而导致误导性的监督信号。

以下是主要内容：

最近的技术翻译如下：

以下是翻译：

最近，提出了一些基于图像混合的数据增强技术，旨在改善深度神经网络的泛化能力。在这些技术中，通过混合两个或更多随机选取的自然图像来生成增强图像。这些方法可能会忽略输入图像的关键部分，并可能因混合不同标签的图像而引入标签模糊性，从而导致错误的监督信号。

以下是概述：

概述：

提出了一种名为DIFFUSEMIX的新数据增强技术。
该技术使用扩散模型和定制条件提示来重塑训练图像。
以下是详细内容：

翻译内容：
最近，有几种基于图像混合的增强技术被提出来，以提高深度神经网络的泛化能力。在这些技术中，会随机选择两张或多张自然图像进行混合，以生成增强图像。这些方法可能会忽略输入图像的重要部分，并且可能会因为混合了不同标签的图像而引入标签模糊性，从而导致误导性的监督信号。

以下是概述：

技术细节：

DIFFUSEMIX避免了生成不真实图像或标签模糊性。
它通过将随机选择的结构模式从一组分形图像中混合到拼接图像中，来增强对抗性攻击的韧性并提高安全措施。
结果显示，DIFFUSEMIX在多个数据集上表现优于现有技术。以下是概述：

主要内容概述：

介绍了一种名为DIFFUSEMIX的新技术。
该技术用于数据增强，旨在提高深度神经网络的性能。
DIFFUSEMIX使用扩散模型和定制提示来重塑图像。
该方法能够避免生成不真实图像或引入标签模糊性。
在多个数据集上进行了实证研究，结果显示DIFFUSEMIX优于现有方法。以下是最详细的概述：

详细概述：

文章介绍了一种新的数据增强技术DIFFUSEMIX。
该技术旨在解决现有基于图像混合技术的局限性，如忽略重要图像部分和引入标签模糊性。
DIFFUSEMIX使用扩散模型，并通过定制的条件提示来重塑训练图像。
该方法首先获取部分自然图像及其生成对应图像的拼接，以避免不真实图像或标签模糊性。
接着，为了提高对抗性攻击的韧性，将随机选择的分形图像结构模式混合到拼接图像中，形成最终的增强图像。
实证研究在七个不同的数据集上进行，结果显示DIFFUSEMIX在一般分类、细粒度分类、微调、数据稀缺和对抗性鲁棒性等多个任务上均优于现有最先进的方法。

Paper79 PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models

摘要小结: 这段话的中文翻译如下：

奖励微调已成为一种有前景的方法，用于将基础模型与下游目标对齐。在语言领域，通过使用强化学习（RL）来最大化反映人类偏好的奖励，已经取得了显著的成功。然而，在视觉领域，现有的基于RL的奖励微调方法受到大规模训练不稳定性的限制，使得它们无法泛化到复杂的未见提示。在本文中，我们首次提出了近端奖励差异预测（PRDP），使扩散模型能够在包含超过10万个提示的大型提示数据集上进行稳定的黑盒奖励微调。我们的关键创新是奖励差异预测（RDP）目标，它具有与RL目标相同的最佳解，同时享有更好的训练稳定性。具体而言，RDP目标是监督回归目标，它使扩散模型能够根据其去噪轨迹预测生成图像对的奖励差异。我们从理论上证明了获得完美奖励差异预测的扩散模型正是RL目标的最大化者。我们进一步开发了一种具有近端更新的在线算法，以稳定优化RDP目标。在实验中，我们证明了PRDP在小规模训练中可以匹配基于RL的成熟方法的奖励最大化能力。此外，通过对Human Preference Dataset v2和Pick-a-Pic v1数据集的大规模训练，PRDP在一系列复杂的未见提示上实现了卓越的生成质量，而基于RL的方法则完全失败。

主要内容概述：

这段话主要讨论了一种名为Proximal Reward Difference Prediction（PRDP）的新方法，该方法首次实现了在大型提示数据集上对扩散模型进行稳定的黑盒奖励微调。该方法的关键创新是奖励差异预测（RDP）目标，它提高了训练稳定性，并且在理论上与RL目标具有相同的最佳解。PRDP在实验中展示了优异的性能，尤其是在复杂未见提示上的生成质量，超越了基于RL的方法。

Paper80 FREE: Faster and Better Data-Free Meta-Learning

摘要小结: 数据自由元学习（DFML）旨在从一组预训练模型中提取知识，而无需原始数据，这在受数据隐私担忧限制的背景下具有实际优势。当前的DFML方法主要关注从这些预训练模型中恢复数据。然而，它们存在恢复速度慢的问题，并且忽视了异构预训练模型中固有的差距。针对这些挑战，我们引入了更快更好的数据自由元学习（FREE）框架，包含：（i）一个元生成器，用于快速从预训练模型中恢复训练任务；（ii）一个元学习者，用于泛化到新的未见任务。具体来说，在Faster Inversion via Meta-Generator模块中，每个预训练模型都被视为一个独特的任务。元生成器可以在仅五步内快速适应特定任务，显著加快数据恢复速度。此外，我们提出了Better Generalization via Meta-Learner，并引入了一种隐式梯度对齐算法来优化元学习者。这是通过对比，对齐梯度方向可以缓解来自异构预训练模型的任务之间的潜在冲突。

以下是主要内容概述：

翻译内容：DFML专注于从预训练模型中提取知识，无需原始数据，主要内容包括：

概述了DFML的优势和当前方法的挑战。
介绍了FREE框架，包括元生成器和元学习者。
元生成器可以快速恢复训练任务，而元学习者用于新任务的泛化。
提出了加快数据恢复速度和优化元学习者的方法。
实验结果证明，该方法比现有技术有显著的速度提升和性能增强。

概述：

这段话主要介绍了数据自由元学习（DFML）的一个新框架FREE，该框架通过元生成器和元学习者来解决当前DFML方法的恢复速度慢和异构模型差距问题，实验证明其具有显著的性能提升。

Paper81 Bayesian Diffusion Models for 3D Shape Reconstruction

摘要小结: 我们介绍了贝叶斯扩散模型（BDM），这是一种预测算法，通过紧密耦合自上而下（先验）信息与自下而上（数据驱动）过程，通过联合扩散过程实现有效的贝叶斯推理。我们展示了BDM在3D形状重建任务中的应用。与标准的依赖监督数据的深度学习数据驱动方法相比，我们的BDM可以通过在无监督方式下训练的丰富先验信息来改进自下而上的3D重建。与传统贝叶斯框架不同，后者需要显式学习的先验和数据驱动分布来计算和组合梯度，BDM通过耦合的扩散过程与学习的梯度计算网络实现两者的无缝融合。我们的BDM的特殊之处在于其能够实现自上而下和自下上过程的积极、有效的信息交换与融合，其中每个过程本身就是一个扩散过程。我们在3D形状重建的合成和现实世界基准上展示了最先进的结果。

以下是主要内容概述：

介绍了一种新的预测算法BDM。
BDM在3D形状重建任务中应用。
BDM利用无监督方式训练的先验信息，优于传统深度学习方法。
BDM通过耦合扩散过程实现先验与数据驱动的无缝融合。
BDM在合成和现实世界数据上取得了先进的结果。

以下是翻译：

我们提出了贝叶斯扩散模型（BDM），这是一种预测算法，通过将自上而下的（先验）信息与自下而上的（数据驱动的）过程紧密耦合，通过联合扩散过程进行有效的贝叶斯推理。我们展示了BDM在3D形状重建任务上的应用。与依赖监督数据的标准深度学习数据驱动方法相比，我们的BDM可以引入丰富的先验信息，以无监督的方式进行训练，以改进自下而上的3D重建。与需要显式学习先验和数据驱动分布进行梯度计算和组合的传统贝叶斯框架相反，BDM通过耦合的扩散过程与学习的梯度计算网络实现两者的无缝融合。我们的贝叶斯扩散模型（BDM）的特殊之处在于其能够实现自上而下和自下而上过程的积极、有效的信息交换和融合，其中每个过程本身就是一个扩散过程。我们在3D形状重建的合成和现实世界基准上展示了最先进的结果。项目链接：https://mlpc-ucsd.github.io/BDM.

Paper82 Task-Customized Mixture of Adapters for General Image Fusion

摘要小结: 总体来说，这段话的中文翻译如下：

一般图像融合的目标是整合来自多源图像的重要信息。然而，由于不同任务之间的巨大差距，实际中的融合机制各不相同，导致在子任务之间的性能有限。为了处理这个问题，我们提出了一种新颖的任务定制混合适配器（TC-MoA），用于一般图像融合，它可以自适应地在统一模型中提示各种融合任务。我们从专家混合（MoE）中获得灵感，将专家视为有效的调整适配器，以提示预训练的基础模型。这些适配器在不同任务之间共享，并通过互信息正则化进行约束，确保与不同任务的兼容性，同时对多源图像具有互补性。任务特定的路由网络定制这些适配器，以从不同源中提取特定于任务的信息，具有动态主导强度，执行自适应视觉特征提示融合。值得注意的是，我们的TC-MoA成功控制了不同融合任务的主导强度偏差，在单个模型中统一了多个融合任务。大量实验表明，TC-MoA在学习共性的同时，在一般图像融合（多模态、多曝光和多焦点）中保留了兼容性，同时在更广泛的实验中也显示出显著的可控性。

以下是主要内容概述：

这段话讨论了图像融合的问题，特别是在多源图像中整合信息。
提出了一种新的方法TC-MoA，用于处理不同融合任务之间的差异。
TC-MoA使用适配器和互信息正则化来确保兼容性和互补性。
方法在单个模型中成功统一了多个融合任务。
实验表明，TC-MoA在多个领域表现优异，且代码是可用的。

Paper83 Bi-SSC: Geometric-Semantic Bidirectional Fusion for Camera-based 3D Semantic Scene Completion

摘要小结: 基于摄像头的语义场景完整化（SSC）是要仅从2D图像推断出物体和场景的完整几何形态。这个任务对于因遮挡和光照不明确而不可见的区域尤其具有挑战性。现有的工作忽略了那些阴影和遮挡区域中缺失或模糊的信息，导致几何预测失真。为了解决这个问题，我们提出了一种新的方法Bi-SSC，即基于摄像头的3D语义场景完整化的双向几何语义融合。关键洞察是利用图像中物体的邻接结构和不同视角的空间差异来补偿遮挡区域的信息缺失。具体来说，我们引入了一个具有多重关联注意的空间感官融合模块，以提高几何分布中的语义相关性。这个模块在单个视图内以及跨立体视图工作，以实现全局空间一致性。实验结果表明，Bi-SSC在SemanticKITTI上的表现优于现有的基于摄像头的最佳方法，尤其是在那些不可见和阴影区域表现尤为出色。

主要内容概述：
这段话介绍了一种名为Bi-SSC的新方法，用于基于摄像头的3D语义场景完整化。该方法旨在解决因遮挡和光照问题导致的不可见区域的几何形态推断难题。通过利用物体的邻接结构和不同视角的空间差异，Bi-SSC补偿了遮挡区域的信息缺失，并通过引入空间感官融合模块来提高几何分布中的语义相关性。实验证明，Bi-SSC在处理不可见和阴影区域方面优于现有技术。

Paper84 CrossKD: Cross-Head Knowledge Distillation for Object Detection

摘要小结: 知识蒸馏（KD）已被验证为一种有效的模型压缩技术，用于学习紧凑的目标检测器。目前最先进的目标检测KD方法大多基于特征模仿。在本文中，我们提出了一种通用且有效的预测模仿蒸馏方案，称为CrossKD，它将学生的检测头的中间特征传递给教师的检测头。然后迫使这些交叉头预测模仿教师的预测。这种方式使学生头从注释和教师的预测中解脱出来，大大提高了学生的检测性能。此外，由于模仿教师的预测是KD的目标，CrossKD提供了比特征模仿更具任务导向的信息。在MS COCO上，仅应用预测模仿损失，我们的CrossKD将1x训练计划下的GFL ResNet-50的平均精度从40.2提升到43.7，超过了所有现有的KD方法。此外，我们的方法在蒸馏具有异构骨干的检测器时也表现良好。

概述主要内容：
这段话介绍了知识蒸馏（KD）在目标检测中的应用，提出了一种新的预测模仿蒸馏方案CrossKD。CrossKD通过将学生的检测头特征传递给教师检测头，并模仿教师预测，提高了检测性能。该方法在MS COCO数据上取得了优异的结果，并优于现有的KD方法。同时，该方法也适用于具有异构骨干的检测器。

Paper85 Bi-level Learning of Task-Specific Decoders for Joint Registration and One-Shot Medical Image Segmentation

摘要小结: 这段话的中文翻译如下：

一次性医学图像分割（MIS）旨在应对昂贵、耗时且具有固有主观偏差的标注问题。一种流行的方法是采用共享编码器的联合配准和分割（JRS），主要探索标记数据和未标记数据之间的体素级对应关系以实现更好的分割。然而，这种方法忽略了分割和配准任务特定解码器之间的潜在联系，导致训练不稳定。在本文中，我们提出了一种新颖的针对一次性MIS的双层次学习任务特定解码器，采用预训练的固定共享编码器，证明其比现有没有固定共享编码器范式的JRS更快地适应全新数据集。具体来说，我们引入了一种双层次优化训练策略，将配准视为主要目标，将分割视为可学习约束，通过利用任务间耦合依赖性。此外，我们设计了一种外观一致性约束策略，学习反向变换生成用于执行数据增强的伪标记数据，而不是使用标记图像，以避免因先前方法中未标记数据和标记数据之间的不一致风格导致的性能下降。在ABIDE、ADNI和PPMI数据集上的大脑MRI任务上的广泛实验表明，所提出的Bi-JROS在分割和配准任务上均优于现有的一次性MIS方法。代码将可在https://github.com/Coradlut/Bi-JROS提供。

主要内容概述：

这段话介绍了一种针对一次性医学图像分割（MIS）的新方法，即双层次学习任务特定解码器。该方法使用预训练的固定共享编码器，并通过双层次优化训练策略来提高训练稳定性。此外，它还包括外观一致性约束策略以避免性能下降。实验结果显示，该方法在分割和配准任务上优于现有的一次性MIS方法。

Paper86 Parameter Efficient Self-Supervised Geospatial Domain Adaptation

摘要小结: (以下是翻译和概述）

翻译：
随着不同领域的大规模基础模型公开可用，有效地将它们适应于单个下游应用和额外的数据模态已经成为一个核心挑战。例如，地理空间和卫星遥感应用的基础模型通常在大型的光学RGB或多光谱数据集上进行训练，尽管在遥感领域有来自各种异构传感器的数据可用。这导致了许多重要应用在预训练和下游目标数据分布之间存在显著差异。微调大规模基础模型以弥补这一差距需要付出高昂的计算成本，而且在目标数据集较小的情况下可能不可行。在本文中，我们探讨了如何高效地将大型预训练基础变换器模型适应于涉及不同数据模态或有限数据集大小的下游遥感任务。我们提出了一种自监督适应方法，该方法在8个遥感数据集上使不同基础模型的下游线性评估准确率提高了4-6%（绝对值），并且在仅训练1-2%的模型参数时优于完全微调。我们的方法显著提高了标签效率，并在不同数据集上使少样本准确率提高了6-10%。

概述：
这篇文章讨论了如何有效地将大规模预训练的基础模型应用于具体的下游任务，尤其是在遥感领域，这些任务可能涉及多种数据类型或具有有限的数据量。文章提出了一种自监督的适应方法，可以提高模型在少量数据上的性能，并且比完全微调模型更加高效。

Paper87 Defense without Forgetting: Continual Adversarial Defense with Anisotropic & Isotropic Pseudo Replay

摘要小结: by Kwong et al.

这段话的中文翻译是：

深度神经网络容易受到对抗性攻击的影响。对抗性防御技术通常关注一次性设置，以保持对攻击的鲁棒性。然而，在现实世界的部署场景中，新的攻击可能会连续出现。因此，防御模型不断适应新攻击是至关重要的，但适应过程可能导致对先前防御的攻击产生灾难性遗忘。在本文中，我们首次讨论了在一系列攻击下的持续对抗性防御的概念，并提出了一种叫做各向同性与各向异性重放（AIR）的终身防御基线，它具有三个优点：(1) 各向同性重放确保了新数据邻域分布中的模型一致性，间接地对新旧任务之间的输出偏好进行对齐。(2) 各向异性重放使模型能够学习一个具有新鲜混合语义的折衷数据流形，用于进一步的回放约束和潜在的未来攻击。(3) 一个简单的正则化器通过在新旧任务之间对齐模型输出，减轻了“可塑性-稳定性”权衡。实验结果表明，AIR可以接近甚至超过联合训练实现的实证性能上限。

主要内容概述：

这篇文章讨论了在连续对抗性攻击下的持续防御问题，并提出了一个新的防御方法，称为各向同性与各向异性重放（AIR）。该方法旨在解决模型在适应新攻击时可能忘记如何防御旧攻击的问题。文章强调了AIR方法的三个优势，并通过实验展示了它能够达到或超过传统联合训练方法的性能。

Paper88 EscherNet: A Generative Model for Scalable View Synthesis

摘要小结: 我们介绍了EscherNet，这是一种用于视图合成的多视图条件扩散模型。EscherNet学习了与专门设计的相机位置编码相结合的隐式和生成式3D表示，允许在任意数量的参考视图和目标视图之间精确且连续地控制相机变换。EscherNet在视图合成中提供了卓越的通用性、灵活性和可扩展性——即使在仅用3个参考视图训练到3个目标视图的情况下，它也能在单个消费级GPU上同时生成超过100个一致的目标视图。因此，EscherNet不仅解决了零样本新颖视图合成问题，还自然地将单图像和多图像3D重建统一起来，将这些不同任务结合到一个单一的整体框架中。

以下是主要内容概述：

翻译：
我们介绍了EscherNet，一种用于视图合成的多视图条件扩散模型。EscherNet能够精确控制相机变换。

概述：

EscherNet是一个多视图条件扩散模型。
它提供了卓越的通用性、灵活性和可扩展性。
它可以在单个GPU上生成大量一致的目标视图。
EscherNet统一了单图像和多图像3D重建。
它在多个基准测试中达到了最先进的性能。
这为设计可扩展的3D视觉神经架构开辟了新方向。

以下是翻译：

我们介绍了EscherNet，这是一种用于视图合成的多视图条件扩散模型。EscherNet学习了隐式的和生成式的3D表示，并与专门的相机位置编码相结合，允许在任意数量的参考视图和目标视图之间精确且连续地控制相机变换。EscherNet在视图合成中提供了卓越的通用性、灵活性和可扩展性——它可以在单个消费级GPU上同时生成超过100个一致的目标视图，尽管它仅用3个参考视图训练到3个目标视图。因此，EscherNet不仅解决了零样本新颖视图合成问题，还自然地将单图像和多图像3D重建统一起来，将这些不同的任务结合到一个单一的框架中。我们的大量实验表明，EscherNet在多个基准测试中达到了最先进的性能，即使与针对每个单独问题定制的方法相比也是如此。这种卓越的多功能性为设计可扩展的3D视觉神经架构开辟了新方向。项目页面：https://kxhit.github.io/EscherNet.。

Paper89 MeaCap: Memory-Augmented Zero-shot Image Captioning

摘要小结: 零样本图像字幕生成（IC）在没有良好配对的图像-文本数据的情况下，可以分为两种主要类型：无需训练和仅文本训练方法。这两种类型都集成了预训练的视觉-语言模型（如CLIP）来评估图像-文本相似度，以及预训练的语言模型（LM）来生成字幕，但它们的区别在于利用文本语料库进行LM训练的方式。尽管在某些指标上取得了有希望的的性能，但现有方法通常存在缺陷。无需训练的方法常常会产生幻觉，而仅文本训练的方法可能缺乏泛化能力。为了解决这些挑战，我们提出了一种新颖的 Memory-Augmented 零样本图像字幕生成框架（MeaCap）。这个框架配备了文本记忆，并采用了一个检索-然后-过滤模块来提取与图像高度相关的关键概念。通过利用我们在关键词到句子的LM中提出的记忆增强的视觉相关融合分数，MeaCap生成了以概念为中心的字幕，这些字幕与图像具有高度一致性，减少了幻觉并丰富了世界知识。MeaCap在各种零样本IC设置中均取得了最先进的性能。我们的代码公开可获取，地址是https://github.com/joeyz0z/MeaCap。

主要内容概述：
本文讨论了在没有良好配对的图像-文本数据的情况下，零样本图像字幕生成的两种方法（无需训练和仅文本训练方法），指出了现有方法的缺陷，并提出了一个新的框架MeaCap来改进这些方法。MeaCap利用文本记忆和特定的模块来生成与图像高度一致的字幕，减少了幻觉并提高了世界知识的丰富性，且在多种零样本图像字幕生成设置中取得了最先进的性能。

Paper90 Artist-Friendly Relightable and Animatable Neural Heads

摘要小结: 这段话的中文翻译是：创建照片级真实感数字头像的一种越来越常见的方法是通过使用体积神经场。最初的神经辐射场（NeRF）在训练一组多视角图像时，能够实现令人印象深刻的新视角合成的静态头部，后续方法表明这些神经表示可以扩展到动态头像。最近的新变体还克服了神经表示中常见的内置照明的缺点，表明静态神经头像可以在任何环境中重新照明。在这项工作中，我们同时解决了运动和照明问题，提出了一种新的可重新照明和可动画化的神经头部方法。我们的方法基于一种经过验证的动态头像方法，该方法结合了体积原语混合物与一种最近提出的轻量级硬件设置，用于可重新照明的神经场，并包括一种新颖的架构，允许重新照明动态神经头像，在任何环境中执行未见过的表情，即使是近场照明和视角。

主要内容概述：这段话介绍了通过体积神经场创建高度真实的数字头像的新方法。它提到了从静态图像合成的神经辐射场（NeRF）到动态头像的技术发展，并指出最近的技术进步已经能够让静态神经头像在任意环境中重新照明。文章提出了一种新方法，可以同时解决动态头像的运动和照明问题，使神经头像既可重新照明，也可动画化，即使在复杂的光照和视角条件下也能展现真实的表情。

Paper91 Elite360D: Towards Efficient 360 Depth Estimation via Semantic- and Distance-Aware Bi-Projection Fusion

摘要小结: 这段话的中文翻译如下：

360度深度估计最近因其在三维重建中具有全方位视场（FoV）而受到广泛关注。最近的方法主要专注于基于几何的重投影交叉投影融合：它们将具有等距矩形投影（ERP）的360度图像与另一种投影类型（例如立方体贴图投影）融合，以估计ERP格式的深度。然而，这些方法存在以下问题：1）有限的局部感受野使得很难捕捉到大FoV场景；2）由于复杂的交叉投影融合模块设计导致的计算成本过高。在本文中，我们提出了Elite360D，这是一个新颖的框架，输入ERP图像和二十面体投影（ICOSAP）点集，该点集无失真且在空间上连续。Elite360D在从局部到全局的角度学习表示方面具有优势。它包含一个灵活的ERP图像编码器，一个ICOSAP点编码器和一个双投影双注意力融合（B2F）模块（总共1M参数）。具体来说，ERP图像编码器可以使用各种图像训练骨干（例如ResNet Transformer）来提取局部特征。点编码器从ICOSAP中提取全局特征。然后，B2F模块捕捉ERP特征中每个像素与整个ICOSAP特征集之间的语义和距离感知依赖关系。在没有特定骨干设计和明显计算成本增加的情况下，Elite360D在几个基准数据集上优于之前的技术。

主要内容概述：

这段话介绍了一种名为Elite360D的新型360度深度估计框架，该框架利用ERP图像和ICOSAP点集进行深度估计。它强调了Elite360D在学习表示方面的优势，并通过B2F模块来捕捉特征间的依赖关系。此外，该方法在没有增加计算成本的情况下，性能优于之前的技术。

Paper92 From Feature to Gaze: A Generalizable Replacement of Linear Layer for Gaze Estimation

摘要小结: 基于深度学习的视线估计方法在未见过的目标领域常常会出现显著的性能下降。一个主要原因是，全连接层在将高维图像特征映射到3D视线时很容易过拟合。在本文中，我们提出了分析性视线泛化框架（AGG），以提高视线估计模型的可泛化能力，且不接触目标领域数据。AGG由两个模块组成：测地线投影模块（GPM）和球面导向训练（SOT）。GPM是FC层的通用替代品，它将高维图像特征解析地投影到3D空间，以提取视线的主要成分。然后我们提出了球面导向训练（SOT），将GPM融入训练过程，进一步提高跨域性能。实验结果表明，AGG有效地缓解了过拟合问题，并在12个跨域设置中一致提高了跨域视线估计的准确度，且不需要任何目标领域数据。

概述主要内容：

这段话主要介绍了作者提出的一种名为分析性视线泛化框架（AGG）的方法，旨在提高基于深度学习的视线估计模型在未见过的目标领域的性能。该方法包含两个模块：GPM和SOT。GPM用于替代FC层，以减少过拟合问题，而SOT则帮助提高跨域性能。实验证明，该方法有效且不需要目标领域数据。

Paper93 Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation

摘要小结: 参考图像分割（RIS）旨在通过相应的自然语言表达式精确分割图像中的参照物，但这一过程依赖于成本高昂的掩膜注释。因此，弱监督RIS从图像-文本对学习到像素级语义，这对于分割精细的掩膜具有挑战性。提高分割精度的自然方法是将图像分割基础模型SAM赋能给弱监督RIS。然而，我们发现简单地整合SAM带来的好处有限，甚至可能因为无法避免的噪声问题和过度关注对象部分而导致性能下降。本文提出了一个创新框架Point PrompTing（PPT），并整合了提出的多源课程学习策略来解决这些挑战。具体来说，PPT的核心是一个点生成器，它不仅利用了CLIP的文本-图像对齐能力和SAM强大的掩膜生成能力，还生成了负点提示，以本质上和有效地解决噪声和过度关注问题。此外，我们还引入了一种以对象为中心的课程学习策略，帮助PPT逐渐从更简单但精确的语义对齐学习到更复杂的RIS。

主要内容概述：

RIS的目标是分割图像中的参照物，但面临成本问题。
弱监督RIS面临挑战，特别是在精细掩膜分割上。
使用SAM整合存在限制，可能导致性能下降。
文章提出了PPT框架和课程学习策略来应对这些挑战。
PPT在实验中显著提高了性能，超过了之前的弱监督技术。以下是以下内容：

翻译内容：

指代图像分割（RIS）旨在通过相应的自然语言表达式精确地对图像中的指代对象进行分割，但这依赖于成本高昂的掩膜注释。因此，弱监督RIS从图像文本对中学习到像素级语义，这对于分割细粒度的掩膜具有挑战性。提高分割精度的自然方法是使弱监督RIS具备图像分割基础模型SAM的能力。然而，我们发现简单地整合SAM带来的好处有限，并且可能由于不可避免的噪声问题和过度关注对象部分而导致性能下降。本文提出了一种创新框架Point PrompTing（PPT），并结合了提出的多源课程学习策略来解决这些挑战。具体来说，PPT的核心是一个点生成器，它不仅利用了CLIP的文本图像对齐能力和SAM强大的掩膜生成能力，还生成了负点提示，以有效解决噪声和过度关注问题。此外，我们还引入了一种以对象为中心的课程学习策略，帮助PPT逐渐学习从简单但精确的语义对齐到更复杂的RIS。实验证明，我们的PPT在mIoU上显著且一致地超过了之前的弱监督技术。

Paper94 EventDance: Unsupervised Source-free Cross-modal Adaptation for Event-based Object Recognition

摘要小结: 在这篇文章中，我们首次尝试在不访问任何标记的源图像数据的情况下，实现基于事件的物体识别的跨模态（即图像到事件）适应，这是由于隐私和商业问题。解决这个新颖问题并不平凡，因为事件摄像头的创新以及图像与事件之间的明显模态差距。特别是由于只有源模型可用，难题在于如何仅使用未标记的目标事件数据提取源模型的知识，同时实现知识转移。为此，我们提出了一个名为EventDance的新框架，用于这个无监督的源自由跨模态适应问题。

主要内容概述：

以下是翻译和概述：

翻译：
本文中，我们首次尝试在没有任何标记的源图像数据的情况下，实现针对事件基对象识别的跨模态（即图像到事件）适应。这是由于隐私和商业问题。处理这一新颖问题颇具挑战，原因是事件摄像头的创新以及图像与事件之间的明显模态差距。特别是，由于只有源模型可用，如何仅通过未标记的目标事件数据提取源模型的知识，同时实现知识转移是一个障碍。为此，我们提出了一个名为EventDance的新框架。重要的是，受事件到视频重建方法的启发，我们提出了一个基于重建的模态桥接（RMB）模块，该模块以自我监督的方式从事件中重建强度帧。这使得可以构建替代图像以从源模型中提取知识（即标签）。然后，我们提出了一个多表示知识适应（MKA）模块，将知识转移到目标模型，学习具有多种表示类型的事件，以充分探索事件的时空信息。两个连接源和目标模型的模块相互更新，以实现最佳性能。

概述：
文章讨论了在没有源图像数据的情况下，如何实现跨模态适应，特别是针对事件基对象识别。提出了EventDance框架，其中包括一个基于重建的RMB模块和一个MKA模块，这些模块帮助在源模型和目标模型之间转移知识，即使没有标记的数据。实验显示，EventDance在性能上与使用源数据的方法相当。

Paper95 CycleINR: Cycle Implicit Neural Representation for Arbitrary-Scale Volumetric Super-Resolution of Medical Data

摘要小结: 这段话的中文翻译如下：

在医疗三维数据领域，如CT和MRI图像中普遍存在各向异性分辨率，其特点是切片内分辨率高，但切片间分辨率降低。相邻切片之间的分辨率降低带来了挑战，阻碍了最佳观看体验，并影响了稳健的下游分析算法的发展。各种体绘制超分辨率算法旨在克服这些挑战，提高切片间分辨率和整体三维医学成像质量。然而，现有的方法面临一些固有的挑战：1) 通常针对特定的上采样因子，缺乏适应不同临床场景的灵活性；2) 新生成的切片常常遭受过度平滑的困扰，这会降低细节的清晰度，并导致切片间的不一致性。为此，本研究提出了CycleINR，这是一种新颖的增强型隐式神经表示模型，用于三维医疗数据的体绘制超分辨率。利用学习到的隐式函数的连续性，CycleINR模型可以实现任意上采样率的结果，无需单独训练。此外，我们在CycleINR中通过引入局部注意力机制来增强网格采样，并通过整合循环一致性损失来减轻过度平滑。我们引入了一个新的度量标准——切片噪声水平不一致性（SNLI），用于定量评估切片间噪声水平的不一致性。我们通过在内部数据集上进行图像质量评估以及在Medical Segmentation Decathlon肝脏肿瘤数据集上进行下游任务分析，证明了我们方法的有效性。

主要内容概述：
这段话主要讨论了医疗三维数据（如CT和MRI图像）中超分辨率处理的问题。现有的超分辨率算法在提高图像质量方面面临一些挑战，比如缺乏灵活性以及对图像细节的过度平滑。文章提出了CycleINR模型，这是一种新的用于三维医疗数据超分辨率的隐式神经表示模型。CycleINR利用隐式函数的连续性，可以实现任意上采样率，并通过引入局部注意力和循环一致性损失来改善过度平滑问题。文章还提出了一种新的度量标准SNLI来评估切片间的噪声水平不一致性，并通过实验证明了该方法的有效性。

Paper96 Boosting Image Restoration via Priors from Pre-trained Models

摘要小结: 翻译：大规模训练数据预训练的模型，如CLIP和Stable Diffusion，在各种高级计算机视觉任务中表现出色，例如根据语言描述进行图像理解和生成。然而，它们在低级任务（如图像修复）方面的潜力尚未得到充分探索。在本文中，我们探讨了这些模型以增强图像修复。由于预训练模型的现成特征（OSF）不能直接用于图像修复，我们提出学习一个额外的轻量级模块，称为预训练引导细化模块（PTG-RM），以利用OSF细化目标修复网络的修复结果。PTG-RM由两个组件组成：预训练引导空间变化增强（PTG-SVE）和预训练引导通道空间注意力（PTG-CSA）。PTG-SVE能够实现最优的短距离和长距离神经操作，而PTG-CSA增强空间通道注意力以进行修复相关学习。大量实验表明，PTG-RM及其紧凑的尺寸（<1M参数）有效地提高了各种模型在不同任务上的修复性能，包括低光增强、去雨、去模糊和去噪。

概述主要内容：这段话主要介绍了研究者们探索使用预训练模型来增强图像修复任务。他们提出了一种名为预训练引导细化模块（PTG-RM）的轻量级模块，该模块包括两个组件，用于提高图像修复性能。实验证明，PTG-RM在多个图像修复任务中都能有效提升模型性能。

Paper97 VRetouchEr: Learning Cross-frame Feature Interdependence with Imperfection Flow for Face Retouching in Videos

摘要小结: 面部视频修饰是一项复杂的任务，通常需要劳动密集型的手动编辑。当传统的图像修饰方法应用于视频而没有利用帧之间的相关性时，其在泛化性能和稳定性方面表现得不够满意。为了解决这一问题，我们提出了一种视频修饰转换器，用于去除视频中面部瑕疵，称为VRetouchEr。具体来说，我们估计两个连续帧之间瑕疵的明显运动，得到的位移向量用于细化从当前帧及其相应的编码器特征合成的瑕疵图。基于流式的瑕疵细化对于精确和稳定的跨帧修饰至关重要。为了利用时间上下文信息，我们将细化的瑕疵图注入到每个转换器块中进行多帧掩码注意力计算，这样我们可以捕捉当前帧与多个参考帧之间的相互依赖。结果，瑕疵区域可以以高保真度替换为正常皮肤，同时保持其他区域不变。进行了大量实验，以验证VRetouchEr在保真度和稳定性方面优于现有图像修饰方法的优越性。

概述主要内容：
这段话主要介绍了VRetouchEr，这是一种新的视频修饰方法，用于去除视频中的面部瑕疵。该方法通过估计连续帧之间的瑕疵运动来细化瑕疵图，并利用时间上下文信息进行多帧掩码注意力计算，从而实现高保真度的瑕疵区域替换。实验表明，VRetouchEr在保真度和稳定性方面优于现有方法。

Paper98 Transferable Structural Sparse Adversarial Attack Via Exact Group Sparsity Training

摘要小结: 深度神经网络（DNNs）容易受到高度可转移的对抗性攻击。特别是许多研究表明，由于稀疏攻击具有卓越的不易察觉性，它们对DNNs构成了重大威胁。当前的稀疏攻击方法大多只限制扰动的大小和数量，而通常忽略了扰动位置，导致攻击可转移性降低。一部分研究指出，存在于具有丰富分类相关特征的重要区域的扰动更有效。利用这一洞察，我们在生成模型的框架中引入了结构稀疏性约束，以限制扰动位置。为了确保扰动生成朝着分类相关区域，我们提出了一种精确的组稀疏训练方法来学习像素级和组级稀疏性。为了提高稀疏训练的有效性，我们在训练过程中进一步提出了掩膜量化网络和多阶段优化算法。使用CNNs作为替代模型的大量实验表明，与大约相同稀疏水平的最先进方法相比，我们的方法在图像分类攻击中具有更高的可转移性。在跨模型的ViT对象检测和语义分割攻击任务中，我们也取得了更好的攻击成功率。代码可在 https://github.com/MisterRpeng/EGS-TSSA 获得。

主要内容概述：
这段话主要讨论了深度神经网络易受对抗性攻击的问题，特别是稀疏攻击的威胁。作者提出了一种新的方法，通过在生成模型中引入结构稀疏性约束来限制扰动位置，并提出了精确的组稀疏训练方法等。实验证明，这种方法在图像分类攻击和跨模型任务中具有更高的攻击成功率。

Paper99 Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

摘要小结: 多模态大型语言模型（MLLMs）的兴起激发了人们对基于语言驾驶任务的兴趣。然而，现有研究通常只关注有限的任务，并且常常忽略了对于稳健自动驾驶至关重要的多视角和时间信息。为了填补这些空白，我们介绍了NuInstruct，这是一个包含91K多视角视频-QA对的新数据集，涵盖17个子任务，每个任务都需要全面的信息（例如，时间、多视角和空间），显著提高了挑战难度。

以下是翻译和主要内容概述：

翻译：
多模态大型语言模型（MLLMs）的兴起激起了对基于语言的驾驶任务的研究兴趣。然而，现有研究通常仅限于有限的任务，并且经常忽略了对于强大的自动驾驶至关重要的多视角和时间信息。为了弥补这些不足，我们引入了NuInstruct，这是一个包含17个子任务的91K多视角视频-QA对的新型数据集，每个任务都需要全面的信息（例如时间和多视角空间信息），从而大幅提升了挑战难度。为了获得NuInstruct，我们提出了一种基于SQL的新方法，自动生成指令-响应对，这是受到人类驾驶逻辑进展的启发。我们进一步介绍了BEV-InMLLM，这是一种端到端的方法，用于高效地派生大型语言模型的指令感知鸟瞰图（BEV）特征。

主要内容概述：

文章讨论了MLLMs在基于语言的驾驶任务中的兴趣。
指出现有研究在多视角和时间信息方面的不足。
介绍了NuInstruct数据集，包含多视角视频-QA对，提高了任务挑战难度。
提出了一种基于SQL的方法来生成指令-响应对。
介绍了BEV-InMLLM方法，用于提升MLLMs在NuInstruct任务上的能力。
实验显示BEV-InMLLM显著优于现有MLLMs。
NuInstruct数据集已在GitHub上发布。

以下是具体内容：

BEV-InMLLM整合了多视角空间感知和时间语义，以增强MLLMs在这些任务上的能力。此外，我们提出的BEV注入模块是现有MLLMs的即插即用方法。我们的实验表明，在NuInstruct上，BEV-InMLLM在各项任务上显著优于现有MLLMs，例如提高了9%的改进。我们已在https://github.com/xmed-lab/NuInstruct发布了NuInstruct。

Paper100 Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder

摘要小结: 这段话的中文翻译如下：

超分辨率（SR）和图像生成是计算机视觉中的重要任务，并被广泛应用于现实世界应用中。然而，大多数现有方法仅能生成固定放大倍数的图像，并存在过度平滑和伪影的问题。此外，它们无法提供足够的输出图像多样性，也未能保持不同尺度下的图像一致性。相关研究工作将隐式神经表示（INR）应用于去噪扩散模型，以获得连续分辨率的、多样且高质量的SR结果。由于该模型在图像空间中操作，生成的图像分辨率越高，所需的内存和推理时间就越多，而且它也无法保持尺度特有的一致性。我们提出了一种新颖的流程，可以任意尺度地对输入图像进行超分辨率处理，或者从随机噪声中生成新颖图像。该方法由预训练的自动编码器、潜在扩散模型、隐式神经解码器及其学习策略组成。提出的方法在潜在空间中采用扩散过程，因此高效且与任意尺度输出的图像空间解码器相匹配。更具体地说，我们的任意尺度解码器是通过预训练自动编码器的对称解码器（无需放大）和局部隐式图像函数（LIIF）串联设计。潜在扩散过程通过去噪和一致性损失联合学习。输出图像中的错误通过固定解码器反向传播，提高输出图像的质量。在广泛的实验中，使用多个公共基准对两项任务（即任意尺度的图像超分辨率和新型图像生成）进行测试，提出的方法在图像质量、多样性和尺度一致性方面均优于相关方法。它在推理速度和内存使用方面显著优于相关的前沿技术。

主要内容概述：

这段话主要介绍了一种新的图像处理方法，该方法能够在任意尺度上进行超分辨率处理或生成新图像。现有方法存在一些问题，如固定放大倍数和过度平滑等。提出的方法包含预训练的自动编码器、潜在扩散模型等，并在潜在空间中使用扩散过程，提高了效率和图像质量。该方法在多个实验中表现出色，优于其他相关方法。