CVPR2024知识蒸馏Distillation论文49篇速通
CVPR2024知识蒸馏论文专区速览49篇
Paper1 3D Paintbrush: Local Stylization of 3D Shapes with Cascaded Score Distillation
摘要小结: 我们介绍了3DPaintbrush技术,这是一种通过文本描述自动对网格上的局部语义区域进行纹理贴图的方法。我们的方法直接在网格上操作,生成的纹理图能够无缝集成到标准的图形管线中。我们选择同时生成一个定位图(指定编辑区域)和一个与其对应的纹理图。这种方法提高了定位和风格化的质量。为了增强纹理区域的细节和分辨率,我们利用级联扩散模型的多个阶段来监督我们的局部编辑技术,这些阶段来自于不同分辨率的图像学习的生成先验。我们的技术被称为级联得分蒸馏(CSD),以级联方式同时蒸馏多个分辨率的得分,实现对监督的粒度和全局理解的控制。我们展示了3DPaintbrush技术在局部纹理不同语义区域在各种形状上的有效性。
主要内容概述:
本文介绍了一种名为3D Paintbrush的技术,该技术可以通过文本描述自动对网格上的局部语义区域进行纹理处理。技术操作直接在网格上,生成的纹理图能融入标准图形管线。同时生成定位图和纹理图,提升质量。此外,使用了级联得分蒸馏(CSD)来增强纹理细节和分辨率。
Paper2 CrossKD: Cross-Head Knowledge Distillation for Object Detection
摘要小结: 知识蒸馏(KD)已被验证为一种有效的模型压缩技术,用于学习紧凑的目标检测器。目前最先进的目标检测KD方法大多数基于特征模仿。在本文中,我们提出了一种通用且有效的预测模仿蒸馏方案,称为CrossKD,它将学生的检测头的中间特征传递给教师的检测头。然后迫使这些交叉头预测模仿教师的预测。这种方式使学生头从注释和教师的预测中解脱出来,大大提高了学生的检测性能。此外,由于模仿教师的预测是KD的目标,CrossKD提供了比特征模仿更具任务导向的信息。在MS COCO上,仅应用预测模仿损失,我们的CrossKD将1x训练计划下的GFL ResNet-50的平均精度从40.2提升到43.7,超过了所有现有的KD方法。此外,我们的方法在蒸馏具有不同骨干的检测器时也表现良好。
概述主要内容:
这段话介绍了知识蒸馏(KD)在目标检测中的应用,提出了一种新的预测模仿蒸馏方案CrossKD。CrossKD通过将学生的检测头特征传递给教师检测头,并模仿教师预测,提高了检测性能。该方法在MS COCO数据上取得了优异的结果,并优于现有的KD方法。同时,该方法也适用于不同骨干的检测器。
Paper3 DIOD: Self-Distillation Meets Object Discovery
摘要小结: 这段话的中文翻译如下:
实例分割需要大量的标注资源。这促使人们更加兴趣地探索将对象发现任务作为一种无监督的替代方法。特别是,在使用仅运动监督来定位实例方面取得了有希望的结果。然而,由于运动信号固有的噪声和稀疏性,它引入了复杂性,这限制了当前方法的有效性。在本文中,我们提出了DIOD(自我蒸馏遇见对象发现),这是第一种将运动引导的对象发现置于通过知识蒸馏实现连续改进的框架中的方法,为现有限制提供解决方案:(i)DIOD稳健地消除了利用的运动图中存在的噪声,提供准确的运动监督;(ii)DIOD在迭代伪标签框架内利用发现的物体,通过静态物体丰富初始运动监督,从而以低成本提高性能。
主要内容概述:
这段话讨论了实例分割的问题,并指出对象发现任务作为一个无监督的替代方法正在受到关注。特别是在运动监督下定位实例取得了成果。然而,运动信号带来的噪声和稀疏性是挑战。文章提出了DIOD方法,这是首个将运动引导对象发现放在知识蒸馏框架中的方法,解决了现有限制,并提高了性能。通过实验,他们展示了这种方法在提高状态艺术方面的好处,并且这些增强也适用于其他以前仅限于监督任务的严格要求。
Paper4 PracticalDG: Perturbation Distillation on Vision-Language Models for Hybrid Domain Generalization
摘要小结: 域泛化(DG)旨在解决源域和目标域之间的分布偏移问题,当前的DG方法默认源域和目标域的数据共享相同的类别。然而,在实际场景中,目标域存在未见过的类别。为了解决这一问题,开放式集合域泛化(OSDG)应运而生,并提出了几种专门的方法。然而,大多数现有方法采用复杂的架构,与DG方法相比仅有轻微的改进。最近,视觉-语言模型(VLMs)已按照微调范式引入DG,但使用大型视觉模型带来了巨大的训练负担。因此,在本文中,我们创新地将知识从VLMs转移到轻量级视觉模型,并通过引入扰动蒸馏(PD)来提高鲁棒性,包括分数、类别和实例(SCI)三个角度,命名为SCI-PD。此外,先前的方法以相同和固定的分割为基准,忽略了源域之间的差异。这些方法在我们的新基准Hybrid Domain Generalization(HDG)和一种新颖的度量标准H^2-CV下显示出性能急剧下降,这些标准构建了各种分割以全面评估算法的鲁棒性。
以下主要内容概述:
翻译内容概述:
这段话主要讨论了域泛化(DG)的问题,特别是针对目标域中存在未见类别的情况。OSDG方法出现以应对这个问题,但现有方法改进不大。本文提出了一种新方法,通过将知识从VLMs转移到轻量级模型,并引入SCI-PD来提高鲁棒性。同时,提出了新的基准HDG和一个度量标准H^2-CV,这些方法有助于更全面地评估算法的鲁棒性,实验证明该方法在多个数据集上优于现有算法。以下是关键点:
- DG解决源域和目标域的分布偏移。
- OSDG处理目标域的未见类别。
- 现有方法改进有限。
- 提出了一种新的转移知识方法SCI-PD。
- 引入了新的基准和度量标准来评估鲁棒性。
Paper5 Posterior Distillation Sampling
摘要小结: 我们介绍了后验蒸馏采样(PDS),这是一种基于扩散模型的新型参数图像编辑优化方法。现有的基于优化的方法主要利用扩散模型的强大2D先验来处理各种参数图像,但主要集中在生成上。与生成不同,编辑需要平衡符合目标属性和保留源内容身份。最近的2D图像编辑方法通过利用在扩散模型的生成过程中编码的随机潜在实现了这种平衡。为了将扩散模型在像素空间显示的编辑能力扩展到参数空间,我们将2D图像编辑方法重新形式化为名为PDS的优化形式。PDS匹配源和目标的随机潜在,使得在多样化的参数空间中采样与所需属性对齐的目标,同时保持源的身份。
以下是主要内容概述:
翻译内容:PDS是一种针对参数图像编辑的创新优化方法,以下是概述:
- PDS是一种基于扩散模型的方法。
- 现有方法主要关注生成,而PDS关注编辑。
- PDS需要在目标属性和源内容身份之间找到平衡。
- PDS通过优化形式实现这一点,并在参数空间中扩展了编辑能力。
- PDS能够采样满足平衡的目标,以下是具体演示:
- PDS通过模仿生成过程,但与源生成过程对齐。
- 在Neural Radiance Fields和Scalable Vector Graphics表示中,PDS展示了其跨各种参数空间的能力。
Paper6 Aligning Logits Generatively for Principled Black-Box Knowledge Distillation
摘要小结: 黑盒知识蒸馏(B2KD)是一个针对云到边缘模型压缩的问题,涉及不可见数据和托管在服务器上的模型。B2KD面临的挑战包括有限的互联网交换和边缘云数据分布的差异。在本文中,我们形式化了一个两步工作流程,包括去私有化和蒸馏,并从理论角度提供了从logits到细胞边界的新优化方向,这与直接logits对齐不同。在其指导下,我们提出了一种新的方法——映射-仿真蒸馏(MEKD),将黑盒大型模型蒸馏成轻量级模型。我们的方法不区分处理软响应或硬响应,包括:1)去私有化:用生成器模拟教师函数的逆映射;2)蒸馏:通过减少高维图像点的距离,对齐教师和学生模型之间的低维logits。
以下主要内容概述:
翻译:
黑盒知识蒸馏(B2KD)是一个针对云到边缘模型压缩的公式化问题,其中包含不可见的数据和托管在服务器上的模型。B2KD面临如互联网交换受限和数据分布的边缘云差异等挑战。
主要内容概述:
- 文章讨论了B2KD的问题。
- 提出了两步工作流程:去私有化和蒸馏。
- 提供了新的优化方向。
- 提出了映射-仿真KD(MEKD)新方法。
- 方法包括去私有化和蒸馏两个步骤。
- 在不同教师-学生对上,方法在多个基准测试中表现出色,超过了之前的先进方法。
Paper7 Plug-and-Play Diffusion Distillation
摘要小结: 这段话的中文翻译是:
扩散模型在图像生成方面取得了巨大的成果。然而,由于扩散过程的迭代性质及其对无分类器引导的依赖,推理时间较慢。在本文中,我们提出了一种新的蒸馏方法,用于指导扩散模型,即训练一个外部轻量级引导模型,同时保持原始文本到图像模型不变。我们展示了我们的方法可以将无分类器引导的潜在空间扩散模型的推理计算减少近一半,并且只需要基本模型1%的可训练参数。此外,一旦训练完成,我们的引导模型可以应用于基本扩散模型的多种微调后的特定领域版本,而无需额外的训练:这种“即插即用”功能在保持生成图像的视觉保真度的情况下,大幅提高了推理计算效率。我们从经验上证明了我们的方法能够产生视觉上吸引人的结果,并且只需8到16步就能达到与教师模型相当的平均FID分数。
主要内容概述:
本文介绍了一种新的针对指导扩散模型的蒸馏方法,该方法通过训练一个外部轻量级引导模型来加速图像生成过程。这种方法可以显著减少推理计算量,并且需要的可训练参数很少。此外,该引导模型具有“即插即用”的功能,可以应用于多种领域特定的模型版本而无需额外训练,同时保持生成图像的质量。实验结果表明,这种方法在保持较低的平均FID分数的同时,能有效地减少推理步骤。
Paper8 Orchestrate Latent Expertise: Advancing Online Continual Learning with Multi-Level Supervision and Reverse Self-Distillation
摘要小结: 为了适应现实世界的动态性,人工智能系统需要以在线方式处理顺序到达的内容。除了常规的持续学习(CL)试图通过离线训练每个任务来解决灾难性遗忘问题外,在线持续学习(OCL)是一种更具挑战性但更现实的设置,它在一个数据流中进行一次过的CL。当前的OCL方法主要依赖于对旧训练样本的记忆回放。然而,从CL到OCL的一个显著差距源于与使用排练缓冲区相关的额外过拟合-欠拟合困境:新训练样本的学习不足(欠拟合)和少量旧训练样本的重复学习(过拟合)。为此,我们引入了一种新颖的方法——多级在线顺序专家(MOSE),它将模型培养成堆叠的子专家,整合多级监督和反向自蒸馏。跨多个阶段的监督信号有助于新任务的适当收敛,而通过知识蒸馏收集各个专家的各种优势,减轻了旧任务性能下降的问题。MOSE通过多级专家在学习新样本和保留旧知识方面表现出显著的效果,从而显著提高了OCL的性能,超过了最先进的基线(例如,在Split CIFAR-100上提高了7.3%,在Split Tiny-ImageNet上提高了6.1%)。
主要内容概述:
这段话讨论了人工智能系统如何处理顺序到达的数据流,特别是在线持续学习(OCL)的挑战。现有的OCL方法面临过拟合和欠拟合的问题,作者提出了一种新的方法MOSE,通过多级监督和反向自蒸馏来培养模型,这种方法能够有效学习新样本并保留旧知识,显著提高了OCL的性能。
Paper9 Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities
摘要小结: 多元情感分析(MSA)旨在通过多模态数据理解人类情感。大多数MSA研究基于模态完整性的假设。然而,在实际应用中,一些实际因素导致不确定的模态缺失,这会大大降低模型的性能。为此,我们提出了一种在不确定缺失模态下的MSA任务的相关性解耦知识蒸馏(CorrKD)框架。具体来说,我们提出了一种样本级别的对比蒸馏机制,传递包含跨样本相关性的全面知识,以重构缺失的语义。此外,引入了一种类别引导的原型蒸馏机制,利用类别原型捕捉跨类别相关性,对齐特征分布并生成有利的联合表示。最后,我们设计了一种响应解耦的一致性蒸馏策略,通过响应解耦和互信息最大化来优化学生网络的情感决策边界。
以下是翻译内容:
多元情感分析(MSA)的目标是通过多模态数据理解人的情感。以下是主要内容概述:
翻译:
多元情感分析(MSA)旨在通过多模态数据理解人类情感。大多数MSA工作基于模态完整性的假设。然而,在现实世界应用中,一些实际因素导致不确定的模态缺失,这严重降低了模型的性能。为此,我们提出了一个在不确定缺失模态下的MSA任务的相关性解耦知识蒸馏(CorrKD)框架。
主要内容概述:
- MSA旨在通过多模态数据理解情感。
- 实际应用中存在不确定的模态缺失问题。
- 提出了CorrKD框架来应对这个问题。
- 框架包括样本级别的对比蒸馏机制、类别引导的原型蒸馏机制以及响应解耦的一致性蒸馏策略。
- 实验显示,该框架相比几个基线模型有显著改进。
Paper10 CAD: Photorealistic 3D Generation via Adversarial Distillation
摘要小结: 这段话的中文翻译如下:
增强现实/虚拟现实(AR/VR)机器人技术和游戏应用中对3D数据的需求增加,催生了强大的生成管线,能够合成高质量的3D对象。这些模型中的大多数依赖于得分蒸馏采样(SDS)算法来优化3D表示,使得渲染的图像保持由预训练的扩散模型评估的高可能性。然而,这种蒸馏过程涉及到在由扩散模型产生的高维和大方差分布中找到正确的模式。这一任务具有挑战性,并常常导致3D生成中出现过度饱和、过度平滑和双面神像般的伪影等问题。在本文中,我们提出了一种新颖的3D合成学习范式,该范式利用了预训练的扩散模型。我们的方法不是专注于寻找模式,而是直接在对抗性方式下建模多视角渲染和扩散先验之间的分布差异,这使得在单个图像和提示的条件下生成高保真和照片级真实的3D内容成为可能。此外,通过利用生成对抗网络(GANs)的潜在空间和富有表现力的扩散模型先验,我们的方法使广泛多样的3D应用成为可能,包括单视角重建、高多样性生成和开放域中的连续3D插值。我们的实验证明了与之前的工作相比,我们的管线在生成质量和多样性方面具有优越性。
主要内容概述:
这段话讨论了在AR/VR、机器人技术和游戏应用中,对3D数据的需求增加导致了高质量的3D对象生成管线的开发。这些管线大多使用SDS算法优化3D表示。文章提出了一个新的3D合成学习范式,利用预训练的扩散模型,通过对抗性方式处理生成问题,从而提高了生成质量和多样性。此外,该方法还支持多种3D应用,包括单视角重建等。实验表明,该方法优于之前的工作。
Paper11 SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation
摘要小结: 最近,基于变压器的模型在人体姿态估计(HPE)方面取得了最先进的预测质量。然而,这些表现最佳的变压器模型大多计算量大且存储需求高,不适合部署在边缘计算平台上。那些资源需求较少的变压器模型由于规模较小,容易欠拟合,因此表现明显不如大型模型。针对这一困境,我们引入了SDPose,这是一种新的自蒸馏方法,用于提高小型变压器模型的性能。以下是翻译和概述:
翻译:
最近,基于变压器的方法在人体姿态估计(HPE)上取得了最先进的预测质量。尽管如此,这些顶级表现的变压器模型大多计算消耗过大且存储需求高,无法部署在边缘计算平台上。那些需要较少资源的变压器模型由于其规模较小,容易欠拟合,因此表现明显不如其大型同类。鉴于这一难题,我们介绍了SDPose,这是一种新的自蒸馏方法,用于提高小型变压器模型的性能。为了减轻欠拟合问题,我们设计了一个基于多次循环前向的变压器模块,名为Multi-Cycled Transformer(MCT),以更充分地利用小型模型参数的潜力。此外,为了防止MCT带来的额外推理计算消耗,我们引入了一种自蒸馏方案,将MCT模块的知识提取到一个简单的正向模型中。具体来说,在MSCOCO验证数据集上,SDPose-T获得了69.7%的mAP,参数为4.4M,GFLOPs为1.8。此外,SDPose-S-V2在MSCOCO验证数据集上获得了73.5%的mAP,参数为6.2M,GFLOPs为4.7,在主要的小型神经网络方法中实现了新的最先进水平。
概述:
这段话主要内容是介绍了基于变压器的人体姿态估计模型存在的问题,即计算量大、存储需求高,不适合边缘计算平台。然后,作者提出了一种新的自蒸馏方法SDPose,旨在提高小型变压器模型的性能。他们还设计了一个新的变压器模块MCT,并通过自蒸馏方案提高了模型性能。最后,作者展示了SDPose在MSCOCO验证数据集上的优秀表现。
Paper12 Three Pillars Improving Vision Foundation Model Distillation for Lidar
摘要小结: 自我监督图像骨干网络可以非常高效地处理复杂的2D任务(例如语义分割和目标发现),并且几乎不需要下游监督。理想情况下,激光雷达的3D骨干网络应该能够在这些强大的2D特征经过提炼后继承这些属性。最近在自动驾驶数据上进行的图像到激光雷达提炼方法显示出有希望的结果,这得益于不断改进的提炼方法。然而,当我们通过线性探测测量提炼特征与完全监督特征的质量时,仍注意到存在较大的性能差距。在这项工作中,我们不仅关注提炼方法,而是研究了提炼的三个支柱:3D骨干网络、预训练的2D骨干网络和预训练的2D+3D数据集。特别是得益于我们称之为ScaLR的可扩展提炼方法,我们展示了扩展2D和3D骨干网络并在多样化数据集上预训练可以显著提高特征质量。这使我们能够显著减少提炼和完全监督3D特征之间的质量差距,并提高预训练骨干网络对领域差距和干扰的鲁棒性。
概述主要内容:
这段话主要讨论了自我监督图像骨干网络在处理2D任务方面的效率,以及如何通过提炼方法将3D骨干网络提升至类似水平。研究重点在于探讨了提炼过程中的三个关键因素,并通过ScaLR方法展示了扩展骨干网络和预训练数据集可以提升特征质量,减少性能差距。
Paper13 Adversarially Robust Few-shot Learning via Parameter Co-distillation of Similarity and Class Concept Learners
摘要小结: 翻译:少样本学习(FSL)有助于各种计算机视觉任务,但仍然容易受到对抗性攻击的侵害。现有的对抗性稳健的FSL方法要么依赖于视觉相似性学习,要么依赖于类概念学习。我们的分析揭示这两种学习范式是互补的,由于它们独特的决策边界类型(视觉相似性标签的概念聚类与类标签的分类),表现出不同的稳健性。为了弥补这一差距,我们提出了一种新颖的框架,统一了对抗性稳健的相似性学习和类概念学习。具体来说,我们在稳健优化过程中将两个网络分支的参数提炼到一个“统一嵌入模型”中,并定期将它们重新分配给各个网络分支。为了捕捉不同分支之间可泛化的稳健性,我们在每个回合初始化对抗者时使用跨分支类别的“全局对抗性扰动”,而不是信息量较小的随机初始化。我们还提出了一种分支稳健性协调方法,通过它们相对的对抗性稳健性来调节相似性和类概念学习者的优化。
概述主要内容:
这段话主要讨论了少样本学习(FSL)在对抗性攻击中的脆弱性,并提出了一个新的框架来解决这个问题。现有的方法依赖于两种不同的学习范式,而作者发现这些范式是互补的。因此,他们提出了一个统一对抗性稳健的相似性学习和类概念学习的框架。在这个框架中,他们通过“统一嵌入模型”进行参数提炼和分配,并使用“全局对抗性扰动”来提高稳健性。此外,他们还提出了分支稳健性协调方法,以优化学习者的性能。实验证明,该方法在多种少样本场景中表现出最先进的性能。
Paper14 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling
摘要小结: 最近的文本到4D生成突破依赖于预训练的文本到图像和文本到视频模型来生成动态3D场景。然而,当前的文本到4D方法面临着一个三方面的权衡,即场景外观、3D结构和运动的质量。例如,文本到图像模型及其3D感知变体是在互联网规模的图像数据集上训练的,可以用来生成具有真实外观和3D结构的场景——但没有运动。文本到视频模型是在相对较小的视频数据集上训练的,可以生成具有运动但外观和3D结构较差的场景。虽然这些模型具有互补的优势,但它们也有相反的弱点,使得很难将它们结合起来以减轻这种三方面权衡。
以下是主要内容概述:
翻译内容:文本到4D生成的新技术介绍,以及挑战。
概述:
- 文本讨论了文本到4D生成技术的突破。
- 这些技术面临权衡,包括场景的外观、3D结构和运动质量。
- 提出了“混合评分蒸馏采样”(hybrid score distillation sampling),这是一种优化过程,可以结合多个预训练扩散模型的优势。
- 使用这种方法,展示了具有吸引力的4D场景的合成,包括外观、3D结构和运动。
以下是翻译:
最近的文本到4D生成的突破依赖于预先训练的文本到图像和文本到视频模型来生成动态3D场景。然而,当前的文本到4D方法在场景外观、3D结构和运动的质量之间面临一个三重权衡。例如,文本到图像模型及其3D感知变体在互联网规模的图像数据集上训练,可以用来生成具有真实外观和3D结构的场景——但没有运动。文本到视频模型在相对较小的视频数据集上训练,可以生成具有运动但外观和3D结构较差的场景。虽然这些模型具有互补的优势,但它们也有相反的弱点,这使得很难以一种减轻这种三重权衡的方式将它们结合起来。在这里,我们介绍了混合评分蒸馏采样,这是一种交替优化程序,它融合了多个预训练扩散模型的监督信号,并吸收了每种方法的优点,以实现高保真的文本到4D生成。使用混合SDS,我们展示了具有引人注目的外观、3D结构和运动的4D场景的合成。
Paper15 Adversarial Distillation Based on Slack Matching and Attribution Region Alignment
摘要小结: 对抗性蒸馏(AD)是一种提高小型模型鲁棒性的非常有效的方法。与预期相反,一个高性能的教师模型并不总能产生一个更鲁棒的学生模型。这是由于两个主要原因。首先,当教师模型和学生模型之间的预测存在显著差异时,使用KL散度精确匹配预测值会干扰训练,导致现有方法的性能不佳。其次,仅基于输出的匹配阻止了学生模型完全理解教师模型的行为。为了解决这些挑战,本文提出了一种新颖的AD方法,名为SmaraAD。在训练过程中,我们通过将学生模型关注的属性区域与教师模型的属性区域对齐,帮助学生模型更好地理解教师模型的行为。同时,我们放宽了KL散度中精确匹配的条件,并用一个更灵活的匹配标准来替代,从而提高模型的鲁棒性。大量的实验证明了我们的方法在提高小型模型鲁棒性方面的有效性,超过了之前的SOTA方法。
主要内容概述:
本文介绍了一种名为SmaraAD的新型对抗性蒸馏方法,旨在提高小型模型的鲁棒性。研究表明,一个高性能的教师模型并不总能产生更鲁棒的学生模型,原因在于教师模型与学生模型预测之间的差异以及现有方法中使用的精确匹配问题。SmaraAD方法通过改进学生模型对教师模型行为的理解,并采用更灵活的匹配标准,有效提高了模型的鲁棒性。实验结果显示,该方法在提高小型模型鲁棒性方面优于先前的最佳方法。
Paper16 Robust Distillation via Untargeted and Targeted Intermediate Adversarial Samples
摘要小结: 这段话的中文翻译是:对抗性稳健的知识蒸馏旨在将大型模型压缩为轻量级模型,同时在给定数据集上保持对抗性稳健性和自然性能。现有方法通常在教师模型和学生模型之间对自然样本和对抗性样本的概率分布进行对齐,但它们忽略了沿着样本向决策边界多步梯度上升形成的“对抗性路径”中的中间对抗性样本。这些路径捕获了有关决策边界的丰富信息。在本文中,我们提出了一种新颖的对抗性稳健知识蒸馏方法,通过将这些对抗性路径纳入对齐过程。认识到中间对抗性样本的多样化影响(从良性到噪声),我们提出了一种自适应加权策略,以选择性地强调信息丰富的对抗性样本,从而确保轻量级模型容量的有效利用。此外,我们提出了一种双分支机制,利用以下两个洞察:(i)通过有针对性的和无目标对抗性学习获得的对抗性路径的互补动态;(ii)从类c_i到最近的类边界的梯度上升路径与从特定类c_j到c_i(i ≠ j)的决策区域的梯度下降路径之间的固有差异。全面的实验证明了在各种设置下,我们的方法在轻量级模型上的有效性。
主要内容概述:本文提出了一种新的对抗性稳健知识蒸馏方法,通过考虑对抗性路径来提高轻量级模型的稳健性和性能。作者引入了自适应加权策略和双分支机制,以更好地利用对抗性样本信息,并通过实验证明了方法的有效性。
Paper17 Ranking Distillation for Open-Ended Video Question Answering with Insufficient Labels
摘要小结: 这段话的中文翻译如下:
本文聚焦于开放式的视频问答,旨在从大量答案集中找到针对视频相关问题的正确答案。这本质上是一个多标签分类任务,因为一个问题可能有多个答案。然而,由于标注成本,现有基准中的标签总是极其不足,通常每个问题只有一个答案。因此,现有研究往往直接将所有未标记的答案视为负标签,这导致了泛化能力的局限性。在本研究中,我们引入了一个简单而有效的排名蒸馏框架(RADI),以缓解这个问题,而无需额外的手动标注。RADI使用一个训练有素的标签不完整模型来为潜在答案生成排名,这些排名包含有关标签优先级以及与标签相关的视觉线索的丰富知识,从而丰富了不足的标注信息。为了避免对不完美教师模型的过度自信,我们还提出了两种稳健且无需参数的排名蒸馏方法:一种成对方法,引入自适应软边界来动态优化各种成对排名的优化约束;一种列表方法,采用基于采样的部分列表学习来抵抗教师排名中的偏差。
主要内容概述:
这段话主要介绍了作者在研究中提出的一种新的框架(RADI),用于处理开放式视频问答中的多标签分类任务。由于标注不足,现有方法存在泛化问题。RADI框架通过排名蒸馏方法来改善这一点。此外,还介绍了两种稳健的排名蒸馏方法,并通过实验证明这两种方法在五个流行基准上均优于现有技术。最后,还强调了这些方法在处理标注不足问题上的有效性。
Paper18 PeerAiD: Improving Adversarial Distillation from a Specialized Peer Tutor
摘要小结: 这段话的中文翻译如下:
当神经网络应用于安全关键领域时,其对抗性稳健性是一个重大问题。在这种情况下,对抗性蒸馏是一个有前景的选择,其目标是将教师网络的稳健性蒸馏出来,以提高小型学生网络的稳健性。先前的工作通过预训练教师网络使其对抗针对自身的对抗性样本具有稳健性。然而,对抗性样本依赖于目标网络的参数。在对抗性蒸馏过程中,固定的教师网络无疑会降低其对未见过的、针对学生网络参数的转移对抗性样本的稳健性。我们提出了PeerAiD,让同伴网络学习学生网络的对抗性样本,而不是针对自身的对抗性样本。PeerAiD是一种对抗性蒸馏,它同时训练同伴网络和学生网络,以专门训练同伴网络来保护学生网络。我们观察到,这样的同伴网络在对抗针对学生网络的对抗性样本时,超过了预训练的稳健教师模型的稳健性。通过这种同伴网络和对抗性蒸馏,PeerAiD使学生网络在AutoAttack (AA) 准确性方面显著提高了稳健性,提高了最多1.66%,并且在TinyImageNet数据集上使用ResNet-18将学生网络的自然准确性提高了最多4.72%。代码可在https://github.com/jaewonalive/PeerAiD获取。
主要内容概述:
这段话讨论了神经网络在安全关键领域应用时的对抗性稳健性问题,并提出了一种名为PeerAiD的新方法来提高小型学生网络的稳健性。PeerAiD通过让同伴网络学习学生网络的对抗性样本,而不是自身的对抗性样本,同时训练同伴网络和学生网络,从而提高了学生网络对抗性样本的稳健性。实验结果显示,PeerAiD在提高学生网络的稳健性和自然准确性方面取得了显著效果。
Paper19 PartDistill: 3D Shape Part Segmentation by Vision-Language Model Distillation
摘要小结: 本文提出了一个跨模态蒸馏框架PartDistill,它将2D知识从视觉-语言模型(VLMs)转移到3D形状部分分割中。以下是翻译和主要内容概述:
翻译:
本文提出了PartDistill这一跨模态蒸馏框架,它通过从视觉-语言模型(VLMs)转移2D知识,以促进3D形状部分分割。PartDistill解决了此任务中的三个主要挑战:2D投影中不可见或未检测区域的3D分割缺乏、VLMs的2D预测不一致以及不同3D形状之间知识积累的缺乏。PartDistill由一个教师网络组成,该网络使用VLM进行2D预测,以及一个学生网络,该网络从2D预测中学习,同时从多个3D形状中提取几何特征以执行3D部分分割。在该框架内进行双向蒸馏,包括前向和后向蒸馏,前者将2D预测向前蒸馏给学生网络,后者提高2D预测的质量,进而增强最终的3D分割。此外,PartDistill可以利用生成模型,便于轻松创建3D形状,以生成要蒸馏的知识源。通过大量实验,PartDistill在广泛使用的ShapeNetPart和PartNetE数据集上分别提高了现有方法15%和12%以上的mIoU分数。
主要内容概述:
- PartDistill是一个跨模态蒸馏框架,用于将2D知识从VLMs转移到3D形状部分分割。
- 该框架解决了3D分割中的三个挑战:2D区域问题、预测不一致和知识积累缺乏。
- PartDistill包括教师网络和学生网络,以及双向蒸馏过程。
- 实验结果显示,PartDistill在两个数据集上显著提高了分割性能。
- 相关代码可在GitHub上获取。
Paper20 D3still: Decoupled Differential Distillation for Asymmetric Image Retrieval
摘要小结: 现有的非对称图像检索方法采用查询网络与较大的图库网络之间的刚性成对相似性约束。然而,这些一对一的约束方法通常无法保持检索顺序的一致性,尤其是在查询网络具有有限的表示能力时。为了克服这个问题,我们引入了解耦差分蒸馏(D3still)框架。这个框架从绝对的 一对一监督转向优化查询和图库网络产生的成对相似性之间的关系差异,从而在这两个网络中保持一致的检索顺序。我们的方法涉及在图库领域内计算一个成对相似性差分矩阵,然后将其分解为三个部分:特征表示知识、不一致的成对相似性差分知识和一致的成对相似性差分知识。这种战略分解有效地将查询网络的检索排序与图库网络对齐。在各种基准数据集上的大量实验表明,D3still超越了非对称图像检索的最先进方法。代码可在 https://github.com/SCY-X/D3still 获得。
概述主要内容:
这段话讲述了一种新的非对称图像检索方法——解耦差分蒸馏(D3still)框架。该方法旨在解决现有方法在检索顺序一致性方面的问题,通过优化查询和图库网络之间的成对相似性关系差异。该方法包括计算一个差分矩阵,并分解为三个部分,以对齐检索排序。实验证明,D3still优于现有方法。
Paper21 VkD: Improving Knowledge Distillation using Orthogonal Projections
摘要小结: 知识蒸馏是一种训练小型高效深度学习模型的有效方法。然而,当转移到其他任务模态甚至其他架构时,单一方法的效力可能会退化。为了解决这一局限性,我们提出了一种新颖的约束特征蒸馏方法。该方法源自一组核心原则,从而产生了两个新兴的组件:正交投影和任务特定归一化。配备了这两个组件后,我们的变压器模型在ImageNet上可以超越所有先前的方法,并比先前的最先进方法实现高达4.4%的相对改进。为了进一步证明我们方法的通用性,我们将其应用于目标检测和图像生成,在这些领域我们获得了稳定和实质性的性能提升。代码和模型都是公开可用的。
主要内容概述:
这段话介绍了知识蒸馏方法的一个新进展,即提出了一种新的约束特征蒸馏方法。这个方法包含两个关键组件:正交投影和任务特定归一化。该方法在ImageNet上取得了显著的性能提升,并且在目标检测和图像生成方面也展示了通用性和性能提升。代码和模型公开可用。
Paper22 One-step Diffusion with Distribution Matching Distillation
摘要小结: 扩散模型能生成高质量的图片,但需要几十次前向传播。我们引入了分布匹配蒸馏(DMD),这是一种将扩散模型转化为一步图像生成器的方法,对图像质量的负面影响最小。我们通过最小化一个近似的KL散度来强制一步图像生成器在分布层面上与扩散模型相匹配,该散度的梯度可以表示为目标分布和一个由我们的一步生成器产生的合成分布的两个得分函数之间的差异。得分函数被参数化为两个分别在各自分布上单独训练的扩散模型。结合一个简单的回归损失,以匹配多步扩散输出的大规模结构,我们的方法优于所有已发布的少步扩散方法,在ImageNet 64x64上达到2.62 FID,在零样本COCO-30k上达到11.49 FID,与Stable Diffusion相当,但速度快得多。利用FP16推理,我们的模型在现代硬件上可以以20 FPS的速度生成图像。
主要内容概述:
- 提出了一种新的方法DMD,用于将扩散模型转化为一步图像生成器。
- 这种方法对图像质量的影响很小。
- 通过最小化KL散度来确保分布匹配。
- 方法在多个基准上取得了优异的结果,速度远超其他方法。
- 模型可以在现代硬件上快速生成图像。
Paper23 Not All Voxels Are Equal: Hardness-Aware Semantic Scene Completion with Self-Distillation
摘要小结: 语义场景完成也称为语义占用预测,可以为自动驾驶车辆提供密集的几何和语义信息,这引起了学术界和工业界的日益关注。不幸的是,现有方法通常将这个任务制定为逐体素分类问题,并在训练过程中将3D空间中的每个体素平等对待。由于对困难体素的关注不足,一些挑战性区域的表现受限。3D密集空间通常包含大量空体素,这些空体素易于学习,但由于现有模型统一处理所有体素,需要大量计算。此外,边界区域的体素比内部区域更难以区分。在本文中,我们提出了一种HASSC方法,以硬度感知设计训练语义场景完成模型。定义了网络优化过程中的全局硬度,用于动态选择困难体素。然后采用具有几何各向异性的局部硬度进行逐体素细化。此外,引入了自蒸馏策略,使训练过程稳定且一致。大量实验表明,我们的HASSC方案可以在不带来额外推理成本的情况下,有效提高基线模型的准确度。源代码可在以下地址获取:https://github.com/songw-zju/HASSC.
概述主要内容:
这段话主要讨论了语义场景完成(或语义占用预测)的重要性,以及现有方法面临的挑战。作者提出了一种名为HASSC的新方法,该方法采用硬度感知设计来训练语义场景完成模型,以提高在困难区域的表现。该方法包括全局硬度和局部硬度的定义,以及自蒸馏策略,最终提高了基线模型的准确度。
Paper24 FreeKD: Knowledge Distillation via Semantic Frequency Prompt
摘要小结: 知识蒸馏(KD)已成功应用于各种任务,主流方法通常通过空间模仿损失来提升学生模型。然而,教师模型在空间领域引起的连续下采样是一种阻碍学生分析需要模仿哪些具体信息的腐败,导致准确度下降。为了更好地理解被污染特征图的底层模式,我们将注意力转向频率域。在频率蒸馏过程中,我们遇到了一个新挑战:低频带传达了通用但最小化的上下文,而高频带则更具有信息性但也引入了噪声。频率带内的每个像素对性能的贡献并不相等。以下是解决问题的方法:
主要内容概述:
- 提出翻译内容:
知识蒸馏方法被翻译如下:
知识蒸馏(KD)已经在各种任务中成功应用,主流方法通常通过空间模仿损失来提升学生模型。然而,教师模型在空间领域中引起的连续下采样是一种腐败,阻碍了学生分析需要模仿哪些具体信息,导致准确度下降。为了更好地理解被污染特征图的底层模式,我们转向频率域。在频率蒸馏期间,我们遇到了新挑战:低频带传达了通用但最小的上下文,而高频带则更信息丰富但也引入了噪声。
以下是对以下问题的解决方法:
- 概述内容:
- 提出了“频率提示”,在教师模型中吸收语义频率上下文。
- 在蒸馏期间,通过“频率提示”生成像素级的频率掩码,以定位不同频率带中的兴趣像素(PoIs)。
- 采用位置感知的关系频率损失,为密集预测任务提供高阶空间增强。
- 称其方法为FreeKD,它确定了频率蒸馏的最佳定位和范围。
广泛的实验表明,FreeKD不仅在一项密集预测任务上始终优于基于空间的方法(例如,以下是具体收益),而且还能给学生带来更多的鲁棒性。值得注意的是,他们还在大规模视觉模型上验证了这种方法的一般性。
Paper25 Active Object Detection with Knowledge Aggregation and Distillation from Large Models
摘要小结: 准确检测正在经历状态变化的活动对象对于理解人类互动和辅助决策至关重要。现有的活动对象检测(AOD)方法主要依赖于输入中对象的视觉外观,如大小、形状以及与手的关系的变化。然而,这些视觉变化可能很微妙,尤其在存在多个相同类别的干扰未变化实例的场景中,这构成了挑战。我们观察到状态变化通常是对象上进行的交互的结果,因此提出使用关于对象相关合理交互的先验信息(包括语义和视觉外观)来为AOD提供更可靠的线索。具体来说,我们提出了一种知识聚合过程,将上述先验信息整合到教师解码器中的预言查询中,从而提供更多的对象功能常识,以定位活动对象。为了简化推理过程并减少额外的知识输入,我们提出了一种知识蒸馏方法,鼓励学生解码器模仿教师解码器的检测能力,使用预言查询复制其预测和注意力。我们提出的方法在四个数据集上取得了最先进的性能,分别是Ego4D、Epic-Kitchens、MECCANO和100DOH,这证明了我们方法在提高AOD方面的有效性。
以下是主要内容概述:
- 活动对象检测的重要性。
- 现有方法面临的挑战。
- 提出使用对象相关的合理交互先验信息来提高检测可靠性。
- 提出知识聚合过程和知识蒸馏方法。
- 方法在四个数据集上取得了先进性能。
翻译完毕。以下是翻译的段落:
准确检测正在经历状态变化的活动对象对于理解人类互动和辅助决策至关重要。现有的活动对象检测(AOD)方法主要依赖于输入中对象的视觉外观,如大小、形状以及与手的关系的变化。然而,这些视觉变化可能很微妙,尤其在存在多个相同类别的干扰未变化实例的场景中,这构成了挑战。我们观察到状态变化通常是对象上进行的交互的结果,因此提出使用关于对象相关合理交互的先验信息来提供更可靠的AOD线索。具体来说,我们提出了一种方法,以下是代码和模型可用链接。
Paper26 Weak-to-Strong 3D Object Detection with X-Ray Distillation
摘要小结: 这篇论文针对基于LiDAR的三维目标检测中的稀疏性和遮挡问题进行了研究。以下是翻译和主要内容概述:
翻译:
本文探讨了基于LiDAR的三维目标检测中的两大关键挑战:稀疏性和遮挡。当前方法常常依赖于补充模块或特定的架构设计,这可能限制了它们在新兴和不断发展的架构中的适用性。据我们所知,我们是第一个提出一种多功能技术的人,该技术可以无缝集成到任何现有的三维目标检测框架中,标志着在三维计算机视觉中实现从弱到强的泛化的第一个实例。我们引入了一个新颖的框架——带对象完整帧的X射线蒸馏,适用于监督和半监督设置,该框架利用了点云序列的时间方面。此方法从之前的和随后的LiDAR帧中提取关键信息,创建代表多个视角的对象的完整帧,从而解决遮挡和稀疏性问题。鉴于在在线推理期间无法生成对象完整帧的限制,我们利用教师-学生框架内的知识蒸馏。这种技术鼓励强大的学生模型模仿较弱教师的行为,后者有效地处理简单且信息丰富的对象完整帧,从而提供了一种全面的物体视图,就如同通过X射线视觉看到的一样。我们的方法在半监督学习上超越了现有技术,提高了1-1.5 mAP,并在标准自动驾驶数据集上提升了五个已建立的监督模型的性能,提高了1-2 mAP,即使使用默认超参数。
主要内容概述:
这篇论文提出了一种新的技术,用于解决基于LiDAR的三维目标检测中的稀疏性和遮挡问题。该技术可以无缝集成到现有框架中,并首次在三维计算机视觉中实现了从弱到强的泛化。论文中提出了“X射线蒸馏”框架,利用时间信息处理点云序列,并创建对象完整帧以解决遮挡和稀疏性。此外,它还使用了教师-学生框架进行知识蒸馏。该方法在半监督学习和监督模型上均取得了显著的性能提升。
Paper27 Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models
摘要小结: 这段话的中文翻译如下:
解决诸如“谁发明了右侧的音乐乐器?”这样的复杂视觉任务涉及多种技能的组合:理解空间、识别乐器以及检索先验知识。最近的工作显示出通过使用大型语言模型(LLM)将此类任务分解为可执行的程序,该程序调用专门的视觉模型,具有很大的前景。然而,生成的程序容易出错:它们会省略必要的步骤,包含无关的步骤,并且在专门的模型给出错误输出时无法恢复。此外,它们需要加载多个模型,导致高延迟和计算成本。我们提出了视觉程序蒸馏(VPD),这是一种指令调优框架,能够产生一个视觉-语言模型(VLM),只需一次前向传播即可解决复杂的视觉任务。VPD通过使用LLM来采样多个候选程序,然后执行并验证以识别正确的程序,从而提炼出LLM的推理能力。它将每个正确的程序转换为推理步骤的语言描述,然后将其蒸馏成一个VLM。
以下是主要内容概述:
- 文章讨论了如何通过组合多种技能来解决复杂的视觉任务。
- 提出了Visual Program Distillation (VPD)作为解决方案,这是一个指令调优框架。
- VPD能够训练出一个VLM,该模型可以在单个前向传播中解决复杂任务。
- VPD通过采样、执行和验证多个候选程序来提炼LLM的推理能力。
- 实验表明,VPD提高了VLM在计数、理解空间关系和组合推理方面的能力。
- 经过VPD训练的PaLI-X模型在多个复杂视觉任务上超越了所有之前的VLM,达到了最先进的表现。
- 人类注释者的评估也证实了VPD提高了模型响应的真实性和一致性。
- 最后,内容审核的实验表明,VPD对现实世界应用的有限数据适应也很有帮助。
Paper28 Class Incremental Learning with Multi-Teacher Distillation
摘要小结: 翻译:当前,蒸馏策略是缓解分类增量学习(CIL)中的遗忘的主要方法。现有方法通常从单个教师那里继承先前的知识。然而,具有不同机制的教师在不同的任务上各有天赋,从他们那里继承多样化的知识可以增强与新知识的兼容性。在本文中,我们提出了MTD方法,为CIL寻找多个多样的教师。具体而言,我们采用权重排列特征扰动和多样性正则化技术来确保教师之间的多样化机制。为了减少时间和内存消耗,每个教师都被表示为模型中的一个小分支。我们将现有的CIL蒸馏策略与MTD相结合,并在CIFAR-100、ImageNet-100和ImageNet-1000上进行的大量实验表明,性能有显著提升。我们的代码可在https://github.com/HaitaoWen/CLearning上获取。
概述主要内容:这段话主要讨论了在分类增量学习(CIL)中,现有的蒸馏策略通常只从一个教师继承知识,但作者提出了MTD方法,该方法旨在寻找多个多样的教师以继承多样化知识,以提高与新知识的兼容性。文中还提到了采用的技术和如何表示教师,以及实验结果和代码可用性。
Paper29 CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster Image Generation
摘要小结: 这段话的中文翻译是:大型生成扩散模型彻底改变了文本到图像的生成方式,并为诸如图像增强、修复、编辑和合成等条件生成任务提供了巨大的潜力。然而,它们的广泛应用受到了高计算成本的阻碍,这限制了它们的实时应用。为了应对这一挑战,我们引入了一种名为CoDi的新方法,它调整了预训练的潜在扩散模型,使其接受额外的图像条件输入,同时显著减少了达到高质量结果所需的采样步骤。我们的方法可以利用诸如ControlNet之类的架构来引入条件输入,而不会损害模型在大规模预训练期间获得的前置知识。此外,一种条件一致性损失确保了在扩散步骤之间的一致性预测,有效地迫使模型在几步之内生成高质量的条件图像。我们的条件任务学习和提炼方法优于以前的提炼方法,在仅需很少步骤(例如1-4步)即可生成高质量图像方面取得了新的最先进水平,这些任务包括超分辨率、文本引导的图像编辑和深度到图像生成等多个任务。
主要内容概述:这段话介绍了一种新的方法CoDi,它可以降低大型生成扩散模型的计算成本,同时保持其生成高质量图像的能力。CoDi方法能够接受额外的图像条件输入,并减少生成图像所需的采样步骤。该方法在不牺牲预训练模型知识的前提下,利用特定架构引入条件输入,并通过条件一致性损失提高生成图像质量。实验结果表明,CoDi在多个图像生成任务中取得了最先进的效果。
Paper30 Asymmetric Masked Distillation for Pre-Training Small Foundation Models
摘要小结: 自我监督的基础模型在计算机视觉领域,由于采用了遮蔽自编码的预训练范式,显示出巨大的潜力。规模是影响这些基础模型性能的主要因素。然而,这些大型基础模型往往带来高昂的计算成本。本文专注于预训练相对较小的视觉变换器模型,这些模型可以高效地适应下游任务。具体来说,受到模型压缩中知识蒸馏的启发,我们提出了一种新的不对称遮蔽蒸馏(AMD)框架,用于预训练相对较小的模型进行自编码。AMD的核心是设计一种不对称的遮蔽策略,其中教师模型在较低的遮蔽比例下能够看到更多上下文信息,而学生模型仍配备高遮蔽比例。我们设计了教师编码器和学生编码器之间的定制多层特征对齐,以规范学生MAE的预训练。
以下是对主要内容概述:
翻译:
自我监督的基础模型由于采用了遮蔽自编码的预训练范式,在计算机视觉领域表现出巨大的潜力。模型的规模是影响其性能的主要因素。但是,大型基础模型往往计算成本很高。本文重点研究预训练相对小的视觉变换器模型,这些模型能高效适应下游任务。
概述:
本文介绍了以下内容:
- 提出了一种新的不对称遮蔽蒸馏(AMD)框架。
- AMD框架用于预训练较小的模型,采用不对称遮蔽策略。
- 在ImageMAE和VideoMAE上应用AMD,预训练较小的ViT模型。
- AMD在IN1K上达到了84.6%的分类准确率,并在其他数据集上取得了显著改进。
- 代码和模型可在指定GitHub链接中找到。
Paper31 CLIP-KD: An Empirical Study of CLIP Model Distillation
摘要小结: 这段话翻译成中文是:“摘要不可用。”
主要内容概述:这句话表明,相关文档或文章的摘要信息不可用或未提供。通常在学术文章、报告或其他专业文档中,摘要是对内容的简短总结,这里提示用户无法获取该摘要信息。
Paper32 SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking
摘要小结: 多模态视觉对象跟踪(VOT)因其鲁棒性而最近受到了广泛关注。早期的研究主要集中在对基于RGB的跟踪器进行完全微调,这种方法效率低下,并且由于多模态数据的稀缺,缺乏泛化表示。因此,最近的研究利用提示调整将预训练的RGB跟踪器转移到多模态数据。然而,模态间的差距限制了预训练知识的回忆,RGB模态的主导地位仍然存在,阻碍了其他模态信息的充分利用。为了解决这些问题,我们提出了一种新颖的对称多模态跟踪框架,称为SDSTrack。我们引入了轻量级适配以进行高效的微调,它直接将特征提取能力从RGB转移到其他领域,且可训练参数数量很少,并以平衡对称的方式整合多模态特征。
以下是主要内容概述:
翻译:
多模态视觉对象跟踪(VOT)最近因其鲁棒性而受到了显著关注。早期的研究致力于对基于RGB的跟踪器进行完全微调,这种方法既低效又缺乏泛化的表示,原因是多模态数据的稀缺。因此,最近的研究利用提示调整来将预训练的RGB跟踪器转移到多模态数据上。但是,模态间的差距限制了预训练知识的调用,RGB模态的主导地位依然存在,阻碍了其他模态信息的充分利用。
以下是概述:
- 文章讨论了多模态VOT的近期关注。
- 早期研究存在的问题。
- 提出了SDSTrack,一种新颖的对称多模态跟踪框架。
- 介绍了轻量级适配和特征整合方式。
- 设计了补充的遮罩斑块蒸馏策略。
以下翻译:
以下是翻译:
多模态视觉对象跟踪(VOT)最近因其鲁棒性而受到了显著关注。早期的研究重点是完全微调基于RGB的跟踪器,这种方法效率低下,且由于多模态数据的稀缺,缺乏泛化表示。因此,最近的研究利用提示调整将预训练的RGB跟踪器转移到多模态数据。然而,模态差距限制了预训练知识的回忆,RGB模态的主导地位仍然存在,阻止了其他模态信息的充分利用。为了解决这些问题,我们提出了一种名为SDSTrack的新型对称多模态跟踪框架。我们引入了轻量级适配,以便有效地微调,直接将特征提取能力从RGB转移到其他域,且参数数量少,并以平衡对称的方式整合多模态特征。此外,我们设计了一种补充的遮罩斑块蒸馏策略,以增强跟踪器在复杂环境中的鲁棒性,如极端天气、成像质量差和传感器故障。大量实验表明,SDSTrack在各种多模态跟踪场景中均优于现有技术,包括RGB+Depth、RGB+Thermal和RGB+Event跟踪,并在极端条件下展现出令人印象深刻的结果。我们的源代码可在以下地址找到:https://github.com/hoqolo/SDSTrack。
概述:
文章提出了一种新的多模态跟踪框架SDSTrack,旨在解决多模态数据中的模态差距问题,并通过轻量级适配和遮罩斑块蒸馏策略提高了跟踪器的鲁棒性。实验证明其在多种场景下表现优异。
Paper33 Clockwork Diffusion: Efficient Generation With Model-Step Distillation
摘要小结: 这段话的中文翻译如下:
本工作旨在提高文本到图像扩散模型的效率。虽然扩散模型在每一个生成步骤中都使用计算成本高昂的基于UNet的去噪操作,但我们发现并非所有的操作对最终输出质量都同样重要。特别是我们观察到,在处理高分辨率特征图的UNet层对小的扰动相对敏感。相比之下,低分辨率特征图影响最终图像的语义布局,通常可以在没有明显输出变化的情况下进行扰动。基于这一观察,我们提出了钟表扩散方法,该方法定期重用之前去噪步骤的计算,以在随后的一个或多个步骤中近似低分辨率特征图。对于多个基线和文本到图像生成以及图像编辑,我们证明了钟表方法在大大降低计算复杂性的同时,能够达到相当或改进的感知分数。例如,对于稳定扩散v1.5和8个DPM++步骤,我们节省了32%的FLOPs,而FID和CLIP的变化可以忽略不计。
主要内容概述:
这段话主要介绍了一项研究工作,旨在提高文本到图像扩散模型的效率。研究者发现并非所有去噪操作都对最终输出质量关键,特别是低分辨率特征图的影响较小。因此,他们提出了“钟表扩散”方法,通过重用之前的计算来降低计算复杂性,同时保持或提高感知分数。研究在多个场景下展示了该方法的有效性,并提供了具体的节省计算资源的例子。
Paper34 Boosting Self-Supervision for Single-View Scene Completion via Knowledge Distillation
摘要小结: 通过运动结构从图像中推断场景几何是计算机视觉中一个长期且基本的问题。虽然传统方法以及最近深度图预测只关注场景的可见部分,但场景补全的任务旨在推理被遮挡区域中的几何形状。随着NeRF隐式表示法的流行,通过预测所谓的密度场,场景补全也变得流行。与显式方法(例如基于体素的方法)不同,密度场还允许精确的深度预测和通过基于图像的渲染的新视角合成。在这项工作中,我们提议融合多个图像的场景重建,并将这些知识提炼到更精确的单视图场景重建中。为此,我们提出了MVBTS来融合多个摆放好的图像的密度场,仅从图像数据完全自我监督地训练。利用知识蒸馏,我们使用MVBTS来训练一个单视图场景完成网络,称为KDBTS,通过直接监督。它在占用预测上取得了最先进的性能,特别是在遮挡区域。
以下是主要内容概述:
- 话题:讨论了从图像中推断场景几何的问题。
- 传统方法:关注场景的可见部分。
- 场景补全:旨在处理遮挡区域的几何形状。
- 新方法:使用NeRF和密度场进行场景补全。
- 本文提议:融合多个图像的信息,提高单视图场景重建的准确性。
- MVBTS:提出的方法,用于融合密度场,并且是自我监督的。
- KDBTS:通过MVBTS训练的单视图场景完成网络,取得了优异的性能。
Paper35 PromptKD: Unsupervised Prompt Distillation for Vision-Language Models
摘要小结: 这段话的中文翻译如下:
提示学习已成为一种宝贵的技术,用于增强特定领域下游任务的视觉-语言模型(VLMs),如CLIP。现有工作主要关注于设计各种提示的学习形式,忽视了提示作为从更大教师模型中学习的有效提炼器的潜力。在本文中,我们介绍了一个无监督的领域提示提炼框架,旨在通过使用未标记的领域图像进行提示驱动的模仿,将较大教师模型的知识转移到轻量级目标模型中。具体而言,我们的框架由两个不同的阶段组成。在初始阶段,我们使用领域(少量样本)标签预训练一个大型CLIP教师模型。预训练后,我们利用CLIP独特的解耦模态特性,只通过教师文本编码器预先计算并存储一次文本特征作为类向量。在随后的阶段,存储的类向量在教师和学生图像编码器之间共享,用于计算预测的logits。此外,我们通过KL散度对教师和学生模型的logits进行对齐,鼓励学生图像编码器通过可学习的提示生成与教师相似的概率分布。提出的提示提炼过程消除了对标记数据的依赖,使算法能够利用领域内的大量未标记图像。最后,训练有素的学生图像编码器和解储的文本特征(类向量)被用于推理。
以下是主要内容概述:
这段话介绍了一种无监督的领域提示提炼框架,该框架旨在通过提示驱动的模仿,将大型教师模型的知识转移到轻量级模型。这个过程中,它包括两个阶段,预训练和提炼。该方法有效利用了未标记的图像,并首次实现了无监督的领域特定提示驱动知识提炼。实验证明该方法在11个数据集上有效,并且代码是公开可用的。
主要点包括:
- 提示学习用于增强特定领域的VLMs。
- 提出了一个无监督的提炼框架。
- 框架包括两个阶段:预训练和提炼。
- 利用未标记图像进行提炼。
- 首次实现了无监督的特定领域提示提炼。
Paper36 C2KD: Bridging the Modality Gap for Cross-Modal Knowledge Distillation
摘要小结: 现有的知识蒸馏(KD)方法通常专注于将知识从大容量的教师模型转移到容量较小的学生模型,在单模态知识转移方面取得了实质性成功。然而,现有方法很难扩展到跨模态知识蒸馏(CMKD),在CMKD中,知识是从教师模态转移到具有不同学生模态的推理上,且仅在提炼出的学生模态上进行推理。我们从经验上揭示了模态差距,即模态不平衡和软标签不对齐,导致传统KD在CMKD中的低效性。为此,我们提出了一种新颖的自定义跨模态知识蒸馏(C^2KD)。具体来说,为了减轻模态差距,预训练的教师模型与学生进行双向蒸馏,以提供定制化的知识。应用在途选择蒸馏(OFSD)策略,选择性地过滤掉软标签不对齐的样本,我们从非目标类别中提炼跨模态知识,以避免模态不平衡问题。为了进一步提供敏感的跨模态知识,代理学生和教师继承了单模态和跨模态知识,通过双向蒸馏逐步传递跨模态知识。在视听、图像-文本以及RGB-深度数据集上的实验结果表明,我们的方法可以有效地跨模态传递知识,与传统KD相比,性能有了显著提高。
主要内容概述:本文讨论了传统知识蒸馏方法在跨模态知识转移方面的局限性,并提出了一种新的自定义跨模态知识蒸馏方法(C^2KD)。该方法通过预训练的教师模型与学生之间的双向蒸馏来减轻模态差距,并采用了一种选择性过滤策略来处理软标签不对齐的问题。此外,通过设置代理学生和教师来传递单模态和跨模态知识。实验证明,该方法在跨模态知识传递方面效果显著,性能优于传统知识蒸馏方法。
Paper37 Taming Mode Collapse in Score Distillation for Text-to-3D Generation
摘要小结: 尽管评分蒸馏在文本到3D生成方面表现出色,但这类技术饱受视图不一致性问题的困扰,也就是所谓的“贾纳斯”伪影,生成的物体用多个正面欺骗每个视图。尽管经验有效的方法已经通过评分去偏或提示工程接近这个问题,但解释和解决这个问题的更严谨的视角仍然难以捉摸。在本文中,我们揭示了现有的基于评分蒸馏的文本到3D生成框架实际上退化为在每个视图上独立寻求最大似然,因此在实践中会遭受模式崩溃问题,表现为贾纳斯伪影。为了驯服模式崩溃,我们通过重新建立对应变分目标中的熵项来改进评分蒸馏,这个熵项应用于渲染图像的分布。最大化熵可以鼓励生成3D资产的不同视图之间的多样性,从而减轻贾纳斯问题。基于这个新目标,我们推导出了一种新的3D评分蒸馏更新规则,称为熵评分蒸馏(ESD)。我们从理论上揭示了ESD可以通过仅在变分评分蒸馏上采用无分类器引导技巧来简化并实施。尽管非常直接,但我们广泛的实验表明,ESD可以是治疗评分蒸馏中的贾纳斯伪影的有效方法。
概述主要内容:
这段话主要讨论了在文本到3D生成中,评分蒸馏技术遇到的一个问题——贾纳斯伪影(视图不一致性)。文章提出了一个新的方法,即熵评分蒸馏(ESD),通过最大化熵来鼓励生成3D资产的不同视图之间的多样性,从而解决这一问题。此外,还介绍了ESD的理论基础和实施方法。
Paper38 Logit Standardization in Knowledge Distillation
摘要小结: 知识蒸馏涉及使用基于共享温度的softmax函数将软标签从教师模型传递给学生模型。然而,教师和学生之间共享温度的假设意味着它们的logits必须在logit范围和方差上完全匹配。这种副作用限制了学生的性能,考虑到它们之间的容量差异,以及发现教师的固有logit关系对于学生学习来说已经足够。为了解决这一问题,我们提出将温度设置为logit的加权标准差,并在应用softmax和Kullback-Leibler散度之前,进行一个即插即用的Z分数预处理,进行logit标准化。我们的预处理使学生能够专注于教师的重要logit关系,而不是要求大小匹配,并且可以提高现有基于logit的蒸馏方法的性能。我们还展示了一个典型案例,其中传统的在教师和学生之间共享温度的设置无法可靠地产生真实的蒸馏评估;然而,这一挑战通过我们的Z分数成功缓解。我们广泛评估了我们的方法,针对CIFAR-100和ImageNet上的各种学生和教师模型,显示出其显著的优势。
以下主要内容概述:
翻译:
知识蒸馏涉及使用共享温度的softmax函数将软标签从教师传递给学生。然而,教师和学生之间共享温度的假设意味着他们的logits必须在logit范围和方差上完全匹配。这个副作用限制了学生的性能,考虑到他们之间的容量差异,以及发现教师的固有logit关系对学生的学习已经足够。为了解决这个问题,我们提出将温度设置为logit的加权标准差,并在应用softmax和Kullback-Leibler散度之前,进行logit标准化的即插即用Z分数预处理。
概述:
这段话讨论了知识蒸馏的一个问题,即共享温度假设可能导致性能限制,并提出了一种新的预处理方法来解决这个问题。该方法可以提高蒸馏性能,并且在多个模型和数据集上展示了显著优势。
Paper39 RadarDistill: Boosting Radar-based Object Detection Performance via Knowledge Distillation from LiDAR Features
摘要小结: 这段话的中文翻译如下:
雷达数据的固有噪声和稀疏特性为3D对象检测寻找有效的表示带来了挑战。在本文中,我们提出了一种名为RadarDistill的新型知识蒸馏(KD)方法,它可以通过利用激光雷达(LiDAR)数据来改善雷达数据的表示。RadarDistill通过三个关键组件:跨模态对齐(CMA)、基于激活的特征蒸馏(AFD)和基于提案的特征蒸馏(PFD),成功地将激光雷达特征的理想特性转移到雷达特征中。CMA通过使用多层膨胀操作来增强雷达特征的密度,有效地解决了从激光雷达到雷达的知识传递效率低的问题。AFD根据激光雷达特征区域的激活强度超过预设阈值的有特定关注区域的选择性传递知识。PFD同样指导雷达网络在对象提案内选择性地模仿激光雷达网络的特征。我们在nuScenes数据集上进行的比较分析表明,RadarDistill在仅使用雷达的对象检测任务上达到了最先进的(SOTA)性能,mAP达到20.5%,NDS达到43.7%。此外,RadarDistill显著提高了摄像头-雷达融合模型的性能。
主要内容概述:
本文介绍了一种名为RadarDistill的新型知识蒸馏方法,用于提高雷达数据在3D对象检测中的表示。该方法利用激光雷达数据来改善雷达数据的特征表示,通过三个关键组件实现激光雷达特征向雷达特征的有效转移。实验结果表明,RadarDistill在雷达对象检测任务上取得了最先进的性能,并显著提高了摄像头-雷达融合模型的性能。
Paper40 Scaled Decoupled Distillation
摘要小结: 这段话的中文翻译如下:
“logit知识蒸馏在最近的研究中由于其实用性而受到越来越多的关注。然而,与特征知识蒸馏相比,它通常表现出较差的性能。在本文中,我们提出现有的基于logit的方法可能不是最优的,因为它们只利用了耦合多个语义知识的全局logit输出。这可能会向学生传递含糊的知识,并误导其学习。为此,我们提出了一种简单而有效的方法,即尺度解耦蒸馏(SDD)用于logit知识蒸馏。SDD将全局logit输出分解为多个局部logit输出,并为它们建立蒸馏管道。这有助于学生挖掘和继承细粒度且明确的logit知识。此外,解耦的知识可以进一步划分为一致性和互补的logit知识,分别传递语义信息和样本模糊性。通过增加互补部分的权重,SDD可以指导学生更加关注模糊样本,提高其辨识能力。在几个基准数据集上的大量实验表明,SDD对广泛的教师-学生对特别是在细粒度分类任务中是有效的。代码可在以下链接找到:https://github.com/shicaiwei123/SDD-CVPR2024.”
主要内容概述:
这段话主要讨论了logit知识蒸馏的一个问题,即现有的方法可能不是最优的,因为它们只使用全局logit输出。因此,作者提出了尺度解耦蒸馏(SDD)方法,该方法能将全局logit输出分解为多个局部logit输出,以便更好地传递知识。SDD还能帮助提高学生的辨识能力,尤其是在细粒度分类任务中。实验证明了这个方法的有效性,并且代码是可用的。
Paper41 KD-DETR: Knowledge Distillation for Detection Transformer with Consistent Distillation Points Sampling
摘要小结: DETR是一种新颖的端到端Transformer架构目标检测器,在扩展规模时,其性能显著优于传统检测器。本文主要关注通过知识蒸馏对DETR进行压缩。虽然知识蒸馏在传统检测器中已经得到了很好的研究,但关于如何有效地在DETR上实施的研究还很少。以下是翻译和概述:
翻译:
DETR是一种新颖的端到端Transformer架构目标检测器,在扩展规模时,其性能显著优于经典检测器。在本文中,我们专注于通过知识蒸馏对DETR进行压缩。虽然知识蒸馏在经典检测器中已经得到了很好的研究,但关于如何有效地在DETR上实施的研究还相对缺乏。我们首先提供了实验和理论分析,指出DETR蒸馏中的主要挑战是缺乏一致的蒸馏点。蒸馏点指的是学生模仿预测的对应输入,这在CNN检测器和DETR中有不同的表述,可靠的蒸馏需要教师和学生之间有足够且一致的蒸馏点。基于这一观察,我们提出了第一个通用的DETR知识蒸馏范式(KD-DETR),用于同质和异质蒸馏的一致蒸馏点采样。具体来说,我们通过引入一组专门的对象查询来构建DETR的蒸馏点,将检测和蒸馏任务分离。我们进一步提出了一种从通用到特定的蒸馏点采样策略,以探索KD-DETR的可扩展性。大量实验验证了KD-DETR的有效性和泛化能力。
概述:
这段话主要内容是介绍了一种新的研究,即通过知识蒸馏对DETR进行压缩。研究指出,在DETR上进行知识蒸馏的主要挑战是一致的蒸馏点缺失。因此,他们提出了KD-DETR,这是一种新的知识蒸馏范式,可以用于同质和异质蒸馏的一致蒸馏点采样。通过实验,他们证明了KD-DETR的有效性,并在某些情况下提高了学生模型的性能。
Paper42 MART: Masked Affective RepresenTation Learning via Masked Temporal Distribution Distillation
摘要小结: 这段话的中文翻译如下:
有限的训练数据一直是视频情感分析(VEA)的一个长期问题。现有工作利用大规模图像数据集的强大功能进行迁移学习,但未能提取视频中情感线索的时间相关性。受到心理学研究和实证理论的启发,我们验证了视频中不同片段的情感程度可能有所不同,因此引入了时间片段之间的情感互补和情绪内在性。我们提出了一种类似于MAE的方法,通过遮蔽的方式学习视频的鲁棒情感表示,称为MART。首先,我们提取了词汇的情感线索,并通过计算其与视频内容在情感和情绪分数以及时间维度上的匹配分数来验证提取的情感线索。然后,我们提出了遮蔽情感建模来恢复时间情感分布。我们展示了时间情感互补学习,它拉近了遮蔽多模态特征的互补部分,并推动了内在部分,其中约束是通过特征之间的跨模态注意力来遮蔽视频并恢复片段之间的情感程度。在五个基准上的大量实验表明,我们的方法在视频情感分析、视频情绪识别、多模态情感分析和多模态情绪识别方面具有优势。
主要内容概述:
这段话主要讨论了视频情感分析中有限的训练数据问题,并提出了一种新的方法MART来解决这一问题。该方法受到心理学研究启发,并通过遮蔽情感建模来恢复视频中的时间情感分布。文章还介绍了时间情感互补学习,并通过实验证明了该方法在多个方面的优势。
Paper43 Cross-Dimension Affinity Distillation for 3D EM Neuron Segmentation
摘要小结: 从电子显微镜(EM)体积中准确地进行三维神经元分割对于神经科学研究至关重要。然而,复杂的神经元形态常常导致过度合并和过度分割的结果。最近的发展利用3D CNN预测三维亲和图,提高了准确度,但面临两个挑战:高计算成本和有限的输入大小,特别是在大规模EM体积的实际部署中。为了解决这些挑战,我们提出了一种新颖的方法,利用轻量级的2D CNN进行高效的神经元分割。
以下是翻译:
准确的三维神经元分割,以下是主要内容概述:
- 三维神经元分割对神经科学研究很重要。
- 复杂的神经元形态导致分割问题。
- 3D CNN提高了准确度,但计算成本高,输入大小有限。
- 我们提出使用2D CNN进行高效分割。
- 我们的方法使用2D Y形网络生成嵌入图,并转换为亲和图。
- 2D网络捕捉了更好的像素依赖,但忽略了跨部分的依赖。
- 我们引入了跨维度亲和蒸馏策略和特征嫁接互动模块来增强知识转移。
- 实验显示,我们的方法优于现有方法,且延迟只有1/20。
以下是详细内容:我们的方法在多个EM神经元分割数据集上表现出色,包括我们自己新建的一个数据集。
Paper44 Language-aware Visual Semantic Distillation for Video Question Answering
摘要小结: 由于大型图像-语言预训练框架的蓬勃发展,视频问答(VideoQA)取得了重大进展。尽管这些图像-语言模型能有效地表示视频和语言分支,但它们通常采用无目标的视觉感知过程,并且在答案生成过程中没有很好地将视觉与语言互动,从而忽略了关键的视觉线索。本文受人类认知和学习模式的启发,提出了VideoDistill框架,该框架在视觉感知和答案生成过程中都具有语言意识(即目标驱动)的行为。以下是翻译和概述:
翻译:
视频问答(VideoQA)领域的显著进展要归功于繁荣的大型图像-语言预训练框架。尽管这些图像-语言模型能够有效地表示视频和语言分支,但它们通常采用无目标的视觉感知过程,并且在答案生成过程中没有很好地融合视觉与语言,从而忽略了关键的视觉线索。在本文中,我们受到人类认知和学习模式的启发,提出了VideoDistill,这是一个在视觉感知和答案生成过程中具有语言意识(即目标驱动)行为的框架。VideoDistill仅从与问题相关的视觉嵌入中生成答案,并遵循一种思考-观察-回答的方法,这种方法与人类行为非常相似,使其与之前的研究区分开来。具体来说,我们开发了一种语言意识门控机制,以取代标准的交叉注意力,避免语言直接融合到视觉表示中。我们将此机制纳入整个框架的两个关键组件中。第一个组件是一个可微分的稀疏采样模块,它选择包含与问题相关的动态和语义的帧。第二个组件是一个视觉细化模块,它合并了现有的空间-时间注意力层,以确保提取与问题相关的多粒度视觉语义。
概述:
主要内容是介绍了一种名为VideoDistill的新框架,它在视频问答领域取得了进展。这个框架采用了一种语言意识的行为,在视觉感知和答案生成过程中更加类似人类。它通过特定的机制来避免语言直接融合到视觉表示中,并在多个组件中实现了这一机制。实验证明,VideoDistill在多个视频问答基准测试中取得了最先进的性能,并且能够有效减轻语言捷径解决方案的使用。
Paper45 Building Vision-Language Models on Solid Foundations with Masked Distillation
摘要小结: 最近,视觉-语言模型(VLMs)的进展在缩小计算机视觉与自然语言处理之间的差距方面取得了重大突破。然而,传统的VLMs通常在有限的、噪声较大的图像-文本对上进行对比学习训练,缺乏空间和语言理解能力,难以很好地泛化到密集视觉任务或较少使用的语言。我们的方法——坚固基础CLIP(SF-CLIP)通过隐式建立在大量单模态数据训练的基础模型坚实的视觉和语言理解上,绕开了这个问题。SF-CLIP将对比图像-文本预训练与大型基础文本和视觉模型的掩码知识蒸馏相结合。这种方法指导我们的VLM开发出健壮的文本和图像表示。因此,SF-CLIP表现出卓越的零样本分类准确性和增强的图像和文本检索能力,为在YFCC15M和CC12M上训练的ViT-B/16设立了新的技术水平。此外,密集的逐片监督提高了我们在语义分割任务中的零样本和线性探测性能。
以下是主要内容概述:
翻译内容:
视觉-语言模型(VLMs)的最新进展在连接计算机视觉与自然语言处理之间的鸿沟上取得了显著的飞跃。但是,传统通过对比学习在有限的、噪声的图像-文本对上训练的VLMs通常缺乏空间和语言理解,难以良好地泛化到密集视觉任务或不太常见的语言。
概述:
SF-CLIP方法通过以下方式解决上述问题:
- 利用大量单模态数据训练的基础模型;
- 结合对比图像-文本预训练和大型基础模型的掩码知识蒸馏;
- SF-CLIP在零样本分类和图像文本检索方面表现出色;
- 在语义分割任务中,提高了零样本和线性探测性能;
- 模型具有多语言能力,尽管主要训练于英语数据;
- 所有改进均未牺牲训练效率。
Paper46 Adversarial Score Distillation: When score distillation meets GAN
摘要小结: 现有分数蒸馏方法对分类器自由引导(CFG)尺度敏感,表现为在较小的CFG尺度上过度平滑或不稳定,而在较大尺度上过度饱和。为了解释和分析这些问题,我们重新审视了分数蒸馏采样(SDS)的推导,并使用Wasserstein生成对抗网络(WGAN)范例来解析现有的分数蒸馏。通过WGAN范例,我们发现现有的分数蒸馏要么使用一个固定的次优判别器,要么进行不完整的判别器优化,导致尺度敏感问题。我们提出了对抗性分数蒸馏(ASD),它维持一个可优化的判别器并使用完整的优化目标来更新它。实验表明,与现有方法相比,提出的ASD在2D蒸馏和文本到3D任务中表现良好。此外,为了探索我们范例的泛化能力,我们将ASD扩展到图像编辑任务,取得了有竞争力的结果。项目页面和代码位于https://github.com/2y7c3/ASD。
主要内容概述:
本文讨论了现有分数蒸馏方法中存在的问题,如对CFG尺度的敏感性,表现为过度平滑、不稳定或过度饱和。通过使用WGAN范例分析,发现现有方法判别器优化存在问题。因此,提出了对抗性分数蒸馏(ASD)方法,该方法使用可优化的判别器并解决了尺度敏感问题。实验证明ASD在多个任务中表现优异,并具有较好的泛化能力。
Paper47 CaKDP: Category-aware Knowledge Distillation and Pruning Framework for Lightweight 3D Object Detection
摘要小结: 知识蒸馏(KD)在加速基于LiDAR的3D检测深度神经网络(DNNs)方面具有巨大潜力。然而,在大多数现有方法中,次优的教师模型和不充分的学生架构研究限制了性能提升。为了解决这些问题,我们提出了一种简单而有效的类别感知知识蒸馏与剪枝(CaKDP)框架,用于压缩3D检测器。
以下是翻译和主要内容概述:
翻译:
知识蒸馏(KD)对于加速基于激光雷达的3D检测的深度神经网络(DNNs)具有巨大的潜力。然而,在大多数现行方法中,次优的教师模型和不充分的学生架构研究限制了性能提升。为了解决这些问题,我们提出了一种简单但有效的类别感知知识蒸馏与剪枝(CaKDP)框架,用于压缩3D检测器。首先,CaKDP将两阶段检测器的知识转移到一阶段学生检测器上,减轻了不充分教师模型的影响。为了弥合异构检测器之间的差距,我们研究了它们的差异,并引入了以学生为中心的类别感知KD,以对齐蒸馏对之间的类别预测。其次,我们提出了一种类别感知剪枝方案,以获得紧凑型学生模型的可定制架构。该方法通过计算删除每个滤波器前后类别预测的差距来评估滤波器的重要性,并保留重要的滤波器。最后,为了进一步提高学生性能,采用了一个修改后的IOU感知细化模块,以消除冗余的假阳性预测,计算量几乎可以忽略。
主要内容概述:
- 提出了一种名为CaKDP的框架,用于压缩3D检测器。
- CaKDP通过将两阶段检测器的知识转移到一阶段学生检测器上,减少次优教师模型的影响。
- 引入了类别感知KD来对齐异构检测器之间的类别预测。
- 提出了类别感知剪枝方案,以获得更紧凑的学生模型。
- 使用修改后的IOU感知细化模块来提高学生性能。
- 实验证明CaKDP能够实现高性能的紧凑检测器,例如在WOD上,CaKDP将CenterPoint加速了一半,同时L2 mAPH提升了1.61%。
Paper48 SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation
摘要小结: 尽管文本到图像扩散模型能够根据文本提示生成高分辨率和多样化的图像,但它们通常受到缓慢的迭代采样过程的困扰。模型蒸馏是加速这些模型的最有效方向之一。然而,之前的蒸馏方法在保留生成质量的同时,需要大量的图像进行训练,这些图像要么来自真实数据,要么是由教师模型合成的。针对这一局限性,我们提出了一种新颖的无图像蒸馏方案,名为SwiftBrush。该方法受到文本到3D合成的启发,在不需要任何3D数据真实值的情况下,可以通过专门的损失函数从2D文本到图像扩散先验中获得与输入提示对齐的3D神经辐射场。我们的方法重新利用了同样的损失函数,将预训练的多步骤文本到图像模型蒸馏到一个学生网络中,该网络仅用单个推理步骤即可生成高保真图像。
以下主要内容概述:
翻译:
尽管文本到图像扩散模型能够从文本提示中生成高分辨率和多种多样的图像,但它们常常受到缓慢的迭代采样过程的困扰。模型蒸馏是加速这些模型的最有效途径之一。然而,先前的蒸馏方法在保持生成质量的同时,需要大量的图像进行训练,这些图像要么来自真实数据,要么是由教师模型合成的。
为了应对这一限制,我们提出了一种名为SwiftBrush的新型无图像蒸馏方案。我们的方法简单概述如下:
概述:
- SwiftBrush是一种新的无图像蒸馏方案。
- 它能够将预训练的多步骤文本到图像模型蒸馏到一个学生网络中。
- 学生网络可以仅用一个推理步骤生成高保真图像。
- SwiftBrush是首个能够在不依赖任何训练图像数据的情况下,生成与Stable Diffusion质量相当图像的一步文本到图像生成器。
- 在COCO-30K基准上,SwiftBrush取得了FID分数16.67和CLIP分数0.29的显著成果,与现有技术相比具有竞争力或甚至显著超越。
Paper49 CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distillation
摘要小结: 在自动驾驶三维目标检测领域,LiDAR与摄像头(LC)融合是表现最佳的传感器配置。然而,LiDAR的成本相对较高,这限制了这项技术在消费者汽车中的应用。另一方面,摄像头和雷达已经在当前道路上部署的车辆中广泛使用,但摄像头-雷达(CR)融合的性能落后于LC融合。在这项工作中,我们提出了摄像头-雷达知识蒸馏(CRKD),以缩小LC与CR检测器之间的性能差距,采用了一种新颖的跨模态知识蒸馏框架。我们使用鸟瞰图(BEV)表示作为共享特征空间,以实现有效的知识蒸馏。为了适应独特的跨模态知识蒸馏路径,我们提出了四种蒸馏损失,帮助学生模型从教师模型中学习关键特征。我们在nuScenes数据集上进行了大量评估,以证明所提出的CRKD框架的有效性。CRKD的项目页面是https://song-jingyu.github.io/CRKD。
概述主要内容:
这段话主要讨论了在自动驾驶领域,如何通过摄像头-雷达知识蒸馏(CRKD)来提高三维目标检测性能。该方法旨在缩小LC与CR检测器之间的性能差距,并采用了一种新的跨模态知识蒸馏框架。此外,还提到了使用BEV表示和四种蒸馏损失来提高学习效果,并在nuScenes数据集上进行了评估。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)