ICML 2024 顶级论文：机器学习领域的新变化

最佳论文奖获得者今年的决议之一是分享来自领先 AI 会议的论文，以了解最新更新。这些场合通常是 ML 和计算机视觉等领域的趋势和创新出现的地方。此外，夏季是理想的时间，因为在此期间会举办许多此类活动。ICML 是机器学习国际会议，目前正在奥地利首都维也纳举行。与每年一样，与其他顶级 AI 会议一样，提交了数千篇论文，接受率相对较低（过去三年不到 28%）。例如，今年的版本提交了 9,653 篇论文

AI引路星

1879人浏览 · 2024-10-29 11:29:10

AI引路星 · 2024-10-29 11:29:10 发布

今年的决议之一是分享来自领先 AI 会议的论文，以了解最新更新。这些场合通常是 ML 和计算机视觉等领域的趋势和创新出现的地方。此外，夏季是理想的时间，因为在此期间会举办许多此类活动。

ICML 是机器学习国际会议，目前正在奥地利首都维也纳举行。与每年一样，与其他顶级 AI 会议一样，提交了数千篇论文，接受率相对较低（过去三年不到 28%）。例如，今年的版本提交了 9,653 篇论文，仅接受 2,609 篇，接受率为 27.03%。

一、最佳论文奖获得者

Position: Considerations for Differentially Private Learning with Large-Scale Public Pretraining
位置：使用大规模公共预训练进行差分私人学习的注意事项（Kamath 等人）

本期的获奖论文由滑铁卢大学教授 Gautam Kamath、苏黎世联邦理工学院计算机科学家 Florian Tramèr 和 Google DeepMind 研究员 Nicholas Carlini 撰写。它挑战了迄今为止所有已知的大型语言模型的训练范例。

为了提供一些背景信息，作者首先观察到，当这些数据包含私人或敏感信息时，经过数百万个数据点训练的大型语言模型会构成威胁。到目前为止，推荐的解决方案是在公共数据上训练模型，然后对私有数据进行微调。

从 Web 抓取的预训练数据本身可能是敏感的;因为 “隐私保护” 的微调模型仍然可以记住其预训练数据，这会造成直接伤害并淡化 “私人学习” 的含义。（引自论文）

然而，作者认为，所谓的公共数据也可能包含有关个人的敏感或私人信息，这有可能损害机密性。本文表明，这种培训范式会导致机密性丧失，主要有两个原因：

1、仅根据公共和私有数据分布重叠的参数高估了公共预训练的价值。

2、这些大型模型的训练需要大量的计算能力，而这些能力无法在最终用户的机器上执行，从而导致私有数据的外包。

这种对当前私人学习实践的批判立场是在 LLM的。通过这篇论文，作者呼吁科学界考虑解决这些问题的解决方案。

本文论文代码+研究生及SCI论文攻略包+论文指导都可看下图获取

二、时间序列

1、A decoder-only foundation model for time-series forecasting
用于时间序列预测的仅解码器基础模型（Das 等人）

“在大量时间序列数据上训练的大型预训练模型能否学习到可用于以前未见过的数据集上的时间序列预测的时间模式？”这是研究人员在本文中试图回答的问题。

近年来LLMs 和基础模型的迅速崛起激发了研究人员提出一种称为 TimesFM（时间序列基础模型）的零样本时间序列预测基础模型。

零样本学习（ZSL） 是模型检测训练期间从未见过的类的能力。条件是在监督学习期间类未知。

首先，预测模型必须能够适应不同的环境和范围，同时具有足够的能力来编码大型数据集中的所有模式。为了满足这些期望，TimesFM 的架构基于以下几项原则：

1、修补：补丁类似于语言模型中的标记。

2、仅解码器模型：给定一系列输入补丁，该模型经过优化，以将下一个补丁作为所有过去补丁的函数进行预测。

3、更长的输出补丁：更长的输出序列，以避免与预测范围长度的先验知识相关的限制。

这种零样本模型能够实现完全监督模型的性能，如以下示例所示：

2、 What Can Large Language Models Tell Us about Time Series Analysis
大型语言模型可以告诉我们关于时间序列分析的什么（Jin， Zhang et al.）

如前所述，LLMs 为这些模型在时间序列数据上的潜在用途打开了大门。在本文中，研究人员强调了 LLMs 彻底改变时间序列分析的潜力，并指出它们能够“促进有效决策并朝着更通用的时间序列分析智能形式发展”。

以下是本文的三个主要贡献：

1、为使用 LLMs 进行时间序列分析提供了新的视角。

2、对现有方法进行基准测试和审查，并提出将 LLMs时间序列分析中的路线图（参见图 3）。

3、发现未来的机会。

3、TimeMIL: Advancing Multivariate Time Series Classification via a Time-aware Multiple Instance Learning
TimeMIL：通过时间感知多实例学习推进多元时间序列分类（Chen、Qiu 等人）

多元时间序列分类已通过 transformer 和卷积网络得到极大改进。但是，这些方法通常基于监督学习。监督式学习无法捕获时间序列中的所有模式，也无法捕获可能出现的罕见事件，因此我们只能从已经看到的中学习。

在本文中，研究人员提出了一种称为多实例学习（MIL）的新方法，它可以更好地捕获兴趣点并模拟时间序列中的时间依赖性。TimeMIL 通过区分时间序列中的正实例和负实例来做出决策，其中每个时间点都是一个实例，其标签在实践中通常不可用。

4、Time Weaver: A Conditional Time Series Generation Model
Time Weaver：条件时间序列生成模型（Narasimhan 等人）

时间序列生成是一个令人兴奋但具有挑战性的主题。例如，在能源领域，生成相关的时间序列意味着集成天气、位置等元数据，而生成模型并不总是能够做到这一点。

在本文中，研究人员提出了一种基于扩散模型的方法，该方法以分类、连续甚至时间特征的形式利用这些元数据来克服上述问题。此外，他们还提出了一种新的评估指标，能够准确捕捉生成的时间序列的真实性。

三、大型语言模型和迁移学习

趋势肯定是朝着更小的模型发展;论文几乎比以往任何时候都更倾向于这个方向。这包括关于蒸馏以及更高效微调技术的讨论。

1、Transferring Knowledge from Large Foundation Models to Small Downstream Models
将知识从大型基础模型转移到小型下游模型（Qiu 等人）

在本文中，AWS AI Lab 的研究人员提出了一种称为自适应特征转移（AFT）的新知识转移方法。AFT 不像传统的迁移学习那样转移权重，而是直接对特征进行操作，自适应地转移最有用的特征。这种方法的目标是解决与迁移学习相关的问题，例如：

1、通过重量转移进行有限的信息传递。

2、预训练模型通常很大。

3、无法组合多个学习互补信息的模型。

2、LLaGA: Large Language and Graph Assistant
LLaGA：大型语言和图形助手（Chen et al.）

我们再次看到，LLMs为深度学习开辟了新的途径，图神经网络（GNN）也不例外。然而，图形结构的复杂性使得它们在自然语言中的解释更具挑战性。

在本文中，提出了一种称为 LLaGA （Large Language and Graph Assistant）的新模型。此模型支持使用 LLMs。该方法基于将这些图形数据映射到与 LLMs。LLaGA 在各种数据集的泛化和可解释性方面表现出良好的性能。

3、FrameQuant: Flexible Low-Bit Quantization for Transformers
FrameQuant：Transformer 的灵活低位量化（Adepu et al.）

Transformer 非常有效，但仍然非常占用内存。这就是为什么最近引入了几种方法来创建更小的模型，包括量化到 8 位或 4 位。

量化是一种技术，通过使用低精度数据类型（如 8 位整数（）而不是通常的 32 位浮点（））来表示权重和激活，从而降低运行推理的计算和内存成本。量化（huggingface）int8 float32

在本文中，作者建议在 2 位量化方面更进一步，同时保持最小的性能下降。该方法基于称为“融合帧”的谐波分析。他们已经表明，关键在于应用量化的位置，它不应该在原始权重空间中完成，而应该在融合帧的表示中完成。

4、DISTILLM: Towards Streamlined Distillation for Large Language Models
DISTILLM：迈向大型语言模型的简化蒸馏（Ko 等人）

模型蒸馏包括使用较大的模型（称为教师模型）创建较小的模型（称为学生模型），目的是在保持性能的同时降低成本和内存。此方法适用于某些模型，但不太适用于 LLMs。本文提出了对 LLMs，并介绍了 DistiLLM。

本文的主要贡献是：

1、偏斜 KLD （Kullback-Leibler divergence）：新的目标函数，针对稳定的梯度和最小的近似误差进行了优化。

2、自适应非策略方法：减少训练时间。

3、先进的性能和效率：DistiLLM 以最先进的性能竞争。

四、计算机视觉和音频

1、Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Mode
Vision Mamba：使用双向状态空间模式进行高效的视觉表示学习（Zhu， Liao et al.）

谈论 Vision Mamba 而不提及 Mamba（原始架构）有点反常。因此，简而言之，Mamba 是一种新架构，特别适用于处理长序列（Mistral的最新模型之一基于此架构）。

Mamba 是一种新的状态空间模型架构，在信息密集数据（如语言建模）上显示出有前途的性能，而以前的亚二次模型无法与 Transformer 相提并论。它基于结构化状态空间模型的进步路线，本着 FlashAttention 的精神，具有高效的硬件感知设计和实现。

因此，回到 Vision Mamba （Vim），它利用 Mamba 架构来适应视觉数据。与 Vision Transformers 相比，Vim 在 ImageNet 分类任务、COCO 对象检测和分割方面实现了卓越的性能，同时速度提高了 2.8 倍，节省了 86.8% 的 GPU 内存（这是相当了不起👊的）。

2、ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy
ConvNet 与 Transformer、监督与 CLIP：超越 ImageNet 精度（Vishniakov 等人）

Meta AI 的这篇论文建议通过考虑其他参数来捕捉所有可能的细微差别，从而超越计算机视觉任务的准确性。事实上，研究人员认为，尽管 Vision Transformers、ConvNet 架构和 CLIP 的性能相似，但许多其他不同的方面可能会有所不同。这些因素包括：误差类型、输出校准、可传递性和特征不变性等。

下图显示了我们在测量视觉模型的性能时可以考虑的参数。

3、UniAudio: Towards Universal Audio Generation with Large Language Models
UniAudio：使用大型语言模型实现通用音频生成（Yang、Tian 等人）

正如我们在最近几个月所看到的那样，将音频集成到LLMs 中是一个快速发展的领域，现在越来越多的对话模型能够进行口头讨论（尤其是 Kyutai 的 Moshi）。

在本文中，研究人员提出了 UniAudio，这是一种利用 LLM 技术生成各种类型的音频的模型，包括声音、语音、音乐和歌唱。该模型经过 165000 小时的音频训练，具有 10 亿个参数。

以下是 UniAudio 工作原理的简要概述：

1、首先，它对所有类型的目标音频以及其他条件模态进行标记化。

2、然后，它将源-目标对连接为单个序列。

3、最后，它使用 LLM。

本文论文资源、整理了一份研究生及SCI论文攻略合集+提供高质量专家论文指导
关助工重号：学长论文指导发送：211 获取
论文资元包：1、SCI论文写作、投稿、修改助手、插图规范
2、SCI管理软件、英语写作辅助和润色、写作与画图必备神器
3、SCI 写作套路化模板（高级句型）
4、上千份八大主流神经网络及变体、大模型、AIGC等AI各方向论文及代码
5、写论文必备书籍
6、历年来及最新优秀顶刊论文合集