通用图基座模型OpenGraph，从LLM中蒸馏零样本图泛化能力

来源：深度图学习与大模型LLM本文约5000字，建议阅读10分钟本文提出了 OpenGraph，一个图基座模型，旨在实现在不同图数据集上的零样本预测。论文链接: https://arxiv.org/pdf/2403.01121.pdf代码链接: https://github.com/HKUDS/OpenGraph实验室主页: https://sites.google.com/view/chao..

数据派THU

180人浏览 · 2024-03-30 17:00:39

数据派THU · 2024-03-30 17:00:39 发布

来源：深度图学习与大模型LLM
本文约5000字，建议阅读10分钟
本文提出了 OpenGraph，一个图基座模型，旨在实现在不同图数据集上的零样本预测。

论文链接: https://arxiv.org/pdf/2403.01121.pdf

代码链接: https://github.com/HKUDS/OpenGraph

实验室主页: https://sites.google.com/view/chaoh

研究背景

图学习技术在推荐系统、社交网络分析、引用网络、交通网络等各个领域表现出巨大的应用价值。

图神经网络（GNN）通过迭代消息传递机制成功地捕捉了图数据中的复杂高阶关系。这些端到端的GNN一般需要大量高质量的标注数据进行有效训练。

最近，一些工作提出了使用自监督学习对图模型进行预训练、微调的方法，以补偿信号不足的问题。这些自监督学习任务包括对比学习、掩码重构和局部-全局互信息最大化。

尽管这些预训练方法取得了成功，但其泛化能力有限，尤其是当预训练和下游任务之间存在分布偏移时。例如，在推荐系统中，预训练模型使用较早收集的数据，而用户偏好和项目流行度可能随时间变化。

为了解决这个问题，最近的工作提出了图模型的提示调整方法，使预训练模型更好地适应下游任务和数据。

然而，这些图神经模型假设训练数据和测试数据具有相同的节点集和特征空间，这严重限制了预训练图模型的应用范围。因此，本文探索了进一步增强图模型泛化能力的方法。

具体来说，我们希望 OpenGraph 能够捕捉通用的拓扑结构模式，并通过有效的特征提取和仅前向传播的准确预测来实现对测试数据的零样本预测。模型的训练过程是在完全不同的图数据上进行的，无需使用测试图的任何元素，包括节点、边和特征向量。

为了实现这个目标，本文解决了以下三个挑战：

C1. 数据集间的token集变化：零样本图预测的一个重大挑战是，不同的图数据集通常有全然不同的图token集。具体来说，不同图的节点集通常没有交集，不同的图数据集也频繁使用完全不同的节点特征。这使得模型无法对特定数据集的图token参数进行泛化，以执行跨数据集预测任务。
C2. 节点关系的有效建模：在图学习领域，节点之间有复杂的依赖关系，模型需要考虑局部和全局邻域关系。在构建通用图模型时，有效建模节点关系是一个重要的任务，这可以提高模型在处理大规模图数据时的效率和可扩展性。
C3. 数据稀缺：由于隐私保护、数据收集成本等原因，数据稀缺问题在图学习的许多下游领域都很普遍。这可能会导致对下游领域理解不足的通用图模型训练结果不佳。

为了应对这些挑战，我们提出了 OpenGraph，一个擅长零样本学习的模型，能够识别并跨不同下游领域迁移拓扑结构模式。

我们创建了一种基于拓扑感知投影的图Tokenizer以解决挑战 C1，生成统一表征空间下的图token。

为了解决挑战 C2，我们设计了一种可扩展的图 Transformer，配备了基于锚点采样的有效自注意力机制和token序列采样，以实现更高效的训练。

为了解决挑战 C3，我们利用大语言模型进行数据增强，以丰富我们的预训练，使用提示树算法和吉布斯采样来模拟真实世界的图结构关系数据。

我们在多个图数据集上进行了广泛的测试，证明了 OpenGraph 在各种设置下的优越泛化能力。

模型介绍

模型的总体架构包括三个部分：1）统一图Tokenizer，2）可扩展的图 Transformer，3）对大语言模型的知识蒸馏。

统一图Tokenizer

为了解决不同数据集中节点、边和特征的显著差异，我们的首要任务是建立一个统一的图Tokenizer，能够有效地将不同的图数据映射到统一的token序列。

在我们的Tokenizer中，每个token都有一个语义向量，描述对应节点的信息。通过采用统一的节点表示空间和灵活的序列数据结构，我们旨在实现不同图数据的标准化和高效的tokenization。

为此，我们的Tokenizer采用平滑的拓扑信息和从节点空间到隐表征空间的映射函数。

高阶平滑邻接矩阵。 在图token化过程中，我们使用高阶邻接矩阵的幂作为其中一个输入。这种方法允许我们捕捉图结构中的高阶连接关系，并解决原始邻接矩阵中的稀疏问题。

对任意图的拓扑感知映射。 不同数据集的邻接矩阵有着显著的维度差异，使其无法直接输入到具有固定输入维度的神经网络中。

我们的解决方案是首先将邻接矩阵投影为节点表示的序列，然后使用可变长序列模型进行处理。为了最小化映射过程中的信息损失，我们提出了一种拓扑感知映射方法。

首先，我们的拓扑感知映射的值域是一个高维的隐含表示空间。以前的工作表明，当使用大的隐含空间维度时，即使是随机映射也经常会产生满意的表示结果。

为了进一步保留图结构信息并减少随机性，我们使用快速奇异值分解（SVD）构建我们的映射函数。在实际实验中，两轮快速 SVD 可以有效保留拓扑信息，而与其他模块相比，计算开销可以忽略不计。

可扩展的图 Transformer

在无参数的图token化过程之后，OpenGraph 为具有不同特征的图数据分配了统一的拓扑感知图token表示。接下来的任务是使用可训练的神经网络来建模节点之间的复杂依赖关系。

OpenGraph 采用 Transformer 架构，利用其在建模复杂关系方面的强大能力。为了确保模型的效率和性能，我们引入了以下两种采样技术。

token序列采样。我们的图token序列数据通常具有大量的token和较高的隐空间维度。OpenGraph 的图 Transformer 采样输入token序列，仅学习当前训练批次内的对象关系。

这减少了需要建模的关系数量，从节点数量的平方减小到训练批次大小的平方，显著降低了图 Transformer 在训练阶段的时间和空间复杂度。这种采样方法还使模型更多地关注当前的训练批次。

尽管输入数据被采样，但我们的初始图token表示包含节点之间的拓扑关系，因此采样的token序列在某种程度上反映了整个图中所有节点的信息。

自注意力中的锚点采样方法。 尽管token序列采样将复杂度从节点数量的平方减小到批次大小的平方，但平方级别的复杂度仍然对批次大小施加了显著的限制，影响了整体训练时间和稳定性。

为了减轻这个问题，OpenGraph 的 Transformer 放弃建模所有token之间的对象关系，而是采样一部分锚点，将所有节点之间的关系学习分为两个阶段：学习所有节点到锚点之间的信息传递，以及锚点到所有节点之间的信息传递。

大语言模型知识蒸馏

由于隐私和其他原因，获取各种领域的数据来训练通用图模型是一个挑战。受大规模语言模型（LLM）强大的知识和理解能力的启发，我们利用其力量生成各种图结构数据，用于通用图模型训练。我们设计的数据增强机制使 LLM 增强的图数据更好地近似真实世界图的特征，提高了生成数据的相关性和有用性。

基于 LLM 的节点生成。在生成图时，我们的初步步骤是创建一个适应特定应用场景的节点集。每个节点都有一个基于文本的特征描述，以帮助后续边生成。

然而，当处理真实世界场景时，这个任务可能非常困难，因为节点集的规模很大。例如，在电子商务平台中，图数据可能包含数十亿的产品。因此，有效地使 LLM 生成大量节点成为一个重大挑战。

为了解决这个挑战，我们采用了一种策略，将一般节点迭代地分成具有更细粒度语义的子类别。

例如，在生成产品节点时，我们首先使用查询提示 LLM，如“列出亚马逊这样的电子商务平台上所有产品的子类别”。LLM 回答了一个子类别列表，如“衣服”、“家用和厨房用品”、“电子产品”等。然后，我们继续这个迭代分割过程，要求 LLM 进一步细化每个子类别。这个过程重复直到我们获得接近真实世界实例的节点，例如一件标签为“服装”、“女装”、“衫衣”、“套衫”、“白色套衫”的产品。

提示树算法。将节点分成子类别并生成细粒度实体的过程遵循一棵树的结构。最初的一般节点（如“产品”、“深度学习论文”）作为根，细粒度实体作为叶节点。我们采用了一种提示树策略来遍历和生成这些节点。

基于 LLM 和吉布斯采样的边生成。 为了生成边，我们使用吉布斯采样算法和之前生成的节点集。算法从一个随机样本开始，这取决于实体-实体关系数据的类型。

例如，在一篇论文的引用网络中，样本是一个节点对，而在一个人-实体关系场景中，如作者-论文或用户-商品推荐网络，初始样本是一个二进制向量，指示采样人与所有节点之间的交互。这一菜样算法的关键，是估计在当前二进制向量的条件下，将向量的某一的维度设置为 1 的概率。

我们使用一种基于 LLM 的方法来根据节点的文本特征估计这个概率。由于边集空间很大，我们避免让 LLM 遍历它以防止产生巨大的计算开销。相反，我们首先使用 LLM 表示节点集，然后使用一个简单的相似性算法来计算表示向量的节点关系。在边生成框架中，我们采用了以下三种重要的调整技术：

动态概率标准化。 LLM 表示的相似性可能与 [0, 1] 范围有较大的差距。为了获得更适合采样的概率值，我们使用了一种动态概率标准化方法。这种方法在采样过程中动态维护最近 T' 个相似性估计值，计算它们的平均值和标准差，并将当前相似性估计值映射到平均值的两个标准差范围内，得到一个大约为 [0, 1] 的概率估计值。

引入节点局部性。我们的基于 LLM 的边生成方法有效地确定了基于节点之间的语义相似性的潜在连接。然而，它倾向于在所有语义相关的节点之间创建过多的连接，忽略了真实世界图中重要的局部性概念。在现实世界中，节点更有可能连接到一组相关的节点的子集，因为它们只与所有其他节点的一个子集进行有限的交互。为了解决这个问题，我们引入了一种在边生成过程中结合局部性的方法。每个节点都随机分配一个局部性索引，两个节点的局部性索引的绝对差值影响它们交互的概率。差值越大，交互概率的衰减越严重。

注入图拓扑模式。为了使生成的图数据更好地符合拓扑结构模式，我们在图生成过程中重新生成修正的节点表示。这个节点表示使用一个简单的图卷积网络，在初始生成的图上产生。它能够更好地适应图结构数据的分布特征，并避免了图和文本空间之间的分布偏移。最后，我们基于纠正的节点表示再次进行图采样，获得最终的图结构数据。

实验验证

在实验中，我们仅使用 LLM 生成的数据集进行 OpenGraph 模型训练，而测试数据集是来自各种应用场景的真实数据集，包括节点分类和链接预测任务。具体的实验设置如下：

零样本设置。为了验证 OpenGraph 的零样本预测能力，我们在生成的训练数据集上测试 OpenGraph，然后使用完全不同的真实测试数据集进行效果测试。训练数据集和测试数据集在节点、边、特征方面没有重叠。

少样本设置。由于许多现有方法无法有效地执行零样本预测，我们使用少样本预测方法来测试它们。基线方法可以在预训练数据上预训练，然后使用 k-shot 样本进行训练、微调或提示微调。

总体性能比较

在 2 个任务和 8 个测试数据集上的测试结果如下所示。从这些结果中，我们可以观察到：1）在跨数据集情况下，OpenGraph 的零样本预测性能比现有方法有着显著的优势。2）在跨数据集迁移情况下，现有的预训练方法有时甚至比在少量样本上从头训练的基础模型表现更差，示意图模型实现跨数据集泛化的难度。

图Tokenizer研究

接下来，我们研究图Tokenizer设计对性能的影响。首先，我们调整邻接矩阵平滑的阶数并测试其对性能的影响。当平滑阶数为 0 时，性能显著下降，表明进行平滑的重要性。其次，我们用其他简单的方法替换拓扑感知映射函数，如跨数据集学习的独热编码 ID 表示、随机映射和基于度的可学习表示。

结果显示，这三种替代方法的表现都不好，其中跨数据集学习的 ID 表示表现最差，基于度的表示有显著的衰减，随机映射在替代方法中表现最好，但与我们的拓扑感知映射相比仍然有着较大的差距。

预训练数据集研究

为了验证基于 LLM 的知识蒸馏方法的有效性，我们使用不同的预训练数据集训练 OpenGraph，并在不同的测试集上测试其性能。

本实验比较的预训练数据集包括从我们的生成方法中单独移除某项技术的版本、两个与测试数据集无关的真实数据集（Yelp2018 和 Gowalla）和一个与测试数据集相关的真实数据集（ML-10M）。

结果显示：1）总的来说，我们的生成数据集在所有测试数据上都取得了良好的性能。2）测试的三种生成技术都有相当显著的正面影响。3）使用真实数据集（Yelp、Gowalla）进行训练甚至可能有负面影响，可能是因为不同真实数据集之间存在分布差异。4）ML-10M 在 ML-1M 和 ML-10M 上都取得了最好的性能，表明使用类似的训练数据集可以导致更好的性能。

Transformer 采样技术研究

本实验对我们图 Transformer 模块中的token序列采样（Seq）和锚点采样（Anc）进行了消融测试。结果显示，这两种采样方法都可以在训练和测试过程中优化模型的空间和时间复杂度。从效果上讲，token序列采样对模型的性能有正面影响，而 ddi 数据集上的结果显示，锚点采样对模型的性能有负面影响。

结论

本研究的主要焦点是开发一个高度适应性的框架，能够准确地捕捉和理解各种图结构中复杂的拓扑模式。通过利用所提出模型的潜力，我们旨在显著提高模型在包括各种下游应用在内的零样本图学习任务中的泛化能力。为进一步提高 OpenGraph 的效率和健壮性，我们在可扩展的图 Transformer 架构和 LLM 增强的数据增强机制的基础上构建了我们的模型。通过在多个基准数据集上进行的广泛实验，我们已经证明了我们模型的优异泛化能力。本研究初步尝试图基础模型的搭建，在未来的工作中，我们计划使我们的框架具有自动发现噪声连接和反事实学习的能力，同时学习各种图的通用和可迁移的结构模式。

编辑：黄继彦

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

开发者谈开源：洞悉协作创新背后的机遇与挑战

近日，在2024开放原子开发者大会暨首届开源技术学术大会开幕式上，开放原子开源基金会与openKylin、EasyAda、KWDB开源项目举行捐赠签约仪式。一场捐赠签约仪式，让三个开源项目及其背后的开发者们受到瞩目。本次，我们与“龘”（EasyAda）核心维护者王伶卓开启了对话。

开放原子开发者工作坊

开发者谈开源：展现开源AIPC操作系统魅力的背后故事

近日，在2024开放原子开发者大会暨首届开源技术学术大会开幕式上，开放原子开源基金会与openKylin、EasyAda、KWDB开源项目举行捐赠签约仪式。一场捐赠签约仪式，让三个开源项目及其背后的开发者们受到瞩目。本次，我们与openKylin社区Release SIG Maintainer张天雄开启了对话。 “openKylin是我国首例成功实现央企开源捐赠的开源项目。自2022年社区成立