基于多模态知识图谱的多模态推理-MR-MKG（非常详细）零基础入门到精通，收藏这一篇就够了

多模态推理与大型语言模型（LLMs）经常遭受幻觉的困扰，以及LLMs内部知识不足或过时的问题。一些方法通过使用文本知识图谱来缓解这些问题，但它们单一的知识模态限制了全面的跨模态理解。在本文中，我们提出了一种基于多模态知识图谱的多模态推理（MR-MKG）方法，该方法利用多模态知识图谱（MMKGs）来学习跨模态的丰富语义知识，显著增强了LLMs的多模态推理能力。特别是，使用关系图注意力网络对MMKGs

执手诵情诗

1715人浏览 · 2024-08-11 16:00:07

执手诵情诗 · 2024-08-11 16:00:07 发布

自我介绍：

您好，我们是一群热情洋溢的探索者，致力于深耕于知识图谱和大型语言模型（LLM）领域。我们的目标是挖掘、分析并分享那些能够启迪思维、推动科学进步的优质学术论文。我们坚信，知识的传播和交流是促进创新和社会发展的关键力量。

论文标题

Multimodal Reasoning with Multimodal Knowledge Graph

论文链接

https://arxiv.org/abs/2406.02030

作者

Junlin Lee, Yequan Wang, Jing Li, Min Zhang

论文来源

ACL 2024

论文背景

大语言模型的多模态推理常常存在幻觉或过时知识等缺陷，一些方法试图使用文本知识图缓解问题，但单一的知识形态限制了跨模态理解。
文本提出了多模态推理与多模态知识图(MR-MKG)方法，该方法利用多模态知识图跨模态学习丰富的语义知识，显著提高了LLM的多模态推理能力。

问题分析

LLM已经证明在各种NLP任务中的优越性和鲁棒性，为了进一步释放LLM的潜力，研究人员试图赋予LLM多模态推理能力，如视觉LLM，BLIP-2，MiniGPT-4等，尽管这些模型在推理图像和文本方面有一些进展，但他们仍有容易产生幻觉，这通常是上下文信息不足或信息过时导致的。
另一个解决方案是对LLM进行微调以更新其知识库，这样的做法会产生昂贵的费用，同时还会耗费大量的时间。
还有一个策略是利用KGs直接向LLM提供必要的知识手段，这样单一模态信息限制了LLM处理和推理多模态信息的能力。
由此，以上限制导致本文提出一种多模态知识图MMKGs来替代文本知识图。

理论方法

上图就是MR-MKG架构图。本文提出的MR-MKG方法，旨在通过从MMKGs中学习从而扩展LLM的多模态信息。具体来说，MR-MKG首先使用RGAT对检索到的知识图节点编码嵌入(子图MMKGs)；设计知识和视觉适配层进行跨模态融合；将知识节点和视觉嵌入分别映射到llm的词嵌入；最后，将知识节点、图像和文本的嵌入连接起来形成提示(prompt)，转发给LLM 提供指导。
MR-MKG由五部分组成，分别是：语言编码器、视觉编码器、KG编码器、知识适配器、跨模态对齐模块；

1.语言编码器

语言编码器采用现成的llm（llama）中的嵌入层，在训练和推理阶段保持固定。形式上，文本由语言编码器处理，产生文本嵌入HT。

2.KG编码器+知识适配器

KG编码器：给定文本和图像，利用预训练的MR-MKG从MMKG中检索子图G来识别相关知识，其中的TOP-N个最相关三元组，有可能不包含相关的三元组，从而引入噪声，此外如果把所有的三元组直接输入到提示符中，噪声会干扰，并且顺序提示不能有效的捕获MMKG中的关系结构；考虑到G的复杂结构，采用关系图注意网络RGAT来嵌入知识节点。具体来说，首先利用CLIP初始化节点和关系嵌入，接下来利用RAGT网络对G进行编码，生成知识节点嵌入XK。
知识适配器：为了使LLM能够理解多模态知识节点嵌入，我们引入了一个知识适配器，将XK转换为LLM可以理解的文本嵌入。这个知识适配器旨在弥合多模态知识和文本之间的固有差距，促进更无缝的对齐。具体来说，通过以下方式将节点嵌入XK映射到知识语言嵌入H ’ K。
KG编码器+知识适配器
这里需要注意的是：图中Retrieved MMKG是从预训练MMKG中召回的子图，刚开始读这篇论文的时候还很费劲，第二遍读的时候就清晰了。

3.视觉适配器

视觉适配器：采用CLIP将图像转换为视觉特征XI，利用线性层将视觉特征XI转换为视觉语言嵌入HI，与LLM的词嵌入向量共享相同维度，利用单头注意力网络，获得与文本嵌入HT相关的最终视觉特征H‘I。

4.跨模态对齐模块

该模块从G中随机选择一组图像实体，并提示模型将其与对应的文本实体进行精确匹配。所选图像对应的知识节点嵌入表示为H’KI，其相关文本节点的嵌入表示为H’KT。我们使用三重态损失(Schroff et al.， 2015)进行校准。当一个图像实体{H ’ KI}i的嵌入作为锚点xa时，其对应的文本实体嵌入{H ’ KT}i作为正样本xp。同时，其他文本实体嵌入{H ’ KT}j {=i作为负样本xn。对齐的目标是最小化正样本与锚样本之间的距离，同时最大化负样本与锚样本之间的距离。
跨模态对齐模块
这里的跨模态损失的图，想要表达的意思是，当图像蛇作为一个锚点的时候，我们要拉近蛇图像对应的文本实体嵌入，也就是蛇（Snake）作为正样本；而其余文本嵌入，就作为负样本，进行拉远。
从上述损失函数公式中也可以看到，其中d是欧几里得距离，xa表示锚点，xp正样本，xn是是负样本；
则 $d(x_{a} -x_{p})-d(x_{a}-x_{n})+\alpha$ 则表示当锚点和正样本之间的距离大于锚点和负样本之间的距离时，通过一个 $\alpha$ 进行调整，使得整体的损失更小。

5.整体损失

整体损失
如上图所示，A是目标答案；L是目标答案A的长度； $\theta_{\alpha}$ 是自适应参数。prompt就是上述几个模块产生的嵌入，进行的拼接。 $L_{g}$ 预测答案A的概率。

实验部分

我们首先关注一下数据集部分：

ScienceQA，该数据集是一个大规模的多模态科学问答数据集(Lu et al.， 2022)，每个选择题都伴随着文本或视觉上下文。这个数据集不是纯粹的多模态，只有48.7%的数据包含图像；
MARS，一个新型数据集，用于评估多模态指示图MarKG上的多模态类比推理。

ScienceQA上的实验结果

ScienceQA实验结果
其中，
#T-Params =可训练参数的个数。
NAT =自然科学，
SOC =社会科学，
LAN =语言科学，
TXT =文本上下文，
IMG =图像上下文，
NO =无上下文，
G1-6 = 1-6年级，
G7-12 = 7-12年级。
以前的SOTA结果已下划线。
从图中得到的结论：MR-MKG在平均准确率方面优于所有基线方法。零样本和少样本学习方法在ScienceQA数据集上的表现仍然不如人类水平，即使使用GPT这样的大型语言模型。 MM-CoT作为当前SOTA方法，虽然性能较高，但需要全参数训练，成本较高。MR-MKG在只训练一小部分参数的情况下，性能依然可以超越MM-CoT。 LLaVA在SOC类别上表现最好，但在其他类别上MR-MKG超越了LLaVA，平均准确率提高了1.86%。这表明MR-MKG在多模态推理方面更有效。参数高效的LLaMA-Adapter和LaVIN方法无法与MR-MKG相比，MR-MKG在FLAN-T5-11B模型上取得了7.59%和3.37%的绝对改进。扩大FLAN-T5模型的参数量可以提高MR-MKG的性能，而改变模型结构和参数量后，性能提升幅度较小。

MarKG上的实验结果

MarKG实验结果
实验结果清楚地表明，MR-MKG在MARS数据集上的性能明显优于所有其他方法。多模态知识图嵌入方法和多模态预训练的Transformer模型的性能具有一定的可比性，其中MKGformer表现出更强的性能。相比之下，视觉llama - 27b模型，当配备一个视觉适配器时，达到与MKGformer相当的结果，尽管Hits@1得分略低，但在其他指标上显示出改进。

消融实验

两个部分消融实验
KG的效果显著，增加了5.66；引入了MMKG绩效进一步提高，表明了多模态知识有效地为推理过程补充了额外的信息。Alignment强调了改进LLM中对跨模态信息理解方面的实用性；预训练使得平均值达到92.78%，从而证明了预训练的优势。
然而作者观察到一个有趣的现象，MMKG和跨模态对齐的影响相对较小。这是因为ScienceQA主要是面向文本的。作为一个QA数据集，它的核心问题和选择以文本形式呈现，从而减少了需要视觉知识来回答的问题。于是他又做了个附加的消融实验。
为了证明MMKG和跨模态对齐的真正有效性，作者从ScienceQA手动选择了1973个样本。这些样本都包含图像，它们的主题是社会科学或自然科学。同时假设这些样本需要视觉知识来推理答案。
得到结论，KG的使用使性能提高了3.78%，MMKG的使用使性能提高了1.41%。加入跨模态对齐后，性能提高了0.54%。与原始消融研究中使用MMKG(0.47%)和跨模态对齐(0.15%)的改进相比，性能提高(1.41%和0.54%)更为显著。这证实了MMKG和跨模态对齐模块的真正有效性。

进一步分析

定量分析

令两部分消融实验
左上角是对不同的子图检索方式的探索，可以看到纯文本检索策略是最有效的，其次是文本和图像相结合的检索策略，而纯图像检索方法的效果最差。这种模式可以归因于ScienceQA数据集的特征。这一发现强调了根据手头问题的具体性质调整检索策略的重要性，而不是完全依赖于一种特定的模式。
右下角则是不同知识图嵌入方法的影响，强调了其作为广泛采用的GNN架构的有效性。
定量分析
这里忘记介绍了，子图的检索方法：基于文本或图像信息检索子MMKG G。这涉及到将文本或图像信息以及来自MMKG的所有三元组嵌入到表示空间中。然后计算它们之间的余弦相似度，Top-n相关三元组的所有实体形成E '。随后，根据E '中的实体检索G，包括它们的单跳邻居和连接它们的关系。最后，根据余弦相似度在G中选择Top-N最相关的三元组。
从左侧两图可以看出，不同数量的知识三元组的影响，随着三元组的数量从0增加到10，两个模型的性能都有成比例的提高。然而，随着三胞胎数量从20个增加到30个，出现了一个有趣的趋势。在这个范围内，注意到两个模型的性能都有所下降。这种下降意味着MMKG中有用的知识三元组的数量是有限的，过多的三元组会引入不相关的信息。
从右侧两个图可以看出，不同KGE层数的影响。适当的RGAT层叠加对图结构的编码和知识的表示有积极的影响。

定性分析

两个来自MRAS和scienceQA数据集的例子
左侧图中，在MARS中，该模型旨在根据燃烧图像和(数据，反驳)的示例来预测“煤”。我们的MR-MKG方法从图像中识别并检索“燃烧”、“碳”、“水”和“氧”等实体。subMMKG提供了“燃烧”与“煤”之间的间接联系。碳和煤图像之间的相似性指导模型正确预测“煤”，表明来自mmkg的多模态知识的关键作用。
其实这里的（data ，has use ， rebuttal）为什么是rebuttal（反驳），我也不懂。有知道的大神，可以指点指点我，感谢。
右侧图中，在ScienceQA的例子中，问题是“哪个状态是高亮的?”的问题，这个模型必须得到验证确定这个国家的形状。由于缺乏足够的内在知识，没有KG的模型对“Idaho”的预测不准确。然而，在MR-MKG下检索的子mmkg包含有关选项中不同州形状的关键信息，直接通知模型有关Utah形状的信息。

这两个例子都证明了从mmkg中获得的多模态知识的有效性

结论

在这项研究中，本文解决了通过使用多模态知识图来增强LLM多模态推理能力的挑战。本文提出的方法，称为MR-MKG，旨在通过利用MMKG中包含的丰富知识(图像、文本和知识三元组)，赋予LLM先进的多模态推理技能。在多模态问答和多模态类比推理任务上的综合实验证明了MR-MKG方法的有效性，在这些任务中取得了最新的结果。此外，本文还进行了一系列消融研究、分析检查和案例研究，以提供额外的有效性证据。