自我介绍:

您好,我们是一群热情洋溢的探索者,致力于深耕于知识图谱和大型语言模型(LLM)领域。我们的目标是挖掘、分析并分享那些能够启迪思维、推动科学进步的优质学术论文。我们坚信,知识的传播和交流是促进创新和社会发展的关键力量。

论文标题

Multimodal Reasoning with Multimodal Knowledge Graph

论文链接

https://arxiv.org/abs/2406.02030

作者

Junlin Lee, Yequan Wang, Jing Li, Min Zhang

论文来源

ACL 2024

论文背景

大语言模型的多模态推理常常存在幻觉或过时知识等缺陷,一些方法试图使用文本知识图缓解问题,但单一的知识形态限制了跨模态理解。
文本提出了多模态推理与多模态知识图(MR-MKG)方法,该方法利用多模态知识图跨模态学习丰富的语义知识,显著提高了LLM的多模态推理能力。

问题分析

LLM已经证明在各种NLP任务中的优越性和鲁棒性,为了进一步释放LLM的潜力,研究人员试图赋予LLM多模态推理能力,如视觉LLM,BLIP-2,MiniGPT-4等,尽管这些模型在推理图像和文本方面有一些进展,但他们仍有容易产生幻觉,这通常是上下文信息不足或信息过时导致的。
另一个解决方案是对LLM进行微调以更新其知识库,这样的做法会产生昂贵的费用,同时还会耗费大量的时间。
还有一个策略是利用KGs直接向LLM提供必要的知识手段,这样单一模态信息限制了LLM处理和推理多模态信息的能力。
由此,以上限制导致本文提出一种多模态知识图MMKGs来替代文本知识图。

理论方法

MR-MKG架构图
上图就是MR-MKG架构图。本文提出的MR-MKG方法,旨在通过从MMKGs中学习从而扩展LLM的多模态信息。具体来说,MR-MKG首先使用RGAT对检索到的知识图节点编码嵌入(子图MMKGs);设计知识和视觉适配层进行跨模态融合;将知识节点和视觉嵌入分别映射到llm的词嵌入;最后,将知识节点、图像和文本的嵌入连接起来形成提示(prompt),转发给LLM 提供指导。
MR-MKG由五部分组成,分别是:语言编码器、视觉编码器、KG编码器、知识适配器、跨模态对齐模块

1.语言编码器

语言编码器采用现成的llm(llama)中的嵌入层,在训练和推理阶段保持固定。形式上,文本由语言编码器处理,产生文本嵌入HT
语言编码器

2.KG编码器+知识适配器

KG编码器:给定文本和图像,利用预训练的MR-MKG从MMKG中检索子图G来识别相关知识,其中的TOP-N个最相关三元组,有可能不包含相关的三元组,从而引入噪声,此外如果把所有的三元组直接输入到提示符中,噪声会干扰,并且顺序提示不能有效的捕获MMKG中的关系结构;考虑到G的复杂结构,采用关系图注意网络RGAT来嵌入知识节点。具体来说,首先利用CLIP初始化节点和关系嵌入,接下来利用RAGT网络对G进行编码,生成知识节点嵌入XK。
知识适配器:为了使LLM能够理解多模态知识节点嵌入,我们引入了一个知识适配器,将XK转换为LLM可以理解的文本嵌入。这个知识适配器旨在弥合多模态知识和文本之间的固有差距,促进更无缝的对齐。具体来说,通过以下方式将节点嵌入XK映射到知识语言嵌入H ’ K。
KG编码器+知识适配器
这里需要注意的是:图中Retrieved MMKG是从预训练MMKG中召回的子图,刚开始读这篇论文的时候还很费劲,第二遍读的时候就清晰了。

3.视觉适配器

视觉适配器:采用CLIP将图像转换为视觉特征XI,利用线性层将视觉特征XI转换为视觉语言嵌入HI,与LLM的词嵌入向量共享相同维度,利用单头注意力网络,获得与文本嵌入HT相关的最终视觉特征H‘I。
视觉适配器

4.跨模态对齐模块

该模块从G中随机选择一组图像实体,并提示模型将其与对应的文本实体进行精确匹配。所选图像对应的知识节点嵌入表示为H’KI,其相关文本节点的嵌入表示为H’KT。我们使用三重态损失(Schroff et al., 2015)进行校准。当一个图像实体{H ’ KI}i的嵌入作为锚点xa时,其对应的文本实体嵌入{H ’ KT}i作为正样本xp。同时,其他文本实体嵌入{H ’ KT}j {=i作为负样本xn。对齐的目标是最小化正样本与锚样本之间的距离,同时最大化负样本与锚样本之间的距离。
跨模态对齐模块
这里的跨模态损失的图,想要表达的意思是,当图像蛇作为一个锚点的时候,我们要拉近蛇图像对应的文本实体嵌入,也就是蛇(Snake)作为正样本;而其余文本嵌入,就作为负样本,进行拉远。
从上述损失函数公式中也可以看到,其中d是欧几里得距离,xa表示锚点,xp正样本,xn是是负样本;
d ( x a − x p ) − d ( x a − x n ) + α d(x_{a} -x_{p})-d(x_{a}-x_{n})+\alpha d(xaxp)d(xaxn)+α则表示当锚点和正样本之间的距离大于锚点和负样本之间的距离时,通过一个 α \alpha α进行调整,使得整体的损失更小。

5.整体损失

整体损失
如上图所示,A是目标答案;L是目标答案A的长度; θ α \theta_{\alpha} θα是自适应参数。prompt就是上述几个模块产生的嵌入,进行的拼接。 L g L_{g} Lg预测答案A的概率。

实验部分

我们首先关注一下数据集部分:
数据集
ScienceQA,该数据集是一个大规模的多模态科学问答数据集(Lu et al., 2022),每个选择题都伴随着文本或视觉上下文。这个数据集不是纯粹的多模态,只有48.7%的数据包含图像;
MARS,一个新型数据集,用于评估多模态指示图MarKG上的多模态类比推理。

ScienceQA上的实验结果

ScienceQA实验结果
其中,
#T-Params =可训练参数的个数。
NAT =自然科学,
SOC =社会科学,
LAN =语言科学,
TXT =文本上下文,
IMG =图像上下文,
NO =无上下文,
G1-6 = 1-6年级,
G7-12 = 7-12年级。
以前的SOTA结果已下划线。
从图中得到的结论:MR-MKG在平均准确率方面优于所有基线方法。 零样本和少样本学习方法在ScienceQA数据集上的表现仍然不如人类水平,即使使用GPT这样的大型语言模型。 MM-CoT作为当前SOTA方法,虽然性能较高,但需要全参数训练,成本较高。MR-MKG在只训练一小部分参数的情况下,性能依然可以超越MM-CoT。 LLaVA在SOC类别上表现最好,但在其他类别上MR-MKG超越了LLaVA,平均准确率提高了1.86%。这表明MR-MKG在多模态推理方面更有效。 参数高效的LLaMA-Adapter和LaVIN方法无法与MR-MKG相比,MR-MKG在FLAN-T5-11B模型上取得了7.59%和3.37%的绝对改进。 扩大FLAN-T5模型的参数量可以提高MR-MKG的性能,而改变模型结构和参数量后,性能提升幅度较小。

MarKG上的实验结果

MarKG实验结果
实验结果清楚地表明,MR-MKG在MARS数据集上的性能明显优于所有其他方法。多模态知识图嵌入方法和多模态预训练的Transformer模型的性能具有一定的可比性,其中MKGformer表现出更强的性能。相比之下,视觉llama - 27b模型,当配备一个视觉适配器时,达到与MKGformer相当的结果,尽管Hits@1得分略低,但在其他指标上显示出改进。

消融实验

两个部分消融实验
KG的效果显著,增加了5.66;引入了MMKG绩效进一步提高,表明了多模态知识有效地为推理过程补充了额外的信息。Alignment强调了改进LLM中对跨模态信息理解方面的实用性;预训练使得平均值达到92.78%,从而证明了预训练的优势。
然而作者观察到一个有趣的现象,MMKG和跨模态对齐的影响相对较小。这是因为ScienceQA主要是面向文本的。作为一个QA数据集,它的核心问题和选择以文本形式呈现,从而减少了需要视觉知识来回答的问题。于是他又做了个附加的消融实验。
为了证明MMKG和跨模态对齐的真正有效性,作者从ScienceQA手动选择了1973个样本。这些样本都包含图像,它们的主题是社会科学或自然科学。同时假设这些样本需要视觉知识来推理答案。
得到结论,KG的使用使性能提高了3.78%,MMKG的使用使性能提高了1.41%。加入跨模态对齐后,性能提高了0.54%。与原始消融研究中使用MMKG(0.47%)和跨模态对齐(0.15%)的改进相比,性能提高(1.41%和0.54%)更为显著。这证实了MMKG和跨模态对齐模块的真正有效性。

进一步分析
定量分析

令两部分消融实验
左上角是对不同的子图检索方式的探索,可以看到纯文本检索策略是最有效的,其次是文本和图像相结合的检索策略,而纯图像检索方法的效果最差。这种模式可以归因于ScienceQA数据集的特征。这一发现强调了根据手头问题的具体性质调整检索策略的重要性,而不是完全依赖于一种特定的模式。
右下角则是不同知识图嵌入方法的影响,强调了其作为广泛采用的GNN架构的有效性。
定量分析
这里忘记介绍了,子图的检索方法:基于文本或图像信息检索子MMKG G。这涉及到将文本或图像信息以及来自MMKG的所有三元组嵌入到表示空间中。然后计算它们之间的余弦相似度,Top-n相关三元组的所有实体形成E '。随后,根据E '中的实体检索G,包括它们的单跳邻居和连接它们的关系。最后,根据余弦相似度在G中选择Top-N最相关的三元组。
从左侧两图可以看出,不同数量的知识三元组的影响,随着三元组的数量从0增加到10,两个模型的性能都有成比例的提高。然而,随着三胞胎数量从20个增加到30个,出现了一个有趣的趋势。在这个范围内,注意到两个模型的性能都有所下降。这种下降意味着MMKG中有用的知识三元组的数量是有限的,过多的三元组会引入不相关的信息。
从右侧两个图可以看出,不同KGE层数的影响。适当的RGAT层叠加对图结构的编码和知识的表示有积极的影响。

定性分析

两个来自MRAS和scienceQA数据集的例子
左侧图中,在MARS中,该模型旨在根据燃烧图像和(数据,反驳)的示例来预测“煤”。我们的MR-MKG方法从图像中识别并检索“燃烧”、“碳”、“水”和“氧”等实体。subMMKG提供了“燃烧”与“煤”之间的间接联系。碳和煤图像之间的相似性指导模型正确预测“煤”,表明来自mmkg的多模态知识的关键作用。
其实这里的(data ,has use , rebuttal)为什么是rebuttal(反驳),我也不懂。有知道的大神,可以指点指点我,感谢。
右侧图中,在ScienceQA的例子中,问题是“哪个状态是高亮的?”的问题,这个模型必须得到验证确定这个国家的形状。由于缺乏足够的内在知识,没有KG的模型对“Idaho”的预测不准确。然而,在MR-MKG下检索的子mmkg包含有关选项中不同州形状的关键信息,直接通知模型有关Utah形状的信息。

这两个例子都证明了从mmkg中获得的多模态知识的有效性

结论

在这项研究中,本文解决了通过使用多模态知识图来增强LLM多模态推理能力的挑战。本文提出的方法,称为MR-MKG,旨在通过利用MMKG中包含的丰富知识(图像、文本和知识三元组),赋予LLM先进的多模态推理技能。在多模态问答和多模态类比推理任务上的综合实验证明了MR-MKG方法的有效性,在这些任务中取得了最新的结果。此外,本文还进行了一系列消融研究、分析检查和案例研究,以提供额外的有效性证据。

PS:其实作者后面又做了很多额外的实验,作为附录添加。有基于mmkg的数据集构建,介绍了如何从场景图中构建MMKG数据集的做法;介绍了一些不同参数量级的大模型;以及案例研究的其他示例。有感兴趣的可以点击上方论文题目跳转到原文进行查看。后面整理的PPT和论文相关资料,我也会上传到公众号当中,只需要回复论文题目,即可获取

关注我们

欢迎大家关注我们的公众号,我们将会分享更多有关知识图谱和LLM方向的论文请添加图片描述

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐