多模态模型评测神器 | OpenCompass MMBench 了解一下！

MMBench 是 OpenCompass 研究团队自建的视觉语言模型评测数据集，可实现从感知到认知能力逐级细分评估。研究团队从互联网公开信息与权威基准数据集采集约 3000 道单项选择题，覆盖目标检测、文字识别、动作识别、图像理解、关系推理等 20 个细粒度评估维度。

司南OpenCompass

2378人浏览 · 2024-08-06 14:50:07

司南OpenCompass · 2024-08-06 14:50:07 发布

MMBench 是什么呢？

为什么要推出 MMBench?

伴随着大语言模型的发展，一系列多模态模型也在短时间内如雨后春笋般涌现了出来。但是，如何来全面地评估一个多模态模型仍然是一个比较棘手的问题。当前模型测试的方式均存在一些固有的问题，主要分为以下三类：

评测问题多样性不足

这种方式能呈现模型在特定问题上的回答。

然而，由于评测问题的数量有限，多样性不足，往往难以全面反映模型的真实性能。

主观评测认知偏差

这种方式通过人为构造一些 prompt，以人来比较各个模型在这些 prompt 上面的回答效果。

但这种方式除了评测问题数量少和缺乏多样性的问题，由于人具有认知偏差，所以论文中的评测结果往往很难复现，同时也存在不能无法全方位评估的问题。

传统客观评测集测试

传统的评测方法主要是看模型在像回答问题、给图片写说明这样的任务上做得好不好。

它有一些缺点，比如不能很详细地评估模型的能力，这存在假阳性的问题。

为了解决这些问题，OpenCompass提出了MMBench，用来评估大型多模态模型。这个方法主要有两个部分：

自上而下的能力维度设计，根据定义的能力维度构造了一个评测数据集

引入 ChatGPT，以及提出了 CircularEval 的评测方式，使得评测的结果更加稳定

基于感知与推理将评估维度逐级细分

数据集构造

OpenCompass 研究团队自上而下定义了三级能力维度 (L1-L3)：

第一级维度（L1）包含感知与推理两项能力

第二级能力维度（L2) 在第一级的能力维度下进行拓展，包含 6 项能力

第三级能力维度（L3）进一步在第二级能力维度的基础上进行拓展，包含 20 个能力维度。

各级能力维度的包含关系如下图所示：

针对每一项 L3 能力，OpenCompass 研究团队进行了相关问题的收集，为了保证评估的结果更稳定全面，针对每一项 L3 能力都收集了超过 75 题，具体的数量分布如上图所示，括号里面显示了该项能力维度下有多少道题目。

题目展示

为了简化评测流程，所有的题目都被设计为了单项选择形式，下图展示了 MMBench 评测数据集中的一些题目：

评测方法

ChatGPT 辅助评测

现在的开源模型在按照指示来执行任务方面还不够完善。为了解决这个问题，OpenCompass 研究团队提出用 ChatGPT 来帮忙评测模型。具体流程如下：

模型的回答中直接提到了某个选项的名字，就直接把这个选项当作模型的答案。
模型的回答里没有直接提到选项的名字，就用 ChatGPT 进行辅助。ChatGPT 会从选项里找出和模型回答最相似的那个，然后就把这个选项当作模型的答案。
模型回答的内容和所有选项都不匹配，就用一个特殊的标签“X”来表示模型答不上来这个问题。虽然这种情况在实际评测中很少出现，但这样设计可以让评测流程更加完整。

这样基于 ChatGPT 匹配模型输出与选项的方法，即使模型未按照指令输出也可准确匹配至最合理选项。

CircularEval

为了尽可能消除随机性以及让评测结果更 robust，研究团队提出了 CircularEval 的评测方法。

CircularEval 的主要思想就是将问题选项按环状进行重排，然后将每次重排之后的选项提供给多模态模型，当且仅当每次模型都回答正确了，才认为模型成功回答该题，保证了结果的可复现性。具体流程如下:

同时，CircularEval 相比常规评测 (VanillaEval) ，CircularEval 下模型的性能出现了显著的降低，更好地体现出了多模态模型的真实性能

目前，MMBench 已经被 HuggingFace 收录于 HuggingFaceM4，欢迎大家在 MMBench 上测试。

Paper 链接:

https://arxiv.org/pdf/2307.06281.pdf

Project 链接:

https://github.com/open-compass/mmbench/

Leaderboard 链接:

https://mmbench.opencompass.org.cn/leaderboard

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

新华网：开源盛会在江城——2024开放原子开发者大会侧记

开源盛会在江城——2024开放原子开发者大会侧记

开放原子开发者工作坊

新华社：释放开源潜能，加快构筑软件创新“朋友圈”

释放开源潜能，加快构筑软件创新“朋友圈”

开放原子开发者工作坊

开源鸿蒙：引领万物智联，加速生态崛起

开放原子开发者工作坊

所有评论(0)

查看更多评论

司南OpenCompass

@OpenCompass

已为社区贡献2条内容

多模态模型评测神器 | OpenCompass MMBench 了解一下！

司南OpenCompass

MMBench 是什么呢？

为什么要推出 MMBench?

评测问题多样性不足

主观评测认知偏差

传统客观评测集测试

基于感知与推理 将评估维度逐级细分

数据集构造

题目展示

评测方法

ChatGPT 辅助评测

CircularEval

所有评论(0)

司南OpenCompass

基于感知与推理将评估维度逐级细分