GMAI-MMBench:面向普通医疗人工智能的综合多模态评价基准
大型视觉语言模型(LVLMs)是一种多功能的数据处理工具,可广泛应用于医疗领域及其他领域。在医疗领域中,LVLMs具备巨大潜力,能为诊断和治疗提供重要辅助。为了评估LVLMs在医疗应用中的有效性,需要开发基准测试。目前已有的基准测试主要集中在特定学术文献上,并且缺乏对不同感知粒度进行综合评估。因此,这些基准测试面临着一些挑战,如临床相关性有限、评估不完整以及缺乏交互式指导等问题。为解决这些问题,本
GMAI-MMBench:
A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI
Abstract
Large Vision-Language Models (LVLMs) are capable of handling diverse data types such as imaging, text, and physiological signals, and can be applied in various fields. In the medical field, LVLMs have a high potential to offer substantial assistance for diagnosis and treatment. Before that, it is crucial to develop benchmarks to evaluate LVLMs’ effectiveness in various medical applications. Current benchmarks are often built upon specific academic literature, mainly focusing on a single domain, and lacking varying perceptual granularities. Thus, they face specific challenges, including limited clinical relevance, incomplete evaluations, and insufficient guidance for interactive LVLMs. To address these limitations, we developed the GMAI-MMBench, the most comprehensive general medical AI benchmark with well-categorized data structure and multi-perceptual granularity to date. It is constructed from 285 datasets across 39 medical image modalities, 18 clinical-related tasks, 18 departments, and 4 perceptual granularities in a Visual Question Answering (VQA) format. Additionally, we implemented a lexical tree structure that allows users to customize evaluation tasks, accommodating various assessment needs and substantially supporting medical AI research and applications. We evaluated 50 LVLMs, and the results show that even the advanced GPT-4o only achieves an accuracy of 52%, indicating significant room for improvement. Moreover, we identified five key insufficiencies in current cutting-edge LVLMs that need to be addressed to advance the development of better medical applications. We believe that GMAI-MMBench will stimulate the community to build the next generation of LVLMs toward GMAI.
大型视觉语言模型(LVLMs)是一种多功能的数据处理工具,可广泛应用于医疗领域及其他领域。在医疗领域中,LVLMs具备巨大潜力,能为诊断和治疗提供重要辅助。
为了评估LVLMs在医疗应用中的有效性,需要开发基准测试。目前已有的基准测试主要集中在特定学术文献上,并且缺乏对不同感知粒度进行综合评估。因此,这些基准测试面临着一些挑战,如临床相关性有限、评估不完整以及缺乏交互式指导等问题。
为解决这些问题,本文设计并开发了GMAI-MMBench作为通用医疗AI基准测试工具。该工具采用视觉问答形式,并包含39种医学影像模式、18项临床相关任务、18个科室和4种感知粒度共285个数据集。
此外,本文还引入了词汇树结构来满足用户自定义评估任务需求,并积极支持医疗AI研究与应用。通过对50个LVLMs进行评估结果显示即使是先进的GPT-4o模型,在准确率方面也仅达到52%,表明仍存在改进空间。
此外,在当前前沿LVLMs中还存在五个关键不足之处需要解决以推动更高质量的医疗应用发展。相信GMAI-MMBench将促使业界向构建下一代面向GMAI的LVLMs迈进。
Introduction
引言背景
在引言开篇,作者指出,大型视觉语言模型(LVLMs)具备处理多种数据类型(如成像、文本和生理信号)的能力,并在多个领域展现了强大的应用潜力。特别是在医疗领域,LVLMs在辅助诊断和治疗方面拥有巨大前景。然而,在将这些模型应用于临床实践之前,必须首先通过基准测试来评估其在各种医疗应用中的有效性。
现有基准测试的挑战
作者进一步指出,当前医疗领域的基准测试大多基于特定的学术文献,主要聚焦于单一领域,并缺乏不同感知粒度的多样性。这些基准测试面临以下具体挑战:
-
临床相关性有限:现有基准测试往往无法准确反映真实的临床需求,因为它们的数据来源和测试任务与实际临床实践脱节。
-
评估不完整:由于数据和任务的单一性,现有基准测试无法全面评估LVLMs在复杂临床场景下的综合能力。
-
对交互式LVLMs的指导不足:交互式LVLMs需要处理不同粒度的感知信息(如图像整体、区域等),而现有基准测试在这一点上缺乏足够的支持。
GMAI-MMBench的提出
为了克服上述挑战,作者团队提出了GMAI-MMBench,这是一个迄今为止最为全面的通用医疗AI多模态评估基准。该基准具有以下三个核心特点:
全面的医疗知识:
多样化的数据集:GMAI-MMBench由来自世界各地的285个临床相关数据集组成,覆盖了39种医疗图像模态。这些数据集不仅包含了丰富的图像和文本信息,还涵盖了广泛的临床任务和疾病类型。
广泛的数据源:为了确保医疗知识的全面性,GMAI-MMBench的数据集来自不同的临床机构和医院,遍布全球。这些多样化的数据源有助于反映不同地区的临床需求和实际情况。
全面的临床评估:
可定制的任务:GMAI-MMBench设计了一个词汇树结构,允许用户根据具体需求定制评估任务。这一特性使得该基准能够覆盖所有临床方面的评估需求,满足不同临床机构和医生的特定要求。
多样化的任务和部门:基准涵盖了18个临床视觉问答(VQA)任务和18个临床部门,确保了对LVLMs在各种临床任务中的全面评估。
多感知粒度:
从图像到区域的评估:GMAI-MMBench提供了从图像整体到区域级别的多种感知粒度评估方法。这种交互式的评估方式有助于更细致地了解LVLMs在不同粒度下的感知能力。
提升交互式LVLMs的性能:通过对不同粒度下的感知能力进行评估,GMAI-MMBench有望为交互式LVLMs的性能提升提供有价值的指导。
GMAI-MMBench的优势
与现有的医疗多模态基准测试相比,GMAI-MMBench在多个方面表现出显著优势:
-
数据来源的广泛性:GMAI-MMBench的数据集来自全球各地的临床机构和医院,确保了医疗知识的全面性和多样性。
-
数据结构的良好分类:通过词汇树结构对数据和任务进行细致分类,GMAI-MMBench为用户提供了极大的灵活性,使其能够轻松定制评估任务以满足不同需求。
-
多感知粒度的评估:GMAI-MMBench不仅关注图像整体级别的评估,还深入到区域级别,提供了更为细致和全面的评估视角。
-
临床相关性强:由于数据主要来源于医院并由专业医生标注,GMAI-MMBench的评估任务更贴近真实临床场景,具有较高的临床相关性。
GMAI-MMBench 方法细节
数据收集与构建
数据源:
GMAI-MMBench构建于来自全球各地的285个高质量数据集之上,这些数据集涵盖了39种不同的医学图像模态。
数据集的选择基于其多样性、高质量和临床相关性,确保数据覆盖广泛的医学知识和实际应用场景。
数据筛选:
从这些数据集中,精心挑选了约26K个病例,这些病例涵盖了多种医学图像任务,如2D检测、2D分类和2D/3D分割。
选择图像-标签对而非图像-文本对,以减少数据泄露的风险,并确保数据的临床相关性。
数据分类与结构
词汇树结构:
GMAI-MMBench采用了一种称为词汇树结构的分类系统,将所有病例组织成18个临床视觉问答(VQA)任务、18个临床科室、35种模态等。
这种结构允许用户根据特定需求(如科室、任务或模态)检索和评估LVLMs的性能。
任务与科室:
18个临床VQA任务涵盖了广泛的医学应用场景,如疾病诊断、治疗方案推荐等。
18个临床科室包括肿瘤科、泌尿科等,确保了对不同科室需求的全面覆盖。
多感知粒度评估
感知粒度:
GMAI-MMBench支持从图像级到区域级(如掩码、边界框)的多种感知粒度评估。
这种多粒度评估有助于更全面地了解LVLMs在不同任务中的表现,特别是在需要精细感知的医学图像任务中。
评估方法:
通过设计不同粒度的评估任务(如图像级分类、区域级分割等),测试LVLMs在不同粒度下的性能。
评估结果揭示了LVLMs在不同粒度下的优势和不足,为模型改进提供了指导。
评估流程
模型选择:
评估了50个LVLMs,包括38个通用模型和6个医学专用模型,以及先进的专有模型如GPT-4o、GPT-4V等。
评估指标:
使用准确率作为主要评估指标,以衡量LVLMs在GMAI-MMBench上的整体性能。
结果分析:
分析了不同模型在各类任务、科室和感知粒度下的表现,揭示了当前LVLMs在医学应用中的不足和挑战。
提出了五个关键不足点,包括感知错误、缺乏医学领域知识、不相关响应和因安全协议而拒绝回答问题等。
基准的定制性与灵活性
定制性:
GMAI-MMBench的词汇树结构允许用户根据特定需求定制评估任务,满足不同临床科室和专业人士的需求。
灵活性:
基准的灵活性体现在其支持多种模态、任务和感知粒度的评估,能够应对复杂的临床应用场景。
实 验
实验目的
实验的主要目的是评估现有Large Vision-Language Models (LVLMs) 在实际临床场景中的表现,并识别出当前LVLMs在医疗应用中的不足,以推动下一代LVLMs的发展。
实验数据集
- 数据集来源:GMAI-MMBench由来自全球各地的285个高质量数据集组成,涵盖了39种不同的医学图像模态。
- 数据选择:从这些数据集中精心挑选了约26K个案例,用于构建GMAI-MMBench。
- 数据分类:所有案例被组织成18个临床视觉问答(VQA)任务和18个临床部门,并通过词汇树结构进行细致分类。
实验任务
实验采用视觉问答(VQA)格式,评估LVLMs在以下方面的能力:
多模态知识:处理包括成像、文本和生理信号在内的多种数据类型。
临床任务覆盖:涵盖从疾病诊断到治疗建议的各种临床任务。
多感知粒度:从图像级别到区域级别的交互式方法,提供不同程度的感知细节。
实验方法
评估模型:评估了50个LVLMs,包括38个通用模型和6个医疗专用模型,以及先进的专有模型如GPT-4o、GPT-4V、Claude3-Opus等。
评估指标:主要使用准确率(accuracy)作为评估指标。
实验设置:实验在GMAI-MMBench上进行,该基准测试涵盖了多种临床VQA任务、部门和感知粒度。
实验结果
整体表现:
即使是最先进的GPT-4o模型,在GMAI-MMBench上也仅达到52.24%的准确率,表明当前LVLMs在处理医疗专业问题上的不足。
开源LVLMs如MedDr和DeepSeek-VL-7B表现也相当不错,达到了约41%的准确率,与一些专有模型性能相当。
性能差异:
大多数医疗专用模型难以达到通用LVLMs的中等性能水平(约30%准确率),最佳表现来自MedDr。
LVLMs在不同临床VQA任务、部门和感知粒度上的表现不均衡。
感知粒度的影响:
在不同感知粒度的实验中,框级别(box-level)标注的准确率最低,甚至低于图像级别(image-level)标注。
性能瓶颈:
主要性能瓶颈包括感知错误(如图像内容误识别)、缺乏医学领域知识、不相关的响应以及由于安全协议而拒绝回答问题。
实验结论
GMAI-MMBench为评估LVLMs在临床实践中的表现提供了一个全面的基准测试,揭示了当前LVLMs在医疗应用中的显著不足。
实验结果强调了开发下一代LVLMs以更好地满足临床需求的重要性。
GMAI-MMBench的词汇树结构允许用户自定义评估任务,从而支持各种评估需求,并显著促进医疗AI研究和应用的发展。
未来工作
进一步研究如何提升LVLMs在医疗领域的性能,特别是在处理多模态数据和复杂临床任务方面。
扩大数据集规模和覆盖范围,以更全面地评估LVLMs的能力。
探索新的评估指标和方法,以更准确地反映LVLMs在临床实践中的表现。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)