【视觉语言模型+医学】23.06 LLaVA-Med(医学图片视觉助手): Training a Large Language-and-Vision Assistant for Biomedicine
23.06 LLaVA-Med 使用通用领域( general-domain)的 LLaVA 进行初始化.然后60W+6W的数据以课程学习方式(curriculum learning)持续训练(首先是**生物医学概念对齐**(biomedical concept alignment), 然后是全面的指令微调( instruction-tuning))。
一种基于大规模生物医学图像
视觉语言助手 ,一天训练完成(8xA100)
Training a Large Language-and-Vision Assistant for Biomedicine in One Day
LLaVA家族
官方资源汇总
: LLaVa-med Github
主页
23.04.LLaVA1.0论文: Large Language and Vision Assistant(Visual Instruction Tuning)
23.06 LLaVA-Med
(医学图片视觉助手): Training a Large Language-and-Vision Assistant for Biomedicine in One Day
23.10 LLaVA-1.5论文: Improved Baselines with Visual Instruction Tuning
23.11 LLaVA-Plus项目:LLaVA-Plus: Large Language and Vision Assistants that Plug and Learn to Use Skills
24.01 LLaVA-1.6 博客(论文还未出): LLaVA-NeXT: Improved reasoning, OCR, and world knowledge
一、简介
LLaVA-Med 使用通用领域( general-domain)的 LLaVA 进行初始化.
然后以课程学习方式(curriculum learning)持续训练(首先是**生物医学概念对齐
**(biomedical concept alignment), 然后是全面的指令微调
( instruction-tuning))。
1.1 数据集 (60W+6W)
使用 GPT-4 使用从 PubMed Central
生物医学图像-文本对
自行构建生物医学多模态指令跟踪数据
生物医学多模态指令数据的统计:
(a,b)指令和响应的词根动词-名词对,其中图的内部圆圈表示输出响应的词根动词,外圈表示直接名词。
© 图像和 QA 对在五个域上的分布,每个域显示一张图像。
- Chest X-Ray(
胸部X线检查
):这是一种医学影像检查方法,通过X射线穿透胸部组织,再经过特殊的处理,使穿透后的X射线在胶片或荧光屏上形成胸部影像,从而帮助医生诊断胸部疾病。 - MRI(
磁共振成像
):这是一种利用磁场和射频脉冲产生人体组织图像的医学影像技术。MRI能够提供丰富的组织信息,对于软组织如脑、脊髓、关节等的成像效果尤为突出。 Histology(组织学)
:这是研究生物体各种组织的结构、形态、功能及其相互关系的一门学科。它通常用于研究不同种类的生物体内各种组织的形态结构、功能以及相互关系,是生物学、医学、动物学等领域的重要学科。- Gross pathology(大体病理学):这是病理学的一个分支,主要研究**
肉眼可见
的病变或组织改变**。大体病理学主要关注病变的整体形态和结构,是疾病诊断的重要依据。 - CT(计算机断层扫描):这是一种医学影像检查技术,通过X射线对人体某一部位进行断层扫描,然后经计算机处理得到该部位的横断面或立体图像。CT检查能够提供高分辨率的图像,对于多种疾病的诊断有重要作用。
1.1.1 实际的指令样本
图 1:我们的 GPT-4 生成指令跟踪数据的一个实例。
图和标题是从 PubMed Central 全文文章中提取的,以及相应的引用(文章中给定图的提及)。
底部:GPT-4 仅使用文本(标题和引用)生成的指令跟踪数据。请注意,图像不用于提示
GPT-4;我们仅将其此处显示为参考。
1.2 如何训练?
Stage-1:生物医学概念特征对齐。PMC-15M to 600K image-text pairs
Stage-2:端到端指令调整
高精度微调:对下游数据集进行微调:
1.3 评测结果
结果如表1所示。单独使用Stage-1训练的LLAVA-Med作为聊天机器人是不够的,因为它失去了遵循不同指令的能力,尽管提高了生物医学概念覆盖率。
具有完整两阶段训练的 LLaVA-Med 始终优于一般领域 LLAVA,使用更大的指示数据进行训练(从 10K 到 60K 样本)会导致更高的性能。在自构造中考虑了内联提及时,生成的数据 60K-IM 略微提高了聊天能力
对于最好的LLAVA-Med,它匹配
GPT-4的50.2%性能
。注意,GPT-4是直接输入真实标题和黄金内联提及来生成响应(golden inline mentions),而不需要理解图像。虽然 LMM 和 GPT-4 之间没有公平的比较,但 GPT-4 是一个一致可靠的评估工具。
1.4 展示效果
医学视觉聊天和推理能力的示例比较。
仅语言的 GPT-4 被视为性能上限,因为黄金字幕和内联提及被输入 GPT-4 作为上下文,而不需要模型理解原始图像。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)