LLaVa 家族 (Large Language and Vision Assistant )

代码: https://github.com/haotian-liu/LLaVA
LLaVA-1.5论文: 23.10.Improved Baselines with Visual Instruction Tuning

LLaVA-1.5论文解析:https://blog.csdn.net/imwaters/article/details/136896668

LLaVA1.5 训练用到的数据集

一、特征对齐数据集 558K

558K subset of the LAION-CC-SBU dataset with BLIP captions

二、66.5w视觉对话微调数据集构成

指令微调用到的对话数据集:主要由llava_v1_5_mix665k.json

在这里插入图片描述
整理后的结构

├── coco
│   └── train2017
├── gqa
│   └── images
├── ocr_vqa
│   └── images
├── textvqa
│   └── train_images
└── vg
    ├── VG_100K
    └── VG_100K_2

LLaVA1.0 (158K)

**加粗样式**

4.1 GQA (图片深入理解-问答)

官网: https://cs.stanford.edu/people/dorarad/gqa/download.html
论文:GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

使用了Visual Genome场景图结构来创建多达22M个多样化的推理问题,并附带了表示语义的功能程序
在这里插入图片描述

4.2 Textcaps数据集 (对原始的testvqa数据集重新打标)

论文:20.03.TextCaps: a Dataset for Image Captioning with Reading Comprehension
官网下载:https://textvqa.org/textcaps/dataset/

旨在探究图像字幕生成中的阅读理解任务。该数据集包含了28,408张图像142,040个字幕,要求模型能够读取并理解图像中的文本信息,生成连贯的描述

基于图片中的文字进行描述(OCR+人类标准订正)
为每张图像收集了五个独立的标题。为测试集收集了另外 6 个标题
在这里插入图片描述

4.3 OCR-VQA-200K (图书封面文字问答,本模型训练只选了其中80K)

图片下载地址:https://www.kaggle.com/datasets/power0341/ocr-vqa-200k-full/download?datasetVersionNumber=1
论文地址:OCR-VQA: Visual Question Answering by Reading Text in Images

20万张图片,100万图像对
在这里插入图片描述
具体的问题问题:关于书的作者
在这里插入图片描述

4.4 VG (visual genome) 检测框+文字描述 (100k图片)

论文:Visual Genome: 视觉基因组_使用众包密集图像注释连接语言和视觉
1602.Connecting Language and Vision Using Crowdsourced Dense Image Annotations

包含了108,249张图像,并为每张图像提供了多个区域的描述和QA对,以及整张图像的场景图

并为每张图像提供了多个区域的描述和QA对,以及整张图像的场景图
在这里插入图片描述

4.5 OK-VQA: 需要外部知识视觉问答数据集 (原始14K问题)

OK-VQA:Outside Knowledge Visual Question Answering (图像内容不足以回答问题,需要借助外力)
论文:1906.A Visual Question Answering Benchmark Requiring External Knowledge

图 2:数据集示例。显示了一些示例问题及其相应的图像和答案。我们展示了每个知识类别的一个示例问题 (翻译后的)
在这里插入图片描述

4.6 A-OKVQA (增强外部知识的视觉问答)

论文:Augmented OK-VQA : 2206. A Benchmark for Visual Question Answering using World Knowledge

图1: 数据集示例
该数据集包括需要使用各种知识类型进行推理的问题,例如常识、世界知识和视觉知识。我们提供多项选择 (Multiple-Choice,MC) 和直接答案评估设置。训练集中每个问题都有一个基本原理(rationale),为回答问题提供解释/知识。
在这里插入图片描述

VQAv2

论文:1703.Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

作者收集了成对的类似图片,每个问题对应两个不同的答案,使得模型必须依靠视觉信息来正确回答问题

图1 数据集说明

在这里插入图片描述

图2 其他案例

在这里插入图片描述

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐