【多模态+数据集】LLaVa1.5训练数据集解析(用于参考制作自己数据集)
多模态数据集制作
LLaVa 家族 (L
arge L
anguage a
nd V
ision A
ssistant )
代码: https://github.com/haotian-liu/LLaVA
LLaVA-1.5论文: 23.10.Improved Baselines with Visual Instruction Tuning
LLaVA-1.5论文解析:https://blog.csdn.net/imwaters/article/details/136896668
LLaVA1.5 训练用到的数据集
一、特征对齐数据集 558K
558K subset of the LAION-CC-SBU dataset with BLIP captions
二、66.5w视觉对话微调数据集构成
指令微调用到的对话数据集:主要由llava_v1_5_mix665k.json
- COCO: train2017
- GQA: images
- OCR-VQA: download script, **
.jpg
** || huggingface 直接查看 || 论文 - TextVQA: train_val_images
- VisualGenome: part1, part2
整理后的结构
├── coco
│ └── train2017
├── gqa
│ └── images
├── ocr_vqa
│ └── images
├── textvqa
│ └── train_images
└── vg
├── VG_100K
└── VG_100K_2
LLaVA1.0 (158K)
4.1 GQA (图片深入理解-问答)
官网: https://cs.stanford.edu/people/dorarad/gqa/download.html
论文:GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering
使用了Visual Genome场景图结构来创建多达22M个多样化的推理问题,并附带了表示语义的功能程序
4.2 Textcaps数据集 (对原始的testvqa数据集重新打标)
论文:20.03.TextCaps: a Dataset for Image Captioning with Reading Comprehension
官网下载:https://textvqa.org/textcaps/dataset/
旨在探究图像字幕生成中的阅读理解任务。该数据集包含了
28,408张图像
和142,040个字幕,要求模型能够读取并理解图像中的文本信息,生成连贯的描述
基于图片中的文字进行描述(OCR+人类标准订正)
为每张图像收集了五个独立的标题。为测试集收集了另外 6 个标题
4.3 OCR-VQA-200K (图书封面文字问答,本模型训练只选了其中80K)
图片下载地址:https://www.kaggle.com/datasets/power0341/ocr-vqa-200k-full/download?datasetVersionNumber=1
论文地址:OCR-VQA: Visual Question Answering by Reading Text in Images
20万张图片,100万图像对
具体的问题问题:关于书的作者
4.4 VG (visual genome) 检测框+文字描述 (100k图片)
论文:Visual Genome: 视觉基因组_使用众包密集图像注释连接语言和视觉
1602.Connecting Language and Vision Using Crowdsourced Dense Image Annotations
包含了
108,249张图像
,并为每张图像提供了多个区域的描述和QA对,以及整张图像的场景图
并为每张图像提供了多个区域的描述和QA对,以及整张图像的场景图
4.5 OK-VQA: 需要外部知识视觉问答数据集 (原始14K问题)
OK-VQA:Outside Knowledge Visual Question Answering (图像内容不足以回答问题,需要借助外力)
论文:1906.A Visual Question Answering Benchmark Requiring External Knowledge
图 2:数据集示例。显示了一些示例问题及其相应的图像和答案。我们展示了每个知识类别的一个示例问题 (翻译后的)
4.6 A-OKVQA (增强外部知识的视觉问答)
论文:Augmented OK-VQA : 2206. A Benchmark for Visual Question Answering using World Knowledge
图1: 数据集示例
该数据集包括需要使用各种知识类型进行推理的问题,例如常识、世界知识和视觉知识。我们提供多项选择 (Multiple-Choice,MC) 和直接答案评估设置。训练集中每个问题都有一个基本原理(rationale),为回答问题提供解释/知识。
VQAv2
论文:1703.Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering
作者收集了成对的类似图片,每个问题对应两个不同的答案,使得模型必须依靠视觉信息来正确回答问题
图1 数据集说明
图2 其他案例
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)