FB15K-237知识图谱数据集的介绍与分析,Freebase
FB15k是知识图谱Freebase的子集。整个Freebase知识图谱共有19亿个三元组,如下图。而FB15k是从Freebase中取出一小部分主题词组成的数据集,它的统计数据如下:主题词总数14505三元组总数544230关系的种类数474每个主题词的平均三元组数37.5注:FB15k存在着正反关系,他们意义相同,指向相反。上表的统计数据中,将一对正反关系视为两种不同的关系。...
FB15k-237是知识图谱Freebase的子集,15k表示其中知识库中有15k个主题词,237表示共有237种关系。
一、FB15K-237的知识库
整个Freebase知识图谱共有19亿个三元组,如下图。
而FB15k-237的知识库是从Freebase中取出一小部分主题词组成的子图,它的统计数据如下:
主题词总数 | 14505 |
三元组总数 | 544230 |
关系的种类数 | 474 |
每个主题词的平均三元组数 | 37.5 |
每个主题词的平均关系数 | 10.3 |
每个关系连接的平均实体数 | 3.57 |
注:
[1] FB15k存在着正反关系,他们意义相同,指向相反。上表的统计数据中,将一对正反关系视为不同的关系,因此统计数为237*2=474。
FB15k-237又被拆分成train、valid、test三个子集用于训练与验证,统计数据如下
统计属性\集合 | train | valid | test |
主题词总数 | 13781 | 7652 | 8171 |
三元组总数 | 272115 | 17535 | 20466 |
关系的种类数 | 237 | 223 | 224 |
每个主题词的平均三元组数 | 19.75 | 2.29 | 2.50 |
每个主题词的平均关系数 | 6.78 | 1.58 | 1.68 |
每个关系连接的平均实体数 | 2.91 | 1.45 | 1.49 |
注:
[1] train、valid、test集中,不存在反向关系,因此关系数最多为237。
二、FB15K-237的问题集
知识图谱(graph)有544230个三元组、train有272115个三元组、test中有20466个三元组、dev中有17535个三元组。它们都是从freebase的所有三元组的子集,其中:
train的三元组全部包含在graph内;
test和dev的三元组都不在graph或train内;
链路预测/知识图谱补全分为两种补全类型,不妨设已知(h,r)预测t,一种是在原KG中(train)h存在r这条边,但是ground-truth的t不在(h,r)后(缺失答案实体);另一种是原KG中的h不存在r这条边(缺失边)。当然还有一种,h不存在KG中(缺失问题实体),理论上就无法预测了,不讨论。详细情况如下表:
任务 | 数据集 | 容量 | 缺失问 题实体 | 缺失边 | 缺失答 案实体 |
预测尾实体 | test | 20466 | 75 | 4806 | 15585 |
valid | 17535 | 44 | 4150 | 13341 | |
预测头实体 | test | 20466 | 87 | 1913 | 18466 |
valid | 17535 | 60 | 1531 | 15944 |
可见,作为一个链路预测的数据集,test和dev相对于train,多了未知的实体间的连接关系,而实体集是不变的。
三、FB15K-237中的一对多的三元组
FB15K中的三元组有很多不是“一对一”的,很多是“多对一”和“一对多”的。
下表是一对多关系与多对一关系的平均连接的实体数目
集合\关系 | 一对多 | 多对一 |
train | 6.41 | 8.67 |
valid | 3.53 | 5.94 |
test | 3.58 | 5.96 |
一对多:某个地方包含某些地方
多对一:某些人的性别为男
具体例子如下:
一对多:
(2008 Summer Olympics, participating_countries, Djibouti)
(2008 Summer Olympics, participating_countries, Mauritania)
多对一:
(The Last King of Scotland, /film/genre, War film)
(Legends of the Fall, /film/genre, War film)
(Henry V, /film/genre, War film)
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)