FB15k-237是知识图谱Freebase的子集,15k表示其中知识库中有15k个主题词,237表示共有237种关系。

一、FB15K-237的知识库

整个Freebase知识图谱共有19亿个三元组,如下图。

而FB15k-237的知识库是从Freebase中取出一小部分主题词组成的子图,它的统计数据如下:

主题词总数14505
三元组总数544230
关系的种类数474
每个主题词的平均三元组数37.5
每个主题词的平均关系数10.3
每个关系连接的平均实体数3.57

 注:

[1] FB15k存在着正反关系,他们意义相同,指向相反。上表的统计数据中,将一对正反关系视为不同的关系,因此统计数为237*2=474。

FB15k-237又被拆分成train、valid、test三个子集用于训练与验证,统计数据如下

统计属性\集合trainvalidtest
主题词总数1378176528171
三元组总数2721151753520466
关系的种类数237223224
每个主题词的平均三元组数19.752.292.50
每个主题词的平均关系数6.781.581.68
每个关系连接的平均实体数2.911.451.49

注:

[1] train、valid、test集中,不存在反向关系,因此关系数最多为237。 

二、FB15K-237的问题集

知识图谱(graph)有544230个三元组、train有272115个三元组、test中有20466个三元组、dev中有17535个三元组。它们都是从freebase的所有三元组的子集,其中:

train的三元组全部包含在graph内;

test和dev的三元组都不在graph或train内;

链路预测/知识图谱补全分为两种补全类型,不妨设已知(h,r)预测t,一种是在原KG中(train)h存在r这条边,但是ground-truth的t不在(h,r)后(缺失答案实体);另一种是原KG中的h不存在r这条边(缺失边)。当然还有一种,h不存在KG中(缺失问题实体),理论上就无法预测了,不讨论。详细情况如下表:

任务数据集容量

缺失问

题实体

缺失边

缺失答

案实体

预测尾实体test2046675480615585
valid1753544415013341
预测头实体test2046687191318466
valid1753560153115944

可见,作为一个链路预测的数据集,test和dev相对于train,多了未知的实体间的连接关系,而实体集是不变的。

三、FB15K-237中的一对多的三元组

FB15K中的三元组有很多不是“一对一”的,很多是“多对一”和“一对多”的。

下表是一对多关系与多对一关系的平均连接的实体数目

集合\关系一对多多对一
train6.418.67
valid3.535.94
test3.585.96

一对多:某个地方包含某些地方

多对一:某些人的性别为男

具体例子如下:

一对多:

(2008 Summer Olympics, participating_countries, Djibouti)
(2008 Summer Olympics, participating_countries, Mauritania)

 多对一:

(The Last King of Scotland, /film/genre, War film)
(Legends of the Fall, /film/genre, War film)
(Henry V, /film/genre, War film)

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐