OpenKG地址:http://openkg.cn/dataset/zgjdlsrw

项目地址:http://www.zjuwtx.work/project/kg

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:浙江大学(王天笑)


1、引言

中国近代历史涌现了⼤量的杰出⼈物和事迹,史料文献丰富,构成了一个庞⼤的知识体系。本项⽬旨在收集挖掘中国近代历史⼈物信息,构建⼈物及其相关实体的知识图谱,为历史资料的检索和研究⼯作提供帮助。

2、知识图谱构建

2.1 数据来源

中国近现代历史⼈物信息主要来源于百度百科和历史记两个⽹站。通过 python scrapy 爬⾍获取了 近1300位⼈物的结构化数据,半结构化数据和⽂本数据。其中,结构化数据主要包含⼈物的姓名、字号、出⽣地、⽣卒年⽉等信息;半结构化数据包括⼈物间的关系、历史成就等;⽂本数据主要是⼈物的生平介绍、评论等,有⽹站负责编辑维护,语⾔描述和记录的史料不⼀定完全准确。

2.2 数据处理

2.2.1 半结构化数据处理

  • 数据变换:从半结构化数据中提取信息,转化汇总成相同的格式,例如 

    74b500317657e04e34a29fd46012c5d0.png

  • 数据清理:将明显不正确的信息删除,例如 

    075328fdff443ea7c4806360018efe0e.png

  • 数据集成:整合两个数据源的数据,如果有不一致,直接删除

2.2.2 文本数据处理

项目尝试了基于语义⻆⾊标注和基于深度学习的实体关系抽取⽅法。

(1)基于LTP语义角色标注的实体关系抽取

LTP(Language Technology Platform)是由哈尔滨工业⼤学开源的中⽂⾃然语⾔处理⼯具,用户可以使⽤这些⼯具对于中⽂⽂本进⾏分词、词性标注、句法分析等等⼯作。Github:https://github.com/HIT-SCIR/ltp 

使⽤LTP提供的语义⻆⾊标注分解句⼦:

484754ca896fa12a6f0ed98fa7969676.png

上述例句被分解为了中⼼语(动词:加⼊),主语A0(王俊昌),宾语A1(中国共产党)和时间状 语ARGM-TMP(1943年2⽉)。通过构建基于语义⻆⾊标注的规则,可以从⽂本数据中提取符合规则的关系,准确度较⾼。但规则构建依赖⼈⼯。

(2)基于OpenUE的实体关系抽取

OpenUE 是⼀个轻量级知识图谱抽取⼯具,⽤于基于预训练语言模型的知识图谱抽取任务。Github:https://github.com/zjunlp/OpenUE 

使⽤OpenUE⼯具包和默认ske数据集训练并执⾏抽取。在简单句⼦中准确率较⾼,但是在所有⽂本 数据中的表现并不理想。原因可能是⽂本语句通常⽐较复杂,且句⼦间存在上下⽂关联的情况。例如主 语缺失等。

(3)基于OpenNRE的人物关系抽取

OpenNRE 是⼀个开源且可扩展的工具包,它提供了一个统⼀的框架来实现关系提取模型。项⽬尝 试使⽤基于OpenNRE的中⽂人物关系抽取,Github:https://github.com/taorui-plus/OpenNRE

按照上述Github项⽬的描述训练模型并执⾏关系提取任务,结果同样在简单句型中表现良好,但在 多数复杂句型中出现了遗漏和错误。综上所述,出于准确度、史实正确性优先的考虑,项目最终使⽤了基于语义⻆⾊标注的实体关系抽取⽅法。

3、知识图谱存储

项目基于neo4j图数据库存储实体关系数据。实体对象共3类:⼈物,组织(学校),成就(作品)。其中人物包含属性:名称、附加名称、出⽣地、出⽣⽇期、死亡⽇期、⼯作职责、名族、国籍(在华外籍⼈物)。实体关系共3个⼤类:相关⼈物、毕业于、创作。相关⼈物可细分为7个⼦类,21个具体关系,如下图所示:

b1b3af593f0be3b6bf8fdbaa0ec5a47e.png

4、知识图谱应用

项目最终成果使⽤BS形式部署上云。后端打包为Docker镜像部署到阿⾥云ECI,前端部署到阿⾥云CDN。可以访问 http://www.zjuwtx.work/project/kg 查看。

4.1 人物检索

基本的⼈物检索功能,查看⼈物属性以及与其他实体间的关系。

dce0ac00ea0faa9f540fb76b663ec0f7.png

4.2 图谱推理

基于规则的图谱推理,通过⾃定义Cypher脚本实现。包括关系推理和属性补全。

4.3 知识众包

考虑到数据来源有限,同时数据内容以及数据处理过程不可避免地会存在⼀些问题,导致了图谱知识的缺失和错误。项目提供了知识众包功能,所有⽤户可以快速提交新增、修改数据的请求,在审核通过后会合并到现有的知识图谱中。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

7f4df756fbf4d8b28eedca8f4f8ae4a1.png

点击阅读原文,进入 OpenKG 网站。

Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐