1、什么是WordNet

WordNet是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。

WordNet是一个覆盖范围宽广的英语词汇语义网。名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接。

Wordnet的词汇结构包括九大类:上下位关系(动词、名词)、蕴含关系(动词)、相似关系(名词)、成员部分关系(名词)、物质部分关系(名词)、部件部分关系(名词)、致使关系(动词)、相关动词关系(动词)、属性关系(形容词)。

2、结构

WordNet中单词之间的主要关系是同义词关系,比如shut和close是同义词,car和automobile是同义词。这些同义词(表示相同概念并且在许多情况下可以互换的单词)被分组为无序的同义词集合(synsets)。wordnet中一共有11.7万个这样的同义词集合。

每一个synset都通过conceptual relation(见第三部分和第四部分所述)与其他的synsets相连接。另外,每一个synset中都包含简短的定义和一些使用样例,说明该synset表示的概念和用法。

3、关系

3.1 上位词和下位词关系

synsets之间最常见的关系是上位词和下位词关系(hypernym vs hyponymy)。

  • 上位词关系表示一个词的词义比另一个词的词义更加泛化,e.g. fruit是apple的上位词。
  • 下位词关系表示一个词的词义比另一个词的词义更加具体,e.g. apple是fruit的下位词。

这种关系是具有传递性的。比如摇摇椅是一种椅子,椅子又是一种家具,那么摇摇椅是一种家具。

3.2 整体-部分关系

一个词是另一个词的一部分,这就是整体部分关系。比如靠背是椅子的一部分、桌脚是桌子的一部分等等。

  • 部分关系可以从上位词继承,比如桌子是有桌脚的,那么餐桌也会有桌脚。
  • 部分关系是不能向上传递的,比如椅子有靠背,并不代表所有家具都有靠背。

 

3.3 动词关系

动词的synsets集合也有类似上述的层次结构。在这种层级结构中,越靠近叶节点的动词表示动作越来越具体,比如communicate->talk->whisper(音量越来越具体),move->jog->run(速度越来越具体),like->love->idolize(情感越来越具体)。

另外,某些动作与完成这些动作时所必经的一些动作之间也有单向边连接。比如buy->pay,succeed->try,show->see。

3.4 形容词关系

形容词synsets之间的关系是根据反义词关系来组织的。比如dry和wet,old和young。这些反义词关系表示了synsets之间的强语义约束性。而每一个反义词关系两边的形容词synset又与很多语义相似的形容词相连,比如dry和parched、arid、dessicated等相连,wet和soggy、waterlogged等相连。

3.5等

 

 

4、把玩指南

WordNet官网可以在线查询synset:

 

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐