知识图谱常用评价指标:MRR,MR,HITS@K,Recall@K,Precision@K
MRR的全称是Mean Reciprocal Ranking(排名的倒数),其中Reciprocal是指“倒数的”的意思。该指标越大越好(即预测排名越靠前,倒数就越大,求和结果越大越好)。MRR=∣S∣1∑i=1∣S∣ranki1=∣S∣1(rank11+rank21+⋅⋅⋅+ranki1)其中S是三元组集合,∣S∣是三元组集合个数,ranki。
一、MRR
MRR的全称是Mean Reciprocal Ranking(排名的倒数),其中Reciprocal是指“倒数的”的意思。该指标越大越好
(即预测排名越靠前,倒数就越大,求和结果越大越好)。具体的计算方法如下:
M R R = 1 ∣ S ∣ ∑ i = 1 ∣ S ∣ 1 r a n k i = 1 ∣ S ∣ ( 1 r a n k 1 + 1 r a n k 2 + ⋅ ⋅ ⋅ + 1 r a n k i ) MRR=\frac{1}{|S|} \sum_{i=1}^{|S|} \frac{1}{rank_i}=\frac{1}{|S|}(\frac{1}{rank_1}+\frac{1}{rank_2}+\cdot\cdot\cdot+\frac{1}{rank_i }) MRR=∣S∣1∑i=1∣S∣ranki1=∣S∣1(rank11+rank21+⋅⋅⋅+ranki1)
其中 S S S是三元组集合, ∣ S ∣ |S| ∣S∣是三元组集合个数, r a n k i rank_i ranki是指第 i i i个三元组的链接预测排名。例如,对于三元组(Jack,born_in,Italy),链接预测的结果可能是:
h | r | t | score | rank |
---|---|---|---|---|
Jack | born_in | Ireland | 0.789 | 1 |
Jack | born_in | Italy | 0.753 | 2 |
Jack | born_in | Germany | 0.695 | 3 |
Jack | born_in | China | 0.456 | 4 |
Jack | born_in | Thomas | 0.234 | 5 |
那么,三元组(Jack,born_in,Italy)的链接预测排名则是2.
二、MR
MR的全称是Mean Rank。该指标越小越好
(排名越靠前rank越小,求和也就更小),具体的计算方法如下:
M
R
=
1
∣
S
∣
∑
i
=
1
∣
S
∣
r
a
n
k
i
=
1
∣
S
∣
(
r
a
n
k
1
+
r
a
n
k
2
+
⋅
⋅
⋅
+
r
a
n
k
i
)
MR=\frac{1}{|S|} \sum_{i=1}^{|S|} rank_i=\frac{1}{|S|}(rank_1+rank_2+\cdot\cdot\cdot+rank_i)
MR=∣S∣1∑i=1∣S∣ranki=∣S∣1(rank1+rank2+⋅⋅⋅+ranki)
三、HITS@K
top-k推荐:从最后的按得分排序的推荐列表中返回前k个结果。
该指标是指在链接预测中排名小于
k
k
k的三元组的平均占比。具体的计算方法如下:
H I T S @ K = 1 ∣ S ∣ ∑ i = 1 ∣ S ∣ I ( r a n k i ≤ k ) HITS@K=\frac{1}{|S|} \sum_{i=1}^{|S|} \mathbb{I}(rank_i\le k) HITS@K=∣S∣1∑i=1∣S∣I(ranki≤k)
其中,上述公式涉及的符号和MRR计算公式中涉及的符号一样,另外 I ( ⋅ ) \mathbb{I}(\cdot) I(⋅)是indicator函数(若条件真则函数值为1,否则为0)。一般地,取k等于1、3或者10。该指标越大越好。
四、Recall@K,Precision@K
首先需要搞清Recall和Precision的含义,具体含义参考:分类之混淆矩阵(Confusion Matrix)
;类比HITS@K。
Precision@K准确率是指前topK结果中检索出相关结果数与检索出的结果总数的比率,衡量的是检索系统的查准率;
Recall@K召回率是指前topK结果中检索出的相关结果数和库中所有的相关结果数的比率,衡量的是检索系统的查全率。
参考链接
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)