Multi-Sentence Compression: Finding Shortest Paths in Word Graphs(2010)
摘要我们考虑了用一个短句来概括一组相关句子的任务,我们称之为多句压缩,并提出了一种基于最短路径的简单方法。该方法的优点和新颖之处在于,它是一种语法化的方法,只需要一个标记器和一个标记器。尽管它很简单,但正如我们对英语和西班牙语数据的实验所证明的那样,它能够生成语法和信息摘要。1.引言句子压缩(SC)是一项任务,其目标是生成一个句子的摘要,以保留内容的重要部分并符合语法。从[]的早期工作开始,在过去
·
摘要
我们考虑了
用一个短句来概括一组相关句子的任务,我们称之为多句压缩,并提出了一种基于最短路径的简单方法。该方法的优点和新颖之处在于,
它是一种语法化的方法,只需要一个标记器。尽管它很简单,但正如我们对英语和西班牙语数据的实验所证明的那样,它能够生成
语法和信息摘要。
1.引言
句子压缩(SC)是一项任务,其目标是生成一个句子的摘要,以保留内容的重要部分并符合语法。从[]的早期工作开始,在过去的十年中,SC受到了NLP社区的广泛关注。移动设备的普遍使用是SC应用的一个明显例子——电子邮件、新闻或维基百科文章的较长文本可以逐句压缩,以适应有限的显示[]。SC如此流行的另一个原因是它对于单个或多文档的抽取文本摘要的潜在实用性[]。在那里,
一个标准的方法是根据重要性对句子进行排序,根据相似度对句子进行聚类,然后从排名靠前的聚类中选择一个句子。选定的句子几乎总是需要修改,并且可以简洁地重新编排,因为它通常只是句子中感兴趣的一部分。正是这种多文档摘要场景激发了我们的工作。
给出一组相似的或相关的句子,我们的
目的是用一个简短的句子来概括它最突出的主题。我们将此任务称为
多句压缩。这样定义,
它接近于句子融合,最初是作为一种文本到文本的生成技术引入的,用一个句子来表达大多数输入句子共有的内容[]。然而,现在这项技术得到了扩展,
以至于现在融合也代表将补充内容统一在一个简洁的句子中[]。
由于我们的方法不是为“并集”类型的融合而设计的,因此我们认为将其归类为一种句子压缩技术更合适。
SC和文本摘要的两个挑战是:(1)重要的内容选择和(2)可读性表示。大多数现有的系统使用句法信息来产生语法压缩。顺便说一句,
句法也提供了可能重要的线索,
例如,主句的主语和动词可能比介词短语或关系从句中的动词更重要。
当然,语法并不是衡量单词或短语重要性的唯一方法。
在句子压缩被用于文本摘要的情况下,人们需要处理丰富的上下文来识别重要的单词或短语。
例如,重复出现的或语义相似的词可能是相关的,并且这些信息已经在早期的SC系统中使用过[]。
尽管如此,句法分析器被认为是句子压缩和融合不可或缺的工具,因为句法约束(手工制作或从数据中学习)似乎是控制输出语法性的唯一方法。在本文中,
我们将质疑这一公认的观点,并认为就像在某些情况下,语法有助于找到重要内容(例如,当输入是一个孤立的句子时),在多句情况下,案例冗余提供了一种生成语法句子的可靠方法。特别是我们工作的重点和新意如下:
-
我们提出了一种简单而健壮的基于词图的方法来生成简洁的压缩,它只需要一个词性标记器和一个停止词列表。
-
据我们所知,它是第一种既不需要解析器,也不需要手工规则,也不需要语言模型来生成合理语法输出的方法。
2.多句压缩
抽取式多文档摘要系统的一个众所周知的挑战是生成非冗余摘要。有两种标准的避免冗余的方法:
一种是在摘要中逐个添加句子,每次检查句子是否与已有的句子有显著差异(例如,使用MMR),另一种是对相关句子进行聚类,并从每个聚类中只选择一个。
在这两种情况下,一个选定的句子可能包含不相关的信息,因此人们希望压缩它,通常是通过考虑句法和词汇因素。然而,
我们认为这种方法在这种情况下是次优的,并探索了一种不同的方法。
我们不是压缩一个句子,而是从相关句子的所有单词中构建一个单词图并压缩这个图。
词图是一个有向图,其中从词A到词B的边表示邻接关系。它还包含开始和结束节点。词图在自然语言处理中被
广泛用于建立语言模型、释义、对齐等。与依赖图相比,它们在句子生成中的应用在很大程度上还没有被探索,这可能是因为几乎所有的语法信息都从这个表示中丢失了。
事实上,限定动词和冠词之间的联系并不对应于两者之间的任何语法关系.然而,我们
工作的前提是,冗余度不仅要足以识别重要的词,还要识别词与词之间的显著联系。在本节中,我们将介绍词图压缩的方法。我们首先解释图构造过程,然后继续介绍两种压缩方法的细节。
(1)词图构造
给定一组相关的句子S={s1,s2,…sn},我们通过迭代添加句子来构建一个词图。作为一个例子,考虑下面的四个句子和图1中的图表。为了清晰起见,省略了边缘权重,并用
点替换了句子中省略部分。
①The wife of a former U.S. president Bill Clinton Hillary Clinton visited China last Monday.
②Hillary Clinton wanted to visit China last month but postponed her plans till Monday last week.
③Hillary Clinton paid a visit to the People Republic of China on Monday
④ Last week the Secretary of State Ms. Clinton visited Chinese officials.
在第一个句子被添加之后,这个图仅仅是一个单词节点的字符串(标点符号被排除在外)加上开始和结束符号(图1中的S和E)。
下列句子中的一个单词被映射到图中的一个节点上,前提是它们具有完全
相同的小写单词形式和词性,
并且此句子中的任何单词都没有映射到此节点上。
使用词性信息可以减少将动词与名词(如visit)合并并生成不合语法的序列的机会。
如果图中没有候选节点,则会创建一个新节点。(
词节点会保留句编号属性)
针对以下三组单词,分三个步骤完成单词映射/创建:
①
图中不存在候选词或可以进行明确映射的非停止词
②
图中存在多个候选词或在句子中出现多次的非停止词;
③停用词。
此过程类似于[]使用的过程,因为我们还首先识别“骨干节点”(明确的对齐),然后添加存在多种可能性的映射。
然而,它们构建的是lattice,即有向无环图,而我们的图可能包含圈。对于映射不明确的最后两组单词,我们检查紧邻上下文(句子中的前后单词和图中的相邻节点),并选择上下文中重叠较大的候选单词,或者具有较高频率的候选单词(即映射到其上的单词较多的候选单词)。例如,在图1中,当要添加句子(4)时,最后有两个候选节点。选择指向Week的节点,因为Week是(4)中Last后单词。只有在非停停顿词邻居中有一些重叠时,才会映射停止字,否则会创建一个新节点。
一旦句子中的所有单词都就位,我们就用有向边连接句子中相邻的单词。
对于新创建的节点或之前未连接的节点,我们添加一条默认权重为1的边。已连接节点之间的边权重增加1。开始节点和结束节点也是如此。节点存储它们的单词来自的句子的id以及它们在这些句子中的所有偏移位置。
所描述的对齐方法相当简单,并且保证词图的以下特性:①
每个输入句子对应于图中的无环路径(
生成过程中会避免环图
);②
指代相同实体或动作的词很可能以一个节点结尾; ③
如果上下文中存在重叠,则停顿词仅在一个节点中连接。
该图可能会产生一个潜在的无穷数量的不可理解的序列连接开始和结束。
它还可能包含对应于良好压缩的路径,如图1中用蓝色突出显示的连接节点的路径。下面我们将介绍两种寻找最佳路径的方法,即对输入语句进行最佳压缩。
(2)压缩为短路径
良好压缩的特征:既不能太长,也不能太短。
它应该通过重要概念的节点,但不应该多次通过同一个节点。它应该对应一个可能的词序。
为了满足这些约束,我们反转边权重,即链接频率,并搜索从一个预定义的最小长度的开始到结束的最短路径(即,最轻的边权重)。
这条路径可能会提及输入中的重要词,并将在许多句子中彼此相邻的词放在一起。这是我们考虑的第一种方法。
我们将最小路径长度(词为单位)设置为8,
这似乎是开发集的合理阈值
-
少于7个单词的路径通常是不完整的句子
。
此外,
为了产生报告句子簇主要事件的信息性摘要,
我们过滤不包含动词节点的路径。例如,Ozark’s “Winter’s Bone” at the 2010 Sundance Film Festival 可能是一个很好的标题,表明了这篇文章是关于什么的。
然而,它并不像Winter’s Bone” earned the grand jury prize at Sundance
那样信息丰富,它确实传达了这次活动的要点。
因此,我们生成K条最短路径并过滤所有短于8个单词或不包含动词的路径。选择总权重最小的路径作为摘要。
(3)改进评分和重新排名
我们系统的第二种配置采用了更复杂的加权函数。此函数目的有两个:①生成语法压缩,它有利于
强链接,
即单词之间的链接,该链接以这种顺序频繁出现;②生成信息压缩,
它促进通过显著/骨干节点的路径。
-
强链接:直观地说, 我们希望压缩路径遵循单词之间的边缘,这些单词之间有着很强的关联。 反转边频率不足以实现这一点,因为它忽略了边连接的节点的总体频率。例如,如果边连接两个频率为3的节点,而不是它们的频率高得多,则边频率为3的计算应该更多。因此,我们重新定义边权重如下( 文档不共现越好):
此外,如果两个节点之间有多条路径,我们也会促进它们之间的连接。
例如,如果有些句子是关于总统奥巴马或美国总统奥巴马的,有些句子是关于奥巴马总统的,我们想在总统和奥巴马之间增加一些奖励。
然而,单词之间较长的路径使得单词关联的信号微弱。因此,
对于节点i和j之间的每条可能路径,节点i和j之间的边缘权重都会减小,但会与其长度成比例地减小
(
边越少,长度越短越好
)
:
其中
函数diff(s,i,j)是指句子s中单词i和j的偏移位置(pos(s,i))之间的距离
,定义如下:
-
显著/骨干词 : 上面的函数只表示两个词之间的联系有多强 。它对连接单个句子中遇到的单词和每个句子中相邻单词的边赋予相等的权重。 为了生成关于最显著事件和实体的摘要,我们通过减少与其连接的节点频率相关的边权重来强制路径通过最频繁的节点。因此,我们进一步重新定义边权重如下:
利用(4)中的加权函数,实现了K-最短路径算法,
从最短路径的开始到结束找到50条最短路径
。
我们过滤所有短于8个单词且不经过动词节点的路径
。最后,我们
通过规范化路径长度上的总路径权重来重新排列剩余路径
。
这样我们就得到了平均边权最轻的路径
。
3.总结
我们考虑了为一组相关句子生成简短的信息摘要的任务,称为多句子压缩,这是在多文档文本摘要的上下文中自然产生的。
我们提出了一种简单但可靠的方法,该方法通过在单词图中找到最短路径来进行。 我们工作的新颖性在于,
证明:如果定义了良好的加权函数,则可以在没有任何语法信息的情况下获得合理的压缩。这使我们的工作与早期的基于句法表示和/或语言模型的句子融合和压缩研究区别开来。 我们提供了对英语和西班牙语数据进行广泛评估的详细信息,并报告了较高的语法性和信息性得分。 将来,我们想尝试使用其他语言,并使用部分语音信息避开。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
已为社区贡献1条内容
所有评论(0)