ICDE 2022 | 给答案找证据,复旦等提出证据蒸馏,让问答系统知其然知其所以然
转载来源:知识工场 原创成果丨面向问答系统的答案可解释的证据蒸馏 http://mp.weixin.qq.com/s?__biz=MzI0MTI1Nzk1MA==&mid=2651685549&idx=1&sn=5ef8e4774bff16ed15026bc757fe3cea&scene=45#wechat_redirect
关注我们牛年牛气冲天
ICDE2022: Grow-and-Clip:Informative-yet-Concise Evidence Distillation for Answer Explanation
面面向问答系统的答案可解释的证据蒸馏
一、背景
问答系统是人工智能发展中的一项重要任务,在搜索引擎、聊天机器人等应用中发挥着重要作用。然而,目前大多数的问答系统只专注于提取或生成正确的答案,而缺乏同时支持答案的合理证据。这损害了真实用户对于答案的信心,并限制了问答系统在许多需要高可解释性的现实应用程序中的应用,如循证医学,儿童教育和在线咨询等。
在现实世界中,证据能够为人类提供具有启发性的重要线索。我们通过分析认为,信息性和简洁性是问答系统中证据的关键。然而,信息性和简洁性是相互矛盾的。信息量过大的证据往往包含冗余的信息,而过于简洁的证据可能会遗漏一些关键信息。同时,证据的可读性也需要加强,以保证问答系统的用户友好性。因此我们设计了一个系统化的定量框架,从信息性、简洁性和可读性等三个方面评估了问答系统中用于解释给定答案的证据的有效性。核心思想是,一个好的证据应该能够支持答案(信息量),包含很少的非必要信息来回答问题(简洁性),并且容易被人类理解(可读性)。在此基础上,我们进一步提出了一种基于Grow-and-Clip策略的证据蒸馏算法(GCED),该算法可以提取出用于解释给定答案的最优的证据,同时在信息量、简洁性和可读性之间保持平衡。我们提出的证据蒸馏算法的优点包括:1)不需要人工干预。2)每个步骤都是可追溯的,增强了所生成证据对问答系统中给定答案的可解释性。3)适用于任何使用给定上下文或结构化知识作为问答系统的源库的场景,且与领域无关。与以往的解决方案不同的是,该GCED算法在词语层面找到了最优证据,比在句子层面提取的证据更加细粒度,可以更灵活地生成信息更丰富但更简洁的解释给定答案的证据。
二、方法
GCED算法框架如图1所示。它由五个核心模块组成,包括答案导向的句子提取器、问题相关词选择器、加权句法解析树构造器、证据森林构造器、最优证据蒸馏器。答案导向句子提取器从上下文中提取与问答对语义相关的句子,这些句子被称为答案导向的句子。问题相关词选择器在答案导向的句子中选择与问题相关的线索词。加权句法解析树构造器采用词汇化概率上下文无关语法和多头注意力机制构造答案导向的句子的加权句法解析树。证据森林构造器采用依赖性句法解析的方法从加权句法解析树中提取证据片段。最优证据蒸馏器采用基于综合分数和注意力权重的Grow-and-Clip策略来提取最优的证据。综合分数是信息性评分、简洁性评分、可读性评分的加权融合。
图1 本研究模型的算法流程图
我们建立了一个定量地系统性的框架来评估问答系统中用于解释给定答案的证据的优点(信息性、简洁性和可读性):
1)信息性:借助预训练的问答模型以评估证据的信息性,如果一个给定的答案可以通过问答模型从这个证据中预测出来,那么这个证据就具备信息性。证据所包含的信息量越大,信息性得分越高。
2)简洁性:使用候选证据长度的倒数来衡量其简洁性,候选证据越短,简洁性越好,简洁性得分越高。
3)可读性:使用候选证据困惑度的倒数作为可读性得分。可读性得分越高,证据的可读性越好。
我们将证据的信息性、简洁性和可读性进行加权融合,设计出证据综合分数。证据综合分数越高,证据的质量越好。
证据蒸馏得到最佳证据的主要步骤如下:
步骤1:提取答案导向的句子
首先提取答案导向的句子。答案导向的句子是指能够预测给定答案的包含足够信息的最小句子子集。最小句子子集可以包含一个或几个句子。我们使用一个训练好的问答模型来选择能够预测与给定答案语义最相关的的句子,以获得答案导向的句子。具体流程如图2所示。
图2 提取答案导向的句子的流程
步骤2:从答案导向的句子中选择问题相关线索词
接着从答案导向的句子中选择问题相关线索词。在答案导向的句子中,与问题中的重要词语语义相关的词被视为问题相关线索词。
步骤3:使用树结构在答案导向的句子中建立所有词语之间的关系
之后为答案导向的句子构造加权句法解析树。首先使用词汇化概率上下文无关语法生成句法解析树。树中的每个节点都有一个索引,它表示这个单词在答案导向的句子中的位置。然后将注意力权值关联到句法解析树中的每条边。在答案导向的句子中,两个节点之间的边的权重越高,表示父节点对其子节点的关注越多。
步骤4:使用问题相关线索词、给定答案和加权句法解析树来构造证据森林
进一步地,从加权句法解析树中分别标注出问题相关线索词和给定答案代表的节点,并基于这些节点和它们的父节点构造子树。这些子树便构成了证据森林。
步骤5:从证据森林中提取最优证据
最后,从证据森林中提取出解释给定答案的最优证据。采用Grow-and-Clip策略基于综合分数和注意力权重寻找可将证据森林连接为一棵树的最短路径以提取最佳证据。该步骤包括两个搜索操作:连续增长搜索(SGS),连续剪枝搜索(SCS),分别如图3(c)、(d)所示。
1)连续增长搜索(SGS):首先逐步将证据森林中的树连接起来形成一棵树,这棵树代表具备信息性和可读性的证据。在每个迭代步骤中,都选择当前证据森林中根的权值最大的父节点来进行增长。
2)连续剪枝搜索(SCS):接着修剪掉未剪枝的证据树中的冗余子树,获得具备简洁性但仍不损害其可读性的证据(图3(d))。始终使用综合分数选择优先级最高的子树进行修剪,保持最终证据的简洁性和可读性。
在完成Grow-and-Clip后,根据节点的索引对最优证据树中的节点进行重新排列,得到满足信息性、简洁性、可读性的最优证据。
图3 GCED算法提取最优证据的详细过程
四、实验
我们在两个阅读理解数据集SQuAD和TriviaQA上进行了实验。
先提出了一种人类评估方法,以评估在这些数据集上利用ground-truth答案和利用不同QA模型预测的答案提取的证据的信息性、简洁性和可读性。我们设计了评分表分别从信息性、简洁性和可读性三个方面进行人类打分,如表1所示。
表1 基于信息性、简洁性和可读性的证据评分表
人类评估结果如表2所示。人类评估表明,无论是基于答案的预测证据还是基于事实的证据,蒸馏证据的综合分数在所有基线QA模型和数据集上都始终大于0.75。结果表明,自动提取证据的质量是令人满意的。人类对基于预测答案的证据和基于ground-truth答案的证据的评估没有显著差异(p0.5)。原因是,无论输入答案是由QA模型预测的,还是被众包工人标记ground-truth答案,证据的目的是解释/支持输入答案,答案的正确性不影响证据的质量,因此这将有利于人们理解输入答案的来源。
图2 在SQuAD和TriviaQA数据集上基于预测答案的证据和基于ground-truth答案的证据的人类评估
接下来,我们分别利用QA模型预测答案和ground-truth答案进行证据蒸馏,使用蒸馏的证据作为上下文,以研究QA模型的性能是否可以受益于这些蒸馏的证据。
在理想情况或某些应用(如搜索引擎)中,我们有ground truth答案,这是提取证据的理想来源。这些证据也可以被看作是QA模型找到正确答案的简明而信息丰富的上下文。如果证据比原始上下文更简洁,并且它包含回答问题的必要信息,那么使用证据作为QA模型的输入将提高QA模型的性能。因此,我们提出了一个实验来测试QA模式的性能增益。结果见表3。我们发现,当将上下文替换为所有测试数据集上的证据时,它在所有QA模型上的表现始终更好,这支持了我们的猜想。
图3 在SQuAD和TriviaQA数据集上上比较基线QA模型及其证据增强的QA模型
然而,在更现实的场景中,我们没有ground truth答案,需要通过QA模型来预测答案,预测的答案可能是错误的。从错误的预测答案中提取的证据可能会对问题的回答产生干扰。使用这样的证据作为QA模型的上下文很可能产生错误的答案。因此,基于预测答案的证据增强QA模型的性能将会下降,结果如图4所示。我们发现,与普通QA模型相比,随着上下文的变化,基于预测答案的证据的QA模型的性能确实有所下降,这证实了我们的猜想。然而,对于许多QA模型来说,即使所有的证据都来自预测的答案,在SQuAD数据集上也只能观察到2-3%的性能下降,这一结果表明,我们的证据蒸馏方案有较小的副作用。无论答案是对还是错,相应的证据提供了一个信息丰富但简明扼要的上下文概述,解释了这个答案是如何被预测的。通过这种方式,用户可以快速知道这个答案的信息源,从而形成一个可解释的、可靠的QA系统。例如,给定一个问题“爱因斯坦出生在哪里?”,如果QA系统给出答案“柏林”和支持性证据“爱因斯坦50岁时搬到了柏林”,用户会发现这个QA系统不可靠,他们也不会相信这个答案。
图4 基于预测答案的证据增强的QA模型的性能下降情况(a:SQuAD-1.1, b: SQuAD-2.0, c: TriviaQA-Web和d:TriviaQA-Wiki)
进一步地,我们展示了一个由GCED蒸馏的较好的证据,如图5所示。给出一个QA对,ASE选择s1和s2作为面向答案的句子。与问题相关的线索词(高亮词)用于构建证据森林(粗体和深蓝色词)。我们使用Grow-and-Clip策略来增加单词(粗体和棕色词)和删减单词(灰色词),最终形成最佳证据。该证据具备信息性(包含有用的信息),简洁性(长度足够短)和可读的(没有语法错误或模糊逻辑),证明了所提出的GCED可以捕捉重要的信息来解释/支持输入的答案,能够过滤冗余信息,并且具有用户友好的特性。
图5由GCED蒸馏的较好的证据
五、结论
在自然语言处理中,问答系统的答案可解释性是一个巨大的挑战,我们期望为给定的问答对找到支持性事实描述,从而为用户提供一个对答案更好地理解。为了自动化提取高质量的证据以解释/支持给定答案,我们提出了一种具备信息性但简洁的证据蒸馏算法(GCED),用于问答系统中的答案解释。实验表明,本方案提取的证据具备信息性,能解释/支持输入答案,简洁无冗余噪声,且具有用户友好的人类可读性。我们计划在更多的数据集和模型上对所提出的GCED进行验证,以提高其对世界知识/常识的理解能力,并希望GCED能够加快证据蒸馏的过程。
论文&文稿作者:
知识工场官网:
http://kw.fudan.edu.cn
联系我们:
info.knowledgeworks@gmail.com
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线