论文地址:https://www.microsoft.com/en-us/research/wp-content/uploads/2016/07/12818-57567-1-PB.pdf
摘要
常识因果推理是捕捉和理解事件和动作之间因果依赖关系的过程。这种事件和动作可以用自然语言文本中的术语、短语或句子来表达。因此,获得因果知识的一种可能方式是从大的文本语料库中提取术语或短语之间的因果关系。然而,文本中的因果关系是稀疏的、模糊的,有时是隐含的,因此很难获得。本文采用数据驱动的方法研究短文本(短语和句子)之间的常识因果推理问题。我们提出了一个框架,从一个大的网络语料库中自动获取因果关系术语网络。在这个网络的支持下,我们提出了一个新颖有效的度量标准来正确地建模术语之间的因果关系强度。我们表明,这些信号可以被聚集起来,用于短文本之间的因果推理,包括句子和短语。特别是,我们的方法在标准的SEMEVAL COPA任务中优于以前报告的所有结果。
COPA:《Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning》 COPA由一大套2选问题组成,表述为一个前提,两个备选方案写成简单的英语句子。任务是选择更可能是前提所描述的情况的原因(或结果)的替代方案。
1 Introduction
3点贡献:
1.通过利用因果线索,我们从大型网络文本中获得了一个基于术语的因果共现网络;
2.我们开发了一种新的统计指标,可以捕捉任意两篇短文之间的因果关系强度;
3.我们提出的框架在困难的比较方案任务中实现了70.2%的最先进的准确性,在子差值方面优于所有现有方法。对短语之间因果关系检测的进一步评估也证明了所提出框架的优势。
2 Approach
本文方法框架:1)从大型网络语料库中提取的术语之间的因果关系共现加权的因果关系网络;2)基于该网络计算任意两个术语之间因果强度的新度量;3)用于聚集术语之间的因果关系以计算短文本(包括短语和句子)之间因果关系推理的总得分的简单算法。
2.1 Causality Network
设置最大跨度L:减除噪音。
删除了停止词,只保留了WordNet中涉及名词、动词、形容词和副词的对。
该网络中的每个节点都是一个术语,而两个项之间的有向边表示因果关系。
2.2 Causal Strength Computation
然而,频繁项更有可能被提取为原因或结果,这使得条件概率度量偏向于高频率项。因此,我们采用一种更一般的形式(带有惩罚因子)来模拟必要性因果强度和充分性因果强度。
2.3 Commonsense Causal Reasoning
3 Experimental Results
抽取因果关系,对抽取的结果做个评估,因果关系检测或识别文本中的因果关系,讨论因果性的发展方向。
3.1 Data Set and Extraction of Causality Network
为了评估因果线索的质量,我们使用概念网(刘和辛格,2004)中人工标记的因果事件作为ground truth。
3.2 End-to-end Evaluation on COPA
PMI,点互信息:
ConceptNet作为本文baseline,来说明人类精心策划的知识的力量。
3.3 Causality Detection
RQ1:对于手动标记为因果(正数据)或非因果(负数据)的任意事件对,我们研究我们提出的因果强度分数是否清楚地将两者分开。
RQ2:受共因分析的启发,我们从概念网中选择具有相同前提的因果和非因果对,并形成两选项问题,以评估因果网选择正确选项的能力。
3.4 Direction of Causality
4 Related Work
5 Conclusion