【文献笔记_因果+文本】Commonsense causal reasoning between short texts

2023-11-19

论文地址：https://www.microsoft.com/en-us/research/wp-content/uploads/2016/07/12818-57567-1-PB.pdf
摘要
常识因果推理是捕捉和理解事件和动作之间因果依赖关系的过程。这种事件和动作可以用自然语言文本中的术语、短语或句子来表达。因此，获得因果知识的一种可能方式是从大的文本语料库中提取术语或短语之间的因果关系。然而，文本中的因果关系是稀疏的、模糊的，有时是隐含的，因此很难获得。本文采用数据驱动的方法研究短文本(短语和句子)之间的常识因果推理问题。我们提出了一个框架，从一个大的网络语料库中自动获取因果关系术语网络。在这个网络的支持下，我们提出了一个新颖有效的度量标准来正确地建模术语之间的因果关系强度。我们表明，这些信号可以被聚集起来，用于短文本之间的因果推理，包括句子和短语。特别是，我们的方法在标准的SEMEVAL COPA任务中优于以前报告的所有结果。
COPA:《Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning》 COPA由一大套2选问题组成，表述为一个前提，两个备选方案写成简单的英语句子。任务是选择更可能是前提所描述的情况的原因(或结果)的替代方案。

1 Introduction
3点贡献：
1.通过利用因果线索，我们从大型网络文本中获得了一个基于术语的因果共现网络；
2.我们开发了一种新的统计指标，可以捕捉任意两篇短文之间的因果关系强度；
3.我们提出的框架在困难的比较方案任务中实现了70.2%的最先进的准确性，在子差值方面优于所有现有方法。对短语之间因果关系检测的进一步评估也证明了所提出框架的优势。

2 Approach
本文方法框架：1)从大型网络语料库中提取的术语之间的因果关系共现加权的因果关系网络；2)基于该网络计算任意两个术语之间因果强度的新度量；3)用于聚集术语之间的因果关系以计算短文本(包括短语和句子)之间因果关系推理的总得分的简单算法。
2.1 Causality Network
设置最大跨度L：减除噪音。
删除了停止词，只保留了WordNet中涉及名词、动词、形容词和副词的对。
该网络中的每个节点都是一个术语，而两个项之间的有向边表示因果关系。
在这里插入图片描述

2.2 Causal Strength Computation
然而，频繁项更有可能被提取为原因或结果，这使得条件概率度量偏向于高频率项。因此，我们采用一种更一般的形式(带有惩罚因子)来模拟必要性因果强度和充分性因果强度。
在这里插入图片描述

2.3 Commonsense Causal Reasoning
在这里插入图片描述

3 Experimental Results
抽取因果关系，对抽取的结果做个评估，因果关系检测或识别文本中的因果关系，讨论因果性的发展方向。
3.1 Data Set and Extraction of Causality Network
在这里插入图片描述

为了评估因果线索的质量，我们使用概念网(刘和辛格，2004)中人工标记的因果事件作为ground truth。
3.2 End-to-end Evaluation on COPA
PMI，点互信息：
在这里插入图片描述

ConceptNet作为本文baseline，来说明人类精心策划的知识的力量。
在这里插入图片描述

3.3 Causality Detection
RQ1:对于手动标记为因果(正数据)或非因果(负数据)的任意事件对，我们研究我们提出的因果强度分数是否清楚地将两者分开。
RQ2:受共因分析的启发，我们从概念网中选择具有相同前提的因果和非因果对，并形成两选项问题，以评估因果网选择正确选项的能力。
3.4 Direction of Causality
4 Related Work
5 Conclusion

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【文献笔记_因果+文本】Commonsense causal reasoning between short texts 的相关文章

当我在本地运行 CoreNLP 时，为什么“corenlp.run”会产生不同的结果？

网站corenlp run http corenlp run它应该是 CoreNLP 演示站点显示的结果与我在本地计算机上运行 CoreNLP 管道时的结果截然不同网站上确实显示了正确的结果而本地机版本却没有我想知道是否有任何接近
创建向量空间

我有一个问题我有很多文档每一行都是由某种模式构建的当然我有这一系列的图案我想创建一些向量空间然后通过某种规则来向量这个模式我还不知道这个规则是什么即使这个模式像我的向量空间的质心然后向量当前文档的每一行再次按照此规则
训练新的 AutoTokenizer 拥抱脸部

收到此错误 AttributeError GPT2Tokenizer 对象没有属性 train new from iterator 与拥抱面部文档非常相似我更改了输入就是这样不应该影响它有一次就成功了 2小时后回来查看发现并没有
使用 nltk 中的meteor_score模块评估模型时如何实现meteor分数？

我目前有 2 个文件 reference txt 和 model txt 这两个文本文件包含原始字幕和训练后生成的字幕我可以简单地执行以下操作来获取流星分数 score nltk translate meteor score meteor
如何在 python-gensim 中使用潜在狄利克雷分配（LDA）来抽象二元组主题而不是一元组？

LDA 原始输出一元语法主题1 水肺水蒸汽潜水主题2 二氧化物植物绿色碳所需输出二元组主题主题1 水肺潜水水蒸气主题2 绿色植物二氧化碳任何想法鉴于我有一个名为docs 包含文档中的单词列表我可以使用 n
如何使用 python 中的 spacy 库将句子转换为问题 [请参阅下面的我的代码进行更正]

我需要使用 python 中的 spacy 将任何句子转换为问题我下面的代码太长了我需要做更多的工作才能将任何句子完成为问题格式现在在这段代码中我根据以下条件制定条件是形式需要形式有形式做形式通过检查过去时和现在时输入尼娜拉
如何调整 NLTK 句子标记器

我正在使用 NLTK 来分析一些经典文本但我在按句子标记文本时遇到了麻烦例如这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt
词干函数错误：词干需要一个位置参数

这里的stem函数显示错误指出stem需要循环中的一个位置参数如所讨论的 from nltk stem import PorterStemmer as ps text my name is pythonly and looking fo
这个 NLP 问题层次结构描述中的最大池化是什么类型

我正在尝试实现这个描述以及我所做的我生成了形状的 uni gram bi gram tri gram 15 512 使用填充然后对于每个单词我连接三个特征向量 3 512 然后我向他们申请 Globalmaxpooling1D 我不知
生成易于记忆的随机标识符

与所有开发人员一样我们在日常工作中不断处理某种标识符大多数时候它与错误或支持票有关我们的软件在检测到错误后会创建一个包该包的名称由时间戳和版本号格式化这是创建合理唯一标识符以避免混淆包的一种廉价方法例子错误报告 20101
如何提取数字（以及比较形容词或范围）

我正在用 Python 开发两个 NLP 项目它们都有类似的任务提取数值和比较运算符来自句子如下所示 greater than 10 weight not more than 200lbs height in 5 7 feets fas
语音识别中如何处理同音词？

对于那些不熟悉什么是同音字 https en wikipedia org wiki Homophone是的我提供以下示例我们的是嗨和高到太二在使用时语音API https developer apple com docume
从文本文件中提取与输入单词最相似的前 N 个单词

我有一个文本文件其中包含我使用 BeautifulSoup 提取的网页内容我需要根据给定的单词从文本文件中找到 N 个相似的单词流程如下从中提取文本的网站 https en wikipedia org wiki Football h
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
AttributeError：类型对象“Word2Vec”没有属性“load_word2vec_format”

我正在尝试实现 word2vec 模型并收到属性错误 AttributeError 类型对象 Word2Vec 没有属性 load word2vec format 下面是代码 wv Word2Vec load word2vec format
如何在Python中使用多处理来加速循环执行

我有两个清单列表 A 包含 500 个单词列表 B 包含 10000 个单词我正在尝试为列表 A 找到与 B 相关的相似单词我正在使用 Spacy 的相似函数我面临的问题是计算需要很长时间我是多处理使用的新手因此请求帮助如何
缩短文本并仅保留重要句子

德国网站 nandoo net 提供了缩短新闻文章的可能性如果使用滑块更改百分比值文本会发生变化并且某些句子会被遗漏您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
如何提取句子中的主语及其各自的从属短语？

我正在尝试在句子中进行主题提取以便我能够根据主题获得情感我在用nltk在 python2 7 中用于此目的以下面的句子为例 Donald Trump is the worst president of USA but Hillary
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n

随机推荐

Js 关于收藏本页和设置首页
交换机二三层转发原理简单总结

首先二层转发是基于MAC地址转发三层转发基于IP地址转发但是这并不意味着仅仅依靠IP地址就能转发三层转发是建立在二层的基础上的而仅仅依靠MAC地址是能够转发的另外由于二三层转发基于MAC地址 IP地址 FDB表 MAC地址学习
2019年感：忆往昔考博岁月，看今朝花样年华

人生的际遇谁又能说清楚就像师范类毕业的女神梦想着当一名老师结果却阴差阳错穿上了警服而本应该奔波北上广深的程序员却成为了一名大学老师两条平行线的男女却结为了连理再如一心准备中科院却因英语差一分惜败几乎裸考的学校却可能结出果实
多模态预训练模型CLIP：中文版本开放使用

公众号原文关注公众号获取一手论文咨询多模态预训练模型CLIP 中文版本开放使用中文项目地址 https github com real brilliant chinese clip in tensorflow 01 背景 CLIP是
【车联网原型系统｜四】adhoc组网+frp内网穿透

物联网原型系统导航车联网原型系统一项目介绍需求分析概要设计 https blog csdn net weixin 46291251 article details 125807297 车联网原型系统二数据库应用层协议设计 h
【Python三大结构练习4】

目录 1 哥德巴赫猜想 2 判断是否回文 3 Add ings 4 身份证号掩盖出生日期 5 敏感词过滤 1 哥德巴赫猜想题目描述一个大正偶数总可以分解为两个质数之和试编写程序验证哥德巴赫猜想输入一个正偶数输出该偶数的质数和分解
使用 Spring 2.5 注释驱动的 IoC 功能

基于注释 Annotation 的配置有越来越流行的趋势 Spring 2 5 顺应这种趋势提供了完全基于注释配置 Bean 装配 Bean 的功能您可以使用基于注释的 Spring IoC 替换原来基于 XML 的配置本文通过实例详
Selenium脚本转化Java代码

Selenium录制的脚本可以转换Java JUnit单元测试可以使用Java项目管理工具Maven统一运行从Selenium脚本中导出Java代码按照如下步骤使用Java运行Selenium脚本使用Chome导出Java脚本必须
iframe与vue

iframe与vue 在vue中使用创建一个vue页面 iframe的src属性绑定需要的页面放在template中在iframe种调用vue的方法 a页面url为a demo com a页面中iframe引用的b页面url为b de
laravel8框架-开发实战项目总结（一）

一 laravel框架的目录结构 app 应用目录保存项目中的控制器模型等 bootstrap 保存框架启动的相关文件 config 配置文件目录 database 数据库迁移文件和数据填充文件 public 应用入口文件index p
JAVA8 String 面试练习与 intern（）

idea debug 查看内存信息 public class StringTest4 public static void main String args System out println 2293 System out printl
深入浅出 - 公钥、私钥和数字签名最通俗的理解

一公钥加密假设一下我找了两个数字一个是1 一个是2 我喜欢2这个数字就保留起来不告诉你们私钥然后我告诉大家 1是我的公钥我有一个文件不能让别人看我就用1加密了别人找到了这个文件但是他不知道2就是解密的私钥啊所以他
live-server的使用

本地开发常常需要搭建临时的服务第一时间我们会想到用http server 但现在流行修改文件浏览器自动刷新hot socketing 热拔插如live reload 若想浏览器自动打开项目用opener 现在live server实现
国密SM2 Https服务器搭建--全网最完整方案

在密码协议层面国密标准定义了sm2密钥交换协议 IPSec技术规范 SSL 技术规范三个密码协议在实际应用系统中为保障系统完整性保密性不可抵赖性三方面应采用规范协议实现安全性保障不要采用自定义密码协议本文通过江南天安开源国密o
java实现将整数转化为中文大写金额

转载请注明出处 http blog csdn net xiaojimanman article details 49584567 http www llwjy com blogdetail 741867855ccfe191504c83b3d
windows修改远程端口

windows修改远程端口一修改注册表关于远程桌面的注册表的位置由于系统版本的不同文件存在的位置也不同核心是寻找名称类似CurrentControlSet的目录下的PortNumber文件其是远程桌面端口的端口配置 1 按 w
golang: Logrus实现日志打印

Github https github com sirupsen logrus golang标准库的日志框架非常简单仅仅提供了print panic和fatal三个函数对于更精细的日志级别日志文件分割以及日志分发等方面并没有提供支持
VisualStudio—Remote Debug

主要用来解决本地调试没问题发布到远端后却报错的项目一 Windows Debug Windows 本文叙述采用的VS2022 远端 windows服务器安装远程调试器远端 windows服务器安装过程省略详见官方参考链接中设置远程
【程序员面试金典】有一个单色屏幕储存在一维数组中，其中数组的每个元素代表连续的8位的像素的值，请实现一个函数，将第x到第y个像素涂上颜色(像素标号从零开始)，并尝试尽量使用最快的办法。

题目描述有一个单色屏幕储存在一维数组中其中数组的每个元素代表连续的8位的像素的值请实现一个函数将第x到第y个像素涂上颜色像素标号从零开始并尝试尽量使用最快的办法给定表示屏幕的数组screen 数组中的每个元素代表连续的8个像素
【文献笔记_因果+文本】Commonsense causal reasoning between short texts

论文地址 https www microsoft com en us research wp content uploads 2016 07 12818 57567 1 PB pdf 摘要常识因果推理是捕捉和理解事件和动作之间因果依赖关系

【文献笔记_因果+文本】Commonsense causal reasoning between short texts

【文献笔记_因果+文本】Commonsense causal reasoning between short texts 的相关文章

随机推荐

热门标签