【论文翻译】文本语义提取

2023-11-18

摘要

文本文档是存储信息的手段之一。这些文档可以在个人桌面计算机、内部网和Web上找到。因此,有价值的知识以非结构化的形式嵌入。拥有一个可以从文本中提取信息的自动化系统是非常可取的。然而,开发这样一个自动化系统的主要挑战是自然语言并不是没有歧义和不确定性问题。因此,语义抽取仍然是该领域研究人员面临的一个挑战。本文提出了一种新的语义提取框架,利用可能性理论、模糊集、主题知识和前句知识作为解决歧义和不确定性问题的关键。

关键词:语义抽取,信息抽取,可能性理论

1. 介绍

现在,Web被认为是世界上最大的知识宝库,它正在被世界各地数以百万计的人不断地扩充和维护。然而,它不是以一个数据库的形式,其中的记录和字段易于计算机操作和理解,而是以自然语言文本的形式,旨在供人类阅读。尽管语义网的前景广阔,但英语和其他自然语言文本的使用将继续成为交流、知识积累、网络信息发布、电子邮件、报告、备忘录、博客等的主要媒介。人们希望快速、低成本地从文本文档中提取有用的信息。文本挖掘是一个新兴的研究领域,主要是利用自动化方法来挖掘文本文档中的大量可用知识。文本挖掘,有时也称为文本数据挖掘,一般是指从文本[2]中获取高质量信息的过程。

典型的文本挖掘任务包括文本分类、文本聚类、概念/实体和事实提取,以及生成粒度分类法、情感分析、文档摘要和实体关系建模[3]。在处理自然语言文本时,最关键的问题是歧义和不确定性问题。自动信息提取(IE)系统应该能够从文本中提取正确的语义。因此,应该解决模糊和不确定性问题。在这一研究工作中,我们提出了一个新的语义抽取框架。该框架是基于主体知识和相关的前句知识。本文的组织结构如下。第2.0节将讨论信息提取;第3.0节将介绍一个拟议的框架。第4.0节给出了实现和结果分析。第5.0节对论文进行了总结。

在过去的几年里,IT从业者已经同意存在一个连续的数据、信息和知识。数据大多是结构化的、事实的和数字的。数据由事实、图像或声音组成。当数据与解释和意义相结合时,信息就出现了。知识是支持决策过程所必需的推理抽象。知识可以像知道美国的总统一样简单,也可以像将过程变量与成品尺寸联系起来的数学公式一样复杂。要区分信息和知识并不总是那么简单。[1]将知识定义为“框架经验、价值观和上下文信息的流动混合,但在人们使用它之前,它不是知识”。而[2]使用的知识定义来源于[3],即知识的主要元素是概念和概念之间的关系。基本上,[4]将概念定义为“在事件或物体中感知到的规律,或通过标签指定的事件或物体的记录”。知识以本能、思想、规则和程序等形式存在,指导行动和决策。大多数研究人员都认为知识是人类的创造。因此,我们可以通过连接新的概念/实体来构建新的知识,我们已经拥有的知识[5]。

2. 相关领域

在讨论语义抽取时,我们应该强调最相关的应用是IE。根据[4]的说法,IE所做的任务比理解全文更有限。[4]指出,在全文理解中,将文本中的所有信息都呈现出来,而在IE中,输出的语义范围、关系将被呈现出来。传统IE中,自然语言文本被映射为预定义的、结构化的表示,或模板,当它们被填充时,表示从原始文本中提取的关键信息[5,6]。

在IE中,有两个层次的提取;实体提取事实提取。从文本中提取实体/概念需要人阅读它们。事实抽取是将事实从实体中展开的过程。这是非常耗时的。这可能成为一个具有挑战性的任务,如果一个人没有足够的背景相关的文本。拥有一个可以从文本中提取所需信息的自动化系统正成为一种迫切的需求。然而,这个愿望是不容易实现的。自然语言文本也存在歧义问题。它不仅是许多词可以指一个意思,一个词可以有多个意思,而且一个句子的结构可以解释成多个意思。

另一方面,Singh[7]和Hale[8]处理的信息提取是基于对编写文档所使用的自然语言的结构和意义的理解,信息提取的目标是从文本中积累语义信息。从技术上讲,从文本中提取信息需要词汇知识、描述待分析文本具体语法的语法以及语义[9]。

今天,大多数涉及语义分析的IE系统利用了整个领域和任务知识图谱中最简单的部分,也就是说,命名实体。然而,越来越多的IE应用领域,如功能基因组学,需要更多的文本理解。例如,在生物医学领域,实体是基因、蛋白质和药物的名称。NER通常是文本挖掘系统的起点,这意味着当识别出正确的实体时,就可以开始搜索实体之间的模式和关系。[10]还声称NER的一个主要问题是含糊的蛋白质名称;一个蛋白质名称可以指多种基因产物。

虽然[11]已经努力使用语义标记语料库和UMLS来解决歧义术语,但歧义仍然是IE中[10]的主要“世界问题”。事实上[11]的研究只关注生物医学术语。识别和分类文本中的命名实体需要领域实体的知识。列表实体用于标记文本实体,具有相关的语义信息;但是精确的字符串对于精确的实体标识[8]来说往往不够可靠。

最近的信息提取应用包括公寓租赁广告[12]、招聘公告[13]、地理网络文档[14]、医学摘要[10]。[15]指出,许多已发表的IE报告的封闭实验;系统是建立和评估的基础上仔细注释的训练和测试语料库。尽管如上所述IE已经为各种应用程序实现了,但到目前为止,自动化IE还没有涉及语义提取。

3.框架提出

我们提出的框架解决了在两个提取层次上的IE语义提取中的歧义和不确定性问题。第一个是在实体提取级别,第二个是在事实提取级别,如图3.1所示。从文本中提取实体和事实的整个过程可以浓缩为3个步骤,如图3.1所示。

3.1. 步骤1

将输入的文本分割成句子。每个句子都会经过句法处理以识别其词性。属于动词或名词词性范畴的词被定义为一个实体。让我们以下列句子为例:

通过句法处理,该系统将能够确定pen这个词属于一个名词类别的词性。语法处理程序还可以确定“runs”是一个动词。然而,当系统需要提取单词的语义时,系统会面临歧义和不确定性问题。例如,一个单词“pen”可以被理解为一个书写工具,或者一个围场,可以让婴儿在里面玩耍。而“runs”这个词可以被解释为一种控制的活动或一种身体动作。在信息抽取中,要正确理解文本的语义

为了解决这一问题,我们在语义处理过程中应用了主题上下文知识。图3.2说明了这个过程。

如前所述,句子(解析树)的结构是通过解析/语法过程获得的。利用可能性理论,为每个词的词义赋予可能性值。该值由主题上下文知识决定。让我们把pen看作一个词(w)及其含义;一种书写工具(m1)和外壳(m2)。w= m1w= m2的可能性(ρ)由主题上下文知识(SK)决定,可以表述为

其中m1,…,mn,表示单词w的可能意义,n是意义的有限个数。

w的可能含义可以用ρ1, ρ2,…,ρn表示。ρ1, ρ2…,ρn的值是根据表1所示的SK来决定的。

在表1中,pen这个词的上下文是“baby”。在这项工作中,模糊算子max被用来选择最可能的含义,如公式3:

因此,通过应用等式(3),语法处理器能够决定“pen”这个词最有可能的含义,这是一个让婴儿在里面玩耍的圈地。因此,如果主题知识是“写作”,表1中的可能性值会不同。一旦出现歧义和不确定性问题,正确的语义就被附加到解析树上。带注释的解析树将用于步骤2中的流程。

3.2. 步骤2

在步骤2中,使用注释解析树来确定句子的语义。让我们考虑一下“我把婴儿放在围栏里了”这句话。虽然第1步解决了单词pen的歧义问题,但是在解析过程中,语法处理器还会生成多个解析树。这是因为语法本身的歧义。这个句子有两种解析方式;第一个解析树通过1中的生成语法规则进行解析,第二个解析树通过2中的生成语法规则进行解析,如下所示。

当句子可以用两种方式解析时,句子就有两种可能的意思。第一个解析可以理解为“那个人把位于某个地方的婴儿放进了围栏”,第二个解析可以理解为“婴儿已经在围栏里了,那个人把他/她放在了某个地方”。为了从句子中提取语义,处理器应该能够确定最可能的含义。

为了解决这个问题,处理器参考前面的相关句子,并使用它的语义来确定当前句子的最可能的含义。例如,“I put the baby in the pen”这句话的前一句是“A baby is left alone on the floor”。通过使用最相关的前一句话的知识,一个可能的值(σ)附加到派生的产生规则。因此语法产生规则可以表示为:,其中σ是每个语法规则中的一个似然函数,而σ∈[0,1]表示解析过程中用β替代α的似然性。V_{T}中的符号串S被称为语言L(G),当且仅当s→S,即S是从s派生出来的。当T_{r}是生成S的解析树时,Tr的似是性为

s→α1,α1→α2,…,αm→S为构造T_{r}的导链,μ(αi→αi+1)为非零的\sigma _{i+1}。限定模糊集F_{s}定义为

它的隶属函数是

其中→Τr是链 s→α1,α1→α2,…,αm→S,由此构造Tr。当一个句子有歧义时,使用模糊最大算子来选择最可能的解析树,如式(6)所示。

从语义上讲,“I put the baby in the pen”这句话的意思可以理解为“the person put the baby in a pen”。

3.3.  步骤3

为了进一步计算,谓词演算用于语义表示。例如,一个句子“I put the baby in the pen”的语义用put (baby, pen)的形式表示。

4. 实现问题

该框架已用C语言实现。动态规划技术用于创建语法处理的解析器,其中应用了[16]。语义连接采用lambda约简技术[17]进行。本文共使用了70条模糊语法规则。该框架使用了15个数据集。每个数据集由歧义和明确的句子组成。每个句子可能包含歧义和不歧义的词。数据集的长度在5到7个句子之间。这个过程是在句子层面上进行的。将所得结果与人工判断进行了比较,结果表明所提出的框架是成功的。

5. 总结

本文提出了一种新的文本语义提取框架。该框架的新颖之处在于在信息抽取中使用了主题知识和最相关的前一句话来解决歧义问题。本文利用可能性理论和模糊集,基于主题和前句的知识,从文本中提取出最可能的语义。实验结果表明该框架是成功的。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【论文翻译】文本语义提取 的相关文章

  • 自己学驱动17——ARM工作模式和ARM9寄存器

    1 ARM体系CPU的7种工作模式 1 用户模式 usr ARM处理器正常的程序执行状态 2 快速中断模式 fiq 用于高速数据传输或通道处理 3 中断模式 irq 用于通用的中断处理 4 管理模式 svc 操作系统使用的保护模式 5 数据

随机推荐

  • 【Python】PyCharm中调用另一个文件的函数或类

    欢迎来到Python专栏 PyCharm中调用另一个文件的函数或类 o o 嗨 我是小夏与酒 博客主页 小夏与酒的博客 该系列文章专栏 Python学习专栏 文章作者技术和水平有限 如果文中出现错误 希望大家能指正 欢迎大家关注 目录 Py
  • 数据结构:栈

    文章目录 栈 一 概述 二 添加数据 三 删除数据 栈 一 概述 栈 Stack 是一种特殊的线性表 它只允许在一端进行插入和删除操作 通常被称为 后进先出 Last In First Out LIFO 的数据结构 栈由一系列元素组成 每个
  • python常见的三种格式化输出

    Author Father Teng Name input name Age int input age Job input job info info of 0 Name 0 Age 1 Job 2 format Name Age Job
  • 【源码改造】Flink-jdbc-connector源码简析+改造支持谓词下推

    一 需求背景分析 flink sql在维表关联时 会有一个场景 当右表的数据量比较大且有些数据虽然符合join条件 但其实对于下游来说数据可能没用 这样就浪费了flink的计算资源 且拉低了数据处理能力 如果在join前就把维表的数据进一步
  • rac术语小结

    author skatetime 2010 03 01 rac术语小结 CSS 集群同步服务 Cluster Syncronization Service 功能 Manages the cluster configuration by co
  • 一文搞定SpringSecurity+vue前后端分离

    我好菜啊 学了好几天才明白一点点 前言 把v部落git下来学一学 比起halo来说v部落会更加简单好懂一点 我看他用了SpringSecurity来做登录验证 那第一步就是学学这个SpringSecurity 然后我就发现了 我真的是太菜了
  • Linux如何强制关闭任务进程(Linux版任务管理器)

    问题描述 有时我们在使用Linux软件时会碰到软件卡死或者软件BUG无法退出 如何像使用Windows任务管理器一样去关闭应用呢 其实不需要通过重启系统来解决此类问题 只需要按照如下步骤即可解决 解决方案 第一步 打开Terminal终端控
  • 搭建redis主从复制(读写分离)

    一 主从复制原理 在搭建redis读写分离架构时 master必须开启持久化 可参考博客 RDB和AOF持久化策略一起使用也行Redis的持久化机制 RDB和AOF 1 p f 的博客 CSDN博客 一旦master宕机 虽然slave可以
  • Windows server 2016 powershell基本命令和web服务部署

    一 powershell命令 进入powershell 使用win r调出运行 gt 在运行中输入powershell 查看服务命令 Get WindowsFeature 命令可以加参数 不加则是显示全部 安装命令 Install Wind
  • Datawhale go语言学习 10反射机制

    go 语言中Type是反射的数据类型 Value是具体的值 原文档中的反射机制三个原则表述为 Reflection goes from interface value to reflection object Reflection goes
  • 【异常】RuntimeError: Failed to process string with tex because latex could not be found

    1 异常描述 RuntimeError Failed to process string with tex because latex could not be found RuntimeError Failed to process st
  • GLSL-WebGL着色器语言语法详解

    GLSL语法 GLSL它是强类型语言 每一句都必须有分号 它的语法和 typescript 挺像 GLSL的注释语法和 JS 一样 变量名规则也和 JS 一样 不能使用关键字 保留字 不能以 gl webgl 或 webgl 开头 运算符基
  • < Linux >:Linux 环境基础开发工具使用 (3)

    目录 一 Linux 调试器 gdb 的使用 1 1 背景 1 2 开始使用 1 3 理解 二 Linux项目自动化构建工具 make与Makefile makefile 2 1 背景 2 2 项目结构 三 Linux 系统中第一个小程序
  • 生活当中调整时钟时间背后发生的事情

    生活当中调整时钟时间背后发生的事情 我们在生活当中想要设定时钟 手表的时间的事情 我们通过会和大多数人一样 会按照手机上的时间来设定 但是 这背后发生了什么事情 我想大部分人应该是不知道的 其实我们自己的时间是自动设定 每隔一阵子 我们的手
  • springboot集成pagehelper

    1 导入pom xml
  • postman调用参数是对象

    写了一个controller 需要用postman调通测试一下 请求参数是vo controller 端口号是1213 postman调用时传入对象的方式如下
  • STC15单片机-低功耗设计

    低功耗设计 STC15省电模式 数据手册有介绍 STC15系列单片机可以运行3种省电模式以降低功耗 它们分别是 低速模式 空闲模式和掉电模式 正常工作模式下 STC15系列单片机的典型功耗是2 7mA 7mA 而掉电模式下的典型功耗是 lt
  • SpringBoot实现微信支付,微信扫码支付,Native支付(全网最详细教程)

    1 添加微信支付依赖
  • ICCV、ECCV、CVPR三大国际会议

    目录 前言 一 ICCV ECCV CVPR是什么 1 ICCV 2 ECCV 3 CVPR 二 三大会链接及论文下载链接 前言 作为刚入门CV的新人 有必要记住计算机视觉方面的三大顶级会议 ICCV CVPR ECCV 统称为ICE 与其
  • 【论文翻译】文本语义提取

    摘要 文本文档是存储信息的手段之一 这些文档可以在个人桌面计算机 内部网和Web上找到 因此 有价值的知识以非结构化的形式嵌入 拥有一个可以从文本中提取信息的自动化系统是非常可取的 然而 开发这样一个自动化系统的主要挑战是自然语言并不是没有