知识图谱构建技术

2023-05-16

知识图谱的构建技术包括知识抽取、知识融合、知识加工和知识更新等。

图1 知识图谱构建技术流程图

1.1 知识抽取

知识抽取就是自动化或半自动化的从原始数据中获得实体、关系及属性等可用知识单元。早期是基于规则的知识抽取,通过人为预先规定的抽取规则,从文本中抽取知识的三元组信息,缺点是数据量大的时候规则构建耗时长、可移植性差,难以应对数据规模庞大的知识图谱构建。目前基于神经网络的知识抽取将文本作为向量输入,能够自动发现实体、关系和属性特征,适用于大规模数据的知识图谱构建。

1.1.1 实体识别

实体识别即命名实体识别(NER),为自然语言处理和知识图谱领域的基础任务。目的是从海量原始数据中准确提取人物、地点、组织等命名实体信息。这一步影响后续关系抽取等任务,决定了知识图谱的质量。

NER分为基于规则、基于统计模型和基于神经网络三类。

基于规则的方法是通过专家手工构建规则集,将文本等数据与规则集匹配来得到命名实体信息。优点是适用小规模数据、精度和可靠性较高;缺点是大规模应用困难、可移植性差。

基于统计模型的方法是将NER作为序列标注问题,以部分标注和完全标注的语料进行模型训练。如条件马尔可夫模型(CMM)、隐马尔科夫模型(HMM)、条件随机场(CRF)和最大熵(ME)等。优点是性能较好、通用性强、可移植;缺点是依赖特征和语料库、训练时间长。

深度学习能够从数据中学习复杂的隐藏特征,不需要专业的领域知识或经验就可实现,基于神经网络的NER已成为目前主流方法,主要模型有卷积神经网络和循环神经网络等。

1.1.2 关系抽取

关系抽取(RE)是知识抽取的核心内容,通过获取实体之间的某种语义关系或关系的类别,自动识别实体对及联系这一对实体的关系所构成的三元组。

近年RE的研究主要是基于神经网络方法,主要包括基于卷积神经网络(CNN)、基于循环神经网络(RNN)、基于注意力机制(ATT)、基于图卷积网络(GCN)、基于对抗训练(AT)、基于强化学习(RL)的RE以及实体-关系联合抽取(JERE)。

(1)基于卷积神经网络的关系抽取

CNN通过嵌入表示和文本信息等数据组织为类似图像的二维结构,使用卷积核提取特征信息并用于关系抽取。

CNN方法为基于深度学习的关系抽取提供了思路,已有很多利用基于神经网络的关系抽取方法来提取单词和句子的特征。

(2)基于循环神经网络的关系抽取

RNN可利用内部的记忆机制处理时序相关信息,适用于处理和表示短语及句子的组合向量。

(3)基于注意力机制的关系抽取

ATT能基于权重筛选上下文相关性强的信息,提高关系抽取的质量。

(4)基于图卷积网络的关系抽取

GCN可以捕捉图的全局信息,具有很好的节点表示能力。基于GCN的关系抽取针对文本依存树种各词语的依存关系编码,将关系知识编码信息引入关系抽取,挖掘句子中更深层的语义信息。

(5)基于对抗训练的关系抽取

基于神经网络的模型通常忽略了输入数据中的噪声,导致模型效果不佳。将对抗训练AT引入关系抽取,对训练数据产生对抗噪声来优化分类算法,能够有效提升模型鲁棒性。

(6)基于强化学习的关系抽取

强化学习是一类学习、预测和决策的方法框架,通过训练策略网络选择最优实例,结合神经网络进行关系抽取。

(7)实体-关系联合抽取

实体-关系联合抽取旨在针对实体识别和关系抽取作为两个串联子任务时存在的错误传播问题,对实体和关系进行联合建模。能够考虑到实体与关系间的语义相关性,有效解决关系重叠问题,减少误差累积,提高知识抽取的整体效果。

1.1.3  属性抽取

属性抽取是知识库构建和应用的基础,通过不同信息源的原始数据中抽取实体的属性名和属性值,构建实体的属性列表,形成完整的实体概念,使实体完整化。

属性抽取方法分为传统的监督、无监督和半监督属性抽取、基于神经网络的属性抽取和其他类型的属性抽取。

目前大多数属性抽取是从文本数据中抽取信息。传统方法的监督学习的属性抽取使用HMM和CRF等抽取属性。基于神经网络的属性抽取一般作为序列标注任务,使用序列标注模型抽取文本的属性值。基于元模式的属性抽取将类型化的文本模式结构命名为元结构,可以在海量语料库中发现元模式,可使用该方法发现文本中高质量的属性描述语句,作为实体的属性值。多模态属性抽取方法及数据集,实现对多种类型数据的属性抽取。

1.2  知识融合

知识融合是融合各个层面的知识,包括融合不同知识库的同一实体、多个不同的知识图谱、多源异构的外部知识等,并确定知识图谱中的等价实例、等价类及等价属性,实现对有知识图谱的更新。知识融合的主要任务包含实体对齐和实体消歧。

1.2.1  实体对齐

实体对齐是知识融合阶段的主要任务,目的是发现语义相同的实体,主要方法是基于嵌入表示的实体对齐,实体对齐方法可分为传统概率模型、机器学习和神经网络等类别。

传统概率模型基于属性相似关系,将实体对齐看作概率分类模型,根据相似度评分选择对齐实体。常用模型有CRF、马尔可夫逻辑网络和隐含狄利克雷分布等。基于机器学习的实体对齐将实体对齐看作二分类问题,可分为监督学习和无监督学习。在监督学习实体对齐中,使用预先人工标注部分训练模型,对未标注数据进行分类。如决策树、支持向量机等方法通过比较特征向量进行实体对齐,或考虑实体的相似度,使相似实体聚类对齐。在神经网络方法中,基于嵌入的实体对齐将不同的知识图谱表示为低维嵌入,并通过计算实体嵌入间的相似度来进行实体对齐。

1.2.2  实体消歧

实体消歧是根据给定文本,消除不同文本中实体指标的歧义,将其映射到实际的实体上。

根据有无目标知识库划分,实体消歧主要有命名实体聚类消歧和命名实体链接消歧等方法。命名实体聚类消歧将所有的实体指称与实际的目标实体进行聚类。命名实体链接消歧则是根据文本中的上下文信息,将文本中的实体指称链接到候选的实际目标实体列表中。

1.3  知识加工

知识加工是在知识抽取、知识融合的基础上,对基本的事实进行处理,形成结构化的知识体系和高质量的知识,实现对知识的统一管理。知识加工的具体步骤包括本体构建、知识推理和质量评估。

1.3.1  本体构建

本体构建是指在模式层构建知识的概念模板,规范化描述指定领域内的概念及概念之间的关系,其过程又包括概念提取和概念间关系提取两部分。根据构建过程的自动化程度不同,可分为手工构建、半自动构建以及自动构建。本体构建的目的是构建知识数据模型和层次体系,主要方法是人工编辑、实体相似度、实体关系自动抽取等。

1.3.2  知识推理

知识推理是针对知识图谱中已有事实或关系的不完备性,挖掘或推断出未知或隐含的语义关系。知识推理的对象可以为实体、关系和知识图谱的结构等。知识推理主要有逻辑规则、嵌入表示和神经网络三类方法。

1.3.3  质量评估

知识图谱质量评估通常在知识抽取或融合阶段进行,对知识的置信度进行评估,保留置信度高的知识,有效保障知识图谱质量。质量评估的研究目的是提高知识样本的质量,提升知识抽取的效果,增强模型的有效性。

1.4  知识更新

知识更新是随着时间的推移或新知识的增加,不断迭代更新知识图谱的内容,保障知识的时效性。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

知识图谱构建技术 的相关文章

  • jQuery LigerUI 使用教程

    首页引入样式文件和js文件 xff1a lt link href 61 34 css ligerui all css 34 rel 61 34 stylesheet 34 type 61 34 text css 34 gt lt jquer
  • myeclipse部署tomcat问题

    MyEclipse部署tomcat时出现 xff1a Deployment is out of date due to changes in the underlying project contents You 39 ll need to
  • 如何安装 EFI 分区引导

    原文链接 xff1a http www macfans com cn forum php mod 61 viewthread amp tid 61 161919 xff08 注 xff1a 这个教程只针对单硬盘安装原版OSX或双硬盘双系统
  • 【Android】系统源码下载及编译

    源码及编译 步骤 1 xff1a 创建一个空目录来存放源码 xff1a mkdir aosp cd aosp 步骤 2 xff1a 获取最新版本的 repo 并签出 android 8 1 0 r1 分支 xff1a repo init u
  • Unity3D游戏作品大盘点

    原文链接 xff1a http www unitymanual com 404 html 经典重现 新仙剑OL 新仙剑OL 采用跨平台Unity3D引擎 xff0c 耗资数千万 xff0c 历时三年多 xff0c 由台湾大宇正版授权 xff
  • Linux常见软件包格式及安装讲解

    1 在Linux中安装应用软件 Linux这一新兴操作系统 xff0c 由于系统核心源代码完全公开的缘故 xff0c 存在着许多基于GPL协议之下的分发版本 在一片反行业垄断的呼声中 xff0c 这只小企鹅近年来的发展速度实在令人振奋 其中
  • MySQL数据库安装、全量备份、增量备份与恢复

    一 数据库安装 Mysql数据库安装路径 xff1a opt mysql Mysql数据库数据文件路径 xff1a opt mysql data Mysql数据库root用户登录密码 xff1a admin 1 安装MySQL之前先检查li
  • 拓扑排序(Topological Sorting)

    一 什么是拓扑排序 在图论中 xff0c 拓扑排序 xff08 Topological Sorting xff09 是一个有向无环图 xff08 DAG Directed Acyclic Graph xff09 的所有顶点的线性序列 且该序
  • libjvm.so共享库找不到

    redis 64 node 1 ggs ggsci ggsci error while loading shared libraries libjvm so cannot open shared object file No such fi
  • 如何修改新建脚本模板-ScriptTemplates(Unity3D开发之十五)

    猴子原创 xff0c 欢迎转载 转载请注明 xff1a 转载自Cocos2Der CSDN xff0c 谢谢 xff01 原文地址 http blog csdn net cocos2der article details 44957631
  • linux简易书单

    1 Linux程序设计 xff08 第4版 xff09 万千读者推荐的Linux经典入门书 程序设计实战型图书 xff0c 以简单易懂 内容全面和示例丰富而受到广泛好评 如果你没有Linux基础 xff0c 可以先读这本 话说回来 xff0
  • Spring Boot与RabbitMQ的整合消息确认

    strong span style font size 18px 消息生产者和消费者 span strong import com rabbitmq client Channel import org slf4j Logger import
  • tomcat7下载安装

    进入apache官网下载tomcat7在最左边的找到download下的tomcat 7并点击 选择 32 bit 64 bit Windows Server Installer 下载 下载完成后 xff0c 将安装文件移动到本地硬盘D 安
  • MPU9250调试笔记(融合磁力计计算Yaw)

    底部 附源码 2022 10 5 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 61 产品需要一个姿态传感器 xff0c 使用了MPU9250 xff0c 主要是算法库不太好找
  • 在sql语句中,like所有的用法

    在sql结构化查询语言中 xff0c like语句有着至关重要的作用 like语句的语法格式是 xff1a select from 表名 where 字段名 like 对应值 xff08 子串 xff09 xff0c 它主要是针对字符型字段
  • 解决当使用element table fix column 固定列时,滚动条在固定列下方无法滚动

    解决当使用element table fix column 固定列时 xff0c 滚动条在固定列下方无法滚动 在全局css中添加这行代码 xff0c 提高滚动条在z轴的坐标 建议使用下面的代码 xff0c 使用参考文章里面的代码会导致 右f
  • 使用funcraft管理阿里云函数计算

    Fun 是一个用于支持Serverless应用部署的工具 xff0c 能帮助您便捷地管理函数计算 API 网关和日志服务等资源 它通过一个资源配置文件 xff08 template yml xff09 xff0c 协助您进行开发 构建和部署
  • 阿里云 ServerLess:Todo list 应用安装

    安装Node js环境 执行如下命令 xff0c 下载Node js安装包 xff1a wget https npm taobao org mirrors node v12 4 0 node v12 4 0 linux x64 tar xz
  • Maven中pom.xml的scope

    一 compile xff1a 编译范围 compile是默认的范围 xff1b 如果没有提供一个范围 xff0c 编译范围依赖在所有的classpath 中可用 xff0c 同时它们也会被打包 而且这些dependency会传递到依赖的项
  • 如何通过CSS绘制三角形和小箭头

    1 绘制三角形的作用 xff0c 主要是提供指示性 xff0c 如下图 2 那么如何画出三角形呢 xff1f 我们先看下border的用法 lt div class 61 34 box 34 gt lt div gt box box siz

随机推荐

  • 利用python pil 实现给图片上添加文字

    最近的一个工程项目是讲文字添加到图像上 使用了opencv xff0c 结果发现利用opencv给图像添加文字有局限 xff08 1 xff09 可利用的字体类型比较少 xff0c 需要安装Freetype扩展 xff0c 比较复杂 xff
  • esp8266 error: espcomm_open failed

    gpi0 没有接地 xff0c 接上地就可以了注意和usb分出的gnd接口接的是同一个地
  • 微信小程序quickstart项目中有关userInfoReadyCallback的解释

    userInfoReadyCallback 在index js中定义 xff0c 在app js中使用 附app js代码 xff1a app js App onLaunch function 展示本地存储能力 var logs 61 wx
  • 微信小程序引入模块中wxml、wxss、js

    先描述下目录结构 xff0c 见下图 UI页面见下图 其中ok按键是引入的log模块 xff0c log模块非page页 indexButton是index页本身拥有的组件 xff0c index页直接导入Log模块中的组件 xff0c c
  • PHP解析错误 PHP Parse error: syntax error, unexpected '[' in

    之前做了一次php后台代码在不同服务器的迁移 xff0c 代码迁移到新服务器上 xff0c 代码运行不了 xff0c 返回500内部错误 500 内部错误 xff0c 就查看服务器上 var log php fpm www error lo
  • 微信小程序使用video组件时的一些坑

    xff08 1 xff09 mp4视频用video组件播放会卡顿 绿屏 尤其是在快进 拖动时间条时 在video组件上 xff0c 试试加个custom cache 61 false 属性 xff0c 可以完美解决卡顿 绿屏的现象 xff0
  • java中JFrame中函数removeAll的用法

    解答链接 用baidu搜了半天搜不出来 xff0c 用google一下就出来了 下面用自己的代码来解释下removeAll xff08 xff09 的用法 注意一定要在getContentPane xff08 xff09 中用removeA
  • C#基础教程(十三)消息队列——MSMQ

    Net使用消息队列 xff0c 借助windows组件来存储要完成的一系列任务 xff0c 不用程序使用同一个队列 xff0c 方便不同程序之间的数据共享和协作 队列分事务性队列和非事务性队列 xff0c 默认创建的是非事务性队列 那么什么
  • 创建vue项目时报错Failed to download,解决办法

    当我们想要通过vue脚手架 xff0c 创建一个vue项目时 xff0c 正常的步骤是 xff0c 通过执行下面命令 xff1a vue init webpack 项目名 然后根据自己的实际情况 xff0c 选择需要安装哪些东西 xff0c
  • Linux下生产者与消费者实现的问题详解

    生产者与消费者问题 什么是生产者消费者问题 xff1f 背景问题的核心解决思路 单生产者和单消费者同步信号的使用伪代码 xff08 逻辑 xff09 解释上述伪代码 多生产者和多消费者与单生产者和单消费者的区别理解多生产者和多消费者解决方法
  • 参加中国移动开发者大会有感

    作为我校CSDN俱乐部的主席 xff0c 我很荣幸受到CSDN的邀请参加中国移动开发者大会 xff0c 下面写点自己的感悟 xff1a 移动互联网应用大时代已经到来 xff0c 所有的IT应用都将移动化 xff0c 所有的信息服务都将移动化
  • ESXI 安装并部署主机

    一 ESXI的相关知识 ESXI是VMware的企业虚拟化产品 xff0c 可视为虚拟化的平台基础 xff0c 部署于实体服务器 不同于VMware Workstation VMware Server xff0c ESXI采用的是 xff0
  • html中的简单实例演示(checkbox)的使用

    演示一个小小的例子 xff1a 在购物车里面 xff0c 我们能够勾选自己所选的商品 xff0c 然后能够显示出相应的价格 1 xff0c 首先显示出相应的界面 xff1a 相关 代码 xff1a lt body gt 商品列表 xff1a
  • CAS4.0配置Mysql数据库,认证失败

    CAS4 0配置Mysql数据库 xff0c 认证失败 真崩溃啊 xff0c 看别人的视频都能成功 xff0c 自己研究一下午了 xff0c 也还是不行 问题出在哪儿呢 xff1f 请大神指教 三个jar包 xff1a 代码片 span c
  • FtpURLConnection 图片下载编码问题

    写道 问题 xff1a 1 xff09 Web项目中下载图片 存在下载不全 xff0c 丢失部份图片 2 xff09 FTP路径存在中文图片名称或中文路径 3 xff09 直接运行Main方法可以下载图片 xff0c 放在Web项目中下载失
  • nginx http跳转到https总结

    查找了一些资料 在这里终结一下 提供给大家参考 Nginx环境下强制http转https设置方法 方法一 下面代码照搬过去就行 无需做任何修改 春哥技术博客推荐此种方法 非常简单 改完以后实时生效 不用重启服务器 if scheme htt
  • SpringBoot 整合Thymeleaf教程及使用

    Thymeleaf 是一款用于渲染 XML XHTML HTML5 内容的模板引擎 它与 JSP xff0c Velocity xff0c FreeMaker 等模板引擎类似 xff0c 也可以轻易地与 Spring MVC 等 Web 框
  • Window2012R2 忘记密码解决办法

    推荐 xff1a ISO映像修复法 xff08 步骤复杂但方法管用 xff09 以WMware虚拟机中WindowServer2008R2忘记开机密码为例 1 xff09 配置虚拟主机的CD ROM 启动VMware虚拟机程序 选中Wind
  • linux下查找文件及查找包含指定内容的文件常用命令。

    xfeff xfeff 每一种操作系统都是由成千上万个不同种类的文件所组成的 其中有系统本身自带的文件 xff0c 用户自己的文件 xff0c 还有共享文件等等 我们有时候经常忘记某份文件放在硬盘中的哪个地方 在微软的Windows操作系统
  • 知识图谱构建技术

    知识图谱的构建技术包括知识抽取 知识融合 知识加工和知识更新等 图1 知识图谱构建技术流程图 1 1 知识抽取 知识抽取就是自动化或半自动化的从原始数据中获得实体 关系及属性等可用知识单元 早期是基于规则的知识抽取 xff0c 通过人为预先