知识图谱之知识融合

2023-11-19

最近在“小象学院”上知识图谱的课程,做了一些笔记,现整理了一下

1、什么是知识融合

将来自不同知识库的同一实体融合在一起

目标:融合各层面的知识

合并两个知识图谱(本体),需要确认的是:

(1)等价实例               实体的匹配  左右两个人是同一个人          samsAs     猫王

(2)等价类/子类                         摇滚歌手是歌手的子类               subClassOf

(3)等价属性/子属性                   出生于出生日期是等价的属性   subPropertyOf

上图中左右两个是同一个人,只是来自不同的知识库,一个来自YAGO,一个来自ElvisPedia

另一个例子:

来源于不同知识库的“自由女神像”

知识图谱的构建经常需要融合多种不同来源的数据

知识对齐是知识图谱融合的主要工作

上图中的边表示“sameAs”,边越粗,表示sameAs的比例越高,位于中心与其他的节点或数据源边越多,表示它的领域越开放,即充分的与其他领域的重合度

图中不同的颜色代表不同的知识图谱来源,

中文百科中的等价实例:

在不同的文献中,知识融合有不同的叫法,如本体对齐、本体匹配、Record Linkage、Entity Resolution、实体对齐等叫法,但它们的本质工作是一样的。

知识图谱的基本问题是怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来,如下图:

上图中将不同表现形式的人统一一下

知识融合的主要技术挑战

目前知识融合的主要技术挑战有两点:

1)数据质量的挑战:如命名模糊,数据输入错误、数据丢失、数据格式不一致、缩写等等
2)数据规模的挑战:数据量大(并行计算)、数据种类多样性、不再仅仅通过名字匹配、多种关系、更多链接等

2、知识融合的基本技术流程

流程如下图所示:


知识融合一般分为两步:本体对齐、实体匹配,且两者的基本流程相类似

下面对各个部分进行简单的介绍

数据预处理

在数据预处理阶段,原始数据的质量会直接影响到最终链接的结果,不同的数据集对同一实体的描述方式往往是不相同的,对这些数据进行归一化是提高后续链接精确度的重要步骤
1)语法正规化:
            语法匹配:如联系电话的表示方法
            综合属性:如家庭地址的表达方式
2)数据正规化:
            移除空格、《》、“”、-等等
            输入错误类的拓扑错误
            用正式名字替换昵称和缩写等等

记录链接

假设两个实体的记录x和y,x和y在第i个属性上的值是xi,yi,那么通过如下两步进行记录链接
1)属性相似度:综合单个属性相似度得到属性相似度向量

2)实体相似度:根据属性相似度向量得到一个实体的相似度

实体关系发现框架Limes

教程网址:http://openkg1.oss-cn-beijing.aliyuncs.com/d9780259-7e4f-456f-88fa-8274a3def82b/tutorial-limes.pdf

在执行下面的操作之前,若自己的电脑上没有安装maven,则需要进行这个安装,安装其实很简单,下载相应的包,解压到指定位置,将/bin添加到系统变量上即可,网上有很多教程,在这里就不进行多解释了

获取limes:

git clone https://github.com/dice-group/LIMES

编译源码:

进入limes-core目录编译:

cd limes-core

mvn clean install

创建可运行的Jar文件:

mvn clean package shade:shade --Dcheckstyle.skip=true -Dmaven.test.skip=true

生成 limes-core-VERSION-SNAPSHOT.jar

运行jar文件:

cd target

java -jar limes-core-1.0.0-SNAPSHOT.jar config.xml  ##其中的1.0.0根据你生成的版本进行适当的修改

config.xml是自定义的配置文件,可以换成其他的名字

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

知识图谱之知识融合 的相关文章

  • 每月摘录--2023年4月

    企业 04月07日 阿里云宣布自研大模型 通义千问 开始邀请用户测试体验 4月10日消息 此前3月29日凌晨 腾讯旗下的微信和QQ等业务曾出现崩溃状况 包括微信语音对话 朋友圈 微信支付 以及QQ文件传输 QQ空间和QQ邮箱在内的多个功能无
  • 基于RFID技术的电力计能表仓储管理系统—铨顺宏

    基于RFID技术的电力计能表仓储管理系统 1 应用背景 电力计量中心是电力行业的电能计量检测机构 承担辖区内电能计量器具安全生命周期管理的职能 包括采购 仓储 检测 配送 安装 运行监测等各个环节 随着城网改造和居民一户一表工作的深入进行

随机推荐

  • 数据库课程设计mysql编程_数据库课程设计[完整版].doc

    可编辑版 Word完美格式 HUNAN CITY UNIVERSITY 数据库系统课程设计 设计题目 宿舍管理信息系统 姓 名 学 号 专 业 信息与计算科学 指导教师 20年 12月1日 目 录 TOC o 1 3 h z HYPERLI
  • ctfshow-Log4j复现-log4j复现

    1 买VPS 打开mobax进行ssh连接 开两个终端 一个终端开启监听 另一个终端进入JNDIExploit 1 2 SNAPSHOT jar所在的目录jndiexploit执行下面命令 java jar JNDIExploit 1 2
  • JavaScript基础Day02:流程控制

    文章目录 1 顺序结构 2 分支结构 1 if语句 2 switch语句 3 循环结构 1 while语句 2 do while语句 3 for循环 1 顺序结构 2 分支结构 1 if语句 if 条件表达式 执行语句 if 条件表达式 成
  • Qt实现简易的浏览器

    一 Qt的webenginewidgets模块和MSVC2017编译环境的配置 webenginewidgets模块 该模块需要在安装Qt时勾选Qt WebEngine MSVC2017编译环境的配置 这里的MSVC选2017还是2015
  • XDOJ目录操作

    目录操作 类别 字符串处理 时间限制 1S 内存限制 256Kb 问题描述 在操作系统中 文件系统一般采用层次化的组织形式 由目录 或者文件夹 和文件构成 形成一棵树的形状 有一个特殊的目录被称为根目录 是整个文件系统形成的这棵树的根节点
  • Android自定义控件(四)---实战篇(详解onDraw)

    讲到这里 这个案例基本上快结束了 在绘制 onDraw 方法中 唯一的难点就是文字 基线的确定 这点请大家务必弄清楚 废话不多说 上码 首先 我们先不管基不基线的 先让文字显示出来再说 package com example mytextv
  • 深度学习虚拟环境在不同机器之间的迁移

    不同机器之间虚拟境的复制 假设有两台机器 都用的是anaconda配置虚拟环境的 且虚拟环境都在anaconda3 envs 目录下 那么复制虚拟环境可以直接将一台机器anaconda3 envs 目录下的虚拟环境 对应该目录下的一个文件夹
  • uniapp微信小程序引入threeJs并导入模型

    前言 我的需求是使用uniapp写微信小程序 在小程序中使用threeJs就行了 目前暂不考虑兼容app什么的 1 引入小程序版的threejs库实现 2 使用webview实现 推荐 重点 我的建议是使用这个库 https github
  • React页面设计初体验

    1 定制路由 export default login path login name login component layouts BlankLayout routes path login component Login Index
  • 跟我一起写Shell脚本之十八--常用命令(head)

    1 介绍 head也是我们经常在脚本中用到的一个命令 主要用来显示文件的开头部分内容 我们可以用man head查看下它的介绍 NAME head output the first part of files SYNOPSIS head O
  • Spring系列之@Aspect中@Pointcut 12种用法

    先了解几个概念 文中会涉及几个概念 先了解一下 target 用来表示目标对象 即需要通过aop来增强的对象 proxy 代理对象 target通过aop增强之后生成的代理对象 AspectJ AspectJ是什么 AspectJ是一个面向
  • [C++]备忘录模式

    备忘录模式 Memento Pattern 保存一个对象的某个状态 以便在适当的时候恢复对象 备忘录模式属于行为型模式 github源码路径 https github com dangwei 90 Design Mode 此文件包含 mai
  • Error:Cannot build artifact xxx:war exploded’ because it is included into a circular dependency 解决方法

    我报的错误是day0601和day1202冲突 试了网上的方法删除了idea中artifact中重复文件并没有解决问题 在网上找了很久也没解决 后来自己试了一下 这样操作以后我这个就不会报循环依赖的错误了
  • 天使投资和风险投资有何区别?

    7月5日 天使投资人张青永 左 和创业者胡宁波 右 做客雅虎 谈融资知识和技巧 以下内容摘自实录 主持人 我觉得 赢在中国 的目的就达到了 那进入我们今天的主题就是融资基础知识和技巧 这是一个很专业化的知识 大家对这个并不太清楚 比如天使投
  • 全网最详细IDEAvim配置(.ideavimrc)

    IDEAvim 写在前面 本配置文件用到的插件如下 IdeaVim IdeaVim EasyMotion IdeaVimExtension which key Vim快捷键提示插件 CodeGlance Pro 右侧代码小地图 Transl
  • Python下载库超时Connection to files.pythonhosted.org timed out问题解决(换源)

    一年没用Python 这突然有节课老师让用Python 用就用吧 一来就是一个下马威 pip版本太低不支持 更新还更新不了 就是超时 官网也进不去 抓狂中 按照提示命令更新 更新超时 哇呀呀呀 我们还是冷静下来分析以下问题吧 错误信息提示连
  • 一些常见BootLoader介绍

    首先区分一下BootLoader和Monitor的概念 严格来说 BootLoader只是引导设备并且执行主程序的固件 而Monitor还提供了更多的命令行接口 可以进行调试 读写内存 烧写Flash 配置环境变量等 Monitor在嵌入式
  • Qt自定义界面类并提升(提升的窗口部件)

    1 用Qt Creator新建一个自定义Widget 类名自定义为 QMyForm 2 在Qt Creator自带的设计师里面 把普通的Wiget提升为自定义的QMyForm 选择菜单 提升为 3 手动输入提升的类名 QMyForm 然后点
  • [lightm显示]ubuntu卡在启动界面

    解决lightdm刚下载 重启电脑ubuntu卡在紫色启动界面 1 重启电脑 2 进入恢复模式下的root 3 命令行输入 4 命令行输入reboot 环境 ubuntu20 04 解决 把显示管理器重新改回gdm3即可 1 重启电脑 2
  • 知识图谱之知识融合

    最近在 小象学院 上知识图谱的课程 做了一些笔记 现整理了一下 1 什么是知识融合 将来自不同知识库的同一实体融合在一起 目标 融合各层面的知识 合并两个知识图谱 本体 需要确认的是 1 等价实例 实体的匹配 左右两个人是同一个人 sams