知识图谱(Knowledge Graph, KG)(王昊奋老师-课程学习笔记)

2023-05-16

主要内容:
1、知识图谱的概念
2、典型知识库介绍(简)
3、知识图谱技术概览
4、典型案例简介


知识图谱(KG)的概念

知识图谱(KG)得益于Web的发展(更多的是数据层面),有着来源于KR、NLP、Web、AI多个方面的基因。知识图谱(KG)的概念演化如图:
KG的概念演化图

知识图谱是2012年后的提法,基础还是语义网本体论

知识图谱的本质包含:
一、 知识表示——Knowledge Representation
二、 基于知识表示的知识库——Knowledge Base
知识库的来源:知识构建、知识抽取、知识融合
知识库怎么用:语义搜索、知识问答

知识图谱由文本(Texts、Documents)的链接到对象(Objects)的链接。

知识图谱(KG)的作用:
1、辅助搜索
2、辅助问答
3、辅助决策
4、辅助AI:常识推理

知识图谱的深度学习的区别:
人的大脑依赖所学的知识进行思考、逻辑推理、理解语言。
可以将深度学习知识图谱比作是“聪明的AI”和“有学识的AI”。
1、深度学习:主要是【学习】能力,通过强大的计算能力,感知、识别、判断来进行学习。
2、知识图谱:主要是【推理】能力,通过已有的规则和知识,思考、语言、推理来进行学习。
深度学习VS知识图谱


典型知识库介绍(简)

典型知识库有:
CYC知识库:常识知识库,最初目标是建立人类最大的常识知识库。
Wordnet:词典知识库,主要用于词义消歧。
ConceptNet:常识数据库,最早源于MIT媒体实验室,主要依靠互联网众包、专家创建和游戏三种方法来构建。知识库以三元组形式的关系型知识构成。侧重词与词之间的关系。ConceptNet完全免费开放,并支持多种语言。
Freebase:完全免费并允许商业化的开放许可协议。通过开源免费吸引吸引用户贡献数据,增值的应用及技术服务收费。
Wikidata:目标是构建全世界最大的免费知识库,但是仍然面临知识缺失严重的问题。
DBPedia:早期的语义网项目,意指数据库版本的Wikipedia,是从Wikipedia抽取出来的链接数据集。
YAGO:集成了Wikipedia、WordNet、GeoNames三个来源的数据。YAGO还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述。
Babelnet:类似于WordNet的多语言词典知识库,目标是解决WordNet在非英语语种中数据缺乏的问题。
NELL:是卡内基梅隆大学开发的知识库,主要采用互联网挖掘的方法从WEB自动抽取三元组知识。
微软的Concept Graph:以概念层次体系为中心的知识图谱。与Freebase等知识图谱不同,Concept Graph是以概念定义和概念之间的IsA关系为主。
OpenKG:中文知识图谱资源库。
cnSchema:开放的中文知识图谱Schema


知识图谱技术概览

知识图谱的技术体系如图:
知识图谱的技术体系

1、知识表示

知识表示研究怎样用计算机符号来表示人脑中的知识,以及怎样通过符号之间的运算来模拟人脑的推理过程。

知识图谱的离散式表示:
RDF、RDF Graph、RDFS、RDF的序列化格式、OWL、OWL extends RDF Schema、SPARQL、JSON-LD(数据交换格式)、RDFa HTML5 MicroData(在网页中嵌入语义数据)、
知识图谱的分布式表示:
KG Embedding

2、知识抽取:NLP+KR

知识抽取的主要方法:
(1).知识工程:正则表达式、模板匹配、规则约束
(2).基于本体的抽取:知识挖掘(推理)
(3).基于模型的抽取:模型、训练

3、知识存储

知识比数据的结构更加复杂,知识的存储需要综合考虑图的特点、复杂的知识结构存储、索引和查询(支持推理)的优化等问题。

典型的知识存储引擎分为基于关系数据库的存储和基于原生图的存储

在实践中,多为混合存储结构,图存储并非必须

4、知识问答

KBQA(Knowledge-Based Question Answering,基于知识库的问题回答)以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜素引擎的基本形态。

5、知识推理

简单而言,推理是指基于已知事实推出未知的事实的计算过程。

大部分搜索引擎目前都已经支持了一定的推理能力。例如:在百度搜索中输入“姚明的女儿的妈妈的老公”,会发现搜索结果还是姚明。

知识推理可以按照解决方法推理类型进行分类。如图:
知识推理类型
基于描述逻辑的推理:本体推理

描述逻辑(description logic)是一种用于知识表示的逻辑语言和以其为对象的推理方法,主要用于描述概念分类及其概念之间的关系。
描述逻辑是当前语义网发展中本体的理论基础。

基于统计规则挖掘的推理
基于表示学习的推理-Representational Learning

6、知识融合

知识融合是指在不同数据集中找出同一个实体的描述记录,主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息。

知识融合的典型工具:Dedupe

Dedupe,基于Python的工具包,实现了包括fuzzy matching,deduplication,entity resolution在内的常见任务。主要处理流程是先对所有records通过Clustering/Blocking的方法进行分组,然后在组内部通过计算相似度特征和机器学习分类模型对任意一对records进行预测是否为同一实体。

适合于两个数据集有相似的结构,如果两个数据集的实体属性个数差异很大,不建议采用。

知识融合:典型工具-LIMES

专门针对链接数据Linked Data设计的链接框杂,不要求两个数据集的实体具有相似的结构。可灵活配置匹配规则,自定义距离计算模型,也支持基于Active Learning的机器学习方法

7、知识众包

Wikibase
Schema.ORG


典型案例简介

知识图谱的案例涉及:医疗健康、金融、电商、出版、农业、政府、电信、数字图书馆等领域。

下面以图片的形式进行展示:
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

以上是学习王昊奋的《知识图谱》课程的第一课的总结学习笔记。理解了课程的总体框架后,我对知识图谱和我所要研究的本体技术的关系有了较为清晰的认识,剩下的内容会根据自己的研究内容进行选择性学习。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

知识图谱(Knowledge Graph, KG)(王昊奋老师-课程学习笔记) 的相关文章

  • 视频教程的重要性

    经常看文字版的教程看得神烦对吧 xff0c 没有耐心 xff0c 心态爆炸 所以这个时候意识到视频教程的重要性 xff0c 也是适合懒人的办法 xff0c 直接跟着视频一步步走就可以了 这样会让人感觉好一些 而且文字所给的信息毕竟没有视频所
  • 找工作要紧紧围绕别人笔试面试要考什么来,紧紧围绕着真题来。

    这个和我考研的思想一样 xff0c 你首先要知道别人要考什么 xff0c 找工作也是 xff0c 要紧紧围绕真题来 xff0c 真正去面试去磨 而不是自己想当然地复习 想当然地一个劲死看书死学 最后才发现自己看的别人不怎么考 xff0c 别
  • win10自带远程桌面连接linux系统时崩溃的问题

    sudo apt get install xfce4 echo xfce4 session gt xsession touch session sudo vim etc xrdp startwm sh 在 etc X11 Xsession前
  • stlink制作安排

    安排 xff1a 教大家如何刷固件 xff0c 同时再测试一遍硬件 已完成 小蓝板硬件上的注意事项 xff08 d 43 上拉 boot 64 128k flash xff09 已完成 我做这个stlink的完整的过程 xff0c 包括踩的
  • 为什么说神经网络是黑箱子模型,我刚刚有了新的感悟。

    为什么说神经网络是黑箱子模型 xff0c 我刚刚有了新的感悟 深度神经网络是自动提取特征 xff0c 不同于以往的人工提取特征 人工提取特征他是知道为什么提取这个特征的 xff0c 而神经网络 xff0c 则是通过训练去尽可能贴近训练集 x
  • 个人总结一下batch和epoch

    首先得说梯度下降算法 https blog csdn net lhhopencv article details 78912256 那也就可以理解了为什么说梯度下降的几种方式的根本区别就在于上面公式中的batch不同 当batch size
  • 关键在于理解

    关键在于理解 xff0c 你懂了还是没懂你自己心里清楚 xff0c 用什么方式让自己弄懂 xff0c 都是可以的 看书啊 xff0c 看视频啊 xff0c 网上搜文章啊 xff0c 请教人啊 你懂没懂 xff0c 掌握没掌握 xff0c 心
  • 关于购买ipad

    首先ipad和ipad pro有哪些产品要搞清楚 首先2017年之前的不考虑了 2017年的有ipad2017 9 7寸 xff0c 这个不支持笔写 xff09 ipad pro 10 5 ipad pro 12 9 第二代 xff09 2
  • 个人目前理解机器学习和深度学习的区别在于特征是否自动提取

    首先我是看到SIGAI给的机器学习算法地图里没有无监督学习里面没有自动编码器 xff0c 而这个在他们的深度学习的课表目录里面 xff0c MNIST手写识别也是在他们的深度学习课程里面 xff0c CNN RNN都是深度学习课程里面的 x
  • 论文阅读笔记2——Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks

    论文标题 xff1a Evading Defenses to Transferable Adversarial Examples by Translation Invariant Attacks 论文链接 xff1a https arxiv
  • visual lisp dcl对话框开发 --控件右对齐

    演示按钮右对齐 alignment lsp span class token punctuation span by 鸟哥 qq1833183060 span class token punctuation span 功能 xff1a 演示
  • visual lisp/autolisp dcl对话框开发 --显示文本

    演示如何在对话框中显示文本 text lsp span class token punctuation span by 鸟哥 qq1833183060 span class token punctuation span 功能 xff1a 演
  • visual lisp/autolisp dcl对话框开发 --列表框(list_box)

    本文演示dcl list box控件 效果图 xff1a listbox lsp span class token punctuation span by 鸟哥 qq1833183060 span class token punctuati
  • 使用Docker安装ROS2 (ros-humble) 并开启对Wayland的支持

    前言 ROS Robot Operating System 是主流的机器人开发框架之一 截止目前 xff08 2020 10 xff09 xff0c 已经推出了ros humble版本 xff0c ROS2相比ROS1有很大的不同 xff0
  • linux下添加永久路由

    在linux下永久保存路由表的写法 一 SuSe Linux 在 etc sysconfig network routes里添加 etc sysconfig network routes格式如下 xff1a Destination Dumm
  • MySQL远程访问及访问速度慢等问题解决

    1 访问速度慢 现象 访问数据库速度慢 xff0c 完成一次连接或数据访问需要将近5s左右 原因 每次访问数据库 xff0c mysql就会试图去解析来访问的机器的domain name xff0c 如果这时解析不料 xff0c 等一段时间
  • JVM实战1-JVM虚拟机内存区域划分

    1 程序计数器 PC寄存器 当前线程所执行的字节码的行号指示器 在虚拟机的概念模型里 xff0c 字节码解析器工作就是通过这个计数器的值来选取下一条要执行的字节码指令 xff0c 分支 xff0c 循环 xff0c 跳转 xff0c 异常处
  • 2014,我还是一名菜鸟

    正如题目所提到 xff0c 菜鸟 什么是菜鸟呢 xff0c 不够成熟 xff0c 不够厉害 xff0c 对所从事和正在进行的工作不入流 反应痴呆 生疏 对于作为一名刚刚升大二的计算机专业的学生的我来说 xff0c 就是菜鸟 我所在的地方 x
  • Linux下so文件的生成和使用

    环境 xff1a Vmware Workstation xff1b CentOS 6 4 x86 64 说明 xff1a 1 源文件中不能有main函数 xff1b 写so文件的时候使用C语言写 xff0c 不要用C 43 43 2 在使用
  • 2014嗖的一声就过去了

    项目结束 xff0c 在CSDN一通乱逛看大牛所写文章 xff0c 正待如饥似渴 xff0c 突然瞄到右边栏有 我的2014 醒目字样 xff0c 以为是哪位大牛总结自己的2014 xff0c 没曾想到是CSDN发出的活动 xff0c 看到

随机推荐