知识图谱快速入门

2023-11-19

图技术

利用neo4j、networkx、dgl、python做图分析挖掘

【1】最短路径算法dijkstra
【2】基于networkx的隐性集团关系识别模型
【3】基于Neo4j的担保社群型态分析挖掘
【4】基于python求有向无环图中target到其他节点全路径
【5】有向图中任意两点的路径
【6】图基础入门


前言

知识图谱是Google在2012年5月17日提出的,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验,本文针对知识图谱的基础定义进行举例说明。


一、知识图谱相关定义

1.图的定义

在数学中,图由顶点以及连接顶点的边构成。顶点表示研究的对象,边表示两个对象之间特定的关系。记为 G = ( V , E ) G = (V, E) G=(V,E),其中 V V V是顶点集合, E E E是边集。【参考:图基础入门】

2.知识图谱的定义

图上的节点、边具有了实际的含义,就得到了一张图谱,图一展示了投资相关的金融图谱,节点上的数值指客户号,边上的数值指投资比例。

在这里插入图片描述图一:投资图谱

知识图谱是描述现实世界中存在的各种实体或概念及其关系,构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。知识图谱的构建包括知识抽取、知识融合,知识一般存储在图数据库中,知识图谱的应用包括知识展示、知识分析挖掘等。知识图谱源于人工智能学派的符号主义。图灵奖获得者、知识工程创始人Edward Feigenbaum曾说过:知识图谱是人工智能的基石

表一:人工智能学派分为三大派
学派 内容
符号主义(Symbolism) 侧重于模拟人的心智,研究怎样用计算机符号表示人脑中的知识并模拟心智的推理过程,知识图谱源于符号主义
连接主义(Connectionism 侧重于模拟人脑的生理结构,神经网络及神经网络间的连接机制与学习算法->深度学习
行为主义(Actionism) 原理为控制论及感知-动作型控制系统,模拟人在控制过程中的智能行为和作用,如自寻优、自适应、自镇定、自组织和自学习等

3.图谱构成过程

  1. 知识抽取是指将结构化、非结构化的数据,抽取成实体、关系、实体三元组的形式,对于非结构化的数据抽取会用到自然语言处理;
  2. 知识融合是指将不同数据源的数据整合,主键统一;
  3. 知识存储将已有知识以图数据库的方式予以存储,并建立动态更新和动态扫描机制;
  4. 知识展示是指把储存好的图数据以谱的形式进行可视化展示;
  5. 知识分析是指通过图计算,挖掘和发现经验规则难以发现的知识,包括路径发现、点分类、边预测、子图研究、图表示、图特征。

4.知识融合、知识抽取融合

关系数据库中的表、行、数据对应于知识图谱中的图、节点与关系、属性。表二至表三的过程称为实体、关系抽取,表三至图二的过程涉及知识存储。知识融合是指不同数据源抽取的实体、关系的融合;出现图三这种情况的原因可能为同名不同人、地区划分粒度不同,或者是错误信息;就需要知识融合,保留正确信息,同名同人需要融合,地区划分粒度需要统一。

表二:文本数据
大明出生于上海市徐汇区
表三:结构化数据
姓名 关系 地址 日期
大名 出生 上海市徐汇区 20220730
在这里插入图片描述图二:无向图

在这里插入图片描述

图三:无向图

5.知识图谱平台架构

在这里插入图片描述图四:平台架构

二、应用准备

1.技术储备

neo4j、python、py2neo、pandas、networkx、graphx、impala、dgl等。

2.应用举例

表四:技术点应用
技术点 应用场景
点分类(客户识别) 基于图谱分析客户信用评分、营销获客
子图研究(社群研究) 使用社团划分、模式匹配、关联查询等识别的关联形态、客群研究
关系预测(关系挖掘) 客户之间强、隐性关系识别分析、股权穿透
路径发现(路径挖掘) 关联客户路径分析挖掘、链路分析、资金违规流向

三、图谱长成什么样?

图谱长成什么样,依赖于怎么进行本体模型设计,通俗的说,就是节点、关系如何定义。

1.知识建模

知识建模是指建立知识图谱的数据模型,即采用什么样的方式来表达知识,构建一个本体模型对知识进行描述。
在本体模型中需要构建本体的概念,属性以及概念之间的关系。知识建模的过程是知识图谱构建的基础,高质量的数据模型能避免许多不必要、重复性的知识获取工作,有效提高知识图谱构建的效率,降低领域数据融合的成本。不同领域的知识具有不同的数据特点,可分别构建不同的本体模型。

2.本体模型

本体模型是根据现实生活中的概念、概念间的关系、概念所具有的属性以及概念的实例抽象出的模型,一般有自顶向下和自底向上两种途径。

  1. 自顶向下
    自顶向下的方法是指在构建知识图谱时首先定义数据模式即本体,一般通过领域专家人工编制。从最顶层的概念开始定义,然后逐步细化,形成结构良好的分类层次结构。
  2. 自底向上
    自底向上的方法则相反,首先对现有实体进行归纳组织,形成底层的概念,再逐步往上抽象形成上层的概念。
在这里插入图片描述图五:自顶向下
在这里插入图片描述图六:自底向上

自底向上的方法则多用于开放领域知识图谱的本体构建,因为开放的世界太过复杂,用自顶向下的方法无法考虑周全(并不清楚有多少种实体、关系、属性),且随着世界变化,对应的概念还在增长,自底向上的方法则可满足概念不断增长的需要。

3.知识建模方式

知识建模目前分为手工建模方式(适用于我行)和半自动建模方式。手工建模方式适用于对知识建模容量小、质量高的要求,但是无法满足大规模的知构建,是一个耗时、昂贵、需要专业知识的任务;混合方式将自然语言处理与手工方式结合,适于规模大且语义复杂的图谱。

手工建模方式过程主要可以分为以下的六个步骤:

  1. 明确领域本体及任务(业务场景及实施人)、
  2. 模型复用(复用现有资源)、
  3. 列出本体涉及领域中的元素(期望三元组)、
  4. 明确分类体系(自底向上)、
  5. 定义属性及关系(实际三元组)、
  6. 定义约束条件(约束条件)。

在人工建模的过程中,以上的六个步骤并不一一顺序执行的,可以根据知识建模的具体需求,组合其中的步骤达到知识建模的目的。

半自动建模方式先通过自动方式获取知识图谱,然后进行大量的人工干预过程。运用自然语言处理技术先自动建模的方法可以分为三大类:基于结构化数据的知识建模方法,基于半结构化数据的知识建模方法和基于非结构化数据的知识建模方法。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

知识图谱快速入门 的相关文章

随机推荐

  • ChatGPT爆火,对制造业销售增长的AI建议

    北京时间2023年2月8日 微软宣布推出由ChatGPT支持的最新版本人工智能搜索引擎Bing 必应 和Edge浏览器 ChatGPT的问世再次掀起AI热潮 接下来让我们一起试试与ChatGPT对话 看看传说中上知天文下知地理的他是如何回答
  • ChatGPT驱动下,网站AI客服该如何进步和创新

    在ChatGPT这个AI智能的驱动下 网站AI客服在进步和创新方面有很多潜力 由于GPT模型的强大语言处理能力和智能对话技巧 使得网站AI客服能够更准确和流畅地与用户交互 looklook今天总结了一些网站AI客服智能的进步和创新方向 以供
  • PLSQL安装步骤

    1 安装 下载PLSQL安装包 解压 默认安装 选择自己需要的版本安装 一路默认即可 2 添加客户端路径 解压instantclient 11 2 rar 放到自定义目录下 我是放在D盘下的Tools目录 没有配置客户端 是无法登陆的 所以
  • 什么是LLM大语言模型?

    什么是LLM大语言模型 大语言模型 英文 Large Language Model 缩写LLM 也称大型语言模型 是一种人工智能模型 旨在理解和生成人类语言 它们在大量的文本数据上进行训练 可以执行广泛的任务 包括文本总结 翻译 情感分析等
  • 美化你的Typora —— 关于MarkDown文档和newsprint.css的一点折腾

    这篇文章起源于我想美化一下Markdown样式 我在Typora官方的newsprint风格的基础上对其css进行了一系列的微调 提升了美观度和易用性 解决了如图像缩放分辨率降低 中英文字体设置等问题 文章目录 0 美化前后效果对比 1 代
  • [转] 解读IntelliJ IDEA的优缺点

    昨天去TW参加了pre class 就是类似于新员工入职前的培训 有很多很cool的东西 给我印象最深的就是IntelliJ IDEA了 coder么 刚才在网上搜了搜 发现很少有她的介绍资料 所以贴过来一个让大家看看 文章中有一句话值得大
  • ucGUI3.9版本快速移植构建

    ucGUI3 9版本快速移植构建 移植前提条件 涉及文件 移植过程 修改绘制驱动文件 修改配置文件 打包进工程 涉及的资源获取 在之前的博客中移植了STemwin5 32版本的 最近更换了 GD芯片所以STemwin没法用了 只有移植emw
  • LeetCode:三数之和&四数之和

    1 方法概述 1 前期处理 三数之和用三个指针 四数之和用四个指针 最开始都要进行从小到大的排序 2 粗处理 编写三数之和的时候第一个指针刚开始指向所给数组的第一个元素 第二个指针记为L指针 初始指向第一个指针所指元素的下一个元素 第三个指
  • 福兔迎春,春节快乐

  • ajax异步问题导致的刷新页面数据不更新

    ajax的async默认的设置值为true 这种情况为异步方式 就是说当ajax发送请求后 在等待server端返回的这个过程中 前台会继续 执行ajax块后面的脚本 直到server端返回正确的结果才会去执行success 也就是说这时候
  • Unity飞船摄像机360度环绕(逐步完善)

    极简版 目标飞船 public Transform target 摄像机距离 public float distance 100 void Update float mouseX Input GetAxis Mouse X float mo
  • Nginx知识总结

    1 简介 Nginx engine x 是一个高性能的HTTP和反向代理web服务器 同时也提供了 IMAP POP3 SMTP服务 Nginx是由伊戈尔 赛索耶夫为俄罗斯访问量第二的 Rambler ru站点开发的 第一个公开版本0 1
  • matlab制作旋转动态图,matlab 如何画动态图(绘图与旋转视图)

    效果图 在matlab中 作图是重要的一部分 那么对于三维的图像 如何将静态的改为动态的呢 首先 静态图的代码 t 0 0 1 20 i 1 200 这里只是画了一个点 而 绘图 效果图 在matlab中 作图是重要的一部分 那么对于三维的
  • docker compose 部署skywalking

    文章目录 前言 架构图 docker compose 脚本 整合springboot 前言 SkyWalking 是一个开源的 APM 系统 核心功能如下 服务 服务实例 端点指标分析 根本原因分析 服务拓扑图分析 服务 服务实例和端点依赖
  • 【SQL注入-12】http头部注入案例—基于Sqli-labs靶机(借助BurpSuite工具)

    目录 1 概述 1 1 User Agent概述 1 2 Referer 概述 2 实验平台及实验目标 2 1 实验平台 2 2 实验目标 3 User Agent注入案例 以sqli labs Less18为例 3 1 注入前准备 3 2
  • 【翻译】 DMA和get_user_pages()

    LWN net需要你 没有订阅者 LWN将根本不存在 请考虑注册订阅 帮助LWN继续出版 作者 Jake Edge 2018年12月12日 Linux管道工会议 在2018年Linux Plumbers大会 LPC 的RDMA微型会议上 J
  • 数据理解与数据准备

    1 数据类型 属性类型 属性的取值范围决定了属性的类型 定性数据 标称属性 多分类变量 二元属性 01变量 序数属性 有序分类变量 定量数据 区间标度属性 比率标度属性 区分这两种属性的原则是该属性是否有固定的零点 根据表现出来的数值特点
  • Spring关于数组、集合和Properties的注入

    在某个类中需要依赖其它类时 通常是new一个依赖类再调用类实例的方法 这种开发存在的问题是new的类实例不好统一管理 Spring提出了依赖注入的思想 即依赖类不由程序员实例化 而是通过Spring容器帮我们new指定实例并且将实例注入到需
  • prometheus实战指南

    一 prometheus概述 1 Prometheus简介 Prometheus是一套开源的系统监控报警框架 作为新一代的云原生监控系统 目前已经有上千个贡献者参与到Prometheus的研发工作上 并且超过120 项的第三方集成 Prom
  • 知识图谱快速入门

    图技术 利用neo4j networkx dgl python做图分析挖掘 1 最短路径算法dijkstra 2 基于networkx的隐性集团关系识别模型 3 基于Neo4j的担保社群型态分析挖掘 4 基于python求有向无环图中tar