【华为数据之道学习笔记】5-9图模型设计

2023-12-19

图模型作为当前流行的信息处理加工技术,自提出以来,迅速在 学术界和工业界得到了普及,在智能推荐、决策分析等方面有着广泛的应用。
图模型由节点和边组成。节点表示实体或概念,边则由属性或关 系构成。实体指的是具有可区别性且独立存在的某种事物,如某一个人、某一个城市、某一种植物、某一种商品等,是图模型中的最基本元素;概念是对特征的组合而形成的知识单元,主要指集合、类别、对象类型、事物的种类,例如人物、地理等;属性主要指描述实体或
概念的特征或特性,例如人员的国籍、生日等。
图模型构建包含几个关键步骤:
第一步:业务场景定义。
业务场景决定信息涵盖范围,以及信息颗粒度的表示。以支撑业 务连续性为例,因为不可抗力的影响,部分区域的供应商工厂无法正常生产和发货,涉及的信息包括供应商的信息、产能、元器件及内部物料、合同和客户信息,要求能够根据用户输入的当前物料储备和合同状态,获取影响内部物料、产品、合同交付和客户的清单和范围。
这种应用涉及对产品目录和配置的解读,需要对收集的信息进行最小 采购器件的抽取。
信息颗粒度在图模型建设中是个不可忽视的问题,根据应用场景 决定信息颗粒度以及图模型的精确性与有效性。比如手机,有品牌、型号、批次,直至手机整机。同样的信息范围,颗粒度越细,图模型应用越广泛,关系越丰富,但冗余越多,知识消费越低效。信息颗粒度的原则是“能满足业务应用的最粗颗粒度”。
第二步:信息收集。
信息的选取要考虑两个方面的内容。
1)与应用场景直接相关的信息。例如,判断不可抗力供应中断影 响的范围,直接相关的信息有物料信息、产品配置、合同信息等。
2)与应用场景间接相关,但可辅助理解问题的信息。这包括企业 信息、专业领域信息、行业信息以及开放域信息。
第三步:图建模。
相同的数据可以有若干种模式的定义,良好的模式可以减少数据 冗余,提高实体识别的准确率,在建模的过程中,要结合数据特点与应用场景来完成。同样的数据从不同的视角可以得出不同的图模型。
第四步:实体、概念、属性、关系的标注。
企业图模型中涉及的实体和概念可分为三类:公共类,如人名、 机构名、地名、公司名、时间等;企业类,如业务术语、企业部门等;行业类,如金融行业、通信行业等。
第五步:实体和概念的识别。
企业图模型中实体、概念的识别可将业务输入与数据资产中已有 的信息作为种子,运用命名实体识别(NER)的方法扩展出新实体概念,经业务确认后,列入实体、概念库。
第六步:属性识别与关系识别。
企业图模型中的属性与关系一般是根据业务知识在模式层设计时 定义,属性与关系相对稳定,其扩展场景不是很多。
企业图模型的存储技术要综合考虑应用场景、图模型中节点和联 接的数量、逻辑的复杂度、属性的复杂度,以及性能要求。一般建议采用混合存储方式,用图数据库存储关系,关系型数据库或键值对存储属性。偏重逻辑推理的应用场景用RDF的存储方式,偏重图计算的应用场景选择属性图的存储方式。发挥两类数据存储和读写的各自优
势。
知识计算主要是根据图谱提供的信息得到更多隐含的知识,如通 过模式层以及规则推理技术可以获取数据中存在的隐含信息。知识计算涉及三大关键技术:图挖掘计算、基于本体的推理、基于规则的推理。图挖掘计算是基于图论的相关算法,实现对图谱的探索和挖掘。
图挖掘计算主要分为如下6类。
  • 图遍历:知识图谱构建完之后可以理解为是一张很大的图,可以 去查询和遍历这个图,要根据图的特点和应用场景进行遍历。
  • 图里面经典的算法,如最短路径。
  • 路径的探寻,即根据给定两个实体或多个实体去发现它们之间的 关系。
  • 权威节点的分析,这在社交网络分析中使用较多。
  • 族群分析。
  • 相似节点的发现。
图挖掘计算在当前的应用场景中,基于业务连续性,通过查询遍 历图模型,识别影响节点和影响范围,基于最短路径,辅助决策物流线路,在企业中的应用较为普遍。
图模型在企业中的价值,很大程度上取决于企业基于对象节点可 以构建多完善的关系,这个关系的构建是一个逐步完善的过程,基于业务场景不断补充和完善关系,这就是图模型的优势。当形成一个足够完善的企业级图模型后,领域分段的业务场景应用只需要裁剪部分节点和关系,就可以满足业务的需求,达到快速响应业务需求、降低
开发成本的目的。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【华为数据之道学习笔记】5-9图模型设计 的相关文章

  • 《魔童降世》影评——从封神演义谈到宿命

    今日看完魔童降世中的哪吒 不得不称赞这次改编很精妙 也不得不说编剧的三观很正 哪吒在我们大多数人的心中可能是纯真无害的小孩子 生来便拥有法宝乾坤圈和混天绫 得遇名师太乙真人 修得神通三头六臂 坚持正义 帮助武王伐纣 灭石叽 最后肉身 莲花
  • cuda编程学习笔记 第二章 cuda memory management

    应用的性能可能有 75 都花费在内存相关问题上 NVPROF and NVVP 这俩是调试工具 不知道是不是基于CUPTI CUDA Profiler Tools Interface NVPROF是命令行工具 nvvp是可视化工具 nvvp
  • 《疯狂Java讲义》读书笔记(四):Java基础类库

    第七章 Java基础类库 使用Scanner获取键盘输入 Scanner类提供了多个构造器 不同构造器可以接收文件 输入流 字符串作为数据源 主要提供了2个方法 hasNextXXX 是否还有下一个输入项 XXX可以表示Int Long等
  • 工作日志【 SQL内部规范-ETL银行项目 】

    工作日志 SQL内部规范 ETL银行项目 一 表结构设计 建表时 首先要确定表的业务唯一键 即该表的唯一索引由哪些字段构成 不建议创建没有唯一索引的表 如果要修改表的唯一索引 一定要严格评审 前台 表结构变更 F层的表需要通知JAVA开发
  • NAT穿越原理——STUN

    STUN是RFC3489规定的一种NAT穿透方式 它采用辅助的方法探测NAT的IP和端口 毫无疑问的 它对穿越早期的NAT起了巨大的作用 并且还将继续在ANT穿透中占有一席之地 STUN的探测过程需要有一个公网IP的STUN server
  • oracle表空间迁移transport_tablespace的使用

    问题描述 如果某个表空间有多个用户 那么我们在迁移的时候如果按用户导出导入的话 那将是一个麻烦费事的活 这个时候我们可以通过transport tablespace参数进行表空间迁移 达到一次性迁移整个表空间的目的 下面通过一个实验来讲解整
  • 数据仓库灵魂30问之如何建设数据中台?一幅图说清中台。

    什么是中台 什么是数据中台 数据仓库实现了企业数据模型的构建 大数据平台解决了海量 实时数据的计算和存储问题 数据中台要解决什么呢 数据如何安全的 快速的 最小权限的 且能够溯源的被探测和快速应用的问题 数据中台不应该被过度的承载平台的计算
  • 数据中台产品【数据服务中心】【含代码说明等】

    链接 https pan baidu com s 1 WNnt690 WWf8BX8uvNaKw 提取码 uscrDataCenterTodo CDH hbase zk 部署和配置 代码发布 presto redis集群 cacheclou
  • 《大话数据结构》-程杰 读书笔记

    认为程序设计的实质是对确定的问题选择一种好的结构 加上设计一种好的算法 可见 数据结构在程序设计当中占据了重要的地位 程序设计 数据结构 算法 要你相信自己一定可以学得会 学得好 既然无数人已经掌握了 你凭什么不行 于每个链表来说 它所占用
  • 【读书笔记】Linux高性能服务器编程(第二篇 第五章)

    第五章 Linux网络编程基础API 5 1 socket地址API 5 1 1 主机字节序和网络字节序 字节序分为 1 大端字节序 一个整数的高位字节 23 31 bit 存储在内存的低地址处 低位字节 0 7 bit 存储在内存的高地址
  • 从瀑布到敏捷——漫画解读软件开发模式变迁史

    网址 https www tapd cn forum view 36971 从文章中可知 1 瀑布模型 将客户隔绝在外并按顺序逐一完成的模式 从时间上来说 只有等上一交付件完成了 下一阶段才能开始是一种浪费 特点 文档驱动 单道生产 2 敏
  • 《Java 并发编程实战》--读书笔记

    Java 并发编程实战 注 极客时间 Java 并发编程实战 读书笔记 GitHub https github com ByrsH Reading notes blob master Concurrency Java并发编程实战 极客时间
  • 《从Paxos到ZooKeeper》读书笔记之第一章(二)

    从Paxos到ZooKeeper 读书笔记之第一章 二 1 2从ACID到CAP BASE 这一节由三小节 从大家数值的数据库事务的四个特性 引出来分布式事务的概念 通过对ACID模型的讨论 提出如何构建一个兼顾可用性和一致性的分布式系统方
  • 《Real-Time Rendering 3rd》提炼总结 RTR3读书笔记

    Real Time Rendering 3rd 提炼总结 毛星云 https zhuanlan zhihu com p 34207965 2 5 几何着色器 The Geometry Shader 几何着色器可以改变新传递进来的图元的拓扑结
  • 手写体数字识别例程——LeNet-5模型

    上一篇博客中介绍了Caffe环境的搭建 本片博客中介绍一下 在caffe中训练的第一个CNN模型LeNet 5 如果存在不正确的地方欢迎指正 该例程用的数据集是MNIST 该数据集中包含60000个训练集和10000个测试集 使用的CNN模
  • extern详解

    extern 关键字 extern是C语言中的一个关键字 一般用在变量名前或函数名前 作用是用来说明 此变量 函数是在别处定义的 要在此处引用 extern这个关键字大部分读者应该是在变量的存储类型这一类的内容中 遇到的 下面先分析C语言不
  • 汇编语言(第三版)读书笔记 2 - 第2章 寄存器

    第2章 寄存器 前一章所说的总线 相对于CPU内部来说是外部总线 内部总线实现了CPU内部各个器件 运算器 控制器 寄存器 之间的联系 外部总线实现了CPU和主板上其他器件的联系 不同的CPU 寄存器的个数 结构是不相同的 8086 CPU
  • 数字化转型数据中台解决方案:PPT全文50页,附下载

    关键词 数字化转型 数据中台解决方案 数字化转型对企业的意义 数字化转型的核心 数据中台技术架构 数据中台的作用和意义 一 数字化转型背景 1 互联网普及和信息技术突破 随着互联网的普及和信息技术的突破 企业迫切需要适应数字化时代的变革 数
  • 【华为数据之道学习笔记】5-9图模型设计

    图模型作为当前流行的信息处理加工技术 自提出以来 迅速在 学术界和工业界得到了普及 在智能推荐 决策分析等方面有着广泛的应用 图模型由节点和边组成 节点表示实体或概念 边则由属性或关 系构成 实体指的是具有可区别性且独立存在的某种事物 如某
  • 【华为数据之道学习笔记】5-10标签设计

    标签是根据业务场景的需求 通过对目标对象 含静态 动态特 性 运用抽象 归纳 推理等算法得到的高度精练的特征标识 用于差异化管理与决策 标签由标签和标签值组成 打在目标对象上 标签由互联网领域逐步推广到其他领域 打标签的对象也由用 户 产品

随机推荐

  • 确定 postgres 数值最大值最小值

    在我的 PostgreSQL 表之一中 有一个数据类型为 Numeric 20 10 的属性结果 其输入值之一可以是 无穷大 我想知道长度 20 10 的最大值和最小值是多少 对于一个数字numeric precision scale 极限
  • 如何将向量 转换为向量 /string

    我们有一个遗留方法 它返回一个vectorchar 指针 即vector
  • 学习 C++:返回引用并绕过切片

    我在理解参考资料方面遇到了困难 考虑以下代码 class Animal public virtual void makeSound cout lt lt rawr lt lt endl class Dog public Animal pub
  • 带单引号的 Perl 单行代码

    我使用 Perl 单行语句创建 SQL 语句 但无法包含单引号 这就是我想要的 获取第一个字段并为其添加引号 echo a b perl F lane print F 0 a 我尝试了几种不同的方法 但对我来说没有用 echo a b pe
  • 邮递员表单数据有效,但原始等效项无效

    我有一个正在测试的 API 如果我通过 表单数据 提交具有以下值的数据 则它可以工作 key response comment value This is a test 但是 如果我在 原始 选项卡中使用以下结构执行一些自定义 JSON 则
  • 将非 www/ssl/尾部斜杠的重写与 .htaccess 中的大写->小写结合起来

    因此 我有一个简单的重写来捕获非 www URL 非 SSL url 和缺少尾部斜杠的 url 以重定向到 SSL www 和尾部斜杠 使用
  • 从后端到前端 Yii2 高级应用程序

    我正在尝试将一些控制器从前端链接到后端 几个小时后我不知道问题出在哪里 Backend file main php urlManager gt enablePrettyUrl gt false showScriptName gt false
  • C 中类型转换时的运算符优先级

    下面的代码给出了正确的乘法结果 int var0 245895 int var1 478565 long long val 0 val long long var0 var1 但这篇文章给出了错误的结果 int var0 245895 in
  • MatTable 上的多个过滤器

    我一直在尝试应用多列过滤 即列标题中的文本输入将仅过滤列的内容 到目前为止 我已经能够通过覆盖来使其工作filterPredicate of MatTableDataSource但是一旦我覆盖跨列的默认过滤就不再起作用 export cla
  • firefox flex 不会随着滚动条而增长

    我遇到了特定于 Firefox 的问题 据我所知 在 Chrome 中 如果你有 flex 0 0 auto overflow auto 当 y 方向溢出时 它会占用滚动条的额外宽度 一切都很好 但在 Firefox 中 它不会考虑额外的宽
  • 在 Promise 中断言函数调用

    我正在为异步 Node js 函数编写一些测试 该函数使用 Mocha Chai 和 Sinon 库返回承诺 假设这是我的功能 function foo params return mkdir params then dir gt writ
  • JBoss数据库连接池

    我是 jboss 的新手 我被要求将 jboss 连接池机制与现有的 Web 应用程序合并 考虑到 Web 应用程序数据库层已正确编写 即所有结果集 语句和连接在不需要时正确关闭 在正确配置 jboss 数据源后 我必须在 Web 应用程序
  • Android 中的静电安全吗?

    我在代码中使用一个静态类来定义一个静态字段 我在 Activity onStop onStart 调用之间重用该静态字段 这是一个场景 用户点击 授权 按钮 静态数据初始化 活动停止并调用 Web 浏览器 浏览器执行回调 Activity恢
  • 从客户端检索 Kafka 代理属性

    我想知道是否有一种方法可以使用 shell 命令检索 kafka 代理的所有配置属性 例如 类似的东西 kafka configs sh zookeeper broker ip 2181 entity type brokers descri
  • 无法将工件从中央 IntelliJ 传输到中央 IntelliJ

    我的 Spring boot 项目使用 Maven 当我使用 IntelliJ Community 构建它时 出现错误 无法将工件 com jolira hickory pom 1 0 0 从 转移到中央 https repo maven
  • scanf("%[^\n]",name); 的区别和 scanf(" %[^\n]",名称);

    这不是一个错字 对于那些没有注意到的人来说 第二个上有一个空格 第一个上没有空格 当我做作业时 我会遇到这样的情况 include
  • JSplitPane + MiGLayout:如何启用自动调整大小

    我在这里做错了 我想在 JFrame 中的 JPanel 中的 JSplitPane 中有两个 JButton 其中按钮填充 JSplitPane 这是调整 JFrame 大小时得到的结果 按钮保持正常大小 并且 JSplitPane 不允
  • 无法在 Windows 7 上注册 Sybase 15 ASE OLE DB 驱动程序

    我正在尝试在我的 Windows 7 计算机上设置 Sybase 15 ASE OLE DB 驱动程序 我的 32 位 ODBC 数据源管理器 C Windows SysWOW64 odbcad32 exe 的 驱动程序 选项卡中已列出了
  • 使用 Eclipselink Moxy 如何将 xml 内容映射到与值不同的名称?

    在我的 Xml 中我有
  • 【华为数据之道学习笔记】5-9图模型设计

    图模型作为当前流行的信息处理加工技术 自提出以来 迅速在 学术界和工业界得到了普及 在智能推荐 决策分析等方面有着广泛的应用 图模型由节点和边组成 节点表示实体或概念 边则由属性或关 系构成 实体指的是具有可区别性且独立存在的某种事物 如某