Data Fabric,下一个风口?

2023-11-14

Data Fabric,又名数据经纬,是近期横空出世的一个概念。之前对其了解甚少,近期做了个小调研,对这一概念内涵与外延、产品及定位、业务与前景、未来及趋势等做了简单整理总结,分享给大家。

1. 什么是Data Fabric

❖ 前世今生

Data Fabric概念 在 2000 年首先被 Forrester 提出,2016 年 Forrester Wave 中增加了 Big Data Fabric 类别。从2019 年 Data Fabric 开始入选 Gartner 各年度的技术趋势。

Gartner发布的《2021年十大数据和分析技术趋势》中,加速变革被列在了首位(Accelerating Change),其中Data Fabric作为数据基础能力被再次强调。

2022 年 Gartner 公布的顶级战略技术趋势中,Data Fabric 入选工程信任主题的关键技术趋势。

❖ 基本概念

我们如何理解“Data Fabric”?Fabric这个词的本意是“织物、布、构造“。可以想象,数据将在纵横交错的、像织物那样的云网络中自由流动,没有任何限制。不管是哪种计算模式,还是什么的网络,针对批数据、流数据都可以自由交换、共享和处理,那就是数据经纬-Data Fabric带来的新体验。 目前对Data Fabric,还没有特别统一的认识,各家对其有着自己的解读。

  • Forrester 认为 Data Fabric“是以一种智能和安全的并且是自服务的方式,动态地协调分布式的数据源,跨数据平台地提供集成和可信赖的数据,支持广泛的不同应用的分析和使用场景。”其专注于对数据集成、转换、准备、策展、安全、治理和编排的自动化,从而实现了快速的数据分析和洞察,帮助业务获得成功。

  • Gartner 将 Data Fabric 定义为一种新兴的数据管理设计理念,可实现跨异构数据源的增强数据集成和共享,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署和使用,从而实现灵活的数据交付。Gartner 强调,通过 Data Fabric,散落各处的数据孤岛都能被统一发现和使用,并基于主动元数据进行建设和持续分析,认为数据编织的真正价值在于它能够通过内置的分析技术动态改进数据的使用,同时通过将自动化能力添加到整体数据管理中,使数据管理工作量减少 70% 并加快价值实现速度。

❖ 发展背景

一项新技术的出现,必然有其背景及规律,Data Fabric的出现也是为解决当前数据场景的问题。简单梳理下,可罗列为几个痛点(下列数据来自Gartner的调查报告):

  • 激增的暗数据&数据孤岛

随着企业数据量激增和数据需求日趋复杂,越来越多数据技术 (如数据仓库、数据湖、NoSQL 数据库、OLAP 数据库、实时数据源等) 被引入,企业数据在物理上支离破碎,尤其是采用混合云&多云架构后更是加剧了这一问题。只有 45% 的结构化数据应用于业务,只有不到 1% 的非结构化数据被分析或使用,多达 68% 的数据没有被分析,多达 82% 的企业受到数据孤岛的阻碍。

  • 低效的数据交付方式

激增的企业数据、爆炸的业务需求、复杂的数据工程,让业务自助找数、用数变得日趋困难:分析师 80% 的时间用于发现和准备数据,知识型员工将 50% 的时间浪费在寻找数据、发现和纠正错误以及确认不信任的数据来源上、数据科学家花 60% 的时间清理和组织数据。

  • 日益严峻的数据质量问题

企业中 55% 的数据无法用于决策,47% 新创建的数据记录至少有一个严重错误,数据质量差导致了巨额的财务损失;为解决不同数据计算和存储需求,企业开始采用越来越多的数据技术 (如数据仓库、数据湖、NoSQL 数据库、OLAP 数据库、实时数据源等) ,让实现“单一事实来源的数据”变得十分困难。

  • 不断扩大的安全合规风险

超过 70% 的用户可以访问他们不应该访问的数据。而随着网安法、数安法、个保法、GDPR、CCPA 等数据安全和隐私保护法律的出台和外部安全威胁越来越大,企业必须在合规和治理方面表现出更高的标准,更难的是,企业还需同时兼顾业务的用数效率。

Gartner称:“在过去的十年里,数据和应用孤岛的数量激增,而数据和分析(D&A)团队的技能型人才数量却保持不变,甚至下降。作为一种跨平台和业务用户的灵活、弹性数据整合方式,Data Fabric能够简化企业机构的数据整合基础设施并创建一个可扩展架构,减少大多数数据和分析团队因整合难度上升而出现的技术债务。其真正价值在于:通过内置的分析技术动态改进数据的使用,使数据管理工作量减少70%并加快价值实现时间。Gartner最新预测显示,至2024年,Data Fabric可减少50%人力数据管理成本,与此同时,数据使用效率会因Data Fabric的部署使用伴随着数据类型日益多样化、数据孤岛不断林立、数据结构愈加复杂,企业在分布式数据环境中高效管理和利用多维数据成为亟待解决的难题。与此同时,企业上云成为一大趋势,混合数据环境下企业该如何跨平台、跨环境,以实时的速度收集、访问、管理、共享数据,从不断变化、高度关联、却又四处分散的数据中获得可执行洞见,实现智能化决策?面对上述数据管理难题,Data Fabric提出了一套治理“良方”。Data Fabric是一种新兴的数据集成和管理理念,意在独立于部署平台、数据流程、地理位置和架构方法,在不移动数据位置的前提下,为企业内的所有数据提供单一访问点,保证数据使用端在正确的时间、正确的地点以实时的速度拿到正确的数据。

❖ 架构定位

Data Fabric这一概念,尤其鲜明的架构特点,这也是有别于其他技术的重要区别。其实质上是一种数据管理架构思想,其主要目标是打破企业内部的数据孤岛、最大化释放数据价值。其核心理念是通过优化跨源异构数据的发现与访问,将可信数据从所有数据源中以灵活且业务可理解的方式交付给所有相关数据消费者,让数据消费者自助服务和高效协作,实现极致敏捷的数据交付,同时通过主动、智能、持续的数据治理让数据架构持续健康,从而提供比传统数据管理更多的价值。其具备以下特点:

  • 连接数据,而非集中数据

Data Fabric 的一个关键原则是数据集成方法的灵活性,以支持分布式生态系统中的数据管理。也就是说,根据场景的性质及其需求,系统能为用户自动匹配最佳集成策略和数据技术,而无需用户人工搭建数据管道、选型计算存储方案。这样做一方面让用户可以专注于业务实现而无需关心技术细节,另一方面也免去了数据搬运带来的漫长等待,并节省了大量任务运维投入和重复存储成本,极大加速了数据价值实现。

  • 自助服务,而非专家服务

数据需求指数级增长,而企业数据工程团队增长却非常缓慢,甚至有所缩减,在集中式的数据供给模式下,数据工程团队成为影响数据化运营效率的最大瓶颈,唯有让分析师和业务人员自服务才有可能将生产力解放出来,以满足业务旺盛的数据化运营需求。Data Fabric 的最佳解决方案是实现数据民主化,允许业务用户轻松发现并使用数据资产,从而实现敏捷的数据交付。

  • 主动智能,而非被动人工

传统数据治理往往在问题发生后才开始启动,且需要从上到下推动并通过运动式人工治理,这种方式难以持续且越来越无法应对快速膨胀、错综复杂的数据依赖网络。而 Data Fabric 则强调数据治理应更主动和智能,即基于主动元数据构建智能治理能力,融入到数据全生命周期的每个环节里去,实现主动、智能的数据治理。Gartner 将 Data Fabric 比喻成数据管理的'自动驾驶":驾驶员由于某些原因注意力不集中,有点儿走神,汽车则主动、及时地切换至半自动驾驶模式,进行必要的路线修正。即Data Fabric 以最佳的方式将数据源头传送到目的地,并不断的监控数据 pipeline,提出建议,最终在速度更快、成本更低的情况下采用替代方案,就如自动驾驶汽车一样。

  • 万物链接,而非简单替代

Fabric是一种架构方法,该方法在各个节点之间提供完整的点对点连接,这些节点可以是数据源、存储、内部/外部应用程序、用户等任何访问数据或与数据相关的信息。Data Fabric将现有的数据管理系统和应用程序编织在一起,提供可重用的服务,涵盖数据集成、访问、转换、建模、可视化、治理和交付。为了在所有这些不同的服务之间提供连接,Data Fabric包括了连接到数据生态系统工具的连接器。

Data Fabric 的“真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度”,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用 AI 能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,实现更快速的适应业务、更敏捷的数据洞察、更有效地消除孤岛、更低的成本和风险、更高效的业务协作以及更安全的数据使用。

❖ 关联对比

作为一种新生概念,有时会与其他概念和产品有所混淆,那么我们来看看Data Fabric与常用一些概念的区别。

  • Data Mesh

Data Mesh由ThoughtWorks提出,其借鉴了微服务和 Service Mesh 的分布式架构思想,是一种领域驱动和自服务的数据架构设计新模式,基于面向领域去中心化的数据所有权和架构、数据作为产品、平台化自助数据基础设施以及联邦计算治理等四个基本原则进行建设, 通过将系统划分为由较小的跨职能团队管理的离散域来解决大型、复杂、单体数据架构的问题,如缺乏数据所有权、缺乏数据质量管理、组织难以扩展。其核心目标是将数据视为一种产品,通过利用面向领域的自助设计来实现日益庞大、多样化且无处不在的数据集的跨域访问需求,使数据消费者能够发现、理解、信任和使用数据/数据产品(分布在不同领域)来推动数据驱动的决策和计划。

  • API 的访问方式不同。Data Mesh是面向开发同学、API驱动的解决方案,需要为API编写实现代码,而Data Fabric相反,其通过低代码、无代码的方式进行设计,API集成在架构内进行实现,而不是直接使用它。

  • 思想不同。虽然Data Fabric和Data Mesh 都提供了跨技术、跨平台的使用数据的架构,但前者以技术为中心,是将多种技术进行组合使用,由 AI/ML 驱动的增强和自动化、智能元数据基础和强大的技术骨干(即云原生、基于微服务、API 驱动、可互操作和弹性)支持,更多的是关于管理数据技术(集成架构),而后者则侧重于组织结构和文化变革来实现敏捷性,可以在于技术无关的框架内指导方案设计,各数据领域团队可以在更理解其所管理的数据的基础下实现相应的数据产品的交付,更多的是管理人员和流程。

  • 数据产品的实现思路不同。Data Mesh 将数据的产品思维作为核心设计原则,其数据是分布式的,每类数据都是一个独立的域(即数据产品),存储在对应的组织中,而Data Fabric所有的数据都会集中在一个位置(物理集中或虚拟集中),对外提供能力。其实,基于数据虚拟化集成技术的Data Fabric,其数据也是分布式的,通过虚拟逻辑数据模型对外统一提供数据使用。

  • 数据资产的自动化方式不同。Data Fabric利用基于丰富的企业元数据基础(例如知识图)来发现、连接、识别、建议和向数据消费者提供数据资产的自动化,而Data Mesh则依赖于数据产品/域所有者来推动数据需求。

  • 依赖关系不同。Data Fabric无需依赖Data Mesh的实践即可实施,而Data Mesh则必须利用Data Fabric来支持数据对象和产品的验证。

  • 自动化程度不同。Data Fabric鼓励增强数据管理和跨平台编排,以最大限度地减少人工设计、部署和维护工作。Data Mesh则倾向于对现有系统的手动设计和编排,由业务领域执行持续维护。

  • 解决方案的成熟度不同。成熟度上看,Data Fabric目前被广泛应用于各种数据应用场景,而Data Mesh仍然处在一个未开发的阶段。

实际上,不同的公司基于自身的数据特点(数据量、数据速度、数据类型等)、安全策略、技术储备、性能要求、资金成本等, 对于Data Fabric或Data Mesh会有不同的具体落地方案。总之,Data Mesh更多地是关注于人和过程而不是技术架构,而Data Fabric是一种技术架构方法,它以一种智能的方式来应对数据和元数据的复杂性。

  • 数据虚拟化&数据集成

  • 数据虚拟化技术,作为一种被市场充分验证的成熟技术出现在Gartner 发布的《2021 数据管理技术成熟度曲线报告》中,它是一种将可用数据转换成分析和报告所需形式的可选择技术,其存在于数据使用者以及数据存储之间,数据使用者通过数据虚拟层访问数据,数据虚拟化层隐藏数据存储。数据虚拟化技术帮助数据工程师无需移动、复制数据即可集成多个数据源,在内存中进行数据的组合、准备和转换,并以需要的格式呈现数据。数据虚拟化方法可以帮助企业从数据中获得更多的见解以及更快的响应不断变化的商业分析需求,同时,与数据复制、移动相比,数据虚拟化可节省50-75%的成本。

  • 数据集成是融合异构存储集合的数据并构造统一数据视图的过程,包括了数据合并、数据转换、数据清洗等。传统的数据集成专注于复制、移动数据,如ETL加工、数据同步等。数据虚拟化则是一种经济高效的现代数据集成技术,直接连接源数据,不依赖复杂和繁琐的ETL系统,减少了多次复制、移动和存储数据的时间和成本,同时也减少了产生数据错误的概率。另外,数据虚拟化不仅可以做数据层面的集成,也包括接口层面的集成。因此,数据虚拟化是一种更稳定的技术和增长最快的数据集成方式。

数据虚拟化与Data Fabric的关系上,数据虚拟化是Data Fabric架构中的关键技术之一,可以在不移动数据的情况下从源头访问数据,通过更快、更准确的查询帮助缩短实现业务价值的时间。Data Fabric 的数据虚拟化层提供了跨平台敏捷集成、统一语义、低代码创建数据API(支持SQL、REST、OData和GraphQL等技术)、智能缓存加速等功能,在数据处理引擎和数据消费者之间架起了桥梁。

  • 数据湖

Data Fabric不是数据湖或者数据仓库的替代方案,数据湖是其异构数据源之一(数据源可以是数据仓库、数据湖,也可以是业务数据库等其他数据存储),Data Fabric将应用程序与数据湖(或者数据仓库)进行连接,通过统一的数据管理框架支持在分布式的环境中进行数据消费。Data Fabric 可以为数据湖或数据仓库提供可信的数据,同时,基于数据湖(或者数据仓库)的Data Fabric 为业务提供更精准的洞察能力。

  • 知识图谱

知识图谱是Data Fabric重要的组成部分。如果将Data Fabric翻译成数据经纬的话,那么知识图谱则是经纱和纬纱,其使得Data Fabric支持动态集成以及数据应用编排,而作为基石的数据目录也是基于知识图谱进行实现的。知识图谱使得Data Fabric在良性循环中进行持续运营和发展,如灵活性(可以表达任何数据和元数据)、可组合性(易于增量进化)、连接性(连接所有数据和元数据“孤岛”)、无缝数据治理、面向未来(基于标准)、表现力(最全面的“开箱即用” 模型)、可集成性(最完整、开放和灵活的 APIs)、智能(集成推理和机器学习)等。

  • 数据中台

数据中台方法的本质思想是通过对数据进行集中式建设、集中式管理和集中式服务,以提供单一事实来源的数据(single source of truth)。这就决定了数据中台只有在数据需求较为固定、用数人群比较集中、决策频率相对较低的情况下是比较有效的。伴随企业数据需求日趋复杂、用数人群占比越来越大,决策频率越来越高,业务对用数的敏捷性和灵活性要求越来越高,数据中台这种集中的数据管理方式无法实现数据的敏捷性和灵活性。Data Fabric旨在提供对创新深度、速度要求更高的创新型业务更为合适。

2. Data Fabric 价值及能力

❖ 产品价值

Data Fabric的真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用AI能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,产生:

  • 更快地适应业务。Data Fabric通过强大的查询、搜索以及学习能力可以回答意料之外的问题以及适应新的业务需求。其提供了一个动态的、可查询的数据能力,从多个数据来源进行数据的收集和分析,且可以充分复用数据模型(之前需要依赖创建新的数据模型和数据转移复制来支持新的业务需求),因此可以快速回答和解决新的问题和诉求。

  • 更好的洞察力。Data Fabric表达数据的业务意义(而不仅仅是通过数据改变现状),从而产生更好的业务洞察能力。其融合多种数据来源(如数据&元数据、司内&司外、业务内&业务外、云端&本地等),建设可扩展的、知识图谱驱动的数据模型,使得每个数据资产的所有上下文都可以以可理解的形式进行使用和呈现,帮助决策者和算法做出更优的决策(更容易地获得高质量的数据,从而能更快和更精确地获得业务数据洞察),同时降低数据被滥用或者误解的可能性和风险。

  • 更有效地消除孤岛。Data Fabric通过数据联邦、数据虚拟化、语义丰富、基于AI的主动元数据、知识图谱以及图存储等数据技术,进行数据的连接、跨数据源的访问和数据交付,从而减少数据孤岛,尤其是数据虚拟化技术在计算层而非存储层进行数据连接,“在数据处理引擎和数据消费者之间架起了桥梁”,这种数据的连接方式还避免了不断产生新的数据孤岛。DAMA认为,消除孤岛和完全问责应该是任何数据项目的核心。

  • 更低的成本和实施风险。Data Fabric的实现思想是是对原有技术的重新组合(技术的本质是利用现象,对现有技术进行重新组合,并基于目的性的机会利基进行不断的自我进化),而非全新的技术,通过支持组装式数据分析及其各种组件,对数据仓库、数据湖、数据计算、数据分析等现有的技术和能力进重新的组合和使用,并引入了新的方法、工具和平台。另外虚拟数据集成技术的应用,减少了数据复制、转移的次数和数量,降低了数据质量的风险和运维成本,也节省了计算和存储的开销。

  • 更高效的业务协作。Data Fabric是为协作、利用和链接现有资产和推动跨智能的数据管理项目而创建的。通过将现有的数据、数据能力、应用程序进行自动化关联、编排,并创建全域数据的单一视图(catalog),从而支持跨业务数据的即时有效访问,实现业务间有效协作, 创建和维护业务的竞争优势。

  • 更安全的业务。Data Fabric可以实现自动治理、数据保护和安全保障。其为所有的数据计划建立分布式的数据治理层,减少合规性和监管风险,以及在平台安全能力下防止数据泄露,并通过AI能力提升自动化水平(如根据监管文档中的语言和定义自动提取数据治理规则、发现和治理个人身份信息PII和关键数据元素),使得业务可以在几分钟内发现并应用数据治理规则,避免产生不良社会影响或高昂的罚款,确保所有的数据都能以合规的方式进行存储和使用,而这在当前社会背景下尤为重要。

❖ 能力要求

针对Data Fabric,需要具备什么能力,目前还没有行业统一标准。我们可以通过Forrester和Gartner对能力有个大致的了解。

  • Forrester 定义的能力要求

  • 数据管理。数据管理是Data Fabric的关键能力,包括了数据安全、数据治理、元数据&数据目录、数据搜索、数据质量、数据血缘等,并与其他5种能力交织在一起,保障数据的可靠性、安全性、完整性、合规性、可集成等,确保数据的信任度、数据流编排以及跨平台的数据转换。同时数据管理集成了AI能力,自动化实现基于语义和知识的分析,理解数据及其业务含义,构建知识图谱形式的数据目录,从而使得数据目录更加智能化和自动化。

  • 数据摄取和流式传输。数据摄取是Data Fabric的数据基础,处理数据连接、摄取、流式传输等,将数据加载到大数据存储中。数据摄取需要能覆盖所有潜在的数据类型(结构化、非结构化等)和数据来源(设备、日志、数据库、点击、应用程序等),并通过多种优化方法缩短数据的加载时间(如单个、大批量、小批量等)。

  • 数据处理和持久化。该层利用数据湖、数据中心、数据仓库、NoSQL 和其他数据组件(如数据管道)来处理和保存数据以供使用。Data Fabric可以将处理下推到各种数据存储上,例如数据湖、对象存储、NoSQL 或数据仓库,以便在与其他来源进一步集成之前仅获取部分的相关数据,提升数据的查询性能。

  • 数据编排。数据编排通过转换、集成和清洗数据,实时或即时的支持各种数据使用场景。其通过一些技术完成跨源数据的集成访问,并通过统一的、标准化的API的方式将集成转化后的数据对外提供。

  • 数据发现。数据发现能力直接解决或者弱化了数据孤岛问题,自动发现跨场景的数据,通过数据建模、数据准备以及虚拟化等技术组件为数据使用者准备好可用的数据资产,并以图的呈现方式进行数据发现和使用。其中数据虚拟化技术比较关键,其用于创建可以实时访问的数据虚拟视图,进行跨岛查询[25]。

  • 数据访问。用户通过自服务的方式进行数据访问(如应用程序、工具、仪表盘、解决方案等),并通过高性能缓存以及其他持久化存储技术保障数据的访问性能。

  • Gartner 定义能力要求

  • 增强数据目录。 数据目录是整个架构的基础,其通过元数据对数据资产进行组织和管理。在数据目录上,使用 AI/ML进行自动化收集和分析所有形式的元数据以及数据上下文,包括技术元数据(如数据类型、数据模型等)、业务元数据(如业务标记、业务策略、业务关系等)、操作元数据(如数据操作、数据血缘、数据性能等)、社会元数据(如实体关系、UGC、评价等)等等,为形成语义知识图谱以及主动元数据做数据内容上的准备。

  • 语义知识图谱。 创建和管理知识图谱,并使用 AI/ML 算法进行实体连接以及连接关系的量化,以识别或者添加丰富数据间的关系(包括多个数据孤岛间的数据关系,数据上下文以及语义相关性)用于数据洞察分析,同时也可以实现自动化的机器理解和数据推理。产生的语义化数据也可用于机器学习的模型训练上,提升预测的精准度。

  • 主动元数据。 主动元数据是相对于静态的被动元数据而言的。通过AI/ML辅助生成的主动元数据是支持自动化数据集成和数据交付的基础能力,主动元数据的形成依赖于发现并连接所有形式的元数据,形成独特并不断变化的关系,并以图这种易于理解的方式链接和呈现元数据间的关系。通过对元数据关系图的持续访问和分析,不断发现和形成关键指标、统计数据等新的关系。如访问频次、数据血缘、数据性能、数据质量等。将元数据关系数据作为特征去训练和丰富AI算法,同时这些算法可以产生或者迭代元数据的语义,以及改进数据集成的设计、自动化流程。

  • 推荐引擎。 推荐引擎与业务相关,将基于专家经验形成的规则或者机器模型学习的结果,以及结合主动元数据,用在数据质量监控以及优化改进数据的准备过程(如集成流程或者引擎优化),如元数据推荐、流程推荐、资产推荐、建议推荐、执行计划推荐、计算引擎推荐等。

  • 数据准备和数据交付。 Data Fabric的数据准备和交付是在数据pipline中进行数据的转化和集成。数据集成对于Data Fabric至关重要, 通过批处理、数据复制、数据同步、流数据集成以及数据虚拟化(在数据查询时完成数据转化)等方式进行跨源、跨环境(如多云、混合云、供应商)的数据集成,将数据准备折叠到数据交付层(将准备好的数据进行交付)。

  • 数据编排和DataOps。 数据编排是用于驱动数据准备工作流的流程,用来集成、转换和交付各种数据和分析用例的数据。DataOps是将类似于DevOps的持续集成、持续部署的原则应用于数据pipeline,更加敏捷和严格的进行数据交付。基于AI的自动化数据编排是Data Fabric架构设计以及落地的关键,通过组合和重用集成组件,快速支持当下以及未来需求。存储和计算分离是未来数据管理的趋势,Data Fabric通过自动化来管理和编排跨组织、跨平台的的数据pipeline,包括数据流协调、维护、操作、性能优化、集成负载调度等,大幅提高数据管理团队的工作效率。

3. Data Fabric 厂商实践

Data Fabric (数据经纬)目前是一个IT热点,众多国内外公司均推出了针对 Data Fabric 的解决方案。下面看看几个典型厂商的产品及方案。

❖ IBM - Cloud Park for Data

IBM 公司的Cloud Pak for Data针对上述Data Fabric (数据经纬)拥有四个 AI赋能的自动化能力。

  • AutoCatalog:元数据的管理是挖掘数据价值,把各个不同来源的数据很好利用起 来的重要技术环节。AutoCatalog 可以看成是 IBM 研发 AI 赋能的分类大脑,可以根 据发现数据和分类的流程实现自动化,进行自动分类之后建立自动化目录,维护来自不 同数据环境数据资产的 Dynamic 的实时目录。

  • AutoAI:AutoAI 的主要功能是尽量降低 AI 模型开发、模型校正、模型自我重新培 训的技术门槛和人力付出,从而对动态的数据和整个 AI 本身算法生命的周期进行自动 化。

  • AutoPrivacy:实际上 AutoPrivacy 主要是通过数据隐私框架当中的关键能力,使 用 AI 的能力智能化地识别企业内部的敏感数据,当被调用的时候系统能够识别到、监 控到,甚至在后续当定义敏感数据的使用和保护时,就可以为企业内部的政策实施自动 化提供了技术和智能化的保障。

  • AutoSQL:因为我们现在要解决的问题是跨混合多云环境实现数据访问的自动化, 当写一个传统 SQL 的时候,首先要知道这个数据在什么地方。我们通过 AutoSQL 的 技术来实现访问数据的自动化,无须物理地移动这些数据,从而提高了数据查询的速 度,也降低了使用数据的人对数据来源所需要的了解。

❖ Aloudata NoETL

  • 主动元数据。 主动元数据是实现 Data Fabric 的基石,它类似于智能驾驶汽车的传感器及信号解析处理模块,为推荐引擎、DataOps、数据虚拟化和主动数据治理提供了数据支撑。数据管理策略的有效性绝大部分取决于主动元数据建设的好坏,企业落地 Data Fabric 的首要任务,就是构建全面、准确、实时的主动元数据,并持续优化以获得更好的数据管理效果。其具备如下能力: 快速发现全链路元数据、 实时、精细、准确的全链路血缘、 采集数据生态的所有元数据、 以知识图谱方式组织元数据、 实时、高效、易扩展的数据画像打标等。

  • 推荐引擎。 推荐引擎将基于专家经验形成的规则或者机器学习模型,用于 DataOps、数据管理以及数据准备及服务 (如数据集成方案或者引擎性能优化) ,其推荐范围可以涵盖数据全生命周期各个阶段,如数据资产推荐、数据用法推荐、数据集成方案推荐、执行计划推荐、计算引擎推荐、数据分类建议、数据时效提升建议、数据安全风控建议、成本治理建议等。其具备如下能力: 数据资产业务分类推荐、 智能 SQL 用法联想、 智能查询加速、 智能资产推荐等。

  • 增强数据目录。 Aloudata 增强数据目录 (Aloudata BIG Catalog) 以主动元数据为核心,将 AI 和机器学习用于元数据收集、语义推理和分类打标,自动对数据进行编目,从而最大限度减少手工维护元数据的工作,从而为业务人员提供以下关键特性和体验: 语义化数据搜索、 全景数据画像、 可视化血缘分析、 全域数据探索等。

  • 数据虚拟化。 数据虚拟化是实现 Data Fabric 的核心,它承担了业务人员自助完成数据集成、准备和交付的关键职责,它在数据源与数据消费端之间提供了一个连接、整合以及消费数据的虚拟语义层,用户可以通过定义数据查询来完成数据转换,从而实现对跨源、跨环境 (如多云、混合云、Saas 软件供应商) 的数据进行透明集成、自助准备以及高性能服务。其具备如下能力: 高性能联邦查询、 全场景智能加速、 全链路数据编排、 零运维数据更新、 标准化协议接入、 精细化安全管控等。

  • DataOps。 DataOps 理念被提出,它的核心内涵是将类似于 DevOps 的敏捷研发、持续集成、持续部署等原则应用于数据研发和管理过程,以实现更加敏捷和高质的数据交付,通常来说,落地 DataOps 必须具备以下关键能力: 一站式数据研发、 数据变更 CI/CD、 嵌入式治理管控、 数据质量可观测等。

❖ 极数云舟-DTark

北京极数云舟科技有限公司( Cloud-ark )是一家致力于数据处理基础技术研发的高新技术企业,结合数据处理领域最前沿的Data Fabric理论,创造性地提出广义数据库系统,并自主实现内核层多引擎融合技术,打造核心产品:云舟数据经纬平台(DTark),助力用户打造简单、高效、便捷与可持续发展的企业数据基座。

DTark核心技术本质是实现了多引擎融合数据处理,同时也实现了数据多副本、水平弹性伸缩、数据一致性、透明高可用、分层解耦等能力,基于成熟开源组件,并兼容开源协议和技术生态体系,稳定可靠,简单易用,软件核心源代码及关键技术自主研发,产品安全可控。 极数云舟基于DTark产品,服务能力覆盖复杂企业数据管理、数据平台建设、数据库系统及管理,助力客户数字化、智慧化等基于数据融合服务的数据基座建设,也为数据中台、大数据平台建设提供了新动力,在提高性能、降低成本、减少定制化、降低系统复杂度、提升系统可持续发展能力等方面独具优势:

  • 数据接入的融合:基于成熟开源组件,稳定可靠,兼容MySQL协议和技术生态体系

  • 数据存储的融合:可实现数据多副本、水平弹性伸缩、数据一致性、透明高可用、分层解耦融合

  • 数据引擎融合:多引擎融合解决数据多样性存储的横向打通

  • 数据接入的扩展:支持信息系统结构化数据、工业物联网时序数据、科学引擎接口数据的可扩展接入

  • 数据输出的扩展:数据服务化要作为数据库的标准能力

  • 数据引擎的扩展:针对数据类型与计算需求可扩展至 在线事务处理、 在线分析处理、时序数据处理、全文检索、知识库 等多种引擎

❖ 前世今生

Data Fabric概念 在 2000 年首先被 Forrester 提出,2016 年 Forrester Wave 中增加了 Big Data Fabric 类别。从2019 年 Data Fabric 开始入选 Gartner 各年度的技术趋势。

Gartner发布的《2021年十大数据和分析技术趋势》中,加速变革被列在了首位(Accelerating Change),其中Data Fabric作为数据基础能力被再次强调。

2022 年 Gartner 公布的顶级战略技术趋势中,Data Fabric 入选工程信任主题的关键技术趋势。

❖ 基本概念

我们如何理解“Data Fabric”?Fabric这个词的本意是“织物、布、构造“。可以想象,数据将在纵横交错的、像织物那样的云网络中自由流动,没有任何限制。不管是哪种计算模式,还是什么的网络,针对批数据、流数据都可以自由交换、共享和处理,那就是数据经纬-Data Fabric带来的新体验。 目前对Data Fabric,还没有特别统一的认识,各家对其有着自己的解读。

  • Forrester 认为 Data Fabric“是以一种智能和安全的并且是自服务的方式,动态地协调分布式的数据源,跨数据平台地提供集成和可信赖的数据,支持广泛的不同应用的分析和使用场景。”其专注于对数据集成、转换、准备、策展、安全、治理和编排的自动化,从而实现了快速的数据分析和洞察,帮助业务获得成功。

  • Gartner 将 Data Fabric 定义为一种新兴的数据管理设计理念,可实现跨异构数据源的增强数据集成和共享,通过对现有的、可发现和可推断的元数据资产进行持续分析,来支持数据系统跨平台的设计、部署和使用,从而实现灵活的数据交付。Gartner 强调,通过 Data Fabric,散落各处的数据孤岛都能被统一发现和使用,并基于主动元数据进行建设和持续分析,认为数据编织的真正价值在于它能够通过内置的分析技术动态改进数据的使用,同时通过将自动化能力添加到整体数据管理中,使数据管理工作量减少 70% 并加快价值实现速度。

❖ 发展背景

一项新技术的出现,必然有其背景及规律,Data Fabric的出现也是为解决当前数据场景的问题。简单梳理下,可罗列为几个痛点(下列数据来自Gartner的调查报告):

  • 激增的暗数据&数据孤岛

随着企业数据量激增和数据需求日趋复杂,越来越多数据技术 (如数据仓库、数据湖、NoSQL 数据库、OLAP 数据库、实时数据源等) 被引入,企业数据在物理上支离破碎,尤其是采用混合云&多云架构后更是加剧了这一问题。只有 45% 的结构化数据应用于业务,只有不到 1% 的非结构化数据被分析或使用,多达 68% 的数据没有被分析,多达 82% 的企业受到数据孤岛的阻碍。

  • 低效的数据交付方式

激增的企业数据、爆炸的业务需求、复杂的数据工程,让业务自助找数、用数变得日趋困难:分析师 80% 的时间用于发现和准备数据,知识型员工将 50% 的时间浪费在寻找数据、发现和纠正错误以及确认不信任的数据来源上、数据科学家花 60% 的时间清理和组织数据。

  • 日益严峻的数据质量问题

企业中 55% 的数据无法用于决策,47% 新创建的数据记录至少有一个严重错误,数据质量差导致了巨额的财务损失;为解决不同数据计算和存储需求,企业开始采用越来越多的数据技术 (如数据仓库、数据湖、NoSQL 数据库、OLAP 数据库、实时数据源等) ,让实现“单一事实来源的数据”变得十分困难。

  • 不断扩大的安全合规风险

超过 70% 的用户可以访问他们不应该访问的数据。而随着网安法、数安法、个保法、GDPR、CCPA 等数据安全和隐私保护法律的出台和外部安全威胁越来越大,企业必须在合规和治理方面表现出更高的标准,更难的是,企业还需同时兼顾业务的用数效率。

Gartner称:“在过去的十年里,数据和应用孤岛的数量激增,而数据和分析(D&A)团队的技能型人才数量却保持不变,甚至下降。作为一种跨平台和业务用户的灵活、弹性数据整合方式,Data Fabric能够简化企业机构的数据整合基础设施并创建一个可扩展架构,减少大多数数据和分析团队因整合难度上升而出现的技术债务。其真正价值在于:通过内置的分析技术动态改进数据的使用,使数据管理工作量减少70%并加快价值实现时间。Gartner最新预测显示,至2024年,Data Fabric可减少50%人力数据管理成本,与此同时,数据使用效率会因Data Fabric的部署使用伴随着数据类型日益多样化、数据孤岛不断林立、数据结构愈加复杂,企业在分布式数据环境中高效管理和利用多维数据成为亟待解决的难题。与此同时,企业上云成为一大趋势,混合数据环境下企业该如何跨平台、跨环境,以实时的速度收集、访问、管理、共享数据,从不断变化、高度关联、却又四处分散的数据中获得可执行洞见,实现智能化决策?面对上述数据管理难题,Data Fabric提出了一套治理“良方”。Data Fabric是一种新兴的数据集成和管理理念,意在独立于部署平台、数据流程、地理位置和架构方法,在不移动数据位置的前提下,为企业内的所有数据提供单一访问点,保证数据使用端在正确的时间、正确的地点以实时的速度拿到正确的数据。

❖ 架构定位

Data Fabric这一概念,尤其鲜明的架构特点,这也是有别于其他技术的重要区别。其实质上是一种数据管理架构思想,其主要目标是打破企业内部的数据孤岛、最大化释放数据价值。其核心理念是通过优化跨源异构数据的发现与访问,将可信数据从所有数据源中以灵活且业务可理解的方式交付给所有相关数据消费者,让数据消费者自助服务和高效协作,实现极致敏捷的数据交付,同时通过主动、智能、持续的数据治理让数据架构持续健康,从而提供比传统数据管理更多的价值。其具备以下特点:

  • 连接数据,而非集中数据

Data Fabric 的一个关键原则是数据集成方法的灵活性,以支持分布式生态系统中的数据管理。也就是说,根据场景的性质及其需求,系统能为用户自动匹配最佳集成策略和数据技术,而无需用户人工搭建数据管道、选型计算存储方案。这样做一方面让用户可以专注于业务实现而无需关心技术细节,另一方面也免去了数据搬运带来的漫长等待,并节省了大量任务运维投入和重复存储成本,极大加速了数据价值实现。

  • 自助服务,而非专家服务

数据需求指数级增长,而企业数据工程团队增长却非常缓慢,甚至有所缩减,在集中式的数据供给模式下,数据工程团队成为影响数据化运营效率的最大瓶颈,唯有让分析师和业务人员自服务才有可能将生产力解放出来,以满足业务旺盛的数据化运营需求。Data Fabric 的最佳解决方案是实现数据民主化,允许业务用户轻松发现并使用数据资产,从而实现敏捷的数据交付。

  • 主动智能,而非被动人工

传统数据治理往往在问题发生后才开始启动,且需要从上到下推动并通过运动式人工治理,这种方式难以持续且越来越无法应对快速膨胀、错综复杂的数据依赖网络。而 Data Fabric 则强调数据治理应更主动和智能,即基于主动元数据构建智能治理能力,融入到数据全生命周期的每个环节里去,实现主动、智能的数据治理。Gartner 将 Data Fabric 比喻成数据管理的'自动驾驶":驾驶员由于某些原因注意力不集中,有点儿走神,汽车则主动、及时地切换至半自动驾驶模式,进行必要的路线修正。即Data Fabric 以最佳的方式将数据源头传送到目的地,并不断的监控数据 pipeline,提出建议,最终在速度更快、成本更低的情况下采用替代方案,就如自动驾驶汽车一样。

  • 万物链接,而非简单替代

Fabric是一种架构方法,该方法在各个节点之间提供完整的点对点连接,这些节点可以是数据源、存储、内部/外部应用程序、用户等任何访问数据或与数据相关的信息。Data Fabric将现有的数据管理系统和应用程序编织在一起,提供可重用的服务,涵盖数据集成、访问、转换、建模、可视化、治理和交付。为了在所有这些不同的服务之间提供连接,Data Fabric包括了连接到数据生态系统工具的连接器。

Data Fabric 的“真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度”,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用 AI 能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,实现更快速的适应业务、更敏捷的数据洞察、更有效地消除孤岛、更低的成本和风险、更高效的业务协作以及更安全的数据使用。

❖ 关联对比

作为一种新生概念,有时会与其他概念和产品有所混淆,那么我们来看看Data Fabric与常用一些概念的区别。

  • Data Mesh

Data Mesh由ThoughtWorks提出,其借鉴了微服务和 Service Mesh 的分布式架构思想,是一种领域驱动和自服务的数据架构设计新模式,基于面向领域去中心化的数据所有权和架构、数据作为产品、平台化自助数据基础设施以及联邦计算治理等四个基本原则进行建设, 通过将系统划分为由较小的跨职能团队管理的离散域来解决大型、复杂、单体数据架构的问题,如缺乏数据所有权、缺乏数据质量管理、组织难以扩展。其核心目标是将数据视为一种产品,通过利用面向领域的自助设计来实现日益庞大、多样化且无处不在的数据集的跨域访问需求,使数据消费者能够发现、理解、信任和使用数据/数据产品(分布在不同领域)来推动数据驱动的决策和计划。

  • API 的访问方式不同。Data Mesh是面向开发同学、API驱动的解决方案,需要为API编写实现代码,而Data Fabric相反,其通过低代码、无代码的方式进行设计,API集成在架构内进行实现,而不是直接使用它。

  • 思想不同。虽然Data Fabric和Data Mesh 都提供了跨技术、跨平台的使用数据的架构,但前者以技术为中心,是将多种技术进行组合使用,由 AI/ML 驱动的增强和自动化、智能元数据基础和强大的技术骨干(即云原生、基于微服务、API 驱动、可互操作和弹性)支持,更多的是关于管理数据技术(集成架构),而后者则侧重于组织结构和文化变革来实现敏捷性,可以在于技术无关的框架内指导方案设计,各数据领域团队可以在更理解其所管理的数据的基础下实现相应的数据产品的交付,更多的是管理人员和流程。

  • 数据产品的实现思路不同。Data Mesh 将数据的产品思维作为核心设计原则,其数据是分布式的,每类数据都是一个独立的域(即数据产品),存储在对应的组织中,而Data Fabric所有的数据都会集中在一个位置(物理集中或虚拟集中),对外提供能力。其实,基于数据虚拟化集成技术的Data Fabric,其数据也是分布式的,通过虚拟逻辑数据模型对外统一提供数据使用。

  • 数据资产的自动化方式不同。Data Fabric利用基于丰富的企业元数据基础(例如知识图)来发现、连接、识别、建议和向数据消费者提供数据资产的自动化,而Data Mesh则依赖于数据产品/域所有者来推动数据需求。

  • 依赖关系不同。Data Fabric无需依赖Data Mesh的实践即可实施,而Data Mesh则必须利用Data Fabric来支持数据对象和产品的验证。

  • 自动化程度不同。Data Fabric鼓励增强数据管理和跨平台编排,以最大限度地减少人工设计、部署和维护工作。Data Mesh则倾向于对现有系统的手动设计和编排,由业务领域执行持续维护。

  • 解决方案的成熟度不同。成熟度上看,Data Fabric目前被广泛应用于各种数据应用场景,而Data Mesh仍然处在一个未开发的阶段。

实际上,不同的公司基于自身的数据特点(数据量、数据速度、数据类型等)、安全策略、技术储备、性能要求、资金成本等, 对于Data Fabric或Data Mesh会有不同的具体落地方案。总之,Data Mesh更多地是关注于人和过程而不是技术架构,而Data Fabric是一种技术架构方法,它以一种智能的方式来应对数据和元数据的复杂性。

  • 数据虚拟化&数据集成

  • 数据虚拟化技术,作为一种被市场充分验证的成熟技术出现在Gartner 发布的《2021 数据管理技术成熟度曲线报告》中,它是一种将可用数据转换成分析和报告所需形式的可选择技术,其存在于数据使用者以及数据存储之间,数据使用者通过数据虚拟层访问数据,数据虚拟化层隐藏数据存储。数据虚拟化技术帮助数据工程师无需移动、复制数据即可集成多个数据源,在内存中进行数据的组合、准备和转换,并以需要的格式呈现数据。数据虚拟化方法可以帮助企业从数据中获得更多的见解以及更快的响应不断变化的商业分析需求,同时,与数据复制、移动相比,数据虚拟化可节省50-75%的成本。

  • 数据集成是融合异构存储集合的数据并构造统一数据视图的过程,包括了数据合并、数据转换、数据清洗等。传统的数据集成专注于复制、移动数据,如ETL加工、数据同步等。数据虚拟化则是一种经济高效的现代数据集成技术,直接连接源数据,不依赖复杂和繁琐的ETL系统,减少了多次复制、移动和存储数据的时间和成本,同时也减少了产生数据错误的概率。另外,数据虚拟化不仅可以做数据层面的集成,也包括接口层面的集成。因此,数据虚拟化是一种更稳定的技术和增长最快的数据集成方式。

数据虚拟化与Data Fabric的关系上,数据虚拟化是Data Fabric架构中的关键技术之一,可以在不移动数据的情况下从源头访问数据,通过更快、更准确的查询帮助缩短实现业务价值的时间。Data Fabric 的数据虚拟化层提供了跨平台敏捷集成、统一语义、低代码创建数据API(支持SQL、REST、OData和GraphQL等技术)、智能缓存加速等功能,在数据处理引擎和数据消费者之间架起了桥梁。

  • 数据湖

Data Fabric不是数据湖或者数据仓库的替代方案,数据湖是其异构数据源之一(数据源可以是数据仓库、数据湖,也可以是业务数据库等其他数据存储),Data Fabric将应用程序与数据湖(或者数据仓库)进行连接,通过统一的数据管理框架支持在分布式的环境中进行数据消费。Data Fabric 可以为数据湖或数据仓库提供可信的数据,同时,基于数据湖(或者数据仓库)的Data Fabric 为业务提供更精准的洞察能力。

  • 知识图谱

知识图谱是Data Fabric重要的组成部分。如果将Data Fabric翻译成数据经纬的话,那么知识图谱则是经纱和纬纱,其使得Data Fabric支持动态集成以及数据应用编排,而作为基石的数据目录也是基于知识图谱进行实现的。知识图谱使得Data Fabric在良性循环中进行持续运营和发展,如灵活性(可以表达任何数据和元数据)、可组合性(易于增量进化)、连接性(连接所有数据和元数据“孤岛”)、无缝数据治理、面向未来(基于标准)、表现力(最全面的“开箱即用” 模型)、可集成性(最完整、开放和灵活的 APIs)、智能(集成推理和机器学习)等。

  • 数据中台

数据中台方法的本质思想是通过对数据进行集中式建设、集中式管理和集中式服务,以提供单一事实来源的数据(single source of truth)。这就决定了数据中台只有在数据需求较为固定、用数人群比较集中、决策频率相对较低的情况下是比较有效的。伴随企业数据需求日趋复杂、用数人群占比越来越大,决策频率越来越高,业务对用数的敏捷性和灵活性要求越来越高,数据中台这种集中的数据管理方式无法实现数据的敏捷性和灵活性。Data Fabric旨在提供对创新深度、速度要求更高的创新型业务更为合适。

2. Data Fabric 价值及能力

❖ 产品价值

Data Fabric的真正价值在于它能够通过其内置分析能力来动态改善数据的使用,从而加快实现数据价值的速度,其支持全面的集成数据管理功能,包括发现、治理、管理和编排,并使用AI能力进行语义探索、分析和推荐,从而从被动的数据策略转变为主动响应性的数据策略,产生:

  • 更快地适应业务。Data Fabric通过强大的查询、搜索以及学习能力可以回答意料之外的问题以及适应新的业务需求。其提供了一个动态的、可查询的数据能力,从多个数据来源进行数据的收集和分析,且可以充分复用数据模型(之前需要依赖创建新的数据模型和数据转移复制来支持新的业务需求),因此可以快速回答和解决新的问题和诉求。

  • 更好的洞察力。Data Fabric表达数据的业务意义(而不仅仅是通过数据改变现状),从而产生更好的业务洞察能力。其融合多种数据来源(如数据&元数据、司内&司外、业务内&业务外、云端&本地等),建设可扩展的、知识图谱驱动的数据模型,使得每个数据资产的所有上下文都可以以可理解的形式进行使用和呈现,帮助决策者和算法做出更优的决策(更容易地获得高质量的数据,从而能更快和更精确地获得业务数据洞察),同时降低数据被滥用或者误解的可能性和风险。

  • 更有效地消除孤岛。Data Fabric通过数据联邦、数据虚拟化、语义丰富、基于AI的主动元数据、知识图谱以及图存储等数据技术,进行数据的连接、跨数据源的访问和数据交付,从而减少数据孤岛,尤其是数据虚拟化技术在计算层而非存储层进行数据连接,“在数据处理引擎和数据消费者之间架起了桥梁”,这种数据的连接方式还避免了不断产生新的数据孤岛。DAMA认为,消除孤岛和完全问责应该是任何数据项目的核心。

  • 更低的成本和实施风险。Data Fabric的实现思想是是对原有技术的重新组合(技术的本质是利用现象,对现有技术进行重新组合,并基于目的性的机会利基进行不断的自我进化),而非全新的技术,通过支持组装式数据分析及其各种组件,对数据仓库、数据湖、数据计算、数据分析等现有的技术和能力进重新的组合和使用,并引入了新的方法、工具和平台。另外虚拟数据集成技术的应用,减少了数据复制、转移的次数和数量,降低了数据质量的风险和运维成本,也节省了计算和存储的开销。

  • 更高效的业务协作。Data Fabric是为协作、利用和链接现有资产和推动跨智能的数据管理项目而创建的。通过将现有的数据、数据能力、应用程序进行自动化关联、编排,并创建全域数据的单一视图(catalog),从而支持跨业务数据的即时有效访问,实现业务间有效协作, 创建和维护业务的竞争优势。

  • 更安全的业务。Data Fabric可以实现自动治理、数据保护和安全保障。其为所有的数据计划建立分布式的数据治理层,减少合规性和监管风险,以及在平台安全能力下防止数据泄露,并通过AI能力提升自动化水平(如根据监管文档中的语言和定义自动提取数据治理规则、发现和治理个人身份信息PII和关键数据元素),使得业务可以在几分钟内发现并应用数据治理规则,避免产生不良社会影响或高昂的罚款,确保所有的数据都能以合规的方式进行存储和使用,而这在当前社会背景下尤为重要。

❖ 能力要求

针对Data Fabric,需要具备什么能力,目前还没有行业统一标准。我们可以通过Forrester和Gartner对能力有个大致的了解。

  • Forrester 定义的能力要求

  • 数据管理。数据管理是Data Fabric的关键能力,包括了数据安全、数据治理、元数据&数据目录、数据搜索、数据质量、数据血缘等,并与其他5种能力交织在一起,保障数据的可靠性、安全性、完整性、合规性、可集成等,确保数据的信任度、数据流编排以及跨平台的数据转换。同时数据管理集成了AI能力,自动化实现基于语义和知识的分析,理解数据及其业务含义,构建知识图谱形式的数据目录,从而使得数据目录更加智能化和自动化。

  • 数据摄取和流式传输。数据摄取是Data Fabric的数据基础,处理数据连接、摄取、流式传输等,将数据加载到大数据存储中。数据摄取需要能覆盖所有潜在的数据类型(结构化、非结构化等)和数据来源(设备、日志、数据库、点击、应用程序等),并通过多种优化方法缩短数据的加载时间(如单个、大批量、小批量等)。

  • 数据处理和持久化。该层利用数据湖、数据中心、数据仓库、NoSQL 和其他数据组件(如数据管道)来处理和保存数据以供使用。Data Fabric可以将处理下推到各种数据存储上,例如数据湖、对象存储、NoSQL 或数据仓库,以便在与其他来源进一步集成之前仅获取部分的相关数据,提升数据的查询性能。

  • 数据编排。数据编排通过转换、集成和清洗数据,实时或即时的支持各种数据使用场景。其通过一些技术完成跨源数据的集成访问,并通过统一的、标准化的API的方式将集成转化后的数据对外提供。

  • 数据发现。数据发现能力直接解决或者弱化了数据孤岛问题,自动发现跨场景的数据,通过数据建模、数据准备以及虚拟化等技术组件为数据使用者准备好可用的数据资产,并以图的呈现方式进行数据发现和使用。其中数据虚拟化技术比较关键,其用于创建可以实时访问的数据虚拟视图,进行跨岛查询[25]。

  • 数据访问。用户通过自服务的方式进行数据访问(如应用程序、工具、仪表盘、解决方案等),并通过高性能缓存以及其他持久化存储技术保障数据的访问性能。

  • Gartner 定义能力要求

  • 增强数据目录。 数据目录是整个架构的基础,其通过元数据对数据资产进行组织和管理。在数据目录上,使用 AI/ML进行自动化收集和分析所有形式的元数据以及数据上下文,包括技术元数据(如数据类型、数据模型等)、业务元数据(如业务标记、业务策略、业务关系等)、操作元数据(如数据操作、数据血缘、数据性能等)、社会元数据(如实体关系、UGC、评价等)等等,为形成语义知识图谱以及主动元数据做数据内容上的准备。

  • 语义知识图谱。 创建和管理知识图谱,并使用 AI/ML 算法进行实体连接以及连接关系的量化,以识别或者添加丰富数据间的关系(包括多个数据孤岛间的数据关系,数据上下文以及语义相关性)用于数据洞察分析,同时也可以实现自动化的机器理解和数据推理。产生的语义化数据也可用于机器学习的模型训练上,提升预测的精准度。

  • 主动元数据。 主动元数据是相对于静态的被动元数据而言的。通过AI/ML辅助生成的主动元数据是支持自动化数据集成和数据交付的基础能力,主动元数据的形成依赖于发现并连接所有形式的元数据,形成独特并不断变化的关系,并以图这种易于理解的方式链接和呈现元数据间的关系。通过对元数据关系图的持续访问和分析,不断发现和形成关键指标、统计数据等新的关系。如访问频次、数据血缘、数据性能、数据质量等。将元数据关系数据作为特征去训练和丰富AI算法,同时这些算法可以产生或者迭代元数据的语义,以及改进数据集成的设计、自动化流程。

  • 推荐引擎。 推荐引擎与业务相关,将基于专家经验形成的规则或者机器模型学习的结果,以及结合主动元数据,用在数据质量监控以及优化改进数据的准备过程(如集成流程或者引擎优化),如元数据推荐、流程推荐、资产推荐、建议推荐、执行计划推荐、计算引擎推荐等。

  • 数据准备和数据交付。 Data Fabric的数据准备和交付是在数据pipline中进行数据的转化和集成。数据集成对于Data Fabric至关重要, 通过批处理、数据复制、数据同步、流数据集成以及数据虚拟化(在数据查询时完成数据转化)等方式进行跨源、跨环境(如多云、混合云、供应商)的数据集成,将数据准备折叠到数据交付层(将准备好的数据进行交付)。

  • 数据编排和DataOps。 数据编排是用于驱动数据准备工作流的流程,用来集成、转换和交付各种数据和分析用例的数据。DataOps是将类似于DevOps的持续集成、持续部署的原则应用于数据pipeline,更加敏捷和严格的进行数据交付。基于AI的自动化数据编排是Data Fabric架构设计以及落地的关键,通过组合和重用集成组件,快速支持当下以及未来需求。存储和计算分离是未来数据管理的趋势,Data Fabric通过自动化来管理和编排跨组织、跨平台的的数据pipeline,包括数据流协调、维护、操作、性能优化、集成负载调度等,大幅提高数据管理团队的工作效率。

3. Data Fabric 厂商实践

Data Fabric (数据经纬)目前是一个IT热点,众多国内外公司均推出了针对 Data Fabric 的解决方案。下面看看几个典型厂商的产品及方案。

❖ IBM - Cloud Park for Data

IBM 公司的Cloud Pak for Data针对上述Data Fabric (数据经纬)拥有四个 AI赋能的自动化能力。

  • AutoCatalog:元数据的管理是挖掘数据价值,把各个不同来源的数据很好利用起 来的重要技术环节。AutoCatalog 可以看成是 IBM 研发 AI 赋能的分类大脑,可以根 据发现数据和分类的流程实现自动化,进行自动分类之后建立自动化目录,维护来自不 同数据环境数据资产的 Dynamic 的实时目录。

  • AutoAI:AutoAI 的主要功能是尽量降低 AI 模型开发、模型校正、模型自我重新培 训的技术门槛和人力付出,从而对动态的数据和整个 AI 本身算法生命的周期进行自动 化。

  • AutoPrivacy:实际上 AutoPrivacy 主要是通过数据隐私框架当中的关键能力,使 用 AI 的能力智能化地识别企业内部的敏感数据,当被调用的时候系统能够识别到、监 控到,甚至在后续当定义敏感数据的使用和保护时,就可以为企业内部的政策实施自动 化提供了技术和智能化的保障。

  • AutoSQL:因为我们现在要解决的问题是跨混合多云环境实现数据访问的自动化, 当写一个传统 SQL 的时候,首先要知道这个数据在什么地方。我们通过 AutoSQL 的 技术来实现访问数据的自动化,无须物理地移动这些数据,从而提高了数据查询的速 度,也降低了使用数据的人对数据来源所需要的了解。

❖ Aloudata NoETL

  • 主动元数据。 主动元数据是实现 Data Fabric 的基石,它类似于智能驾驶汽车的传感器及信号解析处理模块,为推荐引擎、DataOps、数据虚拟化和主动数据治理提供了数据支撑。数据管理策略的有效性绝大部分取决于主动元数据建设的好坏,企业落地 Data Fabric 的首要任务,就是构建全面、准确、实时的主动元数据,并持续优化以获得更好的数据管理效果。其具备如下能力: 快速发现全链路元数据、 实时、精细、准确的全链路血缘、 采集数据生态的所有元数据、 以知识图谱方式组织元数据、 实时、高效、易扩展的数据画像打标等。

  • 推荐引擎。 推荐引擎将基于专家经验形成的规则或者机器学习模型,用于 DataOps、数据管理以及数据准备及服务 (如数据集成方案或者引擎性能优化) ,其推荐范围可以涵盖数据全生命周期各个阶段,如数据资产推荐、数据用法推荐、数据集成方案推荐、执行计划推荐、计算引擎推荐、数据分类建议、数据时效提升建议、数据安全风控建议、成本治理建议等。其具备如下能力: 数据资产业务分类推荐、 智能 SQL 用法联想、 智能查询加速、 智能资产推荐等。

  • 增强数据目录。 Aloudata 增强数据目录 (Aloudata BIG Catalog) 以主动元数据为核心,将 AI 和机器学习用于元数据收集、语义推理和分类打标,自动对数据进行编目,从而最大限度减少手工维护元数据的工作,从而为业务人员提供以下关键特性和体验: 语义化数据搜索、 全景数据画像、 可视化血缘分析、 全域数据探索等。

  • 数据虚拟化。 数据虚拟化是实现 Data Fabric 的核心,它承担了业务人员自助完成数据集成、准备和交付的关键职责,它在数据源与数据消费端之间提供了一个连接、整合以及消费数据的虚拟语义层,用户可以通过定义数据查询来完成数据转换,从而实现对跨源、跨环境 (如多云、混合云、Saas 软件供应商) 的数据进行透明集成、自助准备以及高性能服务。其具备如下能力: 高性能联邦查询、 全场景智能加速、 全链路数据编排、 零运维数据更新、 标准化协议接入、 精细化安全管控等。

  • DataOps。 DataOps 理念被提出,它的核心内涵是将类似于 DevOps 的敏捷研发、持续集成、持续部署等原则应用于数据研发和管理过程,以实现更加敏捷和高质的数据交付,通常来说,落地 DataOps 必须具备以下关键能力: 一站式数据研发、 数据变更 CI/CD、 嵌入式治理管控、 数据质量可观测等。

❖ 极数云舟-DTark

北京极数云舟科技有限公司( Cloud-ark )是一家致力于数据处理基础技术研发的高新技术企业,结合数据处理领域最前沿的Data Fabric理论,创造性地提出广义数据库系统,并自主实现内核层多引擎融合技术,打造核心产品:云舟数据经纬平台(DTark),助力用户打造简单、高效、便捷与可持续发展的企业数据基座。

DTark核心技术本质是实现了多引擎融合数据处理,同时也实现了数据多副本、水平弹性伸缩、数据一致性、透明高可用、分层解耦等能力,基于成熟开源组件,并兼容开源协议和技术生态体系,稳定可靠,简单易用,软件核心源代码及关键技术自主研发,产品安全可控。 极数云舟基于DTark产品,服务能力覆盖复杂企业数据管理、数据平台建设、数据库系统及管理,助力客户数字化、智慧化等基于数据融合服务的数据基座建设,也为数据中台、大数据平台建设提供了新动力,在提高性能、降低成本、减少定制化、降低系统复杂度、提升系统可持续发展能力等方面独具优势:

  • 数据接入的融合:基于成熟开源组件,稳定可靠,兼容MySQL协议和技术生态体系

  • 数据存储的融合:可实现数据多副本、水平弹性伸缩、数据一致性、透明高可用、分层解耦融合

  • 数据引擎融合:多引擎融合解决数据多样性存储的横向打通

  • 数据接入的扩展:支持信息系统结构化数据、工业物联网时序数据、科学引擎接口数据的可扩展接入

  • 数据输出的扩展:数据服务化要作为数据库的标准能力

  • 数据引擎的扩展:针对数据类型与计算需求可扩展至 在线事务处理、 在线分析处理、时序数据处理、全文检索、知识库 等多种引擎

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Data Fabric,下一个风口? 的相关文章

  • 如何在 Openfire 中使用 smack

    你好 我计划开发一个可以连接到 gtalk facebook 等的聊天客户端 我决定将 smack API 与 openfire 一起使用 但我需要很少的指导来了解如何将它与 openfire 服务器一起使用 openfire 是否提供了基
  • 如何使用 JAVA 代码以编程方式捕获线程转储?

    我想通过 java 代码生成线程转储 我尝试使用 ThreadMXBean 为此 但我没有以正确的格式获得线程转储 因为我们正在使用jstack命令 请任何人提供一些帮助 他们是否有其他方式获取线程转储 使用任何其他 API 我想要的线程转
  • HAProxy SSL终止+客户端证书验证+curl/java客户端

    我希望使用我自己的自签名证书在 HAProxy 上进行 SSL 终止 并使用我创建的客户端证书验证客户端访问 我通过以下方式创建服务器 也是 CA 证书 openssl genrsa out ca key 1024 openssl req
  • FileNotFoundException - Struts2 文件上传

    Strange FileNotFoundException使用Struts2上传文件时 这是 JSP 的一部分
  • Java:从集合中获取第一项

    如果我有一个集合 例如Collection
  • 如何使用正则表达式验证 1-99 范围?

    我需要验证一些用户输入 以确保输入的数字在 1 99 范围内 含 这些必须是整数 Integer 值 允许前面加 0 但可选 有效值 1 01 10 99 09 无效值 0 007 100 10 5 010 到目前为止 我已经制定了以下正则
  • Spring Batch:一个读取器、多个处理器和写入器

    在 Spring 批处理中 我需要将 ItemReader 读取的项目传递给两个不同的处理器和编写器 我想要实现的是 gt ItemProcessor 1 gt ItemWriter 1 ItemReader gt item gt Item
  • 将数据预加载到 GAE 开发服务器数据存储中的验收测试

    在我的应用程序中 我有一组 DAO 我将它们注入到我的应用程序层中 对于我正在编写的验收测试 我想用数据预加载 dev server 数据存储 因此我在 JUnit 测试中使用相同的 Spring 配置 使用 ContextConfigur
  • 如何删除日期对象的亚秒部分

    当 SQL 数据类型为时间戳时 java util Date 存储为 2010 09 03 15 33 22 246 如何在存储记录之前将亚秒设置为零 例如 在本例中为 246 最简单的方法是这样的 long time date getTi
  • Java:如何确定文件所在的驱动器类型?

    Java 是否有一种独立于平台的方法来检测文件所在的驱动器类型 基本上我有兴趣区分 硬盘 可移动驱动器 如 USB 记忆棒 和网络共享 JNI JNA 解决方案不会有帮助 可以假设 Java 7 您可以使用 Java 执行 cmd fsut
  • 如何从日期中删除毫秒、秒、分钟和小时[重复]

    这个问题在这里已经有答案了 我遇到了一个问题 我想比较两个日期 然而 我只想比较年 月 日 这就是我能想到的 private Date trim Date date Calendar calendar Calendar getInstanc
  • Play.application() 的替代方案是什么

    我是 Play 框架的新手 我想读取conf文件夹中的一个文件 所以我用了Play application classloader getResources Data json nextElement getFile 但我知道 play P
  • Lombok @Builder 不创建不可变对象?

    在很多网站上 我看到 lombok Builder 可以用来创建不可变的对象 https www baeldung com lombok builder singular https www baeldung com lombok buil
  • 使用Java绘制维恩图

    我正在尝试根据给定的布尔方程绘制维恩图 例如 a AND b AND c我想在 Android 手机上执行此操作 因此我需要找到一种使用 Java 来执行此操作的方法 我找到了一个完美的小部件 它可以完成我在这方面寻找的一切布尔代数计算器
  • 集成 Spring Webflow 2 和 Apache Tiles [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我最近开始升级一些应用程序以使用 Spring Webflow 2 并且我想利用 Webflow 2
  • 如何让 Emma 或 Cobertura 与 Maven 一起报告其他模块中源代码的覆盖率?

    我有一个带有 Java 代码的多模块 Maven 设置 我的单元测试在其中一个模块中测试多个模块中的代码 当然 这些模块具有相互依赖性 并且在测试执行之前根据需要编译所有相关模块中的代码 那么 如何获得整个代码库覆盖率的报告 注意 我不是问
  • 禁用 Android 菜单组

    我尝试使用以下代码禁用菜单组 但它不起作用 菜单项仍然启用 你能告诉我出了什么问题吗 资源 菜单 menu xml menu menu
  • Hadoop NoSuchMethodError apache.commons.cli

    我在用着hadoop 2 7 2我用 IntelliJ 做了一个 MapReduce 工作 在我的工作中 我正在使用apache commons cli 1 3 1我把库放在罐子里 当我在 Hadoop 集群上使用 MapReduceJob
  • 替换文件中的字符串

    我正在寻找一种方法来替换文件中的字符串而不将整个文件读入内存 通常我会使用 Reader 和 Writer 即如下所示 public static void replace String oldstring String newstring
  • 将对象从手机共享到 Android Wear

    我创建了一个应用程序 在此应用程序中 您拥有包含 2 个字符串 姓名和年龄 和一个位图 头像 的对象 所有内容都保存到 sqlite 数据库中 现在我希望可以在我的智能手表上访问这些对象 所以我想实现的是你可以去启动 启动应用程序并向左和向

随机推荐

  • 联想 计算机无线网络设置方法,联想笔记本无线网络开关,详细教您联想笔记本无线网络开关...

    联想笔记本是联想集团生产的可携带的笔记本 可帮助我们娱乐 办公 笔记本电脑在生活办公中使用很方便 有时候想要连接无线网却看不到图标 一般来说笔记本电脑都配有无线网络快捷开关 那么怎么打开笔记本无线网络 下面 小编给大家介绍联想笔记本无线网络
  • CARLA pygame window界面大小调节两种方法-Ubuntu18.04

    CARLA pygame window界面大小调节两种方法 Ubuntu18 04 文章目录 前言 一 crala安装 二 pygame window界面界面大小调节方法 1 打开manual control py修改分辨率 2 打开设置
  • 记一次安装plsql,踩坑踩到人麻了!

    大家好 我是鱼尾 开门见山 有事说事吧 记一次安装plsql 踩坑踩到人麻了 说到这里了 那么什么是plsql呢 PL SQL也是一种程序语言 叫做过程化SQL语言 Procedural Language SQL PL SQL是Oracle
  • 无名图书(网站)

    首先 这个电子书资源网站 里面的资源涵盖面广非常的齐全 包含有文学类 社会文化 历史 经济 自然科学 理工科 美食旅行 政治 计算机 设计 思想 健康 生物 建筑 绘本 天文等等 完全能满足日常使用需求 网站支持搜索功能 小伙伴们可以通过搜
  • Blender2.5快捷键

    Blender2 5快捷键 整理了最全面的快捷键和解释 希望大家继续补充 Basics 基础 CTRL U Save as Default 保存界面 Right Click Select 选择 Middle Click Pan 平移视角 M
  • python大作业爬虫_Python大作业---微博爬虫及简单数据分析

    刚开始学python 选了这个题目 把代码放上来留念 没有用到很流行的框架 所以代码量挺大 GUI用wxpython写的 coding UTF 8 import os import re import requests import sys
  • 上传本地jar包文件到私服

    一 公司的项目上传到公司私服 使用idea中maven的install将项目打包 放到本地仓库 install三个关键步骤 将项目打包成jar包放到项目的target目录下 这一步等同于mvn package命令的操作 将jar包insta
  • java 比较日期差值_日期的大小比较及差值计算

    一 LocalDate 的 isBefore isAfter 返回值为 boolean 类型 public static void main String args LocalDate ld LocalDate now LocalDate
  • Ubuntu系统下安装NVIDIA驱动

    介绍两种不同的方法 这两种方法基本不会出现任何问题 1 直接使用系统的apt get进行nvidia的安装 具体参考自这篇https blog csdn net breeze5428 article details 80013753 具体步
  • [论文阅读] (10)基于溯源图的APT攻击检测安全顶会总结

    娜璋带你读论文 系列主要是督促自己阅读优秀论文及听取学术讲座 并分享给大家 希望您喜欢 由于作者的英文水平和学术能力不高 需要不断提升 所以还请大家批评指正 非常欢迎大家给我留言评论 学术路上期待与您前行 加油 前一篇文章分享了S P201
  • 更新预告:chatGPT知识树。

    从一个知识点出发 无限扩展到无数个子知识点 是学习 了解其他行业知识 专业技能的利器 10分钟 就可以对一个行业 一个专业有大概 又专业的了解 简单列2个例子 让你感受下神的强大 上线时间 2023 9 7 体验地址 https ppwor
  • 浅谈Android原生开发现状,终究是错付了

    浅谈Android原生开发现状 终究是错付了 客户端3年内必死 小程序 跨端方案盛行 很多公司已经开始裁客户端了 这不是危言耸听 不少同行已经发声 客户端面临的危机前所未有 前端跨平台和小程序蚕食移动端市场 客户端行业内部内卷严重 同行一直
  • planet-lab平台的布置

    最近需要把国家自然基金项目赶快结题 所以导师也催的紧 正好自己也在研究网格和高性能计算 所以老板就把部署planet lab环境的任务交给我 鄙人英语很烂 所以花了很长时间的去读指导书 最后基本上搞定 但是还有问题 希望网友们能给我点解答
  • Android Binder 系统级使用demo

    Android System Binder Usage 添加系统级服务Java C Server Client https github com qianjigui android system service exampleAndroid
  • 华为OD机试 -自动售货系统(C++ & Java & JS & Python)

    描述 1 总体说明 考生需要模拟实现一个简单的自动售货系统 实现投币 购买商品 退币 查询库存商品及存钱盒信息的功能 系统初始化时自动售货机中商品为6种商品 商品的单价参见1 1规格说明 存钱盒内放置1元 2元 5元 10元钱币 商品数量和
  • 用户登录JWT技术,Redis存储token,登录拦截

    SpringBoot项目 用户登录JWT技术 登录拦截 1 JWT技术 登录使用JWT技术 jwt 可以生成 一个加密的token 做为用户登录的令牌 当用户登录成功之后 发放给客户端 请求需要登录的资源或者接口的时候 将token携带 后
  • 剑指offer-4-替换空格

    问题 请实现一个函数 将一个字符串中的每个空格替换成 20 例如 当字符串为We Are Happy 则经过替换之后的字符串为We 20Are 20Happy 方案 该问题如果采用暴力方法 从前往后遍历 如果遇到空格 开始整体数据向后移动2
  • 概率论【离散型二维变量与连续性二维变量(上)】--猴博士爱讲课

    5 离散型二维变量与连续性二维变量 上 1 8 已知二维离散型分布律 求 离散型直接看表 做题方法参考如下 2 8 已知二维离散型分布律 判断独立性 如果满足p xy p x p y 那么相互独立 则我们只需要验证每一个p xy p x p
  • 微信小程序 手写签名_微信小程序实现手写签字

    无纸化办公 这是老板对我的要求 然而有人现场执法文件全部电子化 只有签字部分让一个搞web的人有点儿头疼 不能为了这个找个人来开发app吧于是想到了小程序 对于一个新接触小程序的人来说还是有挑战性的 因为我第一次写小程序 还好有文档 所以思
  • Data Fabric,下一个风口?

    Data Fabric 又名数据经纬 是近期横空出世的一个概念 之前对其了解甚少 近期做了个小调研 对这一概念内涵与外延 产品及定位 业务与前景 未来及趋势等做了简单整理总结 分享给大家 1 什么是Data Fabric 前世今生 Data