功能升级,数据同步更便捷!场景化数据同步助您提效60%!

2023-11-08

在企业数仓建设初期,为了保障数字化转型的落地效果,需要提供充足的数据资源,除了基础的数据抽取、转换和加载等过程,数据的同步也是重要环节之一。数据同步常用于数仓ODS、ADS层的建设,通过不同数据源的同步,保障数据的及时性和准确性,从而满足不同业务部门和用户的需求。
在过去,企业在处理数据同步时,常常需要SQL编码辅助完成,随着业务发展,企业的数据量飞速增长,传统的编码方式也逐渐显露弊端:

▶ 无法精准匹配:通过编写SQL进行同步策略,难以与场景实现精准匹配;
▶ 操作门槛高:涉及到前置SQL、后置SQL等代码过程,需要配备专业的技术开发人员;
▶ 开发周期长:如有多个任务,需一个个单独配置,耗时较长,效率低。

针对以上痛点,Tempo 数据工厂新推出【场景化数据同步】功能,根据业务需求及数据特征,提取关键场景,通过点选方式,快速匹配不同的集成场景。

场景化数据同步

该功能将常用数据集成业务场景进行抽取,包含周期增量、一次全量周期增量、周期全量三种同步策略,可快速完成数据集成任务配置。
01、周期增量
周期增量通常指的是在数据集成过程中,从源系统中提取数据到目标系统中的增量数据量。数据集成是将来自不同数据源的数据整合到一个统一的目标系统中的过程,以实现数据的统一管理和共享。
以T企业为例,由于企业内部数据存量较大,每次全量读取数据都需要很长时间才能完成迁移工作,于是T企业采用增量的方式,按照一定的调度频率读取周期内的新增数据,迁移到数据仓库中。
场景化数据同步

读取到来源端的增量数据后,可以采用不同的策略,写入到目标库中。根据不同的业务需求,Tempo数据工厂可提供以下两种策略:
▶先删后增:清理当期数据,插入增量数据
▶更新:唯一键相同更新,新增插入
数据同步

02、一次全量周期增量
一次全量周期增量是指在数据集成过程中,进行一次全量数据抽取后的下一个周期内的增量数据量。全量数据抽取是指将源系统中的所有数据都抽取到目标系统中,以确保目标系统中的数据与源系统中的数据完全一致。
T企业内部有一定的历史存量数据,每天也会产生新的数据,建设数仓时采用一次全量周期增量的模式,先把历史存量数据全部抽取到目标端,之后每次都只取增量数据。

数据同步

读取到来源端的数据后,可以采用不同的策略,写入到目标库中。根据不同的业务需求,Tempo 数据工厂平台提供以下两种策略:
▶先删后增:清理当期数据,插入增量数据
▶更新:唯一键相同更新,新增插入
数据同步

03、周期全量
周期全量是指在一定的时间周期内,将所有的数据源进行全量的数据抽取和集成。这意味着每个周期都会将所有的数据源中的数据全部抽取出来,并进行整合和合并,以保证数据的完整性和一致性。
T企业的历史数据存量小,数据中没有日期时间字段帮助获取增量数据,因此采用全量方式进行数据抽取。
数据抽取

读取到来源端的增量数据后,可以采用不同的策略,写入到目标库中。根据不同的业务需求,Tempo 数据工厂提供以下三种策略:
▶先删后增:清理当期数据,插入增量数据
▶缓存表:缓存输出数据,交换加载目标数据
▶备份表:目标表数据,对历史数据进行备份
数据同步

*缓存表:当目标端数据一直被应用时(如被BI看板引用时),目标表不能为空,则需要将包含新增或修改的全量数进行缓存,再将缓存表和目标表重命名替换。
*备份表:当历史数据需要备份时,先按照版本写入目标数据,再次进行写入时将清理数据过期版本数据。

另外,在实际数仓建设过程中,会面临多系统多表的集成工作,为了提高集成效率,Tempo数据工厂新增支持【批量数据同步】任务配置,可快速将来源端的多张表批量迁移至目标数据源。
数据同步

功能亮点
▶ 更匹配业务场景
对同步场景进行细化,便于运维人员、实施人员、客户方更好理解,更好进行业务匹配。
▶ 降低操作门槛
将编写SQL方式修改为点选方式,无需技术人员上手,业务人员也能快速完成数据集成任务配置。
▶ 大幅提升效率
将编码方式改为点选方式,预计提高效率60%,大幅缩减了配置时间。
▶ 支持批量操作
可批量进行任务配置,提高集成效率。

数字化转型过程中,数据是核心。作为支撑数据分析的强大底座,Tempo DF的每一次的功能上新,都以给用户提供更加敏捷、高效、智能的解决方案为目标,为企业的数字化转型提供更多助力。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

功能升级,数据同步更便捷!场景化数据同步助您提效60%! 的相关文章

  • 解决GD32F20X支持包安装后打开官方例程无法识别芯片问题

    今天分享一个自己遇到的一个问题 就是在安装了GD32F20x的支持包后 发现打开keil5的工程后 提示缺少芯片的device 于是以为keil5的版本不够 又去官网下了其补丁包 没想到还是不行 后来发现迁移到keil5格式就可以找到相应的
  • 最小二乘法的矩阵推导

    顾名思义 从数学意义推导最小二乘法公式 一 解释 最小二乘法本质是寻找一组x 使Ax与b距离最近 写成二范数的形式为 最合适的x一般出现在函数的极值点 也就是导数为0的点 所以为求导计算方便 我们用二范数的平方作为计算公式 补充知识 设下列

随机推荐

  • nginx + lua 构建网站防护waf(一)

    最近在帮朋友维护一个站点 这个站点是一个Php网站 坑爹的是用IIS做代理 出了无数问题之后忍无可忍终于要我帮他切换到nginx上面 前期被不断的扫描和CC 最后找到了waf这样一个解决方案缓解一下 话不多说直接开始 waf的作用 防止sq
  • 111端口rpcbind漏洞

    rpcbind是NFS中用来进行消息通知的服务 实验环境 攻击机 kali linux ip 192 168 172 134 目标机 Metasploittable2 ip 192 168 172 129 攻击过程 setp1 使用nmap
  • k宝无法连接计算机,农行K宝无法识别

    2013 10 21 k宝怎么插入电脑后点击没反应是怎么回事 原因分析 静电 主板电压和系统设置等原因导致 简易步骤 1 拔出所有USB设备 关机 拔掉电源 笔记本需拔出电池 按开机键5 6下 开机重新插入USB设备 2 右键点击 我的电脑
  • 拓展:EPSILON = 1e-8

    EPSILON 是一个希腊字母 叫做艾普西隆 它代表一个常量 通常用于表示一个很小的浮点数值 其值为 1e 8 在计算机中 由于浮点数的精度限制 当两个浮点数非常接近时 它们可能由于舍入误差而不相等 为了解决这种问题 常常会使用一个很小的数
  • 图论 笔记

    关于存图 如果是有权值的边 可以用pair define pii pair
  • springboot集成es 使用x-pack

    引入架包
  • 软件测试工程师笔试题及答案(二)

    测试人员考试试卷二 考试时间90分钟 满分100分 一 判断题 每题2分 正确的 错误的 1 好的测试员不懈追求完美 2 测试程序仅仅按预期方式运行就行了 3 不存在质量很高但可靠性很差的产品 4 软件测试员可以对产品说明书进行白盒测试 5
  • 代码随想录算法训练营19期第36天

    435 无重叠区间 代码随想录 初步思路 重叠区间 贪心 总结 按照右边界排序 从左向右记录非交叉区间的个数 最后用区间总数减去非交叉区间的个数就是需要移除的区间个数 如果按照左边界排序直接求 重叠的区间 使用变量count为记录重叠区间数
  • 单一职责原则

    单一职责原则 就一个类而言 应该只有一个引起它变化的原因 如果一个类承担的职责过多就等于把这些职责耦合在一起 至少会造成以下两方面的问题 我们要去修改该类中的一个职责可能会影响到该类的其它职责 这种耦合会导致脆弱的设计 当变化发生时 设计会
  • 一个月能做什么?成长&感悟分享

    一个月做了什么 八月做了些什么 单词打卡 第一件事情就是单词打卡 英语很差的我 一样继续打卡 今天是第736天 当你还在纠结扇贝和不背 可可英语哪一个好的时候 别人已经同时使用了 当你还在咨询学编程 敲代码需不需要英语的时候 别人已经开始同
  • springboot整合log4j打印日志

    1 排除springboot自带log依赖
  • Hamcrest 测试匹配框架

    为什么要用Hamcrest匹配器框架 Hamcrest是一款软件测试框架 可以通过现有的匹配器类检查代码中的条件 也可以通过自定义的匹配器实现 要在JUnit中使用Hamcrest匹配器 可以用它的assertThat语句 并且可添加一个或
  • pycharm打开chrome自动退出解决方法

    先查谷歌版本和驱动版本 from selenium import webdriver driver webdriver Chrome str1 driver capabilities browserVersion 查看chrome版本 st
  • ARP欺骗

    目录 一 ARP协议 二 ARP欺骗的原理 三 实验环境 四 实验步骤 一 ARP协议 每一个主机都有一个ARP高速缓存 此缓存中记录了最近一段时间内其它IP地址与其MAC地址的对应关系 如果本机想与某台主机通信 则首先在ARP高速缓存中查
  • ns2无线局域网隐藏节点仿真实验

    ns2无线局域网隐藏节点仿真实验 实验内容 实验原理 实验过程 相关模块安装 仿真模块 问题总结 问题一 问题二 问题三 实验内容 无线网络与移动技术第二次实验 用ns2完成无线局域网隐藏节点仿真实验 实验原理 隐藏节点指在接收节点的覆盖范
  • python中 random.randint 和 random.randrange 的区别

    python中 random randint 和 random randrange 的区别 在python中 通过导入random库 就能使用randint 和 randrange 这两个方法来产生随机整数 那这两个方法的区别在于什么地方呢
  • babel转译: es6转es5

    1 ECMAScipt和JavaScript的关系 96年javascript之父netscape 交给国际标准组织ECMA管理 ECMAScipt是javascript的一种规范 javascript是ECMAJavascript的一种实
  • 标定工具箱 OpenCalib: 自动驾驶多传感器的一个开源标定工具箱

    2022年5月30日上传arXiv的论文 OpenCalib A Multi sensor Calibration Toolbox for Autonomous Driving 作者来自商汤科技和上海AI实验室 准确的传感器标定是实现智能车
  • SpringBoot数据库密码动态配置

    一般的开发 我们都习惯把数据库密码配置在属性文件中 这样配置方便好用 但是缺点也是很明显的 这样配置的密码是静态的 明文的 一般都安全要求比较严格的公司 这些密码都会被统一管理 定期修改 我们需要动态获取密码 下面是结合SpringBoot
  • 功能升级,数据同步更便捷!场景化数据同步助您提效60%!

    在企业数仓建设初期 为了保障数字化转型的落地效果 需要提供充足的数据资源 除了基础的数据抽取 转换和加载等过程 数据的同步也是重要环节之一 数据同步常用于数仓ODS ADS层的建设 通过不同数据源的同步 保障数据的及时性和准确性 从而满足不