flinkCDC+iceberg(hadoop catalog) 同步mysql数据库数据

2023-11-09

flink可以实现hadoop catalog 和hive catalog 。

前者映射hdfs地址，实现数据存储

后者映射hive表地址，用于有关hive的数据处理及其他项目实操。

1. 环境准备

官网：https://iceberg.apache.org/

1. hadoop 一定要 分布式集群

2.需要flink-connector-mysql-cdc-1.4.0.jar 即mysql-cdc连接器放到flink 的 lib下，为了连接数据库

3. 需要将iceberg 0.13.1的jar包放在${FLINK_HOME}/lib下

4. 开启mysql的binlog日志，mysql需要开启binlog日志,需要修改/etc/my.cnf文件，加上如下两段代码。

server-id=1
log-bin=mysql-bin

本文版本：版本 flink 1.13.6+iceberg 0.13.1

2.启动flink环境

#启动flink环境
${FLINK_HOME}/bin/start-cluster.sh


#启动flinksql
${FLINK_HOME}/bin/sql-client.sh

3.放纵时刻

#流操作
SET execution.runtime-mode=streaming;

##手动设置checkpoint时间 
set execution.checkpointing.interval=5sec;

####数据库连接
CREATE TABLE mysql_binlog(
    name STRING ,
    cust_id INT,
    age INT,
    PRIMARY KEY (cust_id) NOT ENFORCED
)WITH (
'connector' = 'mysql-cdc',
'hostname' = 'hadoop01',
'port' = '3306',
'username' = 'root',
'password' = 'pwd',
'server-time-zone' = 'Asia/Shanghai',
'debezium.snapshot.mode'='initial',
'database-name' = 'FlinkCDC',
'table-name' = 'person'
);


#检查数据库连接数据是否正常
select * from mysql_binlog;


#创建iceberg表
CREATE TABLE sample(
    name STRING ,
    cust_id INT,
    age INT,
    PRIMARY KEY (cust_id) NOT ENFORCED
)WITH (
'connector'='iceberg',
'catalog-name'='iceberg_catalog',  --catalog名称
'catalog-type'='hadoop',  --创建的为hadoop的catalog
'warehouse'='hdfs://hadoop01:8020/iceberg/test2',  --指定数据位置
'format-version'='2'  --版本 2 支持带主键的表upsert但是仍然无法流式查询。版本 1 不支持带主键的表upsert
);

##导入数据到iceberg
insert into sample select * from mysql_binlog;

##检查数据是否导入成功
select * from sample;

丰富知识：
iceberg使用代码合并小文件后如果不开启此配置，历史文件同样不会删除，开启后就会实现合并后清除历史文件
启用提交后写入元数据删除
write.metadata.delete-after-commit.enabled=true
配置保留历史数量(比如配置为5，则元数据和数据都保留5份历史数据和1份最新数据)
write.metadata.previous-versions-max=5

历史文件保留最大值为5，metadata和data里面文件数则始终保持为6个

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

flink

sql

大数据

HDFS

flinkCDC+iceberg(hadoop catalog) 同步mysql数据库数据的相关文章

非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
获取在任何日期创建的表的列表？

我遇到了这样的情况我想查找我在 2012 年 9 月 14 日 2012 年 9 月 14 日在 sql server 上创建的表是否有任何查询会列出在此日期创建的这些表 SELECT FROM sys tables WHERE cr
SQL Server：为什么 ISO-8601 格式的日期依赖于语言？

我需要一些帮助来理解 SQL Server 中的日期格式处理如果您尝试以下操作它将返回正确的结果 SET LANGUAGE English SELECT CAST 2013 08 15 AS DATETIME 2013 08 15 00
SQL 使用另一列的键和最大值设置列

我需要根据同一 ID 的 duration 列的最大值更新 max register 列将值设置为 1 其他值设置为 0 初始表 Id duration max register 1 0 0 1 7 0 1 3 0 2 10 0 2 5
如何用约束标记一大组“传递群”？

在 NealB解决方案之后进行编辑与以下解决方案相比 NealB的解决方案非常非常快任何另一个 https stackoverflow com q 18033115 answers and 提出了关于添加约束以提高性能的新问题 Nea
SQL - 需要查找重复记录但排除反向事务

我有一张交易表偶尔会有重复条目如果当管理员发现这些重复条目时他们将撤销交易从而创建负值但由于监管要求原始重复条目仍然保留我想创建一个 SQL 查询并使用 Crystal Reports 来制作报告以便管理员轻松查找重复
ORA-12728: 正则表达式中的范围无效

我想检查表中是否插入了有效的电话号码所以我的触发代码在这里 select start index into mob index from gmarg mobile operators where START INDEX substr ne
meta_query，如何使用关系 OR 和 AND 进行搜索？

已解决请参阅下面的答案我有一个名为的自定义帖子类型BOOKS 它有几个自定义字段名称为 TITLE AUTHOR GENRE RATING 我该如何修复我的meta query下面的代码以便仅books在自定义字段中包含搜索词 tit
解析错误：语法错误，意外的 T_RETURN [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 遇到这个问
处理与不同相关实体的一对多的正确模式

我有一个 C 项目我使用实体框架作为 ORM 我有一个User 可以向多家银行付款每家银行都是一个独立的实体并且每家银行都由不同的字段描述问题是一User可以没有或有很多不同的Banks 我不太确定如何对此进行建模临时解决方案是
如果 Oracle SQL 中存在视图，则删除视图[重复]

这个问题在这里已经有答案了我是 Oracle 数据库系统的新手 Oracle 12c 中以下 SQL 语句的等效项是什么 DROP VIEW IF EXIST
SQL：如何从一个表中获取另一个表中每一行的随机行数

我有两个数据不相关的表对于表 A 中的每一行我想要例如表 B 中的 3 个随机行使用光标这相当容易但速度非常慢那么我该如何用单个语句来表达这一点以避免 RBAR 呢要获得 0 到 N 1 之间的随机数可以使用 abs chec
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
针对约 225 万行的单表选择查询的优化技术？

我有一个在 InnoDB 引擎上运行的 MySQL 表名为squares大约有 2 250 000 行表结构如下 squares square id int 7 unsigned NOT NULL ref coord lat doubl
如何将今天的日期返回到 Oracle 中的变量

我想做这个 DECLARE today as smalldatetime SELECT today GetDate 但我需要一个oracle翻译甲骨文使用SYSDATE 还有 ANSI 标准CURRENT TIMESTAMP 除其他外 S
如何在 SQL Server 2012 中选择除一列之外的所有列？ [复制]

这个问题在这里已经有答案了有没有一种方法可以选择所有列但只选择我不想选择的特定列我的意思是有时我会遇到这样的问题表有数百个字段而我只需要删除一个字段我需要重写所有列吗有什么窍门吗喜欢select
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
CONTAINS 不适用于 Oracle Text

我在执行此查询时遇到问题 SELECT FROM gob attachment WHERE CONTAINS gob a document java gt 0 它给了我 ORA 29902 error in executing ODCIIn
Oracle REGEXP_INSTR() 和“a-z”字符范围与预期不匹配

我想用REGEXP INSTR 在 oracle 数据库中检查小写大写字符我知道 upper and lower POSIX 字符类但我选择了a z这给了我非常奇怪的结果我不明白有人可以解释一下吗 SELECT REGEXP IN
如何使用 SQL 查询创建逗号分隔的列表？

我有 3 个表名为应用程序 ID 名称资源 id 名称应用程序资源 id app id resource id 我想在 GUI 上显示所有资源名称的表格在每一行的一个单元格中我想列出该资源的所有应用程序以逗号分隔所以问题是

随机推荐

ARM NEON编译优化

NEON被设计为附加的加载存储架构以提供良好的矢量化编译器对c c 等语言有良好的支持这样可以实现很高水平的并行性开发者可以为需要高性能的应用程序编写NEON指令来实现相应功能最重要的是它实现了访问交叉存储在内存中的多个数据流并
对解数独问题的归纳

解数独我们都可能玩过或者了解知道就是数独游戏数独是一种运用纸笔进行演算的逻辑游戏玩法在空格里填入数字1到9 使得每一行每一列和每一个用粗线围起来的3 3的九个单元格里填数都包含1到9各一个而利用电脑怎样实现呢怎样将我们的
xshell链接服务器报错To escape to local shell, press ‘Ctrl+Alt+]‘

关掉代理即可
C语言学习日记（2）——写个Hello，World测试一下

感觉工具已经安装好了但到底怎么样还要试过才知道那就写一个经典的Hello World程序测试一下吧首先打开vscode 新建一个文件输入代码代码字体颜色全都是白色的看到状态栏右下角原来文件格式还是Plain Text 设置一下
2021各厂免费云服务器申请攻略（阿里云/腾讯云/华为云）

阿里云腾讯云华为云一直都有免费云服务器提供企业用户个人用户可以申请的免费云服务器配置及免费时长都不同云服务器吧来详细说下阿里云免费云服务器腾讯云免费云服务器和华为云免费服务器申请地址申请条件及申请攻略阿里云免费云服务器阿里云免费
RabbitMQ-推（push）模式

推 push 模式采用Basic Consume进行消费关键代码
Python3学习笔记：Python中的None和空字符串''

一定义 None python中的内建常数是NoneType中唯一的值且不能赋值一般用于函数中表示参数的缺省空字符串代表是字符串 None print type None print bool None 执行结果
CSDN竞赛第37期题解

CSDN竞赛第37期题解 1 题目名称幼稚班作业幼稚园终于又有新的作业了老师安排同学用发给同学的4根木棒拼接成一个三角形当然按照正常的逻辑如果不能拼接成三角形必然要折断某个木棍来拼接三角形可是懒惰的小艺当然不会费力了如果拼
从男士正装切入服装租赁领域，The Black Tux 获 2500 万美元 B 轮融资

近日自营男士正装租赁品牌The Black Tux宣布获 2500 万美元 B 轮融资本轮由 Stripes Group 领投该机构还对时尚品牌 Reformation 进行过注资其他投资方还包括 First Round Capit
Eslint-plugin-vue 报警告问题解决

问题描述 eslint plugin vue vue valid v for Custom elements in iteration require 提示警告解决办法修改首选项的默认用户设置如下图设置将Eslint vetur 校
【Grafana】CentOS下安装Grafana

Grafana CentOS下安装Grafana 本文主要是在CentOS下对Grafana的安装和配置等进行介绍以及一些踩过的坑文章目录 Grafana CentOS下安装Grafana 一基本介绍二安装方法 1 从YUM存储库
c# uint[]和int[] 转 byte[]的几种方式

uint UintArray byte ByteArray 1 for循环转 for int i 0 i
UE4插件研发 So Easy

UE4插件研发 UE4插件扫盲 UE4插件是什么 UE4插件的作用 UE4引擎项目插件的区别引擎自带的插件浏览器插件目录结构插件配置文件说明 UE4插件的创建方法插件代码的执行过程四种常用模式的插件模板第三方库的引入牛刀小
PCB为什么不能直角走线？

最初学习PCB设计时很多老师说过注意不要走直角很多人也认为优秀的电子工程师都应该在PCB电路设计时避免直角走线但事实上 PCB一定不能直角走线吗一能不能直角走线电路频率说了算 PCB并不是绝对不能直角走线而是视电路情况而定
Headless CMS - 打破“设计优先”的怪圈

什么是 Headless CMS 为什么 Headless CMS 带有真正的革命性因为它严格的将内容和格式分离使我们回归到内容管理的本源这种变化必然会带来一些不确定性因此在开始您的第一个 CMS 项目之前了解 Headless
断触问题分析思路

在使用手机的时候有时候会出现触碰中断的异常问题比如点击无效已经存在的触碰事件突然消失这种问题很直观用户体验很差如果能够复现问题抓到实时log 分析起来会清楚很多可以打开开发者选项中的指针轨迹这个触碰轨迹的实现是使用了Poi
看门狗定时器

看门狗定时器 WDT Watch Dog Timer 是单片机的一个组成部分它实际上是一个计数器一般给看门狗一个数字程序开始运行后看门狗开始倒计数如果程序运行正常过一段时间CPU应发出指令让看门狗复位重新开始倒计数如果看门狗减
报错torch._C._LinAlgError: cusolver error: CUSOLVER_STATUS_EXECUTION_FAILED

解决方法将使用torch linalg模块或torch inverse语句中变量移到CPU 或者用更旧的pytorch版本例如 PyTorch 1 10 0 cu111 即torch inverse data 改为 device data
最详细的Spark内存管理

spark 各版本的内存参数一 Spark 1 6内存管理 spark 1 6之前使用StaticMemoryManager 叫legacy模式默认是关闭的 spark1 6开始使用UnifiedMemoryManager 1 6开
flinkCDC+iceberg(hadoop catalog) 同步mysql数据库数据

flink可以实现hadoop catalog 和hive catalog 前者映射hdfs地址实现数据存储后者映射hive表地址用于有关hive的数据处理及其他项目实操 1 环境准备官网 https iceberg apache

flinkCDC+iceberg(hadoop catalog) 同步mysql数据库数据

flinkCDC+iceberg(hadoop catalog) 同步mysql数据库数据 的相关文章

随机推荐

热门标签

flinkCDC+iceberg(hadoop catalog) 同步mysql数据库数据的相关文章