maxwell小白入门

2023-11-19

执行同步binlog数据命令路径

maxwell安装目录下执行启动命令

增量同步命令:

./bin/maxwell --config ./conf/meituan(文件目录)/具体配置文件名.properties --daemon

采集历史数据

./bin/maxwell-bootstrap --config ./conf/meituan(文件目录)/具体配置文件名.properties --database maicai_bigdata --table price_table --client_id meituan_maicai_cps_prod

完成配置文件

# tl;dr config
log_level=info

producer=kafka

#ddl_kafka_topic=maxwell_ddl
#output_ddl=true

#init_position=binlog.000155:426808694:0

# 创建maxwell库所在主机
host=存储maxwell元数据的mysql url
#mysql用户名
user=存储maxwell元数据的mysql 用户名
#mysql密码
password=存储maxwell元数据的mysql 密码
#端口
port=存储maxwell元数据的mysql 端口(一般是3306,也有不为3306的mysql端口)
#maxwell唯一实例
client_id=本着一个配置文件一个client_id原则设置
# 创建的储存同步信息的库
schema_database=存储maxwell元数据的mysql 库名


#监听的mysql配置信息
replication_host=maxwell监听表所在的mysql url
replication_user=maxwell监听表所在的mysql 用户名
replication_password=maxwell监听表所在的mysql 密码
replication_port=maxwell监听表所在的mysql 端口



#     *** kafka ***
kafka.bootstrap.servers=大数据集群 kafka server 
kafka.compression.type=snappy
kafka.retries=5
kafka.acks=all
kafka.enable.idempotence=true
#kafka_topic=qy_%{database}_%{table}
kafka_topic=存放采集到的binlog数据kakfa topic(最好在采集前手动建好三分区三副本kafka topic,系统自动创建的kafka topic不是三分区三副本)
# 创建三分区三副本kafka topic (kafka安装目录下的bin目录下)
# kafka-topics.sh --bootstrap-server test002:9092,test003:9092,test004:9092 --create --topic dwd_kyy_db_glory_user_kafka2kafka --partitions 3 --replication-factor 3

jdbc_options = useSSL=false&serverTimezone=Asia/Shanghai
replication_jdbc_options = useSSL=false&serverTimezone=Asia/Shanghai

#filter=exclude: *.*,include: cps.admin

# 该ID不能与mysql my.cnf中的一样,也不能与其他监控同一个库的CDC中配置id一样
replica_server_id=1684391561


filter=exclude: *.*,include: maicai_bigdata.price_table
#http_config=true
#     *** general ***
# choose where to produce data to. stdout|file|kafka|kinesis|pubsub|sqs|rabbitmq|redis
#producer=kafka

# set the log level.  note that you can configure things further in log4j2.xml
#log_level=DEBUG # [DEBUG, INFO, WARN, ERROR]

# if set, maxwell will look up the scoped environment variables, strip off the prefix and inject the configs
#env_config_prefix=MAXWELL_

#       *** output format 输出格式***

# records include binlog position (default false)
output_binlog_position=true

# DML records include list of values that make up a row's primary key (default false)
output_primary_keys=true

# DML records include list of columns that make up a row's primary key (default false)
output_primary_key_columns=true

添加监听表

先搜进程
ps -ef|grep Maxwell(也可以搜 maxwell)

然后 kill掉(注意不是kill - 9)
kill + 进程号(搜到的进程号) 

直接在filter=exclude: *.*,后边加上库名.表名


重新启动增量进程(先启动增量进程,再启动全量进程[同步历史])
增量同步命令:
./bin/maxwell --config ./conf/meituan(文件目录)/具体配置文件名.properties --daemon
采集历史数据
./bin/maxwell-bootstrap --config ./conf/meituan(文件目录)/具体配置文件名.properties --database maicai_bigdata --table tianjia_table --client_id meituan_maicai_cps_prod

在这里插入图片描述
终止同步历史进程

如果需要同步的表历史binlog日志数据比较多,耗费时间较长,中途不想同步了,需要停止历史同步进程

别 ctrl + c 终止
需要 ps -ef|grep Maxwell 找到同步历史数据进程(一般有bootstrap字样)
用kill + 搜索到的进程号

解决异常终止maxwell采集历史数据进程

如果终止同步历史进程没那么顺利,后边maxwell可能会受到影响(异常终止
同步历史数据进程的影响),而导致maxwell不健康

下图是盛放maxwell元数据的库表,其中有一张 bootstrap表

在这里插入图片描述

找到同步历史数据表的那一条数据,该条数据有一个 completed_at 字段,
将这条数据的该字段值修改为 1 

解决Maxwell报错RuntimeException: Couldn‘t find database(一般这个库都是采集url里的库) xxx

1. 有没有开启binlog
SHOW VARIABLES LIKE 'log_bin'; -- 可以在采集url里执行一下 (on 是已经开放,off 尚未开放)
2. 已经开启binlog 但是还是报此异常
 那可能是采集文件中给到的 需要采集库表url 对应的用户 权限不足
例如: 买菜部门数据库url下有 shouguo库,shucai库 现在只需要分析蔬菜相关指标,故只需要采集shucai库下的库表
    但是 蔬菜,水果 库下表产生的binlog日志混合滚动写到相应的binlog日志文件中
	(这样理解一个binlog文件中包含蔬菜,水果两个库下的binlog日志数据)
	如果此时我们从运维老师那拿到的用户权限仅有蔬菜库的访问权限(即便是读写权限,也是没法去抓取binlog日志文件的)

如果启动 maxwell 进程有问题,网上百度搜索需要清除 maxwell元数据

先尝试清(仅清) positions 表里相关数据,再试着去启动
如果不行,问题还没解决那就把各个表里的相关数据清理一下,再去重新启动

maxwell各个元数据库表(各表之间有字段对应关系,可以相应的删除采集表的元数据信息):
columns表 schema_id = 186
database表 id= 17 and schema_id = 186
heartbeats表 server_id = 2125681723 and client_id = meituan_cps_prod 
positions 表 server_id = 2125681723 and client_id = meituan_cps_prod
schemas(库)表 id=186 and server_id = 2125681723
tables 表 schema_id = 186 and database_id = 17 and name= price_table
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

maxwell小白入门 的相关文章

随机推荐

  • explain查看sql语句执行计划

    explain sql 执行结果字段描述 id select唯一标识 select type select类型 table 表名称 type 连接类型 possible keys 可能的索引选择 key 实际用到的索引 key len 实际
  • ORB_SLAM2运行官方数据集/自己数据集

    官方数据集运行结果 WeChat 20230210194425 可以正常运行 自己数据集运行结果 自己的数据集 主要是用手机摄像头采集的实验室进行了一下简单的运行 可以成功运行 但是由于查看的相关程序的是死循环不能像运行官方数据集那样完整保
  • 1553B通信项目开发笔记(一)协议概述

    最近接了个项目 需要用1553B协议通信 仅作为RT端口进行通信 控制器采用ARM 使用芯片为国产的BU61580芯片 功能和引脚和DDC的61580完全一致 系统组成 MIL STD 1553B时分制指令 响应多路传输数据总线采用半双工传
  • Mybatis学习笔记2-配置文件解析

    在学习笔记1中大概学习了如何创建Mybatis框架的过程 其中有部分是编写核心配置文件 具体内容如下
  • 数据结构-双端队列

    定义 某种意义上 是栈和队列的结合 具体排序原则取决于使用者 实现 双端队列是元素的有序集合任何一端都允许添加移除元素 Deque 创建一个空的双端队列 无需参数 返回一个空的双端队列 addFront item 无返回值 addRear
  • python自动化测试添加日志_Python自动化测试之日志记录

    前言 在任何一个软件开发过程中 日志记录都是一个必须要做的事 记录日志 有助于问题排查 后续的大数据统计也要需要使用日志提供原始数据 Python日志库 logging Python 的日志记录工具 这是Python官方提供的日志记录库 优
  • JSP数据交互(application、cookie)

    关于作用域的对比 page
  • AWS SAA C003 S3 Type

    A solutions architect is using Amazon S3 to design the storage architecture of a new digital media application The media
  • cicd 04--构建自动化发布流程

    cicd 04 构建自动化发布流程 1 简介 2 构建过程 2 1 功能说明 2 2 jenkins gitlab 配置 2 3 测试结果 3 注意事项 4 说明 1 简介 在实际项目中 为了提高开发人员的服务发布效率 避免用户手动buil
  • ethercat foe字节对齐解决方案

    发现ecat从站的代码没实现字节对齐 头是3字节 在转换foe数据会丢数数据 修改前 brief Mailbox header typedef struct MBX STRUCT PACKED START UINT16 Length lt
  • web学习笔记

    常用属性 1 Html基础 3 常用快捷键 3 认识大前端
  • 大规模分布式消息中间件简介

    大规模分布式消息中间件简介 当前各种 RPC 中间件技术已经广泛应用于各个领域 其中 服务器之间消息通讯这种功能广泛应用于这些中间件中 于是 将这种面向消息的中间件 Message Oriented Middleware MOM 抽象出来
  • Unity Shader之——UV旋转动画

    Unity中通过Shader实现UV旋转动画 实现一个旋转效果 并且可以控制速度 方法是 以纹理中心为旋转中心 直接上代码如下 Shader Custom Simple Properties Color Color Color 1 1 1
  • How do I develop a service?

    CXF provides you with many options to build services This guide is meant to give you a quick overview of those options a
  • Failed to convert value of type ‘java.lang.String’ to required type ‘java.util.Date’

    springboot项目在接收时间类型的时候 报Failed to convert value of type java lang String to required type java util Date 的错误 这句话的意思是 把字符
  • matplotlib基础作图方法总结

    学习过程中稍微总结一下 有问题的话各位大佬可以指出来 用jupyter作图 代码如下 import numpy as np import matplotlib pyplot as plt 在jupyter中画图时 想要显示图需要 matpl
  • Java中的魔法值和解决方法

    目录 一 什么是魔法值 二 解决方法 一 什么是魔法值 魔法数值 魔法数字 魔法值 这是一个东西 不同的叫法 所谓魔法值 是指在代码中直接出现的数值 只有在这个数值记述的那部分代码中才能明确了解其含义 数字意义必须通过阅读其他代码才能推断出
  • “AI+算力”组合的潜力和机遇

    随着人工智能技术的飞速发展 AI 算力 的结合应用已成为科技行业的热点话题 甚至诞生出 AI 算力 最强龙头 的网络热门等式 这个结合不仅可以提高计算效率 还可以为各行各业带来更强大的数据处理和分析能力 从而推动创新和增长 在我看来 这个时
  • 【深度学习】yolov5 tag7.0 实例分割 从0到1的体会,从模型训练,到量化完成,bug避坑

    这里记录下yolov5 tag7 0的实例分割 因为也用过paddle家族的实例分割 能够训练出来 但是开放restiful api时遇到点小问题 还是yolov爽啊 通过这篇博文 您可以一步步的搭建自己的分割网络 文章目录 前言 一 小试
  • maxwell小白入门

    执行同步binlog数据命令路径 maxwell安装目录下执行启动命令 增量同步命令 bin maxwell config conf meituan 文件目录 具体配置文件名 properties daemon 采集历史数据 bin max