diff 2个大型数据库表

2023-12-22

给定 2 个大表(想象一下数亿行),每个表都有一个字符串列,如何获得差异?


查看开源 Percona 工具包——具体来说,pt 表同步 http://www.percona.com/doc/percona-toolkit/pt-table-sync.html公用事业。

其主要目的是将 MySQL 表与其副本同步,但由于其输出是协调两个表之间差异所需的 MySQL 命令集,因此很适合比较两个表。

它实际上在幕后所做的事情有点复杂,并且它实际上使用不同的方法,具体取决于它可以告诉您的表(索引等)的信息,但基本思想之一是它可以快速进行 CRC32 校验和在索引块上,如果校验和不匹配,它会更仔细地检查这些记录。注意这个方法是much比线性遍历两个索引并比较它们更快。

但它只能帮助你完成一部分任务。由于生成的命令旨在将副本与其主服务器同步,因此它们只是替换所有不同记录的副本的当前内容。换句话说,生成的命令修改all记录中的字段(不仅仅是已更改的字段)。所以一旦你使用pt-table-sync要查找差异,您需要将结果包装在某些内容中,以便通过比较记录中的每个字段来检查不同的记录。

But pt-table-sync做你已经知道的困难部分:检测差异,really快速地。它是用 Perl 编写的;来源应该提供良好的面包屑。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

diff 2个大型数据库表 的相关文章

  • 基于列顺序的查询速度

    数据库中列类型的顺序对查询时间有影响吗 例如 具有混合排序 INT TEXT VARCHAR INT TEXT 的表的查询速度是否会比具有连续类型 INT INT VARCHAR TEXT TEXT 的表慢 答案是肯定的 这确实很重要 而且
  • MySQL:你能指定一个随机限制吗?

    有没有办法在 SQL MySQL 中随机化限制数字 我希望能够做的是在查询中获取随机数量的结果以在插入子查询中使用 而无需任何服务器端脚本 我希望能够作为假设说明运行的查询是 SELECT id FROM users ORDER BY RA
  • 为 Mariadb 安装连接器 C

    所以 我想使用 Mariadb 有一个连接器 C https downloads mariadb org connector c https downloads mariadb org connector c 我该如何安装它 坦白说 它的文
  • 在同一个表上组合两个 SQL SELECT 语句

    我想结合这两个 SQL 查询 SELECT FROM Contracts WHERE productType RINsell AND clearTime IS NULL AND holdTime IS NOT NULL ORDER BY g
  • PHP 5 的 SQLite 编译设置是什么?

    SQLite 3 7 附带了新的预写日志记录 WAL http www sqlite org wal html并且有很多设置可以被配置 http www sqlite org compile html 但是 似乎没有任何方法可以改变任何事情
  • Spark SQL/Hive 查询通过 Join 永远持续下去

    所以我正在做一些应该很简单的事情 但显然它不在 Spark SQL 中 如果我在 MySQL 中运行以下查询 查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
  • 在 MySQL 中分割逗号分隔值

    我正在尝试将字符串中以逗号分隔的 值拆分为多列 样本数据 COL1 COL2 COL3 000002 000003 000042 09 31 51 007 004 007 预期输出 Pno Cno Sno 000002 09 007 000
  • 物理写入文件已满 - mysql 错误

    我正在使用xampp 每次启动mysql时 我都会在xampp中收到以下错误 Error MySQL shutdown unexpectedly 13 16 14 mysql This may be due to a blocked por
  • SQL 大表中的随机行(使用 where 子句)

    我有一个网站 人们可以在其中对汽车进行投票 向用户展示 4 辆汽车 他 她可以投票选出他们最喜欢的汽车 桌子cars有重要的列 car id int 10 not auto increment so has gaps views int 7
  • 数据库字段的标准长度列表

    我正在设计一个数据库表并问自己这个问题 名字字段应该有多长 有人有最常见字段 例如名字 姓氏和电子邮件地址 的合理长度列表吗 我刚刚查询了我的数据库 其中包含美国数百万客户 最大值名长度是 46 我选择 50 当然 其中只有 500 个超过
  • PMA 4.5.2.0 file_exists():open_basedir 限制生效

    从 PPA 在我的 Ubuntu 服务器上安装 phpMyAdmin 后 https launchpad net nijel archive ubuntu phpmyadmin https launchpad net nijel archi
  • 如何在我的 iOS 项目中添加和执行 .sql 文件?

    我找到了很多关于在 iOS 中使用 SQLite 数据库的教程 但没有找到任何直接引用 sql 文件的内容 谁能告诉我如何将现有的 SQL 数据库链接到我的应用程序 编辑 这是一个 MySQL 转储 我们有一个基于浏览器的抽认卡程序 现在我
  • 删除大量记录需要很长时间

    我有一个包含约 60 000 行的数据库表 在 SQL Server 2012 Express 上运行 我使用以下代码来清除旧行 Deleting CPU measurements older than oldestAllowedTime
  • Laravel Sum 列数据库 Eloquent

    尝试获取我的一个表中 int 字段的总和应该非常容易 不幸的是 事实并非如此 因为无论我使用 Laravel MySQL 还是 Excel 我都会得到不同的结果 Laravel 5 4 给了我20506 Table sum field na
  • 如何在 join 语句中进行计数

    我有桌子post int post id varchar title text content和表comment int comment id int post id varchar content其中 post id 是外键引用表帖子 如
  • 数据表 - 服务器端处理 - 数据库列合并

    我目前正在使用 DataTables 1 10 5 服务器端处理功能 http www datatables net examples data sources server side html http www datatables ne
  • 我可以在一个查询中更新/选择表吗?

    我需要在查看页面时选择数据并更新 视图 列 有没有一种方法可以在一个查询中执行此操作 或者我是否必须使用不同的查询 如果您不想 不需要使用事务 则可以创建一个存储过程 该过程首先更新视图计数 然后选择值并将其返回给用户
  • 在 PHP 中将十进制/双精度/浮点值与 PDO 绑定的最佳方法是什么?

    看来类常量只涵盖PDO PARAM BOOL PDO PARAM INT and PDO PARAM STR用于绑定 您只是将十进制 浮点 双精度值绑定为字符串还是有更好的方法来处理它们 MySQLi 允许使用 d 类型表示 double
  • 如何使用 PHP 从 MySQL 检索特定值?

    好吧 我已经厌倦了 过去一周我花了大部分空闲时间试图解决这个问题 我知道 SQL 中的查询已更改 但我无法弄清楚 我能找到的所有其他帖子似乎都已经过时了 如果有人能帮助我 我将非常感激 我想做的就是使用手动输入数据库的唯一 密码 来检索行的
  • 期望最大化算法的数值示例[重复]

    这个问题在这里已经有答案了 由于我不确定给出的公式 有人可以提供 EM 算法的简单数字示例吗 一个非常简单的具有 4 或 5 个笛卡尔坐标的坐标就可以了 那这个呢 http en wikibooks org wiki Data Mining

随机推荐

  • Django模型latest()方法

    我遇到以下问题 顺便说一句 我想我前一天没有遇到过这个问题 gt gt gt rule Rule objects get user user gt gt gt rule id 1 gt gt gt rule Rule objects get
  • 是否可以运行编码的 UI 测试而无需通过远程桌面连接?

    我正在尝试自动化编码的 UI 测试 我的测试控制器在远程测试服务器上启动测试 我通常通过远程桌面连接访问该服务器 是否可以运行编码的 UI 测试而无需通过远程桌面连接 目前 测试仅在我通过远程桌面连接时运行 并且窗口必须打开 当我关闭远程桌
  • 使用 WIF 在 Asp.Net 4.5 上进行自定义身份验证

    我有一个使用声明使用 Azure ACS 和 net 4 5 设置的应用程序 我的应用程序也使用 dropbox 我想知道是否可以让用户仅通过 Dropbox 来识别自己 当用户使用 dropbox 和唯一 ID 登录时 我会从 dropb
  • 对 HTML 文档进行标记

    我有一个 HTML 文档 我想使用 spaCy 对其进行标记 同时将 HTML 标记保留为单个标记 这是我的代码 import spacy from spacy symbols import ORTH nlp spacy load en v
  • NSwag 多文档端点

    是否可以像 swashbuckle 那样拥有多个文档端点 options SwaggerEndpoint swagger v1 swagger json API v1 options SwaggerEndpoint swagger v2 s
  • Azure CosmosDB - 复杂结构的部分文档更新(补丁)

    我正在尝试使用部分文档更新 补丁 API 来更新文档中的子对象 但遇到了麻烦 我发现这个堆栈溢出问题 https stackoverflow com questions 70097021 cosmos db patch child obje
  • 最大递归深度是多少?如何增加它?

    我这里有这个尾递归函数 def recursive function n sum if n lt 1 return sum else return recursive function n 1 sum n c 998 print recur
  • 如何使用 Swift 打印 Data 类型变量的内容? [复制]

    这个问题在这里已经有答案了 我想做的就是获取一个字符串并获取其十六进制值 我一直在关注这个post https stackoverflow com questions 37720475 how to convert a text strin
  • 使用 java.awt.Robot 测试键盘输入

    我有一个使用 java awt Robot 来练习自定义 Swing 组件的测试 我想在我们的构建服务器中运行测试 但构建服务器在锁定的 Windows 计算机上运行 并且 Robot keyPress char 无法在屏幕锁定的情况下工作
  • Yii2:从gridView复选框列获取选定行数据到控制器中

    我已查看页面 index php 在我的 Yii2 项目中 我正在使用Kartik网格视图用于显示数据 这是来自index php的视图 在视图的右侧 我有一个复选框列 我有一个Export按钮 我想将选定的名称 通过复选框选择 导出到na
  • jaxws:客户端地址属性无法解析占位符

    现在遇到最奇怪的问题 有一个 Spring XML 文件 其中 jaxws client 的地址属性使用地址属性的属性占位符 但它拒绝解析地址属性 这是日志文件错误 Caused by java net MalformedURLExcept
  • Helm Charts 在不同的命名空间中创建秘密

    我有以下内容secrets yaml in templetes在 Helm 图表中 apiVersion v1 kind Secret metadata name mysecret type Opaque data USER NAME YW
  • 在 iOS 中的 Storyboard 中使用模糊背景

    我在 iOS 8 上使用 Swift 我正在向 UiViewController 添加一个 子 视图 这个子视图应该包含一些 UiLabel 其中包含一些信息 我希望子视图有一个模糊的背景 就像iOS的通知中心一样 我知道使用 UIEffe
  • 在XBee ZigBee中,如何从协调器获取所有终端设备的RSSI

    获取每个终端设备的 RSSI 的正确方法是什么 场景 在 XBee 系列 2 无线电模块上使用 ZigBee 固件 API 模式 我有一个协调器和多个终端设备 每隔几秒钟 每个终端设备都会向协调器发送一个数据包 其中包含传感器信息 例如温度
  • Android 中主机卡模拟的编辑功能

    我目前正在为我的大学课程开发一个项目 其中我希望编辑 Android 的 HCE 功能的功能 以允许我在模拟卡时设置自己的 UID 现在 我已经下载了 AOSP 源代码 并构建了一个无需编辑代码的自定义映像 并将其安装到我的 Nexus 7
  • 抑制 python 警告

    当我在 for 循环中迭代时 我不断收到相同的警告 我想抑制该警告 警告内容如下 C Users Nick Alexander AppData Local Programs Python Python37 lib site packages
  • 如何摆脱 InvalidClassException SerialVersionUID?

    我在数据库中保存了一个 java 对象 几天后我更改了我的 jre 版本 现在 当我尝试读取同一个对象时 我收到以下异常 Exception in thread main java io InvalidClassException Seri
  • Dapper 示例代码的说明

    我正在尝试理解 Dapper 似乎缺少一些非常基本的东西 有人可以解释一下从 Google 代码上的 Dapper 主页获取的以下代码 并解释为什么没有 From 子句 以及 Query 方法的第二个参数 动态 传递了一个匿名类型 我认为这
  • 使用已知函数 numpy 进行曲线拟合

    我有一个 x 和 y 一维 numpy 数组 我想用已知函数重现 y 以获得 beta 这是我正在使用的代码 import numpy as np import matplotlib pyplot as plt from scipy opt
  • diff 2个大型数据库表

    给定 2 个大表 想象一下数亿行 每个表都有一个字符串列 如何获得差异 查看开源 Percona 工具包 具体来说 pt 表同步 http www percona com doc percona toolkit pt table sync