业界难题-“跨库分页”的四种方案

2023-05-16

转载来源:业界难题-“跨库分页”的四种方案


一、需求缘起

分页需求

互联网很多业务都有分页拉取数据的需求,例如:

1)微信消息过多时,拉取第N页消息

2)京东下单过多时,拉取第N页订单

3)浏览58同城,查看第N页帖子

 

这些业务场景对应的消息表,订单表,帖子表分页拉取需求有这样一些特点:

1有一个业务主键id, 例如msg_idorder_idtiezi_id

2)分页排序是按照非业务主键id来排序的,业务中经常按照时间time来排序order by

 

在数据量不大时,可以通过在排序字段time上建立索引,利用SQL提供的offset/limit功能就能满足分页查询需求

select * from t_msg order by time offset 200 limit 100

select * from t_order order by time offset 200 limit 100

select * from t_tiezi order by time offset 200 limit 100

此处假设一页数据为100条,均拉取第3页数据。

 

分库需求

高并发大流量的互联网架构,一般通过服务层来访问数据库,随着数据量的增大,数据库需要进行水平切分,分库后将数据分布到不同的数据库实例(甚至物理机器)上,以达到降低数据量,增加实例数的扩容目的。

 

一旦涉及分库,逃不开“分库依据”patition key的概念,使用哪一个字段来水平切分数据库呢:大部分的业务场景,会使用业务主键id

 

确定了分库依据patition key后,接下来要确定的是分库算法:大部分的业务场景,会使用业务主键id取模的算法来分库,这样即能够保证每个库的数据分布是均匀的,又能够保证每个库的请求分布是均匀的,实在是简单实现负载均衡的好方法,此法在互联网架构中应用颇多。

 

举一个更具体的例子:

用户库user,水平切分后变为两个库,分库依据patition keyuid,分库算法是uid取模:uid%20的数据会落到db0uid%21的数据会落到db1

 

问题的提出

仍然是上述用户库的例子,如果业务要查询“最近注册的第3页用户”,该如何实现呢?单库上,可以

select * from t_user order by time offset 200 limit 100

变成两个库后,分库依据是uid,排序依据是time,数据库层失去了time排序的全局视野,数据分布在两个库上,此时该怎么办呢?

 

如何满足“跨越多个水平切分数据库,且分库依据与排序依据为不同属性,并需要进行分页”的查询需求,实现 select * from T order by time offset X limit Y的跨库分页SQL,是本文将要讨论的技术问题

 

二、全局视野法

如上图所述,服务层通过uid取模将数据分布到两个库上去之后,每个数据库都失去了全局视野,数据按照time局部排序之后,不管哪个分库的第3页数据,都不一定是全局排序的第3页数据。

 

那到底哪些数据才是全局排序的第3页数据呢,暂且分三种情况讨论。

 

1极端情况两个库的数据完全一样

如果两个库的数据完全相同,只需要每个库offset一半,再取半页,就是最终想要的数据(如上图中粉色部分数据)。

 

2极端情况结果数据来自一个库

也可能两个库的数据分布及其不均衡,例如db0的所有数据的time都大于db1的所有数据的time,则可能出现:一个库的第3页数据,就是全局排序后的第3页数据(如上图中粉色部分数据)。

 

3一般情况每个库数据各包含一部分

正常情况下,全局排序的第3页数据,每个库都会包含一部分(如上图中粉色部分数据)。

 

由于不清楚到底是哪种情况,所以必须每个库都返回3页数据,所得到的6页数据在服务层进行内存排序,得到数据全局视野,再取第3页数据,便能够得到想要的全局分页数据。

 

再总结一下这个方案的步骤:

1)将order by time offset X limit Y,改写成order by time offset 0 limit X+Y

2)服务层将改写后的SQL语句发往各个分库:即例子中的各取3页数据

3)假设共分为N个库,服务层将得到N*(X+Y)条数据:即例子中的6页数据

4)服务层对得到的N*(X+Y)条数据进行内存排序,内存排序后再取偏移量X后的Y条记录,就是全局视野所需的一页数据

 

方案优点:通过服务层修改SQL语句,扩大数据召回量,能够得到全局视野,业务无损,精准返回所需数据。

 

方案缺点(显而易见):

1)每个分库需要返回更多的数据,增大了网络传输量(耗网络);

2)除了数据库按照time进行排序,服务层还需要进行二次排序,增大了服务层的计算量(CPU);

3)最致命的,这个算法随着页码的增大,性能会急剧下降,这是因为SQL改写后每个分库要返回X+Y行数据:返回第3页,offset中的X=200;假如要返回第100页,offset中的X=9900,即每个分库要返回100页数据,数据量和排序量都将大增,性能平方级下降。

 

三、业务折衷法

“全局视野法”虽然性能较差,但其业务无损,数据精准,不失为一种方案,有没有性能更优的方案呢?

 

任何脱离业务的架构设计都是耍流氓”,技术方案需要折衷,在技术难度较大的情况下,业务需求的折衷能够极大的简化技术方案

 

业务折衷一:禁止跳页查询

在数据量很大,翻页数很多的时候,很多产品并不提供“直接跳到指定页面”的功能,而只提供“下一页”的功能,这一个小小的业务折衷,就能极大的降低技术方案的复杂度。

如上图,不够跳页,那么第一次只能够查第一页:

1)将查询order by time offset 0 limit 100,改写成order by time where time>0 limit 100

2)上述改写和offset 0 limit 100的效果相同,都是每个分库返回了一页数据(上图中粉色部分);

3)服务层得到2页数据,内存排序,取出前100条数据,作为最终的第一页数据,这个全局的第一页数据,一般来说每个分库都包含一部分数据(如上图粉色部分);

 

咦,这个方案也需要服务器内存排序,岂不是和“全局视野法”一样么?第一页数据的拉取确实一样,但每一次“下一页”拉取的方案就不一样了

 

点击“下一页”时,需要拉取第二页数据,在第一页数据的基础之上,能够找到第一页数据time的最大值:

这个上一页记录的time_max,会作为第二页数据拉取的查询条件

1)将查询order by time offset 100 limit 100,改写成order by time where time>$time_max limit 100

2)这下不是返回2页数据了(“全局视野法,会改写成offset 0 limit 200”),每个分库还是返回一页数据(如上图中粉色部分);

3)服务层得到2页数据,内存排序,取出前100条数据,作为最终的第2页数据,这个全局的第2页数据,一般来说也是每个分库都包含一部分数据(如上图粉色部分);

 

如此往复,查询全局视野第100页数据时,不是将查询条件改写为offset 0 limit 9900+100返回100页数据),而是改写为time>$time_max99 limit 100仍返回一页数据),以保证数据的传输量和排序的数据量不会随着不断翻页而导致性能下降

 

业务折衷二:允许数据精度损失

“全局视野法”能够返回业务无损的精确数据,在查询页数较大,例如第100页时,会有性能问题,此时业务上是否能够接受,返回的100页不是精准的数据,而允许有一些数据偏差呢?

 

数据库分库-数据均衡原理

使用patition key进行分库,在数据量较大,数据分布足够随机的情况下,各分库所有非patition key属性,在各个分库上的数据分布,统计概率情况是一致的

 

例如,在uid随机的情况下,使用uid取模分两库,db0db1

1性别属性,如果db0库上的男性用户占比70%,则db1上男性用户占比也应为70%

2年龄属性,如果db0库上18-28岁少女用户比例占比15%,则db1上少女用户比例也应为15%

3时间属性,如果db0库上每天10:00之前登录的用户占比为20%,则db1上应该是相同的统计规律

 

利用这一原理,要查询全局100页数据,offset 9900 limit 100改写为offset 4950 limit 50,每个分库偏移4950(一半),获取50条数据(半页),得到的数据集的并集,基本能够认为,是全局数据的offset 9900 limit 100的数据,当然,这一页数据的精度,并不是精准的。

 

根据实际业务经验,用户都要查询第100页网页、帖子、邮件的数据了,这一页数据的精准性损失,业务上往往是可以接受的,但此时技术方案的复杂度便大大降低了,既不需要返回更多的数据,也不需要进行服务内存排序了。

 

四、终极武器-二次查询法

有没有一种技术方案,即能够满足业务的精确需要,无需业务折衷,又高性能的方法呢?这就是接下来要介绍的终极武器:“二次查询法”。

 

为了方便举例,假设一页只有5条数据,查询第200页的SQL语句为select * from T order by time offset 1000 limit 5;

 

步骤一:查询改写

select * from T order by time offset 1000 limit 5

改写为select * from T order by time offset 500 limit 5

并投递给所有的分库,注意,这个offset500,来自于全局offset的总偏移量1000,除以水平切分数据库个数2

 

如果是3个分库,则可以改写为select * from T order by time offset 333 limit 5

假设这三个分库返回的数据(time, uid)如下:

可以看到,每个分库都是返回的按照time排序的一页数据。

 

步骤二:找到所返回3页全部数据的最小值

第一个库,5条数据的time最小值是1487501123

第二个库,5条数据的time最小值是1487501133

第三个库,5条数据的time最小值是1487501143

故,三页数据中,time最小值来自第一个库,time_min=1487501123,这个过程只需要比较各个分库第一条数据,时间复杂度很低

 

步骤三:查询二次改写

第一次改写的SQL语句是select * from T order by time offset 333 limit 5

第二次要改写成一个between语句between的起点是time_minbetween的终点是原来每个分库各自返回数据的最大值:

第一个分库,第一次返回数据的最大值是1487501523

所以查询改写为select * from T order by time where time between time_min and 1487501523

 

第二个分库,第一次返回数据的最大值是1487501323

所以查询改写为select * from T order by time where time between time_min and 1487501323

 

第三个分库,第一次返回数据的最大值是1487501553

所以查询改写为select * from T order by time where time between time_min and 1487501553

 

相对第一次查询,第二次查询条件放宽了,故第二次查询会返回比第一次查询结果集更多的数据,假设这三个分库返回的数据(time, uid)如下:

可以看到:

由于time_min来自原来的分库一,所以分库一的返回结果集和第一次查询相同(所以其实这次访问是可以省略的);

分库二的结果集,比第一次多返回了1条数据,头部的1条记录(time最小的记录)是新的(上图中粉色记录);

分库三的结果集,比第一次多返回了2条数据,头部的2条记录(time最小的2条记录)是新的(上图中粉色记录);

 

步骤四:在每个结果集中虚拟一个time_min记录,找到time_min在全局的offset

在第一个库中,time_min在第一个库的offset333

在第二个库中,(1487501133, uid_aa)offset333(根据第一次查询条件得出的),故虚拟time_min在第二个库的offset331

在第三个库中,(1487501143, uid_aaa)offset333(根据第一次查询条件得出的),故虚拟time_min在第三个库的offset330

 

综上,time_min在全局的offset333+331+330=994

 

步骤五:既然得到了time_min在全局的offset,就相当于有了全局视野,根据第二次的结果集,就能够得到全局offset 1000 limit 5的记录

第二次查询在各个分库返回的结果集是有序的,又知道了time_min在全局的offset994,一路排下来,容易知道全局offset 1000 limit 5的一页记录(上图中黄色记录)。

 

是不是非常巧妙?这种方法的优点是:可以精确的返回业务所需数据,每次返回的数据量都非常小,不会随着翻页增加数据的返回量


不足是:需要进行两次数据库查询

 

五、总结

今天介绍了解决N库分页这一难题的四种方法:

 

方法一:全局视野法

1)将order by time offset X limit Y,改写成order by time offset 0 limit X+Y

2)服务层对得到的N*(X+Y)条数据进行内存排序,内存排序后再取偏移量X后的Y条记录

这种方法随着翻页的进行,性能越来越低

 

方法二:业务折衷法-禁止跳页查询

1)用正常的方法取得第一页数据,并得到第一页记录的time_max

2)每次翻页,将order by time offset X limit Y,改写成order by time where time>$time_max limit Y

以保证每次只返回一页数据,性能为常量

 

方法三:业务折衷法-允许模糊数据

1)将order by time offset X limit Y,改写成order by time offset X/N limit Y/N

 

方法四:二次查询法

1)将order by time offset X limit Y,改写成order by time offset X/N limit Y

2)找到最小值time_min

3between二次查询,order by time between $time_min and $time_i_max

4)设置虚拟time_min,找到time_min在各个分库的offset,从而得到time_min在全局的offset

5)得到了time_min在全局的offset,自然得到了全局的offset X limit Y


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

业界难题-“跨库分页”的四种方案 的相关文章

  • 在Ubuntu14.04.5上安装OpenCV2.4.9时遇到的各种问题

    从昨天到今天 首先 xff0c 我是按照这个博客进行安装的 xff0c 虽然他是以 xff2f xff50 xff45 xff4e xff43 xff56 3 0为样板但是安装基本都大同小异 xff0e xff08 博客地址 xff1a h
  • windows 下面 查找一个文件夹下的所有文件。整理版

    第一种方法 xff0c 可以再vc6 0上直接运行 include lt AFX H gt void FindFilesInOneFolder const std string folder in vector lt string gt a
  • 如何让Qtableview背景透明

    第一种 xff1a 直接编辑样式表 xff1a 第二种 xff1a 在代码中设置 xff1a ui tableView gt setStyleSheet 34 background color transparent 34
  • vs运行,f10失效

    在 Visual Studio 中 xff0c 按 F10 快捷键是用于单步执行代码的调试命令 如果该快捷键失效了 xff0c 可以尝试以下方法进行排除问题 xff1a 确保当前处于调试模式 xff1a 在 Visual Studio 的菜
  • 嵌入式linux应用开发入门纲要

    目录 C语言基础C 43 43 拓展linux基本操作io操作数据结构进程线程网络编程sqlite数据库实战项目 C语言基础 基本数据类型 条件语句 循环语句 函数 算术运算 逻辑运算 指针 结构体 联合体 枚举 malloc C 43 4
  • 全能扫地机器人的想法

    他要会自己充电 最好 xff0c 他是可以太阳能充电 xff0c 没电了 xff0c 他自己去晒太阳 他要自己规划路线 他最好我不在家的时候工作 他得会自己打包好垃圾 他要会拖地 我可以语音控制他 我叫他的时候 xff0c 他可以报告自身的
  • qt根据组件名字找到组件

    比方说知道一个在tw下QPushButton的ObjectNam为 34 ok 34 xff0c 那么它的组件指针就是 xff1a auto btn 61 ui gt tw gt findChild lt QPushButton gt 34
  • linux下zip加密压缩和解压

    对于目录a的无密码压缩 xff1a zip r aa zip aa 对于目录a的无密码j解压 xff1a unzip aa zip 对于目录a的加密压缩 xff0c 密码为123456 xff1a zip rP 123456 a zip a
  • SESSION 的数据保存在哪里呢?

    SESSION 的数据保存在哪里呢 xff1f 当然是在服务器端 xff0c 但不是保存在内存中 xff0c 而是保存在文件或数据库中 默认情况下 xff0c php ini 中设置的 SESSION 保存方式是 files xff08 s
  • 在ubuntu20.04安装vscode

    在PC上安装 照以下步骤在Ubuntu 20 04上安装VS Code xff1a 打开终端 添加Microsoft的软件包存储库到APT包管理器中 xff0c 输入以下命令 xff1a curl https packages micros
  • 有两个以上的USB设备,他们的Vendor ID和Product ID都一样,如何指定对应的usb插口和/dev/ttyUSB的序号?

    如果有两个以上的USB设备 xff0c 他们的Vendor ID和Product ID都一样 xff0c 那么无法通过Vendor ID和Product ID来区分它们 需要采取其他方式来指定对应的USB插口和 dev ttyUSB的序号
  • Could not find a configuration file for package “OpenCV“ that is compatible with requested version “

    错误详情 xff1a Could not find a configuration file for package 34 OpenCV 34 that is compatible with requested version 34 3 0
  • 在ubuntu安装c++版本的absl库

    对于 C 43 43 xff0c 您可以通过以下步骤安装 absl xff1a 1 安装必要的依赖项 xff1a sudo apt get install cmake g 43 43 git 2 克隆 absl 代码库 xff1a git
  • 一个带有信号量的列表,有什么作用

    一个带有信号量的列表可以用于在多线程环境下实现线程间的同步和通信 具体来说 xff0c 它可以实现以下功能 xff1a 1 限制列表的大小 xff1a 通过设置列表的最大容量 xff0c 可以限制列表中元素的数量 xff0c 避免列表过大导
  • TR069是什么鬼

    一 xff0c TR069是什么 1 xff0c 概念 搞嵌入式或通信设备的 xff0c 或多或少都会听说TR069 那他是什么鬼 xff1f TR069 xff0c 就是CPE广域网管理协议 它用于ACS和CPE之间的自动协商交互 xff
  • 为 Konsole 单独设置暗色主题

    在 KDE 中设置亮色主题后 xff0c konsole 主体的黑色的 xff0c 但是菜单栏是白色的 对于终端 xff0c 我更偏向于使用暗色主题 xff0c 有以下思路 xff1a KWin Rule修改 konsole 配置文件命令行
  • 2019年年终总结(流水账)

    2019年年终总结 流水账 前言 马上就要是2020年了 xff0c 我此时敲下我的第一篇年终总结 马上就要过去的2019年对于我来说是平凡但却不平淡的一年 xff0c 这一年里我经历了很多 xff0c 虽然这些在别人眼中可能是微不足道的
  • 融资租赁与经营租赁的区别

    我现在手上项目的客户是一家销售公司 xff0c 他们有把自己的商品租赁给别的公司经营的业务 于是就有了上面的融资租赁与经营租赁 xff0c 这两种方式在财务上对资产的处理是不一样的 下面我们来看看这个场景 xff1a A公司把资产租给B公司
  • 【Linux系统编程(十四)】生产者和消费者问题

    文章目录 生产者和消费者1 代码示例 生产者和消费者 生产者消费者问题 xff08 英语 xff1a Producer consumer problem xff09 xff0c 也称有限缓冲问题 xff08 英语 xff1a Bounded
  • Linux下做SSH服务(远程登录)配置

    准备工作 1 检查是否安装ssh rpm q OpenSSH server 一般自带 xff0c 不用安装 2 安装ssh服务 xff1a yum list installed grep openssh server 服务器端配置 1 cd

随机推荐

  • Openlayer 计算多个feature的外接矩形,并且缩放到合适的视角显示

    开发gis系统的时候需要点击一个工程然后打开openlayers地图并且将该工程的线条缩放到合适的区域 xff0c 对这个问题的解决方案 xff1a 1 旋转卡壳法求点集的最小覆盖矩形面积以及周长 https www cnblogs com
  • 程序员改变世界,从未如此直观

    万万没想到 xff0c 包博士的代码让一个六岁的小学生哇哇大哭 这个让小学生流眼泪的 科学家代表 有非常漂亮的履历 xff1a 清华大学毕业 博士曾在斯坦福就读 xff0c 他现在是VIPKID的首席AI科学家 xff0c 带领四十多人的产
  • PX4飞控之PWM输出控制

    PX4飞控之PWM输出控制 多旋翼电调如好盈XRotor xff0c DJI通用电调等都支持PWM信号来传输控制信号 常用的400Hz电调信号对应周期2500us xff0c 一般使用高电平时间1000us 2000us为有效信号区间 xf
  • 关于Vue3使用axios的配置教程详解

    一 安装axios 1 npm install axios save 二 配置axios xff0c 添加拦截器 在src目录下新建一个request文件夹 xff0c 在里面新建index ts xff08 或者 js xff09 文件
  • Keyguard上滑解锁流程解析

    2 上滑触摸事件 2 1 Touch down事件 2 2 Touch move事件 2 3 Touch up事件 用户抬起手指 xff0c 产生touch up事件 xff0c PanelView接收到这个事件后会调用endMotionE
  • 为什么同样的方法,你做的品牌火不起来?别人却能脱颖而出?

    要想让品牌快速走红 xff0c 必须做好品牌运营 同样进入红海市场 xff0c 江小白 喜茶 丧茶靠品牌运营 xff0c 快速占据一席之地 同样是知名品牌 xff0c 杜蕾斯靠品牌运营 xff0c 牢牢占据用户心智第一位 xff0c 同类目
  • 约瑟夫环

    7 10 约瑟夫环 xff08 25 分 xff09 N个人围成一圈顺序编号 xff0c 从1号开始按1 2 3 顺序报数 xff0c 报p者退出圈外 xff0c 其余的人再从1 2 3开始报数 xff0c 报p的人再退出圈外 xff0c
  • Can‘t open /dev/sdb1 exclusively. Mounted filesystem? --redhat7.8

    今天在创建pv的时候报了上面那个错误 xff1a root 64 db01 root pvcreate dev sdb1 Can 39 t open dev sdb1 exclusively Mounted filesystem Can 3
  • windows11终端设置字体

    在进行NeoVim编辑器配置时 xff0c 使用lualine和nvim tree的图标无法显示 xff0c 发现原因是因为没有使用Nerd Font字体 xff0c 安装完成后 xff0c 却一直没办法应用在powershell中 找到一
  • ideal 左侧project不显示external libraries

    今天想调试代码时 突然发现 ideal 左侧project不显示external libraries 花了点时间才重新搞定记录一下解决 电脑系统 xff1a MacOS 找到 Library Preferences IntelliJIdea
  • 轻量级线程组件-Quasar

    官网 xff1a http www paralleluniverse co 占用JVM内存小
  • java 对象内存大小统计工具

    1 用于统计Java对象内存大小的jar包 xff1a jol lt Java内测布局查看包 gt lt dependency gt lt groupId gt org openjdk jol lt groupId gt lt artifa
  • python编码处理:unicode字节串转成中文 各种字符串举例说明

    编码问题一直是很头痛的问题 xff1a 当字符串是 xff1a 39 u4e2d u56fd 39 gt gt gt s 61 39 u4e2d u56fd 39 39 u6e05 u534e u5927 u5b66 39 gt gt gt
  • Sql 中 不等于'<>'与 NULL

    在写SQL 条件语句是经常用到 不等于 lt gt 的筛选条件 xff0c 此时要注意此条件会将字段为null的数据也当做满足不等于的条件而将数据筛选掉 例 xff1a 表A A1 B110213NULL 用 select from A w
  • FilterConfig.RegisterGlobalFilters 全局过滤器的用法

    以前不是很清楚 xff0c 记录学习下 xff1a Asp Net MVC4中的全局过滤器 xff0c 可以对整个项目进行全局监控 新建一个MVC4项目 xff0c 可以在global asax文件中看到如下代码 xff1a FilterC
  • js 及jq 点击别的标签触发 a 标签点击事件

    今天写代码时 xff0c 遇到要通过点击别的按钮触发 a 标签的点击事件问题 xff0c 花了点时间才解决 xff0c 记录一下 用js 实现 xff1a 只需在触发事件中直接加入下列代码即可 xff0c 其中ID即为a 标签的ID doc
  • maven编译报错 -source 1.5 中不支持 lambda 表达式

    在用maven编译项目是由于项目中用了jdk 1 8 编译是报错 source 1 5 中不支持 lambda 表达式 xff0c Google找到这篇解决方案 xff0c 记录一下 xff1a 编译时报如下错误 xff1a span cl
  • java jetty 启动设置根路径

    在java学习过程中 xff0c 使用jetty来启动web应用来测试程序 xff0c 默认启动时的访问路径为 xff1a http localhost 8080 项目名 文件路径 xff0c 现需要将访问路径设置为 xff1a http
  • maven reimport 失效

    在用maven构建项目时发现 xff0c 添加新的 dependency 时maven reimport 总是不能将包引入 xff0c 编译时发现报 xff1a cannot access in offline mode 的错 xff0c
  • 业界难题-“跨库分页”的四种方案

    转载来源 xff1a 业界难题 跨库分页 的四种方案 一 需求缘起 分页需求 互联网很多业务都有分页拉取数据 的需求 xff0c 例如 xff1a xff08 1 xff09 微信消息过多时 xff0c 拉取第 N页消息 xff08 2 x