我们如何处理快速增长得非常大的交集表？

2024-01-29

例如，我们有表A和表B，它们之间存在多对多关系。表 C 是一个交集表，存储 A.id 和 B.id 以及表示两者之间关系的值。或者作为一个具体的例子，想象一下 stackexchange 有一个用户帐户、一个论坛和一个业力分数。或者，一个学生、一门课程和一个成绩。如果表 A 和 B 非常大，那么表 C 可能而且可能会很快变得非常大（事实上，我们假设它确实如此）。我们该如何处理这样的问题呢？有没有更好的方法来设计表格来避免这种情况？

没有魔法。如果某些行已连接而某些行未连接，则必须表示此信息somehow，而“关系”方式是“连接”（又名“链接”）表。是的，连接表可能会变得很大，但幸运的是，数据库非常有能力处理大量数据。

使用联结表与逗号分隔列表（或类似列表）相比有充分的理由，包括：

高效查询（通过索引和集群）。
强制引用完整性。

设计连接表时，请提出以下问题：

Do I need to query in only one direction or both?¹
- If 一个方向，只需在两个外键上创建一个复合主键（我们称它们为 PARENT_ID 和 CHILD_ID）。顺序很重要：如果从父级到子级查询，PK 应该是：{PARENT_ID, CHILD_ID}。
- If 两个方向，还以相反的顺序创建一个复合索引，在本例中为 {CHILD_ID, PARENT_ID}。
Is the "extra" data small?
- If yes, cluster http://use-the-index-luke.com/sql/clustering/index-organized-clustered-index the table and cover http://use-the-index-luke.com/sql/glossary/covering-index the extra data in the secondary index as necessary.²
- I no, don't cluster the table and don't cover the extra data in the secondary index.³
Are there any additional tables for which the junction table acts as a parent?
- If yes，考虑添加代理键是否值得让子 FK 保持苗条。但请注意，如果添加代理键，这可能会消除聚类的机会。

在许多情况下，这些问题的答案是：两者，是和否，在这种情况下，您的表将类似于此（Oracle 语法如下）：

CREATE TABLE JUNCTION_TABLE (
    PARENT_ID INT,
    CHILD_ID INT,
    EXTRA_DATA VARCHAR2(50),
    PRIMARY KEY (PARENT_ID, CHILD_ID),
    FOREIGN KEY (PARENT_ID) REFERENCES PARENT_TABLE (PARENT_ID),
    FOREIGN KEY (CHILD_ID) REFERENCES CHILD_TABLE (CHILD_ID)
) ORGANIZATION INDEX COMPRESS;

CREATE UNIQUE INDEX JUNCTION_TABLE_IE1 ON
    JUNCTION_TABLE (CHILD_ID, PARENT_ID, EXTRA_DATA) COMPRESS;

注意事项：

ORGANIZATION INDEX：大多数 DBMS 称之为集群的 Oracle 特定语法。其他 DBMS 有自己的语法，有些（MySQL/InnoDB）暗示集群，用户无法将其关闭。
COMPRESS：一些 DBMS 支持领先的索引压缩 http://richardfoote.wordpress.com/2008/02/17/index-compression-part-i-low/。由于聚集表本质上是一个索引，因此也可以对其应用压缩。
JUNCTION_TABLE_IE1, EXTRA_DATA：由于二级索引覆盖了额外的数据，因此DBMS在从子级到父级的方向查询时，无需触表即可获取。主键充当集群键，因此从父级到子级查询时，额外的数据自然会被覆盖。

从物理上讲，您只有两棵 B 树（一棵是聚集表，另一棵是二级索引），根本没有表堆。这意味着良好的查询性能（通过简单的索引范围扫描即可满足父到子和子到父方向）以及插入/删除行时相当小的开销。

以下是等效的 MS SQL Server 语法（无索引压缩）：

CREATE TABLE JUNCTION_TABLE (
    PARENT_ID INT,
    CHILD_ID INT,
    EXTRA_DATA VARCHAR(50),
    PRIMARY KEY (PARENT_ID, CHILD_ID),
    FOREIGN KEY (PARENT_ID) REFERENCES PARENT_TABLE (PARENT_ID),
    FOREIGN KEY (CHILD_ID) REFERENCES CHILD_TABLE (CHILD_ID)
);

CREATE UNIQUE INDEX JUNCTION_TABLE_IE1 ON
    JUNCTION_TABLE (CHILD_ID, PARENT_ID) INCLUDE (EXTRA_DATA);

请注意，MS SQL Server 自动对表进行集群，除非 PRIMARY KEY非聚集已指定。

¹ In other words, do you only need to get "children" of given "parent", or you might also need to get parents of given child.

² Covering allows the query to be satisfied from the index alone, and avoids expensive double-lookup that would otherwise be necessary when accessing data through a secondary index in the clustered table.

³ This way, the extra data is not repeated (which would be expensive, since it's big), yet you avoid the double-lookup and replace it with (cheaper) table heap access. But, beware of clustering factor http://oracle-online-help.blogspot.com/2006/11/clustering-factor_28.html that can destroy the performance of range scans in heap-based tables!

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

database

databasedesign

我们如何处理快速增长得非常大的交集表？的相关文章

触发器与非规范化存储过程的优缺点

当涉及到对事务数据库中的数据进行非规范化以提高性能时至少有三种不同的方法通过存储过程推送更新更新规范化交易数据和非规范化报告分析数据在事务表上实现更新辅助表的触发器这几乎总是维护历史时所采取的路线将处理推迟到夜间批处理可能
客户端应用程序立即对数据库中的更新做出反应的最佳方式是什么？

对数据库中的数据更新做出立即反应的最佳方法是什么我能立即想到的最简单的方法是一个线程它检查数据库中某些数据的特定更改并持续等待在某个预定义的时间长度内再次检查它这个解决方案对我来说似乎是浪费和次优的所以我想知道是否有更好的方法我
数据加密

存储大量信用卡信息的数据库是我们刚刚完成的系统中不可避免的一部分不过我想要的是卡号的最终安全性我们可以设置一种加密和解密机制但我们自己无法解密任何给定的号码我所追求的是一种即使在数据库级别也能保护这些信息的方法这样任何人都无法进
MongoDB 支持浮点类型吗？

我正在将 mysql 数据库迁移到 mongodb 但我读过 MongoDb 数据类型然后没有引用浮点类型如 float double decimal 我如何在 mysql 模式中拥有一些带有十进制类型的字段我该怎么做或我能做什么 M
数据库中的 HTML 标签是不好的做法还是好的做法？

有时我需要格式化来自数据库的特定数据或部分数据例如如果我有这样的 desc 存储在数据库中 HTML 4 经过调整延伸和增强超出了其最初的范围为网站带来了高水平的交互性和多媒体 Flash Silverlight 和 Java 等
using 块会关闭数据库连接吗？

using DbConnection conn new DbConnection do stuff with database 会不会using块调用conn Close 是的它会实施DbConnection Dispose calls
where 子句中的双 %% ？

我有一个 where 子句如下例所示 WHERE subject LIKE chef AND dep LIKE psy 使用 1 或 2 符号有什么区别我知道其中一个的含义通配符但不知道第二个添加的功能是什么该查询可能是一个拼写错
如何删除MySQL中的所有事件

如果我想删除某个事件我需要查询类似的内容 DROP EVENT IF EXISTS eventname 但我找不到一次性删除所有事件的命令必须一项一项地删除有没有一次性删除所有事件的SQL DROP EVENT IF EXISTS S
考虑到我的图像链接存储在MySQL数据库中，如何通过php显示存储在文件夹中的图像

作为良好的做法我只将图像链接存储在数据库中问题是我应该如何存储图像的链接假设它在 c 上 c image jpg 我应该使用哪段 PHP 代码来显示该图像我只显示路径我该怎么做才能显示图像我可以用这个吗 query SELEC
Mysql UUID_SHORT() 与 UUID() 相当吗

如果您愿意的话请快速提出问题或意见我需要为数据库表生成一些 UUID 自动递增密钥不会减少它因为我还需要密钥在数据库和系统中保持唯一 UUID 工作正常但其输出对于行将导出到的某些系统来说太长 UUID SHORT 做得很好我已经
在静态类中存储连接 (ASP.NET)

由于我使用的是 Postgresql 并且无法使用 LINQ to SQL 因此我编写了自己的包装器类这是学生课程的一部分 public class Student User private static NpgsqlConnection
更改列名称 Rails

我有这张表 class CreateShoes lt ActiveRecord Migration def change create table shoes do t t string name t boolean leather t i
BIT(1) 的存储大小是多少？

我一直认为a的存储大小BIT 1 列为 1 位 But http dev mysql com doc refman 5 6 en storage requirements html http dev mysql com doc refman
为什么Aries在数据库管理恢复中要先执行redo before undo？

如果 Aries 算法已经知道在分析阶段之后要撤消哪些事务为什么它会在撤消之前应用重做我知道认为这与 Lsn 数字和维护一致性有关因为在磁盘上刷新的数据撤消事务可能与崩溃时撤消事务不同由于脏数据页但我找不到这个问题的任何正
不使用 Django 的 Python 数据库（适用于 Heroku）

令我惊讶的是我没有发现其他地方提出过这个问题简而言之我正在编写一个应用程序计划部署到云可能使用 Heroku 它将执行各种网络抓取和数据收集它将位于云中的原因是我可以将其设置为每天自行运行并将数据提取到数据库而无需我的计算
分配给 SQLite 内存数据库的内存大小

如果使用下面的语法创建一个内存中的sqlite数据库那么分配给它的最大内存大小是多少 my dbh DBI gt connect dbi SQLite dbname memory 如果内存数据库的大小大于最大可用内存将会发生什么情况假
列太多的表的缺点

我有一些数据需要放入 PostgreSQL 数据库中这些数据与学校有关所以有很多与学校相关的属性大部分是小整数浮点数或小文本所有数据每年都会发生变化所以我正在创建一个名为的实体YearlyData并将属性放在那里但问题是属性
确定自上次访问 SQL Server 以来的行更改

我们有一个多用户系统用户将数据保存到中央 SQL Server 2005 数据库中我们遇到了一个问题即一个用户刷新数据库中的更改而另一个用户保存新数据我们当前收集更改的方式是每个表上都有一个时间戳列该列在每行插入更新时都会填充
在没有数据库的情况下运行 WordPress

我一直在寻找一种将 WordPress 配置为仅使用文件系统数据库运行的方法有点像 Java 中或内存中的 H2 任何人仅用于演示目的不可能 Wordpress 的要求之一是 MySQL http wordpress org abou
如何获取sql server 2005中数据库连接的详细列表？

如何获取sql server 2005中数据库连接的详细列表使用系统存储过程sp who2

随机推荐

每个帖子有多个例外，并带有摘录类别

我正在寻找一种解决方案允许自定义帖子类型中的每个帖子有多个摘录框并且有一种方法可以让这些摘录具有类别我知道我可以添加元框来提供额外的文本区域并显示该文本但我不太确定这就是我想要的澄清一下我有一个自定义的推荐帖子类型该帖子类型具
是否可以使用 MediaRecorder() 获取音频数据的原始值

我使用 MediaRecorder 和 getUserMedia 来记录浏览器中的音频数据它可以工作但是记录的数据是以 Blob 格式记录的我想获取原始音频数据振幅而不是 Blob 有可能做到吗我的代码如下所示 navigato
如何从类方法中调用全局函数

我有以下代码 def static func name print Name name class A def init self name self name name def fun self static func self name
GWT MVP - 维护多个彼此独立的显示

我有一个 GWT 应用程序并且正在将 GWT MVP 与地点活动一起使用我的应用程序布局是这样的菜单内容菜单和内容显示将动态变化并且其中一个变化独立于另一个我的意思是当内容显示发生变化时我不想更新菜单显示反之亦然两个
typeof(DateTime?).Name == Nullable`1

在 Net 中使用反射typeof DateTime Name返回可空 1 有什么方法可以将实际类型作为字符串返回在本例中为 DateTime 或 System DateTime 我明白那个DateTime is Nullable
如何在 iOS 中向 PHP 发送 GEt 请求

您好我在向 PHP 发送 GET 请求时遇到问题相同的 PHP 在 Web 浏览器中运行时工作正常这是 PHP 和 Obj C 的代码片段 PHP var1 GET value1 var2 GET value2 当我在浏览器中调用它时
Android 项目的 tab+swipe 应用程序中不同选项卡的不同菜单

我是 android 应用程序和 java 的初学者基本上我是 PHP 开发人员我有一个选项卡滑动应用程序的项目经销商 java 在 res menu 文件夹中为 menu a xml 和 menu b xml 创建菜单 xml 文
CoreData - 将实体的属性设置为不为空 - 属性应该设置为可选还是强制

我需要将 Coredata 实体中的一个属性设置为非空并具有默认值我已在 xcdatamodeld 架构定义中为实体的属性设置了默认值我的问题是该属性是否应该标记为可选如果我不检查属性的以下三个属性 Transient Optiona
如何在sql server中选择彼此相隔一小时的记录

我有一组带有时间戳的 user id 登录数据用户可以多次登录但我们需要从最短记录开始返回至少相隔一小时的记录重复数据删除必须在用户级别进行可以有多个用户 for eg 用户1 2012 03 07 14 24 30 000 用户1
使用javascript获取外部url的文档

我有一个 html 表单它接受 url 作为 txt 输入和提交按钮当我单击按钮时我想访问提供的 url 的文档模型我如何使用 javascript 访问该 url 的文档如果您向该 url 发出 HTTP GET 请求您将收到
std::initializer_list 作为构造函数的模板参数

考虑一个从 std 容器继承的类其模板构造函数调用容器的底层构造函数此模板构造函数适用于简单的复制和移动构造函数但不适用于initializer list 构造函数 template
DT：根据 R 闪亮应用程序中另一列的选择输入动态更改列值

我正在尝试创建一个表使用 DT 请不要使用 rhandsontable 该表几乎没有现有列一个 selectinput 列其中每行都有可供选择的选项最后是另一列该列将根据用户选择的内容进行填充从每行的 selectinput 下拉
为什么 Internet Explorer 8 中会出现此泄漏？

为什么下面的代码会泄漏 for var i 0 i lt 100 i var item item elem document createElement div document body appendChild item elem ite
带请求正文的 Elasticsearch GET 请求

将请求正文与 GET 请求一起传递不是违反 REST 风格的方法吗例如在Elasticsearch中过滤一些信息 curl localhost 9200 megacorp employee search d query filtered
iTextSharp 5 波兰语字符

我在使用 itextSharp 处理波兰语字符时遇到问题我想从 html 创建 pdf 一切都很好但缺少波兰特色我使用较低的功能 private void createPDF string html MemoryStream msOu
在 Common Lisp 中替换列表中的项目？

我有一个事物列表我称之为 L 一个索引 N 和一个新事物 NEW 如果我想用 NEW 替换 L 中 N 中的内容最好的方法是什么我是否应该获取到 N 的子列表以及从 N 到列表末尾的子列表然后使用列表将第一部分 NEW 和最后一部分
Prometheus 标签与矢量时间戳的比较

我有一个像 T V label UTCtimestamp 这样的向量其中 label UTC 时间戳字符串我想找到具有类似标签的所有向量的计数 T 1day 其中 T 是 Vector 被推送的时间戳我正在寻找一些查询例如 V T
C++11 外部模板：我们在哪里真正需要它们？

在 C 03 中我们有模板显式实例化定义 template class Foo
从 USB 可移动存储读取文件

在我的应用程序中我想从 USB 可移动存储读取文件我有一个 txt 我想阅读它 void read UsbManager manager UsbManager getSystemService Context USB SERVICE H
我们如何处理快速增长得非常大的交集表？

例如我们有表A和表B 它们之间存在多对多关系表 C 是一个交集表存储 A id 和 B id 以及表示两者之间关系的值或者作为一个具体的例子想象一下 stackexchange 有一个用户帐户一个论坛和一个业力分数或者一个学

我们如何处理快速增长得非常大的交集表？

我们如何处理快速增长得非常大的交集表？ 的相关文章

随机推荐

热门标签

我们如何处理快速增长得非常大的交集表？的相关文章