Postgresql - 在大数据库中使用数组的性能

2024-03-19

假设我们有一个包含 600 万条记录的表。有 16 个整数列和少量文本列。它是只读表，因此每个整数列都有一个索引。每条记录大约 50-60 字节。

表名称为“项目”
服务器为：12 GB RAM、1.5 TB SATA、4 核。所有 postgres 服务器。
该数据库中有更多的表，因此 RAM 无法覆盖所有数据库。

我想向表“Item”添加一列“a_elements”（大整数的数组类型）每条记录在此列中的元素不超过 50-60 个。

之后，我将在此列上创建索引 GIN，典型的查询应如下所示：

select * from item where ...... and '{5}' <@ a_elements;

我还有第二种更经典的选择。

不要将列 a_elements 添加到表项，而是创建具有两列的表元素：

id_item
id_元素

该表将包含大约 2 亿条记录。

我能够对此表进行分区，因此表元素中的记录数将减少到 2000 万，表项中的记录数将减少到 500K。

第二个选项查询如下所示：

select item.* 
from item 
    left join elements on (item.id_item=elements.id_item) 
where .... 
and 5 = elements.id_element

我想知道从性能角度来看什么选择会更好。 postgres 是否能够在单个查询中使用带有索引 GIN（选项 1）的许多不同索引？

我需要做出明智的决定，因为导入这些数据需要 20 天的时间。

我认为你应该使用elements table:

Postgres将能够在执行查询之前使用统计信息来预测有多少行将匹配，因此它将能够使用最佳的查询计划（如果您的数据分布不均匀，则这一点更为重要）；
您将能够使用本地化查询数据CLUSTER elements USING elements_id_element_idx;
当 Postgres 9.2 发布时，您将能够利用仅索引扫描；

但我对 10M 元素做了一些测试：

create table elements (id_item bigint, id_element bigint);
insert into elements
  select (random()*524288)::int, (random()*32768)::int
    from generate_series(1,10000000);

\timing
create index elements_id_item on elements(id_item);
Time: 15470,685 ms
create index elements_id_element on elements(id_element);
Time: 15121,090 ms

select relation, pg_size_pretty(pg_relation_size(relation))
  from (
    select unnest(array['elements','elements_id_item', 'elements_id_element'])
      as relation
  ) as _;
      relation       | pg_size_pretty 
---------------------+----------------
 elements            | 422 MB
 elements_id_item    | 214 MB
 elements_id_element | 214 MB



create table arrays (id_item bigint, a_elements bigint[]);
insert into arrays select array_agg(id_element) from elements group by id_item;

create index arrays_a_elements_idx on arrays using gin (a_elements);
Time: 22102,700 ms

select relation, pg_size_pretty(pg_relation_size(relation))
  from (
    select unnest(array['arrays','arrays_a_elements_idx']) as relation
  ) as _;
       relation        | pg_size_pretty 
-----------------------+----------------
 arrays                | 108 MB
 arrays_a_elements_idx | 73 MB

因此，另一方面，数组较小，索引也较小。在做出决定之前我会做一些 200M 元素测试。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Arrays

performance

postgresql

join

Bigdata

Postgresql - 在大数据库中使用数组的性能的相关文章

在所有浏览器中启用我的网站的平滑滚动

我正在开发一个视差滚动网站Stellar http markdalgleish com projects stellar js and Skrollr https github com Prinzhorn skrollr图书馆该网站在 F
在 docker 中将 pgadmin 连接到 postgres

我有一个docker compose与服务文件python nginx postgres and pgadmin services postgres image postgres 9 6 env file env volumes postg
页面上首次调用 Url.Action 速度很慢

我有一个相当简单的 ASP MVC 视图的性能问题这是一个登录页面应该几乎是即时的但需要大约半秒钟经过大量挖掘后问题似乎出在第一个调用上Url Action 大约需要 450 毫秒根据迷你分析器 http miniprofile
手动更改postgresql中查询的执行计划？

是否可以在postgresql中手动更改执行计划的操作顺序例如如果我总是想在过滤之前进行排序操作尽管这在 postgresql 的正常使用中没有意义是否可以通过例如手动强制执行该操作改变运营的内部成本如果我实现自己的功能呢是否可
降低Python中的浮点精度以提高性能[重复]

这个问题在这里已经有答案了我正在树莓派上使用 python 我使用互补滤波器从陀螺仪中获得更好的值但它消耗了太多树莓派的电量大约为 70 我认为可以通过降低浮点精度来提高性能现在结果大约有 12 位小数这超出了我的需要有什么办
Fluent NHibernate - 将属性映射到连接表上的列

我有几张桌子例如产品 Id 名称制造商 ID 制造商 ID 名称我希望能够在我的产品对象上包含ManufacturerName 而不是当我只需要名称时必须加载整个制造商行我的产品地图看起来像 Table Product Id x
numpy：如何连接数组？（获得多个范围的并集）

我使用Pythonnumpy 我有一个 numpy 索引数组a gt gt gt a array 5 7 12 18 20 29 gt gt gt type a
Google Play Beta：“应用程序不适用于此帐户”消息

有没有人遇到过所有成员都遇到的问题谷歌测试组能够获得测试版除了一个问题之外没有任何问题这位拥有有效 Gmail 地址的用户已加入用于 Beta 测试的 Google Grouped 作为管理员我可以看到他们的状态是member 当他们
IIS7 上的 ASP.NET 应用程序 - iisreset 后启动速度非常慢

我有一个在 Windows 2008 上的 IIS7 下运行的 ASP NET 3 5 网站当我重新启动 IIS iisreset 然后点击一个页面时初始启动非常慢我在 Process Explorer 中看到以下活动 w3wp ex
Haskell：IORef 的性能

我一直在尝试在 Haskell 中编码一个需要使用大量可变引用的算法但与纯粹的惰性代码相比它也许并不奇怪非常慢考虑一个非常简单的例子 module Main where import Data IORef import Contr
Npgsql 参数化查询输出与 PostGIS 不兼容

我在 Npgsql 命令中有这个参数化查询 UPDATE raw geocoding SET the geom ST Transform ST GeomFromText POINT longitude latitude 4326 3081
如何初始化一个最初大小未知的数组？

假设我有这个 int x int x State Determined By Program const char pArray const int x 在使用 pArray 之前如何初始化它因为Array的初始大小是由用户输入决定的 T
使用 APDU 命令的有效 NFC 读取比特率是多少？

我目前正在使用 Android IsoDep trancieve 函数发送和接收累计 1628 字节的数据该函数分布在 35 个 APDU 命令选择应用程序身份验证读取中字节计数包括返回的 MAC 校验和以及由 transcie
Postgres JSON 数据类型 Rails 查询

我正在使用 Postgres 的 json 数据类型但想要使用嵌套在 json 中的数据进行查询排序我想在 json 数据类型上使用 where 进行订购或查询例如我想查询关注者数量 gt 500 的用户或者我想按关注者或关注数
Rails Windows Vagrant 响应时间非常慢

我在跑 Vagrant 1 7 1 Rails 4 1 4 Thin 1 6 1 Windows 7 每个静态文件的发送时间都超过一秒在我的 PC 上加载一个页面可能需要大约 20 秒而在同事的 Linux 机器上则只需瞬间有一些帖子
本地 Postgres 实例和 Azure Cloud Postgres 实例之间的实时同步

我需要在本地 postgresql 实例与云 postgresql 实例之间设置实时同步过程请让我知道我可以通过哪些选项来实现它我是否必须使用任何特定工具或者可以通过复制进行管理请指教使用 PgPool http www pgpoo
postgreSQL 在 WAMP 上的集成

我刚刚在 Windows 7 上安装了 postgreSQL 我正在尝试将 postgreSQL 与 WAMP 服务器集成为此我在 httpd conf 和 php ini 文件中进行了以下更改 1个加载模块c path to libp
如何用 kevent() 替换 select() 以获得更高的性能？

来自Kqueue 维基百科页面 http en wikipedia org wiki Kqueue Kqueue 在内核和用户空间之间提供高效的输入和输出事件管道因此可以修改事件过滤器以及接收待处理事件同时每次主事件循环迭代仅使用对
哪些属性有助于运行时 .Net 性能？

我正在寻找可用于通过向加载器 JIT 编译器或 ngen 提供提示来确保 Net 应用程序获得最佳运行时性能的属性例如我们有可调试属性 http msdn microsoft com en us library k2wxda47 aspx
如何使用 std::array 模拟 C 数组初始化“int arr[] = { e1, e2, e3, ... }”行为？

注意这个问题是关于不必指定元素数量并且仍然允许直接初始化嵌套类型这个问题 https stackoverflow com questions 6111565 now that we have stdarray what uses are

随机推荐

如何在我的请求中使用从 Twitter OAuth 1.0a 获得的“用户上下文访问令牌”？

我已经成功实现了 Twitter 三足身份验证过程来获取用户访问令牌问题是访问令牌似乎无效或者我使用错误我已经能够获取应用程序的访问令牌它可以访问有限的 Twitter API 我通过在标题上添加身份验证承载访问令牌来使用
来自响应内容流的 Pandas 0.25.0 和 xlsx

r requests get projectsExportURL auth username password verify False stream True r raw decode content True add snapshot
从 Django 1.7.1 升级到 1.8.2 失败

我的 Django 1 7 1 应用程序运行良好但我想升级到更新的版本 1 8 2 我正在按照说明进行操作here https docs djangoproject com en 1 8 howto upgrade version 基本上
如何在提交后的钩子脚本中获取项目路径？(git)

我想调用位于存储库中的脚本我当然可以执行以下操作 bin sh myscript sh 但我认为这不太好那么如何在提交后脚本中获取项目的路径呢 When you re dealing with a non bare repository
动态对话框——bash 中的菜单框

我正在寻找有关在 bash 中制作动态对话框菜单框的良好解释我正在尝试从具有如下结构的文件加载用户列表 user rw412 0 2 rx511 23 1 sgo23 9 2 fs352 1 4 another user rw412 0
阿帕奇“找不到文件。”而不是 404. 错误文档

我想设置自定义 404 错误文档但我遇到了问题首先我的 htaccess 中有两个 RewriteRules RewriteRule 2 3 php lang 1 L RewriteRule 2 3 4 php lang 1 L 所以
在新的 Android Studio 项目上获取“错误：无法在 null 对象上获取属性 ':lib'”

我已经使用 Android Studio 创建了一个新项目并在其中添加了新的 lib 项目但现在我得到了 Error Cannot get property lib on null object 显然我设法通过添加逗号来解决它setti
Java 中 10,000 以内且 3、5 或 7 的倍数的数字之和

我知道如何让程序将 3 5 和 7 中每一个的倍数总和相加但我不确定如何让程序只使用每个数字一次例如我可以让程序找出所有数字并将它们相加为 3 然后对 5 执行相同操作但数字 15 将出现在最终数字中两次我不确定如何让它只接受一次
Spring 验证异常：BindException

提交表格至addUser控制器发生异常严重 Servlet DispatcherServlet 的 Servlet service 抛出异常 org springframework validation BindException org
在 yq 中传递 bash 变量

我正在尝试在 yq 中传递 bash 变量 test yml configuration Properties corporate url https stackoverflow com temp configuration Propert
beforeunload 中的 ajax 会可靠执行吗？

我有一个 HTML5 应用程序需要在用户更改刷新页面时发送断开连接 ajax 请求我目前正在使用这段代码 window addEventListener beforeunload function event ajax url api
如何在asp.net core应用程序中运行ssis包？

我已经使用 Microsoft SqlServer Dts Runtime 在 ASP NET MVC 中运行包但是我需要在 asp net core 中运行它由于我们无法在 ASP NET Core 中添加单独的 DLL 我想知道是否
Android 应用程序复制保护和数据文件

在我的应用程序中我在代码中的以下硬编码位置访问我的 sqlite 数据库数据数据 com mydomain appname databases database db 如果我在 Market Place 中打开复制保护我的应用程序仍
Telegram 机器人：如何隐藏内联键盘？ PHP

我制作了一个带有内联键盘的电报机器人来自InlineKeyboardMarkup 我喜欢hide 或使其one time 用户响应后的键盘我怎样才能在 PHP 中做到这一点这是我的机器人的视图有方法editMessageReplyM
在 Backbone.js 中使用状态并登录用户

我需要检查用户是否已登录并经过身份验证然后才能让我的用户使用我的backbone js基于应用程序用户身份验证作为属性存储在本机主干模型中我在启动主路由器之前通过调用进行检查Backbone history start 这样未经身份
使用 React 内联样式设置背景图像

我正在尝试访问静态图像以在内联中使用backgroundImageReact 中的属性不幸的是我对如何做到这一点已经一无所知一般来说我认为你只是做了如下操作 import Background from images backgro
扩展方法中的 ArgumentNullException 或 NullReferenceException？

在空实例上调用扩展方法扩展方法不允许时您认为抛出的最佳异常类型是什么由于扩展方法只不过是静态方法您可能会认为它应该是 ArgumentNullException 但另一方面它们的使用方式与实例方法类似因此使用 NullRefe
检测主线程之外的 UI 操作

注此问题涉及从后台线程调用 UIKit 时发出警告 https stackoverflow com questions 10976424 warn on calls to uikit from background threads但没有给
如何将进度条连接到函数？

我正在尝试将进度条连接到我的项目的函数这是我到目前为止所拥有的但我很确定它什么也没做 def main pgBar start function1 function2 function3 function4 pgBar stop 这是我
Postgresql - 在大数据库中使用数组的性能

假设我们有一个包含 600 万条记录的表有 16 个整数列和少量文本列它是只读表因此每个整数列都有一个索引每条记录大约 50 60 字节表名称为项目服务器为 12 GB RAM 1 5 TB SATA 4 核所有 postg

Postgresql - 在大数据库中使用数组的性能

Postgresql - 在大数据库中使用数组的性能 的相关文章

随机推荐

热门标签

Postgresql - 在大数据库中使用数组的性能的相关文章