在 postgresql 中查找和汇总具有重叠记录的日期范围

2024-06-19

我有一个大型数据集，我想对记录具有重叠时间的计数进行求和。例如，给定数据

[
  {"id": 1, "name": 'A', "start": '2018-12-10 00:00:00', "end": '2018-12-20 00:00:00', count: 34},
  {"id": 2, "name": 'B', "start": '2018-12-16 00:00:00', "end": '2018-12-27 00:00:00', count: 19},
  {"id": 3, "name": 'C', "start": '2018-12-16 00:00:00', "end": '2018-12-20 00:00:00', count: 56},
  {"id": 4, "name": 'D', "start": '2018-12-25 00:00:00', "end": '2018-12-30 00:00:00', count: 43}
]

您可以看到有 2 个活动重叠的时期。我想根据重叠涉及的活动返回这些“重叠”的总数。所以上面的输出会是这样的：

[
  {start:'2018-12-16', end: '2018-12-20', overlap_ids:[1,2,3], total_count: 109},
  {start:'2018-12-25', end: '2018-12-27', overlap_ids:[2,4], total_count: 62},
]

问题是，如何通过 postgres 查询生成这个？正在研究generate_series，然后计算出每个间隔内有哪些活动，但这不太正确，因为数据是连续的——我确实需要确定确切的重叠时间，然后对重叠活动进行求和。

EDIT Have added another example. As @SRack pointed out, since A,B,C overlap, this means B,C A,B and A,C also overlap. This doesn’t matter since the output I’m looking for is an array of date ranges that contain overlapping activities rather than all the unique combinations of overlaps. Also note the dates are timestamps, so will have millisecond precision and won’t necessarily all be at 00:00:00. If it helps, there would probably be a WHERE condition on the total count. For example only want to see results where total count > 100

（使用具有重叠 A-B 部分的旧数据集）

免责声明：这适用于天间隔，不适用于时间戳。对ts的要求是后来才出现的。

SELECT
    s.acts,
    s.sum,
    MIN(a.start) as start,
    MAX(a.end) as end
FROM (
    SELECT DISTINCT ON (acts)
        array_agg(name) as acts,
        SUM(count)
    FROM
        activities, generate_series(start, "end", interval '1 day') gs
    GROUP BY gs
    HAVING cardinality(array_agg(name)) > 1
) s
JOIN activities a
ON a.name = ANY(s.acts)
GROUP BY s.acts, s.sum

generate_series生成开始和结束之间的所有日期。因此，活动存在的每个日期都会有一行包含特定的count
对所有日期进行分组，汇总所有现有活动及其计数总和
HAVING过滤掉仅存在一项活动的日期
因为相同的活动在不同的日子里，我们只需要一个代表：过滤所有重复项DISTINCT ON
将此结果与原始表连接起来以获得开始和结束。（注意“end”是Postgres中的保留字，你最好找到另一个列名！）。以前丢失它们会更舒服，但可以在子查询中获取这些数据。
将此连接分组以获得每个时间间隔的最早和最晚日期。

这是时间戳的版本：

WITH timeslots AS (
    SELECT * FROM (
        SELECT
            tsrange(timepoint, lead(timepoint) OVER (ORDER BY timepoint)),
            lead(timepoint) OVER (ORDER BY timepoint)     -- 2
        FROM (
            SELECT 
                unnest(ARRAY[start, "end"]) as timepoint  -- 1 
            FROM
                activities
            ORDER BY timepoint
        ) s
    )s  WHERE lead IS NOT NULL                            -- 3
)
SELECT 
    GREATEST(MAX(start), lower(tsrange)),                 -- 6
    LEAST(MIN("end"), upper(tsrange)),
    array_agg(name),                                      -- 5
    sum(count)
FROM 
    timeslots t
JOIN activities a
ON t.tsrange && tsrange(a.start, a.end)                   -- 4
GROUP BY tsrange
HAVING cardinality(array_agg(name)) > 1

主要思想是确定可能的时间段。因此，我将每个已知时间（开始和结束）放入排序列表中。因此，我可以获取前两个已知时间（从 A 开始的 17:00 和从 B 开始的 18:00）并检查其中的时间间隔。然后我检查第二个和第三个，然后检查第三个和第四个，依此类推。

第一个时隙中只有 A 适合。在 18-19 的第二个中，B 也很合适。在下一个时段 19-20 中还有 C，从 20 到 20:30 A 不再适合，只有 B 和 C。下一个是 20:30-22，其中只适合 B，最后将 22-23 D 添加到B 和最后但并非最不重要的一点是 D 适合 23-23:30。

因此，我将这个时间列表与时间间隔相交的活动表连接起来。之后，它只是按时间段分组并总结您的计数。

这会将一行的两个 ts 放入一个数组中，该数组的元素被扩展为每个元素一行unnest。所以我把所有时间都放在一列中，可以简单地排序
使用铅窗函数 https://www.postgresql.org/docs/current/tutorial-window.html允许将下一行的值放入当前行。所以我可以用这两个值创建一个时间戳范围tsrange
此过滤器是必要的，因为最后一行没有“下一个值”。这创建了一个NULL值被解释为tsrange作为无穷大。所以这会造成一个令人难以置信的错误时间段。所以我们需要过滤掉这一行。
将时间段与原始表连接起来。这&&运算符检查两个范围类型是否重叠。
按单个时间段分组，聚合名称和计数。使用以下方法筛选出仅包含一项活动的时间段HAVING clause
获得正确的起点和终点有点棘手。因此，起始点要么是活动开始的最大值，要么是时间段的开始（可以使用lower）。例如。以 20-20:30 时段为例：它从 20 点开始，但 B 和 C 都没有在那里开始。结束时间类似。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

rubyonrails

postgresql

在 postgresql 中查找和汇总具有重叠记录的日期范围的相关文章

Rails 从哈希数组中选择最大值

我有一个像这样的哈希数组我想取其中的最大值 data name abc value 10 0 name def value 15 0 name ghi value 20 0 name jkl value 50 0 name mno val
Rails Heroku 服务器回形针 Amazon S3 - AWS::S3::Errors::RequestTimeout

当我使用附加图像保存 konkurrencer 模型时我在 Heroku 上收到错误但在本地服务器上却没有我的 Heroku 日志 36m2012 04 01T17 45 37 00 00 app web 1 0m Started P
在 Postgres 中手动对列进行排序的正确方法是什么？

我有一个用于开票的 SaaS 宠物项目在其中我希望我的客户每个都以票号 1001 开始显然我不能在 Postgres 中使用简单的自动字段只需在值上添加 1000 因为我的所有客户将共享相同的数据库和相同的数据 tickets表
Capistrano RVM 和 Ubuntu RVM 不是一个函数，使用“rvm use ...”选择 rubies 将不起作用

我第一次尝试在 ubuntu 服务器上部署我的应用程序我一直遇到这个错误 2013 03 24 15 13 36 executing deploy run migrations executing rvm gemset use vapin
启动 Rails 控制台时不运行 rufus-scheduler 的最佳方法

我使用 rufus scheduler 来运行一些定期任务但是当我只想测试东西时在 Rails 控制台中使用它们非常烦人自动启动控制台时是否有一种简单的方法来停止所有 rufus scheduler 任务在启动调度程序的代码中如果
Rails 3 ActiveModel：无法直接包含 ActiveModel::Model

在我的 Rails 3 2 11 和开发环境中当我尝试拥有活动模型时 class DisponibilityApi include ActiveModel Model attr accessor start time end time
Postgres：交叉表查询中的存储桶始终从左侧填充

我的查询如下所示 SELECT mthreport FROM crosstab SELECT to char ipstimestamp mon DD HH24h As row name varid text log varid ips ob
安装 sqlite3 公共密钥环时出错，未找到

怎么了我该如何安装它 PS C Users luism gt gem install sqlite3 暂时增强 MSYS MINGW 的 PATH 安装所需的 msys2 软件包 mingw w64 x86 64 sqlite3 警告未
如何将 image_tag 与 bootstrap class: "img-responsive" 一起使用？第11章

我问这个问题的原因是为了解决一个非常烦人的语法错误我正在使用第 11 章这样我就可以在我的新网站上使用图像构建一个博客部分除了我尝试向此行添加 class img responsive 之外一切都正常我只是无法弄清楚添加类的正确语
Rails 如何确定传入请求格式？

我只是想知道 Rails 如何知道请求的格式以正确输入著名的 respond to do format format html format xml format json end 作为一个例子考虑一下我遇到的这种情况假设通过 java
psql 的备用输出格式显示每行一列以及列名

我在 Ubuntu 上使用 PostgreSQL 8 4 我有一个带有列的表格c1通过cN 这些列足够宽选择所有列会导致一行查询结果多次换行因此输出很难阅读当查询结果仅包含几行时如果我可以查看查询结果使得每行的每一列都位于单独的
ruby 无法复制 Fixnum

我有一些这样的代码 ssh files id rsa pub id rsa ssh files each with index do item index ssh files index generate ssh path creator
Friendly_id 和真实ID

有什么办法可以得到真正的id使用Friendly id 修改的模型中的列出于性能原因我不想对其进行另一个数据库查询广义上来说Friendly id修改to param and find方法接下来应该可以工作 affiche Affi
jruby-openssl 中已初始化常量

当在 Torquebox 上运行我的 Rails 应用程序时我得到了很多 already initialized constant 警告源自gems jruby openssl 0 8 2 lib shared jruby openssl
退出无法在 Heroku 上工作 - 使用 Devise gem 和 Rails 4

我刚刚对使用 Devise 进行身份验证的 Rails 4 应用程序进行了初始部署到 Heroku 注销可以在本地进行但 Heroku 返回错误您正在查找的页面不存在并且不会注销用户根据 Heroku 日志和 Google SO 搜
从另一个表复制权限

是否可以将用户权限从 PostgreSQL 数据库中的一个表复制到另一个表是不是只要更新一下就可以了pg class relacl将目标表的列值替换为源表的值如下所示 UPDATE pg class SET relacl SELECT
使用 START WITH 和 CONNECT BY PRIOR 将查询从 oracle 迁移到 postgresql

我正在将一个进程从 oracle 迁移到 postgresql 并且在它们的转换方面遇到了另一个问题我一直在研究如何迁移oracle查询它有 START WITH 和 CONNECT BY PRIOR 我已经对此进行了记录我认为最简单
安装 mysql2 时出错：无法构建 gem 本机扩展

我在尝试安装时遇到一些问题mysql2Rails 的宝石当我尝试通过运行安装它时bundle install or gem install mysql2它给了我以下错误安装 mysql2 时出错错误无法构建 gem 本机扩展我该如
如何向 ActiveRecord 集合添加方法？

我想为特定模型的所有集合添加一个方法假设我想添加方法my complicated averaging method到 WeatherData 集合 WeatherData all limit 3 my complicated averag
Postgres 数据库中特殊的时区处理

我的环境 I m in 法国巴黎 UTC 1 or CET It s 12am 00 00 我们在2016 年 11 月 25 日 My Postgres数据库托管于亚马逊网络服务 AWS RDS 在eu west 1 region 问题

随机推荐

有什么方法可以让dispatch_queue_t在单线程中工作吗？

这是我的代码 interface MyObject property nonatomic dispatch queue t queue end implementation MyObject NSThread check id init s
Jquery Flipbook 上传 PDF

我正在使用Builtbywill Flipbook div div title This is a page title img src image1 jpg div div img src image2 jpg div div title
将值替换为其各自列的名称

我有一个数据框 Code 401k CVS 101A true 231N true FD54 true 99JB 85F4 true 我试图用相应的列名称例如 401k 替换 true 字符值这是我想要的输出 Code 401k CVS
包管理器控制台中缺少文件错误

我们的开发团队的一些成员在打开包管理器控制台时开始看到以下错误它完全阻止我们运行实体框架命令我们已经检查过并且提到的文件确实存在 GetEvent types ps1xml Diagnostics Format ps1xml Diagn
设置一个带有 JQuery 掩码的文本字段

使用 watir webdriver 我尝试设置文本字段的值 browser text field id phoneNumbers value input set 5555551234 当我运行该命令时我可以看到 watir 找到了该字段
可以创建一个独立的方法/函数（没有任何类）

我正在尝试理解闲聊是否可以有一个独立的方法函数它不属于任何特定类并且可以稍后调用 amethod amethod called printNl amethod 上面的代码给出以下错误 simpleclass st 1 expecte
Typescript 和 React：在组件之间传递 props 与默认 props

我对 Typescript 和使用 Typescript 创建 React 应用程序相当陌生我在将道具从一个组件传递到另一个组件时遇到了一些麻烦我在下面提供了一个示例我的问题是围绕组件的默认道具当我在父组件中调用子组件时出现错误
如何根据特定条件触发电子邮件以在 Jenkins 中成功构建

每当某个条件在构建后步骤的执行 shell 中成立时成功的构建我想触发电子邮件发送问题是即使条件不成立构建也会被视为success 我正在尝试实现的内容 if condition true then
单击应用程序的启动图标时会发生什么？

单击应用程序的启动图标时会发生什么是否总是发送新意图或者结果有时与从最近的任务恢复任务相同如果发送意图它何时被发送到新活动实例的 onCreate 方法以及何时通过现有活动的 onNewIntent 进行路由假设意图通过任务中现有
c++链接器，如何链接iostream文件？

我有一个名为main cpp包括iostream 我编译了main cpp它工作没有错误所以我的问题是我编译了main cpp我没有链接iostream with main cpp 那么这怎么可能呢或者编译器是否链接了iostream
如何在 Swift 泛型中说“同一类”

如果 Swift 泛型类型约束是协议名称我可以要求受该协议约束的两种类型为同一类型例如 protocol Flier struct Bird Flier struct Insect Flier func flockTwoTogether
Silverlight 4 WCF Ria 服务的轮询模式

我正在使用 Ria Services 在 Silverlight 中创建一个应用程序一旦启动服务调用可能会花费相当多的时间我一直在寻找增加 WCF 服务超时的方法但我越想越觉得这不是正确的方法我宁愿做的是调用 DomainCont
使用 R 的 flextable 包时，有没有办法将传递给 add_header_lines() 的字符串部分加粗

我正在使用我喜欢的 flextable 包为 Word 文档创建几个表格但是我在将表格标题中的部分文本加粗时遇到了一些麻烦例如我希望标题为 Table 1 我的表格标题的其余部分而不是表 1 我的表格标题的其余部分 I 找到这个
无法访问 res 文件夹？

我有一个 Java 编程问题需要帮助我的类文件位于单独的包中不是默认包我正在尝试从我的 res 文件夹访问文件我已将其添加为类文件夹使用属性 gt 库 gt 添加类文件夹在我的类中我有以下代码 InputStream IS
提供者未返回 ProviderManifest 实例

当我想配置我的数据源 EntityDataSource 1 并将实体数据模型自动生成的连接字符串分配给它时我收到错误无法加载连接字符串中指定的元数据请考虑重建 Web 项目以构建可能包含元数据的程序集发生以下错误提供程序未返回 P
Flask-Session 扩展与默认会话

我在用着 from flask import session app route def main page if session get key print session exist session get key else print
嵌入式签名 api 文档签名

我正在使用 DocuSign 将电子签名添加到我的请求中一切正常现在我使用嵌入式方法发送签名请求通过导航到 URL 立即启动我的工作流程登录后执行以下代码我得到嵌入视图但是当我粘贴网址尝试在导航中签署文档时但会将我重定向
如何对需要其他模块的 Node.js 模块进行单元测试以及如何模拟全局 require 函数？

这是一个简单的例子说明了我的问题的症结 var innerLib require path to innerLib function underTest return innerLib doComplexStuff module expo
在 Ajax 类型的 Extjs 5 存储上进行本地分页

我正在开发一个应用程序从一开始就加载所有数据并不是很不方便我通过 Ajax 从服务器获取 json 数据而我的商店执行此操作非常简单 Ext define MODIFE store CentroBeneficio extend Ext
在 postgresql 中查找和汇总具有重叠记录的日期范围

我有一个大型数据集我想对记录具有重叠时间的计数进行求和例如给定数据 id 1 name A start 2018 12 10 00 00 00 end 2018 12 20 00 00 00 count 34 id 2 name B

在 postgresql 中查找和汇总具有重叠记录的日期范围

在 postgresql 中查找和汇总具有重叠记录的日期范围 的相关文章

随机推荐

热门标签

在 postgresql 中查找和汇总具有重叠记录的日期范围的相关文章