连接两个时间序列的最有效方法

2024-02-19

想象一下我有一张这样的表：

 CREATE TABLE time_series (
        snapshot_date DATE,
        sales INTEGER,
PRIMARY KEY (snapshot_date));

具有这样的值：

INSERT INTO time_series SELECT '2017-01-01'::DATE AS snapshot_date,10 AS sales;
INSERT INTO time_series SELECT '2017-01-02'::DATE AS snapshot_date,4 AS sales;
INSERT INTO time_series SELECT '2017-01-03'::DATE AS snapshot_date,13 AS sales;
INSERT INTO time_series SELECT '2017-01-04'::DATE AS snapshot_date,7 AS sales;
INSERT INTO time_series SELECT '2017-01-05'::DATE AS snapshot_date,15 AS sales;
INSERT INTO time_series SELECT '2017-01-06'::DATE AS snapshot_date,8 AS sales;

我希望能够做到这一点：

SELECT a.snapshot_date, 
       AVG(b.sales) AS sales_avg,
       COUNT(*) AS COUNT
  FROM time_series AS a
  JOIN time_series AS b
       ON a.snapshot_date > b.snapshot_date
 GROUP BY a.snapshot_date

产生如下结果：

*---------------*-----------*-------*
| snapshot_date | sales_avg | count |
*---------------*-----------*-------*
|  2017-01-02   |   10.0    |    1  |
|  2017-01-03   |   7.0     |    2  |
|  2017-01-04   |   9.0     |    3  |
|  2017-01-05   |   8.5     |    4  |
|  2017-01-06   |   9.8     |    5  |
-------------------------------------

对于很少数量的行（如本例所示），查询运行得非常快。问题是我必须对数百万行执行此操作，而在 Redshift（语法与 Postgres 类似）上，我的查询需要几天的时间才能运行。它非常慢，但这是我最常见的查询模式之一。我怀疑问题是由于数据中 O(n^2) 的增长与更优选的 O(n) 造成的。

我在 python 中的 O(n) 实现将是这样的：

rows = [('2017-01-01',10),
        ('2017-01-02',4),
        ('2017-01-03',13),
        ('2017-01-04',7),
        ('2017-01-05',15),
        ('2017-01-06',8)]
sales_total_previous = 0
count = 0
for index, row in enumerate(rows):
    snapshot_date = row[0]
    sales = row[1]
    if index == 0:
        sales_total_previous += sales
        continue
    count += 1
    sales_avg = sales_total_previous / count
    print((snapshot_date,sales_avg, count))
    sales_total_previous += sales

结果如下（与 SQL 查询相同）：

('2017-01-02', 10.0, 1)
('2017-01-03', 7.0, 2)
('2017-01-04', 9.0, 3)
('2017-01-05', 8.5, 4)
('2017-01-06', 9.8, 5)

我正在考虑切换到 Apache Spark，以便我可以准确地执行该 python 查询，但几百万行实际上并不是那么大（最多 3-4 GB），并且使用具有 100 GB RAM 的 Spark 集群似乎矫枉过正。有没有一种有效且易于阅读的方法可以在 SQL 中获得 O(n) 效率，最好是在 Postgres / Redshift 中？

你似乎想要：

SELECT ts.snapshot_date, 
       AVG(ts.sales) OVER (ORDER BY ts.snapshot_date) AS sales_avg,
       ROW_NUMBER() OVER (ORDER BY ts.snapshot_date) AS COUNT
FROM time_series ts;

您会发现使用窗口函数效率更高。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

连接两个时间序列的最有效方法的相关文章

Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
如何从 PyCharm 项目中获取我的“exe”[重复]

这个问题在这里已经有答案了通过 PyCharm 在 Python 上编写一些项目我想从中获取一个exe文件我尝试过另存为 gt XXX exe 但是当我尝试执行它时出现错误此类操作系统不支持该文件附注我有win7 x64 它
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
SQL Server 转换选择一列并将其转换为字符串

是否可以编写一条从表中选择列并将结果转换为字符串的语句理想情况下我希望有逗号分隔的值例如假设 SELECT 语句看起来像这样 SELECT column FROM table WHERE column lt 10 结果是一列包含值的
如何从 Dockerfile 安装 Python 3.7 和 Pip

我正在尝试构建基于 Ubuntu 18 04 的自定义 Docker 映像 Ubuntu 预装了 Python 3 6 但我想 1 安装 Python 3 7 2 将其设置为默认 Python 版本这样就可以使用python代替pytho
Python igraph：从图中删除顶点

我正在使用安然电子邮件数据集并尝试删除没有 enron com 的电子邮件地址即我只想拥有安然电子邮件当我尝试删除那些没有 enron com 的地址时一些电子邮件由于某些原因被跳过下面显示了一个小图其中顶点是电子邮件地址这是
定义函数后对其进行修饰？

I think答案是否定的但我似乎找不到明确的说法我有以下情况 def decorated function function functools wraps function def my function print Hello s
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
更新plpgsql中触发器函数中的多列

给出以下架构 create table account type a id SERIAL UNIQUE PRIMARY KEY some column VARCHAR create table account type b id SERIA
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
Yii 查询时对相关模型的限制

我遇到了极限问题我正在使用的代码如下 model PostCategory model record model gt with array posts gt array order gt posts createTime DESC li
Oracle：如果表存在

我正在为 Oracle 数据库编写一些迁移脚本并希望 Oracle 有类似于 MySQL 的东西IF EXISTS构造具体来说每当我想删除 MySQL 中的表时我都会执行类似的操作 DROP TABLE IF EXISTS tabl
Django 在选择列表更改时创建毫无意义的迁移

我正在尝试使用可调用创建一个带有选择字段的模型以便 Django 在选择列表更改时不会创建迁移如中所述this https stackoverflow com questions 31788450 stop django from cr
conda-env list / conda info --envs 如何查找环境？

我一直在尝试 anaconda miniconda 因为我的用户使用随 miniconda 安装的结构生物学程序并且作者都没有 A 考虑到可能存在其他 miniconda 应用程序 B 他们的程序将在多用户环境中使用因此使用 Arch
Pandas Dataframe：将包含列表的行扩展到多行，并为所有列提供所需的索引

我在 pandas 数据框中有时间序列数据索引为测量开始时的时间列中包含以固定采样率记录的值列表连续索引列表中元素数量的差异这是它的样子 Time A B Z 0 1 2 3 4 1 2 3 4 2 5 6 7 8 5 6 7 8
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
Python 3.2 中 **kwargs 和 dict 有什么区别？

看起来Python的很多方面都只是功能的重复除了我在 Python 中的 kwargs 和 dict 中看到的冗余之外还有什么区别吗参数解包存在差异许多人使用kwargs 并通过dict作为论据之一使用参数解包 Prepare f
如何在动态查询中将行值连接到列名

我正在开发一个允许配置问题和答案的应用程序目前最多可以有 20 个答案但也可能更少我的结构如下问题 ID FormId QuestionText AnswerField 1 1 Name Answer01 2 1 Address A
通过将行旋转为动态数量的列来在 MySQL 中创建摘要视图

我在 MySQL 中有一个表其中包含以下字段 id company name year state 同一客户和年份有多行以下是数据示例 id company name year state 1 companyA 2008 1 2 com

随机推荐

资源规格和代理跟踪

我需要解决一个问题但由于缺乏 Java 培训我无法解决该问题要编写什么代码来跟踪获取资源的代理让我更好地解释一下我有一系列房间每个进入该结构的特工都会占用一个房间并在整个住宿期间保留该房间我想实时查看哪些房间被占用以及由哪个
Int32 的 GetHashCode() 是如何实现的？

我到处找遍了但什么也没找到有人能解释一下吗根据反射镜 public override int GetHashCode return this 有道理不是吗
工厂方法 (1) vs 工厂 (2) vs Builder (3) 模式

用途 1 2 3 的用例是什么使用它有什么优点和缺点他们之间有什么区别工厂方法模式这种模式与工厂模式非常相似客户端也从类层次结构中向工厂请求特定类型的对象但是工厂模式的 Create 方法工厂类将特定对象的创建委托给派生类并返回
如何从管道 (jenkinsfile) 中使用 Jenkins Copy Artifacts 插件？

我试图找到一个在 Jenkins 管道工作流程中使用 Jenkins Copy Artifacts 插件的示例谁能指出使用它的示例 Groovy 代码吗通过声明式 Jenkinsfile 您可以使用以下管道 pipeline age
超时已过。操作完成前超时时间已过或服务器未响应

运行 ssis 包时我在 ADO net 源中调用 sp 但出现此错误超时已过操作完成之前超时时间已过或者服务器没有响应我已将命令超时设置为 0 无限时间但仍然收到错误 sp 在 sql server 中工作正常大约需要 31
Android Studio 签名的 APK 未安装

我在 Android Studio 中在构建 gt 生成签名的 APK 下签署 APK 并使用向导一切似乎都正常并生成了一个 apk 文件当我将此文件复制到我的设备 Nexus 7 或 Moto X 时它不会安装我收到安装失
单击电子邮件链接时出现不受支持的操作错误

我已在 xml 中提供了指向 TextView 的电子邮件链接但当我单击 TextView 时它显示不支持的操作错误如何将活动链接放在文本视图中的电子邮件上这是我的 string xml 文件的代码
如何禁用 UIScrollView 的水平滚动？

我有一个UIView就像iPhone的跳板一样我已经使用创建它UIScrollView and UIButtons 我想禁用所述滚动视图上的水平滚动我只想要垂直滚动我该如何实现这个目标你必须设置contentSize的财产UIScr
Akka/Java getContext().become 带参数？

在 Akka Scala 中可以将参数传递给自定义接收函数因此可以通过 params 传递整个 actor 状态而无需使用可变变量 context become myCustomReceive param1 param2 但在 Jav
为什么 strcmp 比我的函数快得多？

我写了一个函数 Str Compare 这基本上是一个strcmp以另一种方式重写在比较两个函数时在循环中重复 500 000 000 次 strcmp执行速度太快大约x750快几倍这段代码是在 C 库中编译的 Os参数有效 int
为什么输入错误值后输出是三行消息而不是一行？

输入的代码是 import java io IOException public class A public void fn throws IOException char ch do System out println Press C
由于 MIME 类型不匹配，IE9 脚本响应被阻止

我使用以下代码片段将 google fusion 表中的数据加载为 json var fileref document createElement script fileref setAttribute type text javascri
Visual Studio 2010 中的文本覆盖

这里真的很愚蠢的问题在 Visual Studio 2010 中文本光标已从闪烁的线更改为字符周围闪烁的灰色框当我输入时会覆盖前面的文本我不知道如何去掉这个这就像当您在 Microsoft Word 中按插入键并打开覆盖模式时会发
证书验证失败：证书已过期 (_ssl.c:1108)

当尝试运行我的 Discord 机器人时我收到此错误 raise ClientConnectorCertificateError aiohttp client exceptions ClientConnectorCertificateEr
如何在 Windows 启动时启动 python 文件？

我有一个 python 文件并且正在运行该文件如果 Windows 关闭并再次启动我如何在每次 Windows 启动时运行该文件根据脚本正在执行的操作您可以将其打包成服务然后安装该服务将其添加到 Windows 注册表 HKC
我想在启动画面中播放lottie动画React Native

在 React Native 中在应用程序启动之前我们可以看到白屏我想在单击应用程序图标时立即加载启动屏幕我想避免白色背景 Using 反应本机启动画面 https github com crazycodeboy react nat
使用远程 couchbase 和 AWS ec2 时超时

出于开发目的我想将本地计算机连接到安装在远程 ec2 上的 couchbase 我成功建立连接但当我尝试访问数据时出现超时我搜索了问题并发现here https stackoverflow com questions 12117746
Java 的 varargs 性能

编码我来检查 Java 的 vararg 性能我编写以下测试代码 public class T public static void main String args int n 100000000 String s1 new Stri
PHP 全局常量是一种良好的现代开发实践吗？

我正在开发一个具有相当大的 PHP 代码库的新项目该应用程序使用了相当多的 PHP 常量 define FOO bar 特别是对于数据库连接参数之类的事情这些常量都定义在一个配置文件中该文件是require once 基本上应用程序中
连接两个时间序列的最有效方法

想象一下我有一张这样的表 CREATE TABLE time series snapshot date DATE sales INTEGER PRIMARY KEY snapshot date 具有这样的值 INSERT INTO time

连接两个时间序列的最有效方法

连接两个时间序列的最有效方法 的相关文章

随机推荐

热门标签

连接两个时间序列的最有效方法的相关文章