计算 BigQuery 中分区的运行总和

2024-02-06

我正在尝试计算分区上的运行总和。这似乎比中建议的方法更容易和更快BigQuery SQL 运行总计 https://stackoverflow.com/questions/14664578/bigquery-sql-running-totals.

例如：

选择语料库，语料库日期，字数， sum(word_count) over (按语料库分区、按语料库日期排序、按单词计数、单词 DESC) as running_sum 从 [公共数据：样本.莎士比亚]

我面临两个问题：

我无法让总和从最常见的单词（word_count 最高的单词）开始。设置 DESC 或 ASC 不会改变任何内容，并且总和从最不常见的单词开始。如果我更改顺序以仅包含“order by word_count”，则运行总和不正确，因为具有相同顺序（==相同 word_count）的行产生相同的运行总和。
在我正在执行的类似查询中（见下文），运行总和的第一行产生的总和为 0，尽管我求和的字段对于第一行不是 0。为什么会发生这种情况？如何解决该问题以显示正确的运行总和？查询是：

从中选择*
（选择
蒙戈_id，
帐户ID，
活动日期，
trx_amount_sum_per_day,
SUM (trx_amount_sum_per_day) OVER (PARTITION BY mongo_id,account_id ORDER BY event_date DESC) AS running_sum,
ROW_NUMBER() OVER (PARTITION BY mongo_id,account_id ORDER BY event_date DESC) AS row_num
来自 [xs-polar-gasket-4:公共数据集.publictable]
) 按 event_date desc 排序

对于问题1：

Change:

SELECT
  corpus, corpus_date, word_count, SUM(word_count)
OVER
  (PARTITION BY corpus, corpus_date
  ORDER BY word_count, word DESC) AS running_sum
FROM [publicdata:samples.shakespeare]

To:

SELECT
  corpus, corpus_date, word_count, SUM(word_count)
OVER
  (PARTITION BY corpus, corpus_date
  ORDER BY word_count DESC, word) AS running_sum
FROM [publicdata:samples.shakespeare]

（原始查询是按单词排序，但您想按单词计数排序）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googlebigquery

计算 BigQuery 中分区的运行总和的相关文章

BigQuery 数据类型

我正在开始一个新项目只是想在定义表模式之前进行验证 BigQuery 是否支持以下以外的其他功能 string integer float boolean BigQuery 数据类型官方文档 https cloud google com
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
Google BigQuery 另存为表

我用 Google BigQuery 运行了这个查询 SELECT repo id count as count FROM TABLE DATE RANGE githubarchive day events TIMESTAMP 2015 0
BigQuery REGEXP_MATCH 和重音：边界通配符失败？

在 GAS 中我可以正确地将重音符号与具有边界字符的正则表达式相匹配例如 b b 仅当字符是单独的单词时才匹配这在 GAS 中有效 function test regExp var str la s ance est Paris v
如何使用 CLI bq 命令创建一次性数据集副本（无计划重复）

我想使用 bash 脚本在 BigQuery 中制作一次性数据集复制来自source dataset A to target dataset B This operation is easy to do in BigQuery Conso
BigQuery 标准 SQL 错误，根本未触及日期字段时的时间戳无效

答案here https stackoverflow com questions 41195883 bigquery standard sql error invalid timestamp对我没有帮助尽管我在一个相当简单的更新查询中遇到
Bigquery - 选择时间戳作为人类可读的日期时间

如何在 Google Bigquery 中选择时间戳存储为秒作为人类可读的日期时间 schema id STRING signup date TIMESTAMP 我使用编写了一个查询DATE功能但出现错误 SELECT DATE cr
Bigquery dbt_external_tables 外部数据配置

使用 dbt external tables 包时我需要一些帮助我意识到在 GCS 中的 csv 中有些行似乎有换行符这在尝试查询由宏创建的表时会导致一些问题有时手动配置外部表时 BigQuery UI 有两个选项允许锯齿行
在 Google Bigquery 中创建表 SQL 语法

我一直在读bigquery 文档 https cloud google com bigquery loading data从昨天深夜开始了解的就很少了它讨论了通过不同的方法加载数据但没有说明如何创建我要向其中加载数据的表当我使用 W
“--view_udf_resource”是否损坏？

我想在视图中引用 UDF 根据 BigQuery 文档 bq 帮助 mk 以及这篇文章如何创建使用用户定义函数的 BigQuery 视图 https stackoverflow com questions 34167356 how do i
如何通过循环变量在 dbt 中多次运行 SQL 模型？

我有一个 dbt 模型测试模型接受地理变量 zip state region 在配置中我想通过循环变量来运行模型三次每次使用不同的变量运行它问题是我有一个如下所示的宏它将变量附加到输出表名称的末尾即运行测试模型 with z
从字符串到日期的日期格式

我正在使用上传的 csv 进行日期格式化其中日期是具有以下格式的字符串 10 30 2021 8 41 PM 我试图在谷歌大查询中将其更改为 mm dd yyyy 但不断收到错误消息提示无效日期或无效日期时间我尝试过使用子字符串
Firebase 导出到 BigQuery：保留群组查询

Firebase 通过 Firebase 远程配置提供拆分测试功能但缺乏使用用户属性实际上具有任何属性过滤群组部分中的保留的能力为了寻求此问题的解决方案我正在寻找 BigQuery 因为 Firebase Analytics 提供
BigQuery 标准 SQL 中具有不同架构的联合表

附加具有不同架构的表的最佳方法是什么表 0 架构表1 架构这很好用 SELECT img1 NULL as img2 FROM xxx staging table0 UNION ALL SELECT img1 img2 FROM xx
使用 #standardSQL 在 BigQuery 上运行异步 JS 函数

既然 BigQuery 在 standardSQL 上支持异步我如何转换此 legacySQL 函数以在 standardSQL 上运行 legacySQL SELECT SUM s FROM js SELECT FLOOR RAND 1
BigQuery 如何获取 JSON 结构中的值的总和？

我有以下查询 SELECT JSON EXTRACT json Weights as weight from select Weights blue 1 0 purple 0 0 yellow 1 0 green 1 0 as json 返
谷歌的Dremel是什么？它与 MapReduce 有什么不同？

谷歌的 Dremel 是此处描述 http research google com pubs pub36632 html Dremel 和 Mapreduce 有什么区别 Dremel http research google com pu
如何使用 BigQuery 有效地选择另一个表中匹配子字符串的记录？

我有一个包含数百万个字符串的表我想将其与包含大约两万个字符串的表进行匹配如下所示 standardSQL SELECT record FROM record JOIN fragment ON record name LIKE CONCA
Big Query - 将数组/json 对象转置为列

这个问题是这两个问题的延续 Bigquery 将数组转置为列 https stackoverflow com q 64346504 7463780 大查询将特定字段转置为列 https stackoverflow com q 643983
Bigquery 支持触发器吗？

我们目前使用 AWS RDS 作为我们的数据库在表中我们定义了一些表上的插入或更新触发器我想知道Bigquery是否也支持触发器 thanks BigQuery是一个数据仓库产品类似于AWS Redshift和AWS Athena

随机推荐

Bigquery - 计划存储过程不再工作

最近 Bigquery UI 发生了变化似乎不再可以安排存储过程自动执行使用 UI 只是不断要求插入目标表如果我放置一个虚拟表则会创建计划但是当尝试执行时只会抛出一个错误表明在执行存储过程时我们无法拥有目标表有人遇到这个问题并
SQL 注入预防 - GET_VARS

我有一个网址有效时将如下所示 site com page php id 12345 我试图了解我们是否容易受到 sql 注入的攻击在这个特定的实例中该值只能是正整数值因为它是一个 ID 号我们有时确实使用其他变量可以是字母或文本
Groovy 中分割字符串的惯用方法

是否有更好更短更好的方法来执行以下操作 filename AA BB CC DD EE FF xyz parts filename split packageName parts 0 parts 1 parts 2 parts 3 pa
AngularJS - 单个模板中的多个 ng-view

我正在使用 AngularJS 构建一个动态 Web 应用程序是否可以有多个ng view在一个模板上你可以只拥有一个ng view 您可以通过多种方式更改其内容 ng include https docs angularjs org
文件内容更改后使用 ifstream 从同一文件读取（直到 EOF）

要求我必须读到 EOF 16 个字节时间来自特定文件以及然后说睡5秒现在 5秒后当我尝试阅读时从文件其内容将到那时已被附加预期的设计必须是这样的它从它所在的点读取之前离开并再次扫描内容一次 16 个字节直到
bigint 通过 PDO 截断？

我遇到了将大整数存储在 a 中的问题BIGINT通过 PDO 在 MySQL 上列如果我运行这个测试 number 30123456789 var dump number prints string 11 30123456789 new
使用 Connect-MSOLservice 与服务主体连接

我正在尝试使用在 AzureAD 中创建的服务主体通过 PowerShell 脚本进行连接我成功创建了 SP 创建了密钥还创建了自签名证书并将其与帐户关联我知道如何使用 Connect AzureAD 但 Connect MSOLse
可以使用按钮删除从项目添加的数据库条目吗？

我正在尝试使用 Android 编程大书呆子牧场指南自学 Android 开发其中一个练习如果您熟悉这本书请从第 14 章开始涉及创建一个工具栏其中包含一个项目该项目将新条目添加到单击该项目时的数据库一个挑战问题是删除条目
使用 JGit 从 Git 检索提交消息日志

我只想从 Git 存储库检索提交日志其中包含您在特定存储库上完成的所有提交的消息我找到了一些实现此目的的代码片段并以异常结束 try FileRepositoryBuilder builder new FileRepositoryBu
Kivy 窗口隐藏/显示

我是一个Python编程新手学习让我创建一个项目这就是我正在尝试做的事情我想创建一个在系统托盘中运行的程序并且 fire 是一个在后台加载的程序在后台加载这样我可以减少 Kivy 的启动时间在这里和谷歌搜索后我找不到答案我
Azure ARM 角色分配不同的资源组

我正在尝试创建一个具有 VM 的 ARM 模板我希望 VM 具有AcrPull向位于不同资源组中的容器注册表进行角色分配我将范围属性设置为 ACR 的 ID 我从https resources azure com https resou
正则表达式标签解析src、宽度、高度

你可能会对这句话做出反应 H使用正则表达式进行 TML 解析是一个完全糟糕的主意下列的this https stackoverflow com questions 1732348 regex match open tags except
添加对消息的反应。 Discord.py 重写

我正在尝试使用自定义表情符号添加对消息的反应由于某种原因我在网上找不到太多与此相关的内容并且我花了过去 3000 万的时间试图找出不同的方法到目前为止还没有任何效果这是在齿轮内部第一种方法 accept decline awai
Xcode + 删除所有断点

有什么方法可以删除Xcode中的所有断点吗那么有一个三步的方法按 CMD 7 显示所有断点在 Xcode4 中按 CMD 6 在 Xcode3 中按 CMD ALT B 使用 CMD A 选择所有断点然后使用退格键删除它们就像删除
乔姆斯基语言类型

我试图理解四种不同的乔姆斯基语言类型但我发现的定义对我来说没有任何意义我知道类型 0 是自由语法类型 1 是上下文相关的类型 2 是上下文无关的而类型 3 是常规的那么有人可以解释一下这一点并将其放在上下文中吗谢谢语言是属
有没有办法在没有 .* 或 ->* 运算符的情况下调用成员函数

调用方法如下D foo通过指向成员函数的指针调用函数将生成错误必须使用 or gt 在 f 中调用指向成员函数的指针当然这不是我们调用成员函数指针的方式正确的调用方式是 d f 5 OR p gt f 5 我的问题是有没有办法在左侧
如何使用 scipy.optimize.linprog 获得整数解？

当我解决线性规划问题时就像下面的公式一样我希望 x 的结果全部为 int 类型考虑以下问题最小化 f 1 x 0 4 x 1 须遵守 3 x 0 1 x 1 lt 6 1 x 0 2 x 1 lt 4 x 1 gt 3 where
[mccabe] 循环复杂度过高错误是什么意思？

我正在 repl it 中为一个学校项目创建一个 CYOA 并且需要一个列表所以我所做的就是在每次输入时为用户添加一个选项来查看他们的项目在主要的分割处我放了 Items Flask of Root Beer print Intro n
python：使用 gdal 绑定在内存中执行 gdalwarp

我目前有一个加工链R下载MODIS数据然后调用gdalwarp从系统将特定子数据集例如 NDVI 重新投影到 WGS1984 中所结果的GeoTiffs然后被收集到一个HDF5文件以供进一步处理现在我将处理链移至python 我想知道
计算 BigQuery 中分区的运行总和

我正在尝试计算分区上的运行总和这似乎比中建议的方法更容易和更快BigQuery SQL 运行总计 https stackoverflow com questions 14664578 bigquery sql running totals

计算 BigQuery 中分区的运行总和

计算 BigQuery 中分区的运行总和 的相关文章

随机推荐

热门标签

计算 BigQuery 中分区的运行总和的相关文章