带有“Order Each by”子句的 Google BigQuery 大表(105M 记录)会产生“资源超出查询执行”错误

2023-12-14

我遇到了严重的问题“资源超过查询执行" 当 Google Big Query 大表(105M 记录)带有 '订购每个'条款。

这是示例查询(使用公共数据集:维基百科):

SELECT Id,Title,Count(*) FROM [publicdata:samples.wikipedia] Group EACH by Id, title Order by Id, Title Desc

如何在不添加 Limit 关键字的情况下解决这个问题。


在大数据数据库上使用order by并不是一个普通的操作,在某些时候它超出了大数据资源的属性。您应该考虑对查询进行分片或在导出的数据中运行订单。

正如我今天向您解释的你的另一个问题,添加allowLargeResults将允许您返回较大的响应,但您不能指定顶级 ORDER BY、TOP 或 LIMIT 子句。这样做会抵消使用的好处allowLargeResults,因为查询输出无法再并行计算。

您可以尝试的一种选择是对查询进行分片。

where ABS(HASH(Id) % 4) = 0

您可以多次使用上述参数来获得更小的结果集,然后进行组合。

另请阅读第 9 章 - 了解查询执行它解释了内部分片的工作原理。

你还应该阅读BigQuery 启动清单

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

带有“Order Each by”子句的 Google BigQuery 大表(105M 记录)会产生“资源超出查询执行”错误 的相关文章

  • 未找到函数:group_concat

    我很感兴趣使用执行查询 group concat BigQuery 函数 https cloud google com bigquery docs reference legacy sql group concat 当我直接在 BigQue
  • 无法删除 Google 管理的 SSL 证书

    我无法删除 Google 管理的 SSL 证书 当我删除它时 它又会回来 该证书不被任何其他服务使用 我可以删除其他证书 但它们不会再回来 我也有这个问题 我在文档中发现只有在以下情况下才能删除证书 仅当没有其他资源 例如目标 HTTPS
  • 如何合并两个 id 列,识别哪些行属于同一组相关 ID

    我有 2 个独立创建 收集的 ID 列 我试图通过根据两个 ID 列之一确定哪些行属于同一相关 id 组的一部分 从而将这两个 ID 列合并为一个 我会根据一些规则考虑行的相关性 1 如果一个LOAN在多行中具有相同的值 则它们属于同一组
  • Python 单元测试 Google Bigquery

    我在对以下代码块进行单元测试时遇到问题 from google cloud import bigquery from google oauth2 import service account def run query query gcp
  • 如何给Google Cloud Eventarc正确的权限,以便它可以触发云功能?

    我已经成功部署了第二代云功能 并带有存储触发器谷歌教程 https cloud google com functions docs tutorials storage object finalize 当我在 shell 中运行测试命令时 云
  • Firestore 每秒向一个集合写入 500 多次以上

    Firestore 的限制为每秒 500 次写入 to 一个集合 其中文档包含顺序值 索引字段 https cloud google com firestore quotas writes and transactions https cl
  • 从谷歌云存储桶加载数据

    这是一个从谷歌云存储桶加载数据的函数 action dataset folder path action data set zip path actions zip url http console cloud google com sto
  • GKE:入口负载均衡器不使用配置的静态 IP

    我在 GCP 中使用 terraform 创建了一个全局静态 IP 地址 但是 当我尝试将其分配给 GKE 集群内的入口控制器时 它会被忽略 这是我的 Kubernetes 配置 apiVersion extensions v1beta1
  • Google Cloud Functions 中的 Python

    Google Cloud Functions 可以使用 sklearn pandas 等包处理 python 吗 如果是这样 有人可以向我指出如何做到这一点的资源方向 我已经搜索了一段时间 似乎这是不可能的 我找到的只是将基本 python
  • Ingress 未在 GKE 和 GCE 上获取地址

    创建入口时 不会生成地址 并且从 GKE 仪表板查看时 它始终位于Creating ingress地位 描述入口没有显示任何事件 我在 GKE 仪表板上看不到任何线索 有没有人有类似的问题或关于如何调试的任何建议 我的部署 yaml api
  • Google Cloud - 谷歌云功能的出口 IP / NAT / 代理

    我正在为我的公司构建一个数据摄取层 其中有很多不同的集成点 其余 api 某些 API 要求您从列入白名单的 IP 进行连接 我真的很想使用谷歌云功能 pubsub 来构建摄取逻辑 因为它具有可扩展性并降低了成本 但问题是谷歌云功能总是从随
  • BigQuery 未显示链接的 Firebase Analytics 事件日志的任何数据集

    我将我的帐户链接到 Big Query 但 Firebase Analytics 事件不会自动加载到 BigQuery 中 显示 未找到数据集 警告 我的工作进度附在下面 请查收 I have getting firebase Analyt
  • Google Cloud SDK 无法安装“.exe;.bat;.com”不是可识别的命令

    我正在尝试在 Windows 10 笔记本电脑上安装 google cloud SDK 我尝试删除安装文件夹中的空格 并将路径添加到我的环境变量中 完整的错误是 Output folder C Users user Documents Do
  • BigQuery 无法插入作业。工作流程失败

    我需要通过 Dataflow 和 Beam 运行从 GCS 到 BigQuery 的批处理作业 我的所有文件都是具有相同架构的 avro 我创建了一个数据流java应用程序 它在较小的数据集 1gb 大约5个文件 上取得了成功 但是当我尝试
  • 如何使用 BigQuery 有效地选择另一个表中匹配子字符串的记录?

    我有一个包含数百万个字符串的表 我想将其与包含大约两万个字符串的表进行匹配 如下所示 standardSQL SELECT record FROM record JOIN fragment ON record name LIKE CONCA
  • Big Query - 将数组/json 对象转置为列

    这个问题是这两个问题的延续 Bigquery 将数组转置为列 https stackoverflow com q 64346504 7463780 大查询 将特定字段转置为列 https stackoverflow com q 643983
  • 在Firestore中管理createdAt时间戳

    每天我都会将产品从外部零售商进口到谷歌云Firestore https firebase google com docs firestore 数据库 在此过程中 产品可以是新的 新文档将添加到数据库中 或现有的 现有文档将在数据库中更新 应
  • Google Compute Engine 虚拟机不断崩溃

    在 us west 1b 中的 Compute Engine 虚拟机上 我运行 16 个 vCPU 利用率接近 99 几个小时后 虚拟机自动崩溃 这不是一次性事件 我必须手动重新启动虚拟机 有几个实例的 CPU 使用率突然下降到 30 左右
  • 可并行化 OVER EACH BY

    我一次又一次地遇到这个障碍 JOIN EACH 和 GROUP EACH BY 子句不能用于窗口函数的输出 https stackoverflow com questions 20966816 join each and group eac
  • Github 操作不适用于 GCP。 403:权限“iam.serviceAccounts.getAccessToken”被拒绝

    我正在尝试创建一个 GithubAction 作业 该作业应通过身份联合在 GCP 中进行身份验证并将一些文件上传到存储桶 Here https github com vyshkov gcp serverless blob main git

随机推荐