BigQueryIO 读取与 fromQuery

2024-01-08

假设在 Dataflow/Apache Beam 程序中，我正在尝试读取数据呈指数增长的表。我想提高读取的性能。

BigQueryIO.Read.from("projectid:dataset.tablename")

BigQueryIO.Read.fromQuery("SELECT A, B FROM [projectid:dataset.tablename]")

如果我只选择表中所需的列，而不是上面的整个表，我的读取性能会提高吗？

我知道选择很少的列可以降低成本。但想知道上面的读取性能。

你是对的，它会降低成本，而不是引用 SQL/查询中的所有列。另外，当您使用from()代替fromQuery()，您无需为 BigQuery 中的任何表扫描付费。我不确定你是否意识到这一点。

在幕后，每当 Dataflow 从 BigQuery 读取数据时，它实际上会调用其导出 API 并指示 BigQuery 将表作为分片文件转储到 GCS。然后 Dataflow 将这些文件并行读取到您的管道中。它不会“直接”从 BigQuery 准备就绪。

因此，是的，这个might提高性能，因为需要在后台导出到 GCS 并读入管道的数据量将会减少，即更少的列 = 更少的数据。

但是，我也会考虑使用分区表，然后甚至考虑对它们进行集群。另外，使用WHERE子句以进一步减少要导出和读取的数据量。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googlebigquery

googleclouddataflow

dataflow

BigQueryIO 读取与 fromQuery 的相关文章

如何使用 BigQuery 提取 JSON 对象中的所有键

BigQuery 具有在实时交互式查询中解析 JSON 的功能只需将 JSON 编码的对象存储为字符串然后使用 JSON EXTRACT SCALAR 等函数进行实时查询但是我无法找到一种方法来发现这些对象中的所有键属性我可以为
BigQuery 无法将字段的“null”解析为 int

尝试将 csv 文件加载到 bigquery 表中有些列的类型为 INTEGER 但某些缺失值为 NULL 所以当我使用命令 bq load 加载时出现以下错误无法将 null 解析为字段的 int 所以我想知道处理这个问题的最佳解决
BigQuery中有新数据时触发云功能

我想在新数据导入 BigQuery 表时触发 Cloud Function 理想情况下我想提取已插入的所有行一列是 ISIN 这可能吗如何实现 2022 年 6 月更新第二代 Cloud Functions 支持Eventarc h
Dataflow 2.1.0 中是否有 IntrabundleParallelization 的替代方案？

根据 dataflow 2 X 的发行说明 IntraBundleParallelization 已被删除有没有办法控制增加数据流 2 1 0 上 DoFns 的并行度当我在 1 9 0 版本的数据流上使用 IntrabundlePa
在 Apache Beam 中监视与文件模式匹配的新文件

我在 GCS 或其他受支持的文件系统上有一个目录外部进程正在向该目录写入新文件我想编写一个 Apache Beam 流式传输管道它可以连续监视此目录中的新文件并在每个新文件到达时读取和处理它这可能吗从 Apache Beam 2
bigquery 中的条件连接

我有两张桌子表 1 是单列整数表 2 有三列 start integer end integer data 简单的查询是将整数列与数据连接起来其中 integer gt start integer AND integer lt end
将 10 个数据集（每个数据集有 80 个表）从 bigquery 导出到 Google 存储的有效方法？

我在 BigQuery 中有 10 个数据集每个数据集有 80 个表我知道我可以使用控制台或 Web UI 将每个数据集中的每个表逐一导出到 google 存储这是出于备份目的然而这需要一段时间我想知道是否有更方便的方法来处理这
oauth2client.client.AccessTokenRefreshError: invalid_grant 仅在 Docker 中

我有相同的代码具有相同的 p12 文件检查了 md5 和相同的 account email 和相同的范围可以在多台计算机上工作但不能在任何工作计算机上的 Docker 容器中工作我的代码片段如下 with open self p
如何将 python 包安装到 Google Dataflow 并将其导入到我的管道中？

我的文件夹结构如下 Project Pipeline py setup py dist ResumeParserDependencies 0 1 tar gz Dependencies Module1 py Module2 py Modul
将带有变量的循环转换为 BigQuery SQL

我有数千个脚本其中包括循环数据集并使用变量进行累积例如 assuming that ids is populated from some BQ table ids 1 2 3 4 5 var1 v1 initialize variabl
Apache Beam：跳过已构建的管道中的步骤

有没有办法有条件地跳过已构建的管道中的步骤或者管道构建是否被设计为控制运行哪些步骤的唯一方法通常管道构造控制将执行管道中的哪些转换但是您可以想象一个输入多个输出ParDo复用输入PCollection到输出之一PCollecti
从 Dataflow 中的 BigQuery 读取时设置 MaximumBillingTier

当我从 BigQuery 读取数据作为查询结果时我正在运行 GCP Dataflow 作业我正在使用 google cloud dataflow java sdk all 版本 1 9 0 设置管道的代码片段如下所示 PCollecti
Apache Beam：具有无限源的批处理管道

我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据数据来自Google PubSub 它是无限制的所以目前我正在使用流媒体管道然而事实证明拥有一个 24 7 运行的流管道是相当昂贵的为了降
将新文件添加到 Cloud Storage 时触发 Dataflow 作业

我想在将新文件添加到存储桶时触发数据流作业以便处理新数据并将其添加到 BigQuery 表中我看到云函数可以被触发 https cloud google com functions calling google cloud storag
BigQuery 数据类型

我正在开始一个新项目只是想在定义表模式之前进行验证 BigQuery 是否支持以下以外的其他功能 string integer float boolean BigQuery 数据类型官方文档 https cloud google com
Google BigQuery 另存为表

我用 Google BigQuery 运行了这个查询 SELECT repo id count as count FROM TABLE DATE RANGE githubarchive day events TIMESTAMP 2015 0
如何在流式管道中按小捆绑的 N 个元素进行批处理？

我已经按照此答案中的描述实现了 N 个元素的批处理谷歌数据流管道中的数据存储输入可以一次处理一批 N 个条目吗 https stackoverflow com questions 35065109 can datastore input
Bigtable 与 Bigquery 时间序列数据用例

我希望最终确定 Big table 与 Bigquery 的时间序列数据用例我曾经经历过https cloud google com bigtable docs schema design time series https cloud
将大型 CSV 加载到 Google BigQuery 时出错

将大型 CSV 加载到 bigquery 时出现错误我在网上阅读的所有地方都发现压缩文件有 5GB 大小限制但 CSV 没有限制加载操作中的 BigQuery 错误处理作业 bqjob r3016bbfad3037f 0000015
bq cmd 查询 Google Sheet 表出现“访问被拒绝：BigQuery BigQuery：未找到具有 Google Drive 范围的 OAuth 令牌”错误

我有一个与Google Sheet连接的表使用WebUI查询该表成功但是如果我使用bq cmd查询它将回显错误消息访问被拒绝 BigQuery BigQuery Google Drive 没有 OAuth 令牌范围已找到我假设你

随机推荐

如何在另一个 QML 文件中通过 id 引用某个项目？

假设我有以下两个 qml 文件 main qml Window onSomething mybutton text foo Foo Foo qml Item Button id mybutton When onSomething调用它会产生
通过 Python Flask 从一个 HTML 输入获取多个值

我有一个动态生成的行数其中包含具有默认值 order quantity 的表中的文本框基本上在一篇文章中我希望 sql 中的项目表根据这些文本框的 ID 来更新它们的值 for i in items tr td td td td t
JPA / Hibernate / Derby TableGenerator 使用负值

我希望数据库中生成的所有主键均为负整数我定义了一个TableGenerator
Win32 PlaySound：如何控制音量？

我正在使用 Win32 多媒体函数播放声音 http msdn microsoft com en us library dd743680 28VS 85 29 aspx从我的应用程序中播放声音我希望能够动态调整正在播放的声音的音量with
从 AnyObject 扩展的协议和纯类协议有什么区别？

这两个声明 protocol SomeProtocol AnyObject 和这个声明 protocol SomeProtocol class 似乎使得只有类可以符合此协议即协议的实例是对对象的引用并且没有其他效果他们之间有什么区别吗
将文件放在 FTP 站点上，其中包含字符串变量的内容（无本地文件）

I want to upload a file to an FTP server but the file content is held in a variable not in an actual local file I want t
如何将 java.util.Date 实例的时间设置为 00:00:00？

我有一个类型的变量java util Date 如何将时间部分设置为 00 00 00 我不允许使用 Apache Commons 库或 JodaTime 这java util Calendar可能是我唯一的选择要将时间从Date完全反对
通过创建时间戳来跟踪更改

我发现原始代码 Excel VBA 可以很好地跟踪一列 Private Sub Worksheet Change ByVal Target As Range Update 20140722 Dim WorkRng As Range Dim
在 bash 中使用多个核心

我有一个 Linux 工具可以大大简化剪切 illumnaSeq 文件中指定的序列我有 32 个锉刀要磨处理一份文件大约需要 5 小时我有一台centos服务器它有128个核心我找到了一些解决方案但每种解决方案的工作方式都
是否可以像OpenCV一样在android中使用Dlib？

好吧我需要一个关于在 android 中使用 Dlib 的清晰网站或信息我在网上搜索了一个使用 Dlib 的 Android 示例应用程序但我仍然找不到我仍然不确定我们是否可以使用android中的Dlib方法来生成 a文件以便我
“字符串”不包含“包含”的定义

我有这样的声明 var vals from StandAloneUserPayment saup in Session Query
是否可以将 JSF+Facelets 与 HTML 4/5 一起使用？

Facelets 依赖 XML 命名空间来与 XHTML 配合使用 HTML 4 怎么样据我所知 HTML 5 不支持命名空间 HTML 5 还有一些 XHTML 中不可用的新元素即使 HTML 4 和 XHTML 在它们支持的元素和属
令人困惑的按键事件案例

背景开发一个用于屏幕投射的基本开源键盘和鼠标屏幕显示桌面应用程序称为KmCaster https github com DaveJarvis kmcaster 该应用程序使用JNativeHook https github com kw
php do while 不适用于 next->rowset

你好我的电脑上有我的 wamp 服务器 PHP 5 4 12 阿帕奇2 4 4 MYSQL 5 6 12 还有我的服务器 PHP 5 5 3 阿帕奇2 4 6 MYSQL 5 5 37 当我在服务器上执行此功能时出现此错误 SQLSTA
用于分割 CSV 的正则表达式

我知道这个或类似的已经被问过很多次了但是在尝试了多种可能性之后我还没有找到一个 100 工作的正则表达式我有一个 CSV 文件我试图将其拆分为一个数组但遇到两个问题带引号的逗号和空元素 CSV 看起来像 123 2 99 A
配置 Django URLS.py 以在 URL 中以 / 重写后保留 #anchors

在我的 django 应用程序中我将 URLS PY 配置为接受对 community user id 和 community user id 的请求 url r P
使用构造函数初始化 F# 对象

I 我知道 https stackoverflow com questions 371878 object initialization syntax在 F 中如果您有以下格式的 C 类 public class Person publi
UNITY 触摸位置到世界位置 2D

如何将触摸位置在手机上转换为世界位置例如如果我的手机屏幕尺寸为 1440 x 2560 而我在手机上的触摸位置为 X 600 Y 700 我如何将该位置转换为统一的世界位置我需要它这样我才能知道用户将手指放在哪里有一种方法已经
如何将 props 从一个组件传递到另一个组件

我有两个组件一个在另一个组件内部渲染父组件有子组件需要的一些操作但我不知道如何将其传递下去控制台日志最后我需要将操作传递给孩子因为孩子需要该操作问题是孩子已经在同一屏幕中渲染所以我不知道如何传递这些信息父组件半径 rend
BigQueryIO 读取与 fromQuery

假设在 Dataflow Apache Beam 程序中我正在尝试读取数据呈指数增长的表我想提高读取的性能 BigQueryIO Read from projectid dataset tablename or BigQueryIO R

BigQueryIO 读取与 fromQuery

BigQueryIO 读取与 fromQuery 的相关文章

随机推荐

热门标签