分析云数据流 BigQuery 吞吐量/管道

2024-04-13

我试图弄清楚 DataFlow 如何扩展某些操作以及如何使其表现最佳。首先，我刚刚创建了一个简单的流程，从 BigQuery 读取数据（约 25M 行，总共 30GB），执行 JSON 提取，按键进行简单的分组，然后对分组进行聚合（每个约 100 个元素），然后执行另一个操作对每个键进行转换并将其放回到新表中（约 500k 行，总共 25GB）。

总的管道执行时间在 10-18 分钟之间，具体取决于我分配的工作人员数量或我是否使用多核机器等。我无法将其速度加快到低于此速度。我还没有确定确切的阈值，但基本上 20 个单核或 10 个四核之间的差异不再可靠地测量。

所以我的问题是如何进一步调查这个问题并找出哪个步骤花费最多时间以及如何改进它。我认为 DataFlow 本身负责扩展各个步骤并在它们之间进行平衡。但对我来说，现在看到收到的第一条消息和发送的最后一条消息可能很有趣，也许还有每一步随时间变化的吞吐量。这是在某处可用的东西，还是我必须自己开始检测和记录它？有了这些信息，我将开始基于此优化各个步骤，并可能覆盖数据流缩放。

这是正确的方法，还是有更好的方法可用？

** 我的目标时间是将其减少到 2 分钟。

Dataflow 首先执行 BigQuery 导出作业，将数据复制到 GCS，然后再读入并处理数据。同样，Dataflow 将数据写入 GCS，然后执行 BigQuery 导入作业来加载表。

如果您查看作业消息和/或日志，您应该能够看到导出作业何时完成（并且您的代码开始从导出的文件中读取）以及导入作业何时开始（并且您的代码已完成写入所有输出）数据）。如果 10-18 分钟的大部分时间都花在 BigQuery 导入/导出作业上，那么调整管道不会对性能产生重大影响。

其他常见问题是有一两个特别热门的密钥（例如，包含大部分数据）。从您的描述来看，情况似乎并非如此（您提到每个键都有大约 100 个元素）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

分析云数据流 BigQuery 吞吐量/管道的相关文章

是否可以使用 Dapper 流式传输大型 SQL Server 数据库结果集？

我需要从数据库返回大约 500K 行请不要问为什么然后我需要将这些结果保存为 XML 更紧急并将该文件通过 ftp 传输到某个神奇的地方我还需要转换结果集中的每一行现在这就是我正在做的事情 TOP 100结果使用 Dappe
为什么 Web Worker 性能在 30 秒后急剧下降？

我正在尝试提高在网络工作人员中执行时脚本的性能它旨在解析浏览器中的大型文本文件而不会崩溃一切都运行得很好但我注意到使用网络工作者时大文件的性能存在严重差异于是我做了一个简单的实验我在同一输入上运行脚本两次第一次运行在页面的主线程
在 C 中复制两个相邻字节的最快方法是什么？

好吧让我们从最明显的解决方案开始 memcpy Ptr const char a b 2 调用库函数的开销相当大编译器有时不会优化它我不会依赖编译器优化但即使 GCC 很聪明如果我将程序移植到带有垃圾编译器的更奇特的平台上我也不
BigQuery 标准 SQL 错误，根本未触及日期字段时的时间戳无效

答案here https stackoverflow com questions 41195883 bigquery standard sql error invalid timestamp对我没有帮助尽管我在一个相当简单的更新查询中遇到
python 日志记录会刷新每个日志吗？

当我使用标准模块将日志写入文件时logging 每个日志会分别刷新到磁盘吗例如下面的代码会将日志刷新 10 次吗 logging basicConfig level logging DEBUG filename debug log fo
Bigquery 中数组对之间的余弦相似度

我创建了一个表其中有一对 ID 和每个 ID 的坐标以便我可以计算它们之间的成对余弦相似度 The table looks like this 坐标的维度数当前为 128 但可能会有所不同但同一个表中一对 ID 的数字维度始终相同 c
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
为什么n++执行速度比n=n+1快？

在C语言中为什么n 执行速度快于n n 1 int n n int n n n 1 我们的老师在今天的课堂上问了这个问题这不是家庭作业如果您正在开发一个石器时代编译器的情况下石器时代 n比n 比n n 1 机器通常有incre
独立滚动矩阵的行

我有一个矩阵准确地说是 2d numpy ndarray A np array 4 0 0 1 2 3 0 0 5 我想滚动每一行A根据另一个数组中的滚动值独立地 r np array 2 0 1 也就是说我想这样做 print np
为什么 Delphi 中的 ADO Next 记录处理速度变慢？

我有一个多年前开发的 Delphi 4 程序它使用Opus 直接访问 http sourceforge net projects directaccess 按顺序搜索 Microsoft Access 数据库并检索所需的记录 Delphi
如何检查设备是否“快”足够

我找不到更好的措辞来回答我的问题在我的应用程序中的某个时刻我设置了一些非常密集的动画事实是在高端设备上动画运行流畅且赏心悦目另一方面我测试的一款低端设备在制作动画时的性能非常糟糕为了将用户体验放在第一位我想在计算能力足够的
模块化算术和 NTT（有限域 DFT）优化

我想使用 NTT 进行快速平方参见快速大数平方计算 https stackoverflow com q 18465326 2521214 但即使对于非常大的数字结果也很慢超过 12000 位所以我的问题是有没有办法优化我的 NTT
getItem 与 getItemAtPosition

有两种方法可以获取列表视图中的选定项目 list getAdapter getItem position list getItemAtPosition position 我的问题是哪一种是首选的做法我见过人们同时使用这两种方法您可以使
PHP 脚本不断执行 mmap/munmap

我的 PHP 脚本包含一个循环它只不过是回显和取消引用指针如 tab othertab i gt 中的内容直到昨天这个脚本开始变得非常慢比以前慢了 50 倍之前它一直运行良好使用 strace 后我发现 90 的情况下脚
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
为什么改变对象的 [[prototype]] 会降低性能？

来自 MDN 文档standard setPrototypeOf功能 https developer mozilla org en US docs Web JavaScript Reference Global Objects Object
TypeScript 编译速度极慢 > 12 秒

只是把它放在那里看看其他人是否也遇到这个问题我已经使用 webpack 作为我的构建工具使用 typescript 构建了一个 Angular 2 应用程序一切都运行良好但是我注意到 typescript 编译超级超级慢我现在只有
如何优化分割重叠范围？

我编写的这个 Python 脚本用于将重叠范围拆分为唯一范围最后一次迭代 https codereview stackexchange com questions 285932 python script to split overlap
在什么情况下 do-while 比 while 更高效？

while 与 do while while 和 do while 在功能上是等效的当块为空时虽然 while 看起来更自然 do while keepLooping while keepLooping 使用空块的 while do wh
IronPython 中批量求值表达式的性能

在 C 4 0 应用程序中我有一个具有相同长度的强类型 IList 的字典一个基于动态强类型列的表我希望用户根据将在所有行上聚合的可用列提供一个或多个 python 表达式在静态上下文中它将是 IDictionary

随机推荐

使用perl从多表html文件中提取特定表[关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我有一个包含三个表的 html 文件但我只想提取三张表中的一张我该怎么做呢您可以使用已知的Perl模块如 LWP WWW Mechan
能否在 C++11 中检索线程函数的返回值？

如果一个函数有一个非空返回值并且我使用 join那么函数有没有办法获取它的返回值呢这是一个简化的示例 float myfunc int k return exp k int main std thread th std thread my
从查找公式返回单元格引用而不使用匹配

我有一个电子表格记录一段时间内的每日销售数量我想计算平均每日销售额但排除我们开始销售产品之前的日子因为它们都返回 0 我有下面的查找函数它返回包含大于 0 的值的行中最后一个单元格的值 LOOKUP 2 1 F5 L5 gt 0
maven pom xml 文件中的错误：构建 Android 项目 [重复]

这个问题在这里已经有答案了我在 pom xml 文件中的插件标签中收到错误错误出现在插件标签上 groupId 之前 Error Plugin execution not covered by lifecycle configurati
android：如何禁用开关动画？

最近我正在使用名为 switch 的小部件开关是 Android Studio 的默认小部件问题是当我使用开关添加新项目时它的动画将会运行但我不想看到它我在项目中使用了ListView和Cursor Adapter 开关是一个
使用 BUTTON 标签关闭表单提交上的 Fancybox iframe - 不起作用

根据 Fancybox API 我在 iframe 中使用以下代码
使用 java 反编译器 jd-gui 并获取 // 内部错误 //

我使用 dex2jar 反编译了一个 apk 文件并在 jd gui 中打开了生成的 jar 文件我可以很好地查看几乎所有代码但其中一个部分常量仅显示 INTERNAL ERROR 没有别的有没有办法检索常量任何经过这个问题的
如何从字符串设置 imageView 的图像？

我在 res drawable mdpi 目录中有一个条目列表和一些位图文件我试图通过生成路径字符串并使用位图工厂来加载与从列表中选择的字符串值相对应的图像问题是我认为我的路径不正确因为位图始终为空即使对于默认图像也是如此 Stri
Windows 8（64 位）上 R 中 foreach 循环的内存问题（doParallel 包）

我正在尝试从串行方法转向并行方法以在大型数据集上完成一些多元时间序列分析任务data table 该表包含许多不同组的数据我正在尝试从for循环到一个foreach循环使用doParallel软件包以利用安装的多核处理器我遇到的问题与
在 PixelCopy 中保存离屏视图的图像

我有一个屏幕ScrollView 然后当我点击滚动视图底部的按钮时我会保存视图的图像我遇到的问题是我无法将滚动视图的上部屏幕外保存为图像我在用PixelCopy使用以下代码 fun takeScreenshot view Vie
CSS 中每个
标题下方的水平线/线

我试图在每个实例下方自动放置一条 100 水平线规则 h1 使用 CSS 的标头标签我想看到的示例剪断 8 介绍剪断 8 我的CSS中有这个 mypage headline font family Calibri Helvetica
AntiForgery.GetTokens：oldCookieToken 参数的用途是什么？

我们正在使用 Objective C 编写一个 iOS 移动应用程序用于向我们的 ASP NET MVC 服务器应用程序发送帖子在 iPhone 上 HTTP 堆栈和 cookie 等似乎与 Safari 共享这使我们容易受到 X
Tensorflow 无法获取变量的梯度，但可以获取张量的梯度

我感兴趣的是计算损失的梯度该梯度是根据 TensorFlow 中矩阵乘法与 Eager Execution 的乘积计算得出的如果乘积被计算为张量我可以这样做但如果它是assign ed 到变量中这里是greatly减少代码 imp
如何访问keycloak的自定义用户存储提供程序中原始区分大小写的用户名输入？

我需要将 keycloak 与现有应用程序集成用户使用用户名和密码登录不幸的是该应用程序支持区分大小写的用户名并且必须继续这样做创建自定义用户存储提供程序时在入口点public UserModel getUserByUserna
Azure，存储共享访问签名 2.0 的访问被拒绝

我在获取共享访问签名与 Storage 2 0 一起使用时遇到问题我使用代码 if blob Exists var expires DateTime UtcNow AddMinutes 30 var sas blob GetSharedA
为什么我的设计查看器中的字体在 Android Studio 中变得模糊？

为什么我的 Android 设计查看器中的文本显得模糊我也尝试更改分辨率 DPI 设置但这对我不起作用 Please look at my second picture to let you know which one is I am
域名通过“dig”存在

是否可以通过检查 dig 的输出来检查域名是否存在在绑定源中我发现了这些常量 0 DNS R NOEROR 1 DNS R FORMERR 2 DNS R SERVFAIL 3 DNS R NXDOMAIN 4 DNS R NOTIMP
在 Firefox 扩展中，moment.js 不会在 Chart.js 之前加载

我正在将 Chrome 扩展移植到 Firefox 它将 Chartjs 图表添加到页面中它需要 moment js 并且在 Chrome 上运行得很好但是当我将其移植到 Firefox 时图表无法加载并且出现错误错误 Char
Python TypeError - 尝试创建签名时需要字节但得到“str”

我正在尝试为 API 调用创建签名文档提供了以下说明 timestamp str int time time message timestamp request method request path url request body o
分析云数据流 BigQuery 吞吐量/管道

我试图弄清楚 DataFlow 如何扩展某些操作以及如何使其表现最佳首先我刚刚创建了一个简单的流程从 BigQuery 读取数据约 25M 行总共 30GB 执行 JSON 提取按键进行简单的分组然后对分组进行聚合每个约 1

分析云数据流 BigQuery 吞吐量/管道

分析云数据流 BigQuery 吞吐量/管道 的相关文章

随机推荐

CSS 中每个 标题下方的水平线/线 我试图在每个实例下方自动放置一条 100 水平线 规则 h1 使用 CSS 的标头标签 我想看到的示例 剪断 8 介绍 剪断 8 我的CSS中有这个 mypage headline font family Calibri Helvetica

热门标签

分析云数据流 BigQuery 吞吐量/管道的相关文章

CSS 中每个
标题下方的水平线/线

我试图在每个实例下方自动放置一条 100 水平线规则 h1 使用 CSS 的标头标签我想看到的示例剪断 8 介绍剪断 8 我的CSS中有这个 mypage headline font family Calibri Helvetica