计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

2024-05-09

我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道。我需要运行多个转换，所有这些转换都希望项目按键分组。

基于这个答案question https://stackoverflow.com/questions/51203221/optimizing-repeated-transformations-in-apache-beam-dataflow，DataFlow 无法自动发现并重用像 GroupBy 这样的重复转换，因此我希望先运行 GroupBy，然后将结果 PCollection 提供给其他转换（请参阅下面的示例代码）。

我想知道这是否应该在 DataFlow 中有效地工作。如果没有，Python SDK 中推荐的解决方法是什么？是否有一种有效的方法可以让多个 Map 或 Write 转换获取同一 GroupBy 的结果？就我而言，我观察到 DataFlow 在利用率为 5% 时扩展到最大工作线程数，并且在 GroupBy 之后的步骤中没有取得任何进展，如此处所述question https://stackoverflow.com/questions/55401268/a-simple-counting-step-following-a-group-by-key-is-extremely-slow-in-a-dataflow.

示例代码。为简单起见，仅显示 2 个变换。

# Group by key once.
items_by_key = raw_items | GroupByKey()

# Write groupped items to a file.
(items_by_key | FlatMap(format_item) | WriteToText(path))

# Run another transformation over the same group.
features = (items_by_key | Map(extract_features))

单台喂料输出GroupByKey步骤进入多个转换应该可以正常工作。但是您可以获得的并行化程度取决于原始数据中可用键的总数GroupByKey步。如果任何一个下游步骤具有高扇出，请考虑添加一个改组 https://github.com/apache/beam/blob/master/sdks/python/apache_beam/transforms/util.py#L632在这些步骤之后将允许 Dataflow 进一步并行执行。

例如，

pipeline | Create([<list of globs>]) | ParDo(ExpandGlobDoFn()) | Reshuffle() | ParDo(MyreadDoFn()) | Reshuffle() | ParDo(MyProcessDoFn())

Here,

ExpandGlobDoFn：扩展输入全局并生成文件
MyReadDoFn：读取给定文件
MyProcessDoFn：处理从文件中读取的元素

我用了两个Reshuffle在这里（请注意Reshuffle has a GroupByKey其中）允许（1）并行读取给定 glob 中的文件（2）并行处理给定文件中的元素。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换的相关文章

如何通过服务帐户使用 Terraform `google_app_engine_domain_mapping`？

我正在尝试使用以下配置通过 Terraform 创建 GCP App Engine 域映射 provider google version 3 36 0 region var region resource google app engin
创建一个能够从容器注册表中提取的 Docker 就绪计算引擎

我们使用 terraform 设置 GCE 实例然后使用 ansible playbooks 来配置它们并将我们的服务转移到机器上我正在我们的组织中运行一个项目该项目需要从另一个项目中提取 Docker 映像这些图像托管在另一个项目
Apache Beam：跳过已构建的管道中的步骤

有没有办法有条件地跳过已构建的管道中的步骤或者管道构建是否被设计为控制运行哪些步骤的唯一方法通常管道构造控制将执行管道中的哪些转换但是您可以想象一个输入多个输出ParDo复用输入PCollection到输出之一PCollecti
使用 Airflow BigqueryOperator 向 BigQuery 表添加标签

我必须向 bigquery 表添加标签我知道可以通过 BigQuery UI 来完成此操作但如何通过气流运算符来完成此操作 Use case 用于计费和搜索目的由于多个团队在同一项目和数据集下工作我们需要将各个团队创建的所有表组合在
解析 dockerfile 路径时出错：请使用 --dockerfile 在构建上下文中提供 Dockerfile 的有效路径

apiVersion v1 kind Pod metadata name kaniko spec containers name kaniko image gcr io kaniko project executor latest args
Jenkinsfile 泊坞窗

我正在 docker 容器内的 GCE 上运行一个 jenkins 实例并希望从此 Jenkinsfile 和 Github 执行多分支管道我正在使用GCE詹金斯 https cloud google com solutions con
未找到“google\appengine\CreateUploadURLRequest”类

我正在使用谷歌云CORE PHP使用简单的 HTML 表单上传文件但我被困在CloudStorageTools班级它会抛出连续的跟随错误致命错误类找不到 google appengine api cloud storage Clou
如何在数据流中正确使用“展平”

我们的管道如下所示 GCS gz 压缩文件 gt ParDo gt BigQuery 我想使用展平从 GCS 中提取多个文件作为管道的输入但它一直因错误而烦恼 Workflow failed Causes 5001e5764f46ac
Grpc.Auth：无法从程序集“Grpc.Core.Api”加载类型“Grpc.Core.CallCredentials”

Context 我正在尝试使用 Google 的 Cloud Natural Language API 我有我的服务帐户密钥 JSON 文件并且正在尝试编写一个简单的 NET Core 应用程序更具体地说是使用 NET Core 的 A
尝试将 CLI 登录到 Firebase 时出现“出现问题”

大约 2 年后我重新开始使用 Firebase 现在我在尝试将 CLI 登录到 Firebase 时遇到问题是的我已经安装了npm i g firebase tools 我已经尝试了 3 个不同的命令所有这些命令都会生成下面的图像之
签名 URL 在过期日期后仍然有效

我创建了一个签名 URL 有效期为 2 天尽管过期但它仍然有效我希望它给出一些错误 3XX 4XX 测试脚本 https gist githubusercontent com forvaidya 984003008b0603ca679
处理 Cloud Run 容器关闭

在编写 Cloud Run 服务时我们开发一个容器来监听PORT用于处理传入 HTTP 请求的环境变量容器的实例会启动并处理请求然后在完成原始请求后存活一段时间以防有更多请求到达如果没有进一步的请求 GCP关闭容器我在这方面有一
GCP 日志浏览器显示日志记录的错误严重级别

我正在 GKE 中运行 java 应用程序并在日志资源管理器中监视日志 Java 应用程序正在将日志写入stdout据我了解 GKE 代理解析它并将其发送到日志资源管理器我发现日志浏览器显示WARN and ERROR具有严重性的消息IN
我是否需要在我的 Firebase 项目中添加 SHA-1 指纹？

在 Firebase 上有一个弹出窗口显示我的项目可以添加指纹 SHA1 因为我只想使用一些 Firebase 服务例如实时数据库身份验证我需要在我的项目中添加指纹吗该图显示仅在使用某些 Google Play 服务如 OAu
使用 NodeJS 从 GCP 存储下载对象

我在用着 google cloud 存储 https www npmjs com package google cloud storage从节点应用程序访问 Google Cloud Storage 存储桶内的对象但我无法使其工作我已在
如何更改谷歌云数据存储类型名称？

我们正在使用google cloud datastore存储数据不幸的是最初没有遵循命名约定kinds现在我们想要改变数据存储中已存在的种类的名称我们已经积累了大量的数据并且生成这些数据涉及大量的计算因此仅仅为了重命名一种类型而再次
找不到模块：无法解析 @google-cloud/storage 上的“fs”

得到Module not found Can t resolve fs 尝试从 GCP Storage 列出存储桶时出错 import Storage from google cloud storage const googleCloud
BigQuery - 预定查询更新通知电子邮件

有没有办法将计划查询通知电子邮件更新为自定义内容默认情况下它是创建者的电子邮件但是这通常是没有真正电子邮件收件人的服务帐户例如通过 terraform 配置我们将拥有一个服务帐户我们希望将电子邮件通知目标从 SA 更新为支持
使用 Apache Beam python 创建 Google 云数据流模板时出现 RuntimeValueProviderError

我无法使用 python 3 7 暂存云数据流模板它在一个参数化参数上失败了apache beam error RuntimeValueProviderError RuntimeValueProvider option input typ
Google Cloud Platform (GCP) Cloud Shell“Boost”功能缺失

当我今天打开 GCP Cloud shell 时 Boost 功能消失了尝试了所有菜单甚至尝试了此处给出的选项通过 gcloud cli 启用 Google Cloud Shell Boost 模式 https stackoverfl

随机推荐

.net MVC 将 MP4 流式传输到 iDevice 问题

我一直在编写用于提供视频服务的一段代码但遇到了一些问题代码如下 public ResumingFileStreamResult GetMP4Video string videoID if User Identity IsAuthenti
triggerHandler 导致错误：[$rootScope:inprog] $apply 已进行中错误 - AngularJS

我试图在按下某个键时触发按钮的单击我正在使用triggerHandler函数但这导致了上述错误我想我一定创建了某种循环引用循环但我看不到在哪里这是我的 HTML
可移植的非关系数据库

我想尝试尝试非关系数据库最好的解决方案是便携式这意味着它不需要安装理想情况下只需将目录复制粘贴到某个地方即可使其工作我不介意第一次使用时是否需要编辑一些配置文件或运行配置工具可从 python 访问适用于 Windows
VIM - 显示上次保存版本和当前未保存版本的差异[重复]

这个问题在这里已经有答案了可能的重复在 Vim 中保存文件之前我可以看到更改吗 https stackoverflow com questions 749297 can i see changes before i save my fi
电话号码的正则表达式，不允许全零

需要您的正则表达式帮助我当前的正则表达式是 d 8 最小长度为 8 不允许包含字母特殊字符和空格我还想禁止全零如 00000000 Thanks 该模式应该可以满足您的需求 0 d 8 The 0 部分是负前瞻将阻止仅输入零 Ex
Rails：从视图内渲染视图（不是部分视图）

我有一个对两者都有响应的控制器html and js The htmlview 渲染整个页面包括页眉和页脚而js仅替换 main 除了页眉和页脚之外两种格式呈现相同的内容我可以用三个文件获得这种效果 show html erb di
加密成本高，解密成本低

我希望该用户攻击者加密数据并发送给服务器现在我想要一种与标准算法完全相反的算法使用快难以解密即很难使用服务器发送的密钥来加密密码等数据以防止随机攻击但很容易解密这样服务器在验证用户时消耗的时间非常少但是对于攻击者来说每次使
将二进制数据的 byte[] 转换为 String

我有二进制格式的数据 hex 80 3b c8 87 0a 89 我需要将其转换为字符串以便通过 Jackcess 将二进制数据保存在 MS Access 数据库中我知道我不打算在 Java 中使用 String 来存储二进制数据但
使用netcat将unix套接字传输到tcp套接字

我正在尝试使用以下命令将 unix 套接字公开为 tcp 套接字 nc lkv 44444 nc Uv var run docker sock 当我尝试访问时localhost 44444 containers json从浏览器中它不会加
在加载“cv2”二进制扩展期间检测到递归

我有一个小程序在 pyinstaller 编译后返回 opencv 错误但无需编译即可工作我在 Windows 10 上使用 Python 3 8 10 Program 导入 pyautogui将 numpy 导入为 np导入CV2
在 SQL 查询中使用 fn_Split

我一直在努力争取fn Split在我的查询中正常工作我到处搜索并在这里找到了似乎接近我需要的答案但我仍然无法使其发挥作用基本上我试图返回与数组中的条目匹配的记录我已经有了一个与我的数据库一起使用的表值函数如下所示 Select
实体框架 ObjectContext 是否正确实现了工作单元模式？

实体框架 4 STE 具有单表博客的简单数据库具有 BlogID PK 列 var samplesDbEntities new SamplesDBEntities var blogId Guid NewGuid samplesDbEnti
setContextProperty 和对象的 setProperty 之间的区别

我现在真的很困惑有什么区别 QQmlApplicationEngine engine engine rootContext setContextProperty myObject userData and object gt setPro
在针对 XSD 进行验证时，使用 DOM、StAX、SAX 解析器中的任何一个来查找 XML 中确切缺失的元素

我有一个 XML 文件及其相应的 XSD 文件在使用 StAX 解析器进行验证时我附加了一个错误处理程序基本上我在格式良好的 XML 文件中遇到两种类型的错误 1 元素内的数据类型不正确例如元素内的字符串应该具有整数 2 缺少元素
重新归档 simple_form 未定义方法 Attachment_field

I am trying to hook up refile to my view and I am getting the following error 这是我的模型 class Job lt ActiveRecord Base acts
为什么 rbind 会抛出警告

这与是否有更优雅的方法将不规则的数据转换为整洁的数据框 https stackoverflow com questions 25102617 are there more elegant ways to transform ragged d
如何在 SQL Server 查询中的 FROM 子句中使用变量？

我正在创建一个查询该查询将选择表中的所有数据查询将根据我将传递给存储过程的变量选择表在我的例子中如果我执行example sp table1它将选择table1 如果我使用同样的事情example table table2 应该选择
无法启动组件 [StandardEngine[Catalina].StandardHost[localhost].StandardContext[/LabWebServletHibernate]]

当使用 eclipse neon 1 在 tomcat 8 上运行应用程序时我收到此错误它使用 spring 4 3 3 hibernate 5 2 4 和 maven 嚴重 A child container failed durin
如何设计 REST API 以允许返回带有元数据的文件

假设我正在设计一个 REST API 并且我需要客户端能够获取带有元数据的文件设计资源操作的好方法是什么我想到了一些想法单个资源即 GET files fileId 返回包含文件和带有元数据的 JSON XML 结构的多部分响应
计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道我需要运行多个转换所有这些转换都希望项目按键分组基于这个答案question https stackoverfl

计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换 的相关文章

随机推荐

热门标签

计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换的相关文章