googleclouddataflow

Google Cloud Dataflow (Python)：读取和写入 .csv 文件的函数？

我无法弄清楚 GCP Dataflow Python SDK 中读取和写入 csv 文件或任何非 txt 文件的精确函数对于BigQuery 我已经弄清楚了以下功能 beam io Read beam io BigQuerySourc

googlecloudplatform googleclouddataflow

Dataflow 作业完成时通知 Google PubSub

有没有办法在 Google Dataflow 作业完成后将消息发布到 Google Pubsub 上我们需要通知依赖系统传入数据的处理已完成将数据写入到接收器后 Dataflow 如何发布 EDIT 我们希望在管道完成写入 GCS 后发

googleclouddataflow googlecloudpubsub

在 Dataflow Python flex 模板中包含另一个文件 ImportError

是否有一个包含多个文件的 Python Dataflow Flex 模板示例其中脚本导入同一文件夹中包含的其他文件我的项目结构是这样的 pipeline init py main py setup py custom py 我正在尝试将

python googlecloudplatform googleclouddataflow ApacheBeam

数据流中的值错误：GCS 位置无效：无

我正在尝试从 GCS 存储桶加载数据并将内容发布到 pubsub 和 bigquery 这些是我的管道选项 options PipelineOptions project project temp location gs dataflow

如何停止谷歌云数据流中的流管道

我有一个正在运行的流数据流来读取 PUB SUB 订阅一段时间后或者可能是在处理一定量的数据后我希望管道自行停止我不希望我的计算引擎实例无限期地运行当我通过数据流控制台取消作业时它显示为失败的作业有办法实现这一点吗我错过了什么

googlecomputeengine googleclouddataflow googlecloudpubsub

如何获取当前滑动窗口的最大时间戳

我正在使用 X 大小和 Y 周期的滑动时间窗口为了标记每个窗口的输出我想获取PCollection当前窗口的时间戳 PCollection

googleclouddataflow

在 DataFlow 管道中，按键分组后的简单计数步骤非常慢

我有一个 DataFlow 管道尝试构建索引键值对并计算一些指标例如每个键的值数量输入数据总计约 60 GB 存储在 GCS 上管道分配了约 126 个工作线程根据 Stackdriver 所有工作线程的 CPU 利用率约为 6

googleclouddataflow ApacheBeam

数据流/apache beam 窗口中字节数的触发窗口

我有一个简单的工作将数据从 pub sub 移动到 gcs pub sub 主题是一个共享主题具有许多不同大小的不同消息类型我希望结果在 GCS 中相应地垂直分区架构版本年月日该父键下应该是当天的一组文件并且文件的大小应

scala googleclouddataflow ApacheBeam spotifyscio

优化内存密集型数据流管道的 GCP 成本

我们希望降低在 GCP Dataflow 中运行特定 Apache Beam 管道 Python SDK 的成本我们构建了一个内存密集型 Apache Beam 管道每个执行器上运行需要大约 8 5 GB RAM 当前正在加载一个大型机

googlecloudplatform googleclouddataflow ApacheBeam

Google Cloud Dataflow：通过命令行参数指定 TempLocation

我尝试通过将其作为命令行中的选项传递来指定我的 GCS 临时位置如下所示 java jar pipeline 0 0 1 SNAPSHOT jar runner DataflowRunner project

googlecloudplatform googlecloudstorage googleclouddataflow ApacheBeam

Apache Beam - Bigquery 流插入显示 RuntimeException：ManagedChannel 分配站点

我正在 Google Dataflow 中运行流式 Apache Beam 管道它从 Kafka 读取数据并将数据流式插入到 Bigquery 但在 bigquery 流插入步骤中它抛出了大量警告 java lang RuntimeEx

googlebigquery googleclouddataflow ApacheBeam

具有数据流的 Apache Beam - 从 BigQuery 读取时出现空指针

我正在使用 apache beam 编写的 google 数据流上运行一项作业该作业从 BigQuery 表和文件中读取转换数据并将其写入其他 BigQuery 表中作业通常会成功但有时在从大查询表读取数据时会随机出现空指针异常

googleclouddataflow ApacheBeam apachebeamio

google cloud dataflow (apache beam)可以使用ffmpeg来处理视频或图像数据吗

数据流进程可以使用 ffmpeg 处理视频或图像吗如果可以示例工作流程会是什么样子是的您可以使用以下命令确保工作人员可以使用必要的二进制文件及其依赖项 filesToStage 管道选项 https cloud google co

ffmpeg googleclouddataflow

无法通过在 Apache Beam 中创建模板来按所需顺序运行多个管道

我有两个独立的管道分别为 P1 和 P2 根据我的要求我只需要在 P1 完全完成执行后才运行 P2 我需要通过一个模板完成整个操作基本上模板在找到 run 方式即 p1 run 时就被创建所以我可以看到我需要使用两个不同的模板

googleclouddataflow ApacheBeam dataflow

Apache Beam 每用户会话窗口未合并

我们有一个有用户的应用程序每个用户每次使用我们的应用程序大约 10 40 分钟我想根据发生的特定事件例如该用户已转换该用户上次会话出现问题该用户上次会话成功在此之后我想计算每天这些更高级别的事件但这是一个单独的问题为此

python googleclouddataflow ApacheBeam

NameError：名称“pvalue”未定义

在此处的文档中 https beam apache org documentation programming guide additional outputs https beam apache org documentation pro

python googleclouddataflow ApacheBeam

apache_beam.transforms.util.Reshuffle() 不适用于 GCP 数据流

我已通过以下方式升级到最新的 apache beam gcp 包pip install upgrade apache beam gcp 然而我注意到改组 https github com apache beam blob master s

python googlecloudplatform googleclouddataflow ApacheBeam

在 DirectPipelineRunner 上使用自定义 DataFlow 无界源

我正在编写一个从 Kafka 0 8 读取的自定义 DataFlow 无界数据源我想使用 DirectPipelineRunner 在本地运行它但是我得到以下堆栈跟踪 Exception in thread main java lan

googleclouddataflow

从 Dataflow 将嵌套架构写入 BigQuery (Python)

我有一个数据流作业要写入 BigQuery 它适用于非嵌套模式但不适用于嵌套模式这是我的数据流管道 pipeline options PipelineOptions p beam Pipeline options pipeline op

Google Dataflow - Wall Time/PCollection 输出数字向后移动

我们正在执行的数据流管道的第一步是使用 Python Beam API 读取 BigQuery beam io Read beam io BigQuerySource project google project table table n

googleclouddataflow