googleclouddataflow

数据流管道和 pubsub 模拟器

我正在尝试设置我的开发环境我没有在生产中使用 google cloud pubsub 而是使用 pubsub 模拟器进行开发和测试为了实现这一点我设置了以下环境变量 export PUBSUB EMULATOR HOST localh

数据流作业失败并显示“无法启动足够的工作人员”

我的数据流作业失败并显示以下消息我应该如何调试工作流程失败原因 65a939e801f185b6 无法提出足够的内容工人最少1名实际0名当服务无法从以下位置分配虚拟机时该服务将输出此消息计算引擎 https cloud go

googleclouddataflow

使用 InProcessPipelineRunner 执行时，PubsubReader 失败并出现 NullPointerException

我有简单的管道仅执行读取 PubsubIO Read subscription 在消耗大约 200 个元素后每次运行都会失败但有以下例外 error run main 0 java lang RuntimeException java

googleclouddataflow

使用 Google DataFlow/Apache Beam 并行化图像处理或爬行任务是否有意义？

我正在考虑将 Google DataFlow 作为运行管道的选项该管道涉及以下步骤从网络下载图像处理图像我喜欢 DataFlow 管理完成工作所需的虚拟机的生命周期因此我不需要自己启动或停止它们但我遇到的所有示例都使用它来执行数

如何在 Cloud Dataflow 中使用 TextIO.Read 将多个文件与名称进行匹配

我有一个 gcs 文件夹如下所示 gs

在 Apache Beam 中使用 defaultNaming 进行动态窗口写入

我正在关注并回答这个帖子 https stackoverflow com questions 48519834 how to write to a file name defined at runtime 48531741 48531741

Java googleclouddataflow ApacheBeam apachebeamio

数据流中的 nltk 依赖关系

我知道外部Python依赖项可以通过requirements txt文件输入到Dataflow中我可以在我的数据流脚本中成功加载 nltk 然而 nltk 通常需要下载更多文件例如停用词或 punkt 通常在本地运行脚本时我可以运行

googlecloudplatform googleclouddataflow ApacheBeam googledataapi

如何增加 Cassandra 的数据流读取并行性

我正在尝试将大量数据 2 TB 30kkk 行从 Cassandra 导出到 BigQuery 我所有的基础设施都在 GCP 上我的 Cassandra 集群有 4 个节点每个节点 4 个 vCPU 26 GB 内存 2000 GB

如何在私有子网上运行Dataflow python？

Apache Beam 2 1 0 添加了对在私有子网上的 Dataflow 运行器上提交作业且无需公共 IP 的支持这是我们需要满足防火墙规则的我打算使用squid代理来访问apt get pip等安装python依赖项代理实例已经

python googleclouddataflow ApacheBeam

在使用窗口化的 GroupByKey 之后，Beam pipeline 不会产生任何输出，并且出现内存错误

purpose 我想加载流数据然后添加一个键然后按键计数 problem 当我尝试使用流方法无界数据加载和按键分组大数据时 Apache Beam Dataflow pipline 出现内存错误因为看起来数据是在 group by

googleclouddataflow ApacheBeam spotifyscio

Eclipse 上使用 Dataflow Runner 的 Apache Beam MinimalWordcount 示例

我正在尝试在 Windows 上使用 Eclipse 中的 DataFlowRunner 运行 MinimalWordCount 示例使用 MinimalWordCount gt 在 Eclipse 中运行作为 Java 应用程序它与使

Java eclipse googleclouddataflow dataflow ApacheBeam

从 Pub/Sub 流式传输到 BigQuery

我正在尝试使用 python 数据流将一些数据从 google PubSub 流式传输到 BigQuery 中出于测试目的我改编了以下代码https github com GoogleCloudPlatform DataflowSDK

Apache Beam 数据流中的外部 API 调用

我有一个用例我读取存储在谷歌云存储中的换行 json 元素并开始处理每个 json 在处理每个 json 时我必须调用外部 API 来进行重复数据删除无论该 json 元素之前是否被发现我正在做一个ParDo with a DoFn

Java googleclouddataflow ApacheBeam apachebeamio

Google DataFlow/Python：save_main_session 和 main 中的自定义模块导入错误

有人可以澄清使用时的预期行为吗save main session和导入的自定义模块 main 我的 DataFlow 管道导入 2 个非标准模块一个通过requirements txt另一个通过setup file 除非我将导入移至使用它

python googleclouddataflow ApacheBeam

Google Cloud Dataflow 可以在没有外部 IP 地址的情况下运行吗？

在扩大 Google Cloud Dataflow 的使用范围时我们注意到我们将开始耗尽正在使用的 IP 地址的配额我们知道请求增加配额是一种选择并且已经这样做并已获得 CPU 的批准但想知道是否或将要可以在没有外部 IP 地

googleclouddataflow

一个数据流作业内的并行管道

我想在 GCP 上的一个数据流作业中运行两个并行管道我已经创建了一个管道它工作得很好但我想要另一个管道而不创建另一份工作我已经搜索了很多答案但找不到任何代码示例如果我这样运行它就不起作用 pipe1 run pipe2 run

Java googlecloudplatform googleclouddataflow gcloud dataflow

如何使用多个工作人员加速批量导入谷歌云数据存储？

我有一个基于 apache beam 的数据流作业可以使用VCF源 https github com apache beam blob master sdks python apache beam io vcfio py从单个文本文件存储

基于公共密钥分析数据的简单方法

处理映射到特定键的所有记录并输出该数据的多个记录的最简单方法是什么例如综合示例假设我的密钥是日期值是带有测量温度的当天时间戳我想将一天内的温度分为高平均低同样低于高于平均值 1 个标准偏差输出将是具有新分类的原始温度

googleclouddataflow

数据流设置控制器服务帐户

我尝试为数据流设置控制器服务帐户在我的数据流选项中我有 options setGcpCredential GoogleCredentials fromStream new FileInputStream key json createS

googlecloudplatform googleclouddataflow dataflow googlecloudiam

谷歌数据流防火墙规则/网络标记

我正在尝试从谷歌数据流批处理连接到cassandra 具有防火墙规则标签此外数据流服务将创建带有数据流标记的工作人员是否可以更改默认标签或者添加更多标签我认为目前无法更改数据流服务创建虚拟机所用的标签但是可以通过指定参数来控

googleclouddataflow