ApacheBeam

数据流中的 nltk 依赖关系

我知道外部Python依赖项可以通过requirements txt文件输入到Dataflow中我可以在我的数据流脚本中成功加载 nltk 然而 nltk 通常需要下载更多文件例如停用词或 punkt 通常在本地运行脚本时我可以运行

googlecloudplatform googleclouddataflow ApacheBeam googledataapi

如何在私有子网上运行Dataflow python？

Apache Beam 2 1 0 添加了对在私有子网上的 Dataflow 运行器上提交作业且无需公共 IP 的支持这是我们需要满足防火墙规则的我打算使用squid代理来访问apt get pip等安装python依赖项代理实例已经

python googleclouddataflow ApacheBeam

在使用窗口化的 GroupByKey 之后，Beam pipeline 不会产生任何输出，并且出现内存错误

purpose 我想加载流数据然后添加一个键然后按键计数 problem 当我尝试使用流方法无界数据加载和按键分组大数据时 Apache Beam Dataflow pipline 出现内存错误因为看起来数据是在 group by

googleclouddataflow ApacheBeam spotifyscio

Eclipse 上使用 Dataflow Runner 的 Apache Beam MinimalWordcount 示例

我正在尝试在 Windows 上使用 Eclipse 中的 DataFlowRunner 运行 MinimalWordCount 示例使用 MinimalWordCount gt 在 Eclipse 中运行作为 Java 应用程序它与使

Java eclipse googleclouddataflow dataflow ApacheBeam

Apache Beam：使用 Withtimestamp 分配事件时间时出错

我有一个无限的 Kafka 流发送具有以下字段的数据 identifier xxx value 10 0 ts 2019 01 16T10 51 26 326242 0000 我使用 kafka 的 apache beam sdk 读取流

Streaming ApacheBeam

Apache Beam 数据流中的外部 API 调用

我有一个用例我读取存储在谷歌云存储中的换行 json 元素并开始处理每个 json 在处理每个 json 时我必须调用外部 API 来进行重复数据删除无论该 json 元素之前是否被发现我正在做一个ParDo with a DoFn

Java googleclouddataflow ApacheBeam apachebeamio

Google DataFlow/Python：save_main_session 和 main 中的自定义模块导入错误

有人可以澄清使用时的预期行为吗save main session和导入的自定义模块 main 我的 DataFlow 管道导入 2 个非标准模块一个通过requirements txt另一个通过setup file 除非我将导入移至使用它

python googleclouddataflow ApacheBeam

如何使用多个工作人员加速批量导入谷歌云数据存储？

我有一个基于 apache beam 的数据流作业可以使用VCF源 https github com apache beam blob master sdks python apache beam io vcfio py从单个文本文件存储

Apache Beam Python 窗口和 GroupByKey

LE TL 博士如何在 Python 中创建无限数据源是否可以我正在构建一个流数据流它将持续处理来自具有时间戳 id 和读数值的传感器的浮点值将这些值放入FixedWindows2秒然后输出聚合代码链接 https gist

ApacheBeam apachebeamio

在嵌入式 Flinkrunner (apache_beam [GCP]) 中使用 pub/sub io 运行光束流管道 (Python) 时出错

我在 Flinkrunner 上的 Apache Beam 中运行流管道 python 时遇到以下错误该管道包含 GCP pub sub io 源和 pub sub 目标 WARNING root Make sure that local

python ApacheBeam flinkstreaming googlecloudpubsub

如何解决 Apache-Beam 中的 Beam DeprecationWarning

第一的生成简单数据后将数据存储在谷歌云平台bigQuery表中的代码导入 Apache Beam 库并使用它跑步者使用了 Google Cloud Platform Dataflow 这里是代码 from apache beam op

googlecloudplatform ApacheBeam dataflow

使用 flink runner 在梁上进行 Tensorflow 变换

这可能看起来很愚蠢但这是我在这里发表的第一篇文章抱歉做错了什么我目前正在使用 python2 7 使用 TFX 0 11 即 tfdv tft tfserving 和tensorflow 1 11 构建一个简单的 ML 管道我目前有

machinelearning apacheflink ApacheBeam tensorflowtransform

使用 Dataflow Java SDK 2 从 Pubsub 读取

Google Cloud Platform for Java SDK 2 x 的许多文档都会告诉您参考 Beam 文档当使用 Dataflow 从 PubSub 读取时我是否仍然应该执行 PubsubIO Read named name

googlecloudplatform googleclouddataflow ApacheBeam googlecloudpubsub

为什么数据流步骤无法启动？

我有一个线性三步数据流管道由于某种原因最后一步开始但前面的两个步骤挂起Not started在我放弃并终止这份工作之前很长一段时间我不确定是什么导致了这个问题因为同样的管道过去曾成功运行过而且我很惊讶它没有在日志中显示任何阻止前

googlecloudplatform googleclouddataflow ApacheBeam

来自工作人员的错误消息： generic::aborted: SDKharness sdk-0-1 已断开连接

我的一项 Dataflow 作业遇到一些问题我有时会收到此错误消息似乎在这个错误之后作业一直运行良好但是今天晚上它实际上卡住了或者它开始缓慢地处理元素您还可以从屏幕截图中看到工作人员开始表现得非常奇怪如下面屏幕截图中的 C

googleclouddataflow ApacheBeam

Google Dataflow / Apache Beam Python - PCollection 的侧面输入会降低性能

我们正在使用 Python SDK 在 google 数据流中运行日志文件解析作业数据分布在数百个每日日志中我们通过云存储中的文件模式读取这些日志所有文件的数据量约为 5 8 GB gz 文件总共 50 8000 万行 loglin

python googleclouddataflow ApacheBeam

在 Apache Beam 中如何处理 Pipeline-IO 级别的异常/错误

我正在使用 Spark runner 作为 Apache Beam 中的管道运行程序并发现错误通过得到错误我的问题提出了我知道错误是由于 sql 查询中的 Column name 不正确造成的但我的问题是如何在 IO 级别处理错误

apachespark JDBC ApacheBeam apachebeamio

将其他文件包含在数据流中

我的数据流使用 sql文件该文件包含一个查询它位于名为的目录中queries 我需要将此文件与我的数据流一起上传我发现使用了一个manifest in文件但据我所知它没有做任何事情我把这个文件称为MANIFEST in在我的根目

python googleclouddataflow ApacheBeam

为什么 Dataflow-BigTable 连接器不支持增量？

我们在流模式下有一个用例我们想要跟踪管道中 BigTable 上的计数器 items 已完成处理的东西为此我们需要增量操作从看https cloud google com bigtable docs dataflow hbase 我发

googleclouddataflow googlecloudbigtable ApacheBeam apachebeamio

Apache Beam -> BigQuery - 用于重复数据删除的 insertId 不起作用

我使用 apache beam 和 google dataflow runner 将数据从 kafka 流式传输到 BigQuery 我想利用 insertId 进行重复数据删除我在谷歌文档中找到了描述但即使插入是在几秒钟之内发生的我

googlebigquery ApacheBeam