Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
数据流中的 nltk 依赖关系
我知道外部Python依赖项可以通过requirements txt文件输入到Dataflow中 我可以在我的数据流脚本中成功加载 nltk 然而 nltk 通常需要下载更多文件 例如停用词或 punkt 通常在本地运行脚本时 我可以运行
googlecloudplatform
googleclouddataflow
ApacheBeam
googledataapi
如何在私有子网上运行Dataflow python?
Apache Beam 2 1 0 添加了对在私有子网上的 Dataflow 运行器上提交作业且无需公共 IP 的支持 这是我们需要满足防火墙规则的 我打算使用squid代理来访问apt get pip等安装python依赖项 代理实例已经
python
googleclouddataflow
ApacheBeam
在使用窗口化的 GroupByKey 之后,Beam pipeline 不会产生任何输出,并且出现内存错误
purpose 我想加载流数据 然后添加一个键 然后按键计数 problem 当我尝试使用流方法 无界数据 加载和按键分组大数据时 Apache Beam Dataflow pipline 出现内存错误 因为看起来数据是在 group by
googleclouddataflow
ApacheBeam
spotifyscio
Eclipse 上使用 Dataflow Runner 的 Apache Beam MinimalWordcount 示例
我正在尝试在 Windows 上使用 Eclipse 中的 DataFlowRunner 运行 MinimalWordCount 示例 使用 MinimalWordCount gt 在 Eclipse 中运行作为 Java 应用程序 它与使
Java
eclipse
googleclouddataflow
dataflow
ApacheBeam
Apache Beam:使用 Withtimestamp 分配事件时间时出错
我有一个无限的 Kafka 流发送具有以下字段的数据 identifier xxx value 10 0 ts 2019 01 16T10 51 26 326242 0000 我使用 kafka 的 apache beam sdk 读取流
Streaming
ApacheBeam
Apache Beam 数据流中的外部 API 调用
我有一个用例 我读取存储在谷歌云存储中的换行 json 元素并开始处理每个 json 在处理每个 json 时 我必须调用外部 API 来进行重复数据删除 无论该 json 元素之前是否被发现 我正在做一个ParDo with a DoFn
Java
googleclouddataflow
ApacheBeam
apachebeamio
Google DataFlow/Python:save_main_session 和 __main__ 中的自定义模块导入错误
有人可以澄清使用时的预期行为吗save main session和导入的自定义模块 main 我的 DataFlow 管道导入 2 个非标准模块 一个通过requirements txt另一个通过setup file 除非我将导入移至使用它
python
googleclouddataflow
ApacheBeam
如何使用多个工作人员加速批量导入谷歌云数据存储?
我有一个基于 apache beam 的数据流作业可以使用VCF源 https github com apache beam blob master sdks python apache beam io vcfio py从单个文本文件 存储
Apache Beam Python 窗口和 GroupByKey
LE TL 博士 如何在 Python 中创建无限数据源 是否可以 我正在构建一个流数据流 它将持续处理来自具有时间戳 id 和读数值的传感器的浮点值 将这些值放入FixedWindows2秒 然后输出聚合 代码链接 https gist
ApacheBeam
apachebeamio
在嵌入式 Flinkrunner (apache_beam [GCP]) 中使用 pub/sub io 运行光束流管道 (Python) 时出错
我在 Flinkrunner 上的 Apache Beam 中运行流管道 python 时遇到以下错误 该管道包含 GCP pub sub io 源和 pub sub 目标 WARNING root Make sure that local
python
ApacheBeam
flinkstreaming
googlecloudpubsub
如何解决 Apache-Beam 中的 Beam DeprecationWarning
第一的 生成简单数据后将数据存储在谷歌云平台bigQuery表中的代码 导入 Apache Beam 库并使用它 跑步者使用了 Google Cloud Platform Dataflow 这里是代码 from apache beam op
googlecloudplatform
ApacheBeam
dataflow
使用 flink runner 在梁上进行 Tensorflow 变换
这可能看起来很愚蠢 但这是我在这里发表的第一篇文章 抱歉做错了什么 我目前正在使用 python2 7 使用 TFX 0 11 即 tfdv tft tfserving 和tensorflow 1 11 构建一个简单的 ML 管道 我目前有
machinelearning
apacheflink
ApacheBeam
tensorflowtransform
使用 Dataflow Java SDK 2 从 Pubsub 读取
Google Cloud Platform for Java SDK 2 x 的许多文档都会告诉您参考 Beam 文档 当使用 Dataflow 从 PubSub 读取时 我是否仍然应该执行 PubsubIO Read named name
googlecloudplatform
googleclouddataflow
ApacheBeam
googlecloudpubsub
为什么数据流步骤无法启动?
我有一个线性三步数据流管道 由于某种原因 最后一步开始 但前面的两个步骤挂起Not started在我放弃并终止这份工作之前很长一段时间 我不确定是什么导致了这个问题 因为同样的管道过去曾成功运行过 而且我很惊讶它没有在日志中显示任何阻止前
googlecloudplatform
googleclouddataflow
ApacheBeam
来自工作人员的错误消息: generic::aborted: SDKharness sdk-0-1 已断开连接
我的一项 Dataflow 作业遇到一些问题 我有时会收到此错误消息 似乎在这个错误之后 作业一直运行良好 但是 今天晚上它实际上卡住了 或者它开始缓慢地处理元素 您还可以从屏幕截图中看到 工作人员开始表现得非常奇怪 如下面屏幕截图中的 C
googleclouddataflow
ApacheBeam
Google Dataflow / Apache Beam Python - PCollection 的侧面输入会降低性能
我们正在使用 Python SDK 在 google 数据流中运行日志文件解析作业 数据分布在数百个每日日志中 我们通过云存储中的文件模式读取这些日志 所有文件的数据量约为 5 8 GB gz 文件 总共 50 8000 万行 loglin
python
googleclouddataflow
ApacheBeam
在 Apache Beam 中如何处理 Pipeline-IO 级别的异常/错误
我正在使用 Spark runner 作为 Apache Beam 中的管道运行程序 并发现错误 通过得到错误 我的问题提出了 我知道错误是由于 sql 查询中的 Column name 不正确造成的 但我的问题是如何在 IO 级别处理错误
apachespark
JDBC
ApacheBeam
apachebeamio
将其他文件包含在数据流中
我的数据流使用 sql文件 该文件包含一个查询 它位于名为的目录中queries 我需要将此文件与我的数据流一起上传 我发现使用了一个manifest in文件 但据我所知 它没有做任何事情 我把这个文件称为MANIFEST in在我的根目
python
googleclouddataflow
ApacheBeam
为什么 Dataflow-BigTable 连接器不支持增量?
我们在流模式下有一个用例 我们想要跟踪管道中 BigTable 上的计数器 items 已完成处理的东西 为此我们需要增量操作 从看https cloud google com bigtable docs dataflow hbase 我发
googleclouddataflow
googlecloudbigtable
ApacheBeam
apachebeamio
Apache Beam -> BigQuery - 用于重复数据删除的 insertId 不起作用
我使用 apache beam 和 google dataflow runner 将数据从 kafka 流式传输到 BigQuery 我想利用 insertId 进行重复数据删除 我在谷歌文档中找到了描述 但即使插入是在几秒钟之内发生的 我
googlebigquery
ApacheBeam
«
1
2
3
4
5
6
7
»