Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Google Dataflow:在流式管道中的 BigQuery 中插入 + 更新
主要对象 一个 python 流管道 我在其中读取来自 pub sub 的输入 分析输入后 有两个选项可用 如果 x 1 gt 插入 如果 x 2 gt 更新 Testing 使用apache beam函数无法完成此操作 因此需要使用Big
python
googlebigquery
googleclouddataflow
ApacheBeam
在 BigQueryIO.write() 操作之后执行进程
我有一个以 BigQuery 表作为接收器的管道 我需要在数据写入 BigQuery 后执行一些步骤 这些步骤包括对该表执行查询 从中读取数据以及写入不同的表 如何实现以上目标 我是否应该为后者创建一个不同的管道 但在第一个管道之后调用它将
googleclouddataflow
ApacheBeam
使用状态和定时器进行处理
在 Beam Dataflow 运行程序中使用状态处理和计时器 从 v2 1 0 开始 是否有任何准则或限制 例如状态大小或更新频率的限制等 候选流管道将广泛使用状态和计时器来表示用户会话状态 并使用 Bigtable 作为持久存储 以下是
googleclouddataflow
ApacheBeam
Flink 上运行 Beam pipeline 时出现与内存段相关的 EOFException
我正在尝试在我们的测试集群上的 Flink 上运行 Apache Beam 管道 它一直失败EOFException at org apache flink runtime io disk SimpleCollectingOutputVie
apacheflink
ApacheBeam
Beam/Google Cloud 数据流 ReadFromPubsub 缺失数据
我有 2 个数据流流管道 pubsub 到 bigquery 代码如下 class transform class beam DoFn def process self element publish time beam DoFn Time
Scio:使用 Pub/Sub 作为集合源时,groupByKey 不起作用
我改变了来源WindowsWordCount 示例 https github com spotify scio blob master scio examples src main scala com spotify scio exampl
ApacheBeam
spotifyscio
使用 Apache Beam io.jdbc.ReadFromJdbc 时出现错误 BEAM:逻辑类型:javasdk:v1
我正在尝试使用 Apache Beam 的 python SDK 读取 postgres 表 我已经按照文档所述安装了 Java SDK 我正在使用最新版本 我的代码如下 import logging import typing impor
python
JDBC
ApacheBeam
在 Apache Beam PCollection 中使用 AutoValueSchema 会出现“RuntimeException:创建者参数 arg0 不对应于架构字段”
我试图拥有我创建的 AutoValue 定义对象的 PCollection 并且我添加了适当的注释来通过以下方式推断架构DefaultSchema AutoValueSchema class 就像这样 DefaultSchema AutoV
Java
ApacheBeam
autovalue
如何在Beam 2.0中获取复合PTransform中的PipelineOptions?
升级到 Beam 2 0 后Pipeline类没有getOptions 不再上课了 我有一个复合的PTransform这依赖于获取其选项expand method public class MyCompositeTransform exte
googleclouddataflow
ApacheBeam
使用 PAssert containsInAnyOrder() 比较对象的测试管道
我正在为 Apache Beam 管道编写 JUnit 测试 我开始使用 DoFnTester 但它已被弃用 尽管 Apache Beam 测试您的管道 文档中的示例引用了已被弃用的方法 我现在使用推荐的 TestPipeline 和 PA
Java
ApacheBeam
如何在kubernetes环境中使用spark配置beam python sdk
TLDR 如何使用 environment type EXTERNAL 或 PROCESS 配置 Apache Beam 管道选项 描述 目前 我们在 Kubernetes 中有一个独立的 Spark 集群 如下this https sta
Java
apachespark
Kubernetes
SDK
ApacheBeam
数据流管道和 pubsub 模拟器
我正在尝试设置我的开发环境 我没有在生产中使用 google cloud pubsub 而是使用 pubsub 模拟器进行开发和测试 为了实现这一点 我设置了以下环境变量 export PUBSUB EMULATOR HOST localh
使用 Google DataFlow/Apache Beam 并行化图像处理或爬行任务是否有意义?
我正在考虑将 Google DataFlow 作为运行管道的选项 该管道涉及以下步骤 从网络下载图像 处理图像 我喜欢 DataFlow 管理完成工作所需的虚拟机的生命周期 因此我不需要自己启动或停止它们 但我遇到的所有示例都使用它来执行数
如何在 Cloud Dataflow 中使用 TextIO.Read 将多个文件与名称进行匹配
我有一个 gcs 文件夹 如下所示 gs
在 Apache Beam 中使用 defaultNaming 进行动态窗口写入
我正在关注并回答这个帖子 https stackoverflow com questions 48519834 how to write to a file name defined at runtime 48531741 48531741
Java
googleclouddataflow
ApacheBeam
apachebeamio
数据流中的 nltk 依赖关系
我知道外部Python依赖项可以通过requirements txt文件输入到Dataflow中 我可以在我的数据流脚本中成功加载 nltk 然而 nltk 通常需要下载更多文件 例如停用词或 punkt 通常在本地运行脚本时 我可以运行
googlecloudplatform
googleclouddataflow
ApacheBeam
googledataapi
如何在私有子网上运行Dataflow python?
Apache Beam 2 1 0 添加了对在私有子网上的 Dataflow 运行器上提交作业且无需公共 IP 的支持 这是我们需要满足防火墙规则的 我打算使用squid代理来访问apt get pip等安装python依赖项 代理实例已经
python
googleclouddataflow
ApacheBeam
在使用窗口化的 GroupByKey 之后,Beam pipeline 不会产生任何输出,并且出现内存错误
purpose 我想加载流数据 然后添加一个键 然后按键计数 problem 当我尝试使用流方法 无界数据 加载和按键分组大数据时 Apache Beam Dataflow pipline 出现内存错误 因为看起来数据是在 group by
googleclouddataflow
ApacheBeam
spotifyscio
Eclipse 上使用 Dataflow Runner 的 Apache Beam MinimalWordcount 示例
我正在尝试在 Windows 上使用 Eclipse 中的 DataFlowRunner 运行 MinimalWordCount 示例 使用 MinimalWordCount gt 在 Eclipse 中运行作为 Java 应用程序 它与使
Java
eclipse
googleclouddataflow
dataflow
ApacheBeam
Apache Beam:使用 Withtimestamp 分配事件时间时出错
我有一个无限的 Kafka 流发送具有以下字段的数据 identifier xxx value 10 0 ts 2019 01 16T10 51 26 326242 0000 我使用 kafka 的 apache beam sdk 读取流
Streaming
ApacheBeam
«
1
2
3
4
5
6
7
»