Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Apache Beam:具有无限源的批处理管道
我目前正在使用 Apache Beam 和 Google Dataflow 来处理实时数据 数据来自Google PubSub 它是无限制的 所以目前我正在使用流媒体管道 然而 事实证明 拥有一个 24 7 运行的流管道是相当昂贵的 为了降
googleclouddataflow
ApacheBeam
在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道
我正在尝试在 Google Data Flow 上的 Spring Boot 项目中运行 Apache Beam 管道 但我一直遇到此错误Failed to construct instance from factory method Da
Java
Maven
springboot
googleclouddataflow
ApacheBeam
Apache Beam:跳过已构建的管道中的步骤
有没有办法有条件地跳过已构建的管道中的步骤 或者管道构建是否被设计为控制运行哪些步骤的唯一方法 通常 管道构造控制将执行管道中的哪些转换 但是 您可以想象一个输入 多个输出ParDo复用输入PCollection到输出之一PCollecti
googleclouddataflow
ApacheBeam
如何使用 Apache Beam 从 Google Pub/Sub 访问消息 ID?
我一直在 Python 2 7 16 上使用 2 13 0 SDK 测试 Apache Beam 以流模式从 Google Pub Sub 订阅中提取简单消息 并写入 Google Big Query 表 作为此操作的一部分 我尝试使用 P
python
ApacheBeam
googlecloudpubsub
在 Apache Beam 中监视与文件模式匹配的新文件
我在 GCS 或其他受支持的文件系统上有一个目录 外部进程正在向该目录写入新文件 我想编写一个 Apache Beam 流式传输管道 它可以连续监视此目录中的新文件 并在每个新文件到达时读取和处理它 这可能吗 从 Apache Beam 2
googleclouddataflow
ApacheBeam
如何在 python apache beam 中展平多个 Pcollection
应该如何实现位于以下位置的以下逻辑 https beam apache org documentation pipelines design your pipeline https beam apache org documentation
python
Stream
ApacheBeam
如何从 Apache Beam 中的 HTTP 响应读取大文件?
Apache Beam 的 TextIO 可用于读取某些文件系统中的 JSON 文件 但如何从 Java SDK 中的 HTTP 响应产生的大型 JSON InputStream 中创建 PCollection 我认为 Beam 目前没有通
ApacheBeam
apachebeamio
Apache Beam:DoFn 与 PTransform
Both DoFn and PTransform是一种定义操作的方法PCollection 我们如何知道何时使用哪个 理解它的一个简单方法是类比map f 对于列表 高阶函数map将函数应用于列表的每个元素 返回结果的新列表 您可以将其称为
googleclouddataflow
ApacheBeam
从 Dataflow 进行流式传输时从 BigQuery 删除数据
从 Apache Beam 管道加载数据时是否可以从 BigQuery 表中删除数据 我们的用例是这样的 我们需要根据时间戳字段 Dataflow 从 Pubsub 主题提取消息的时间 从表中删除 3 天前的数据 是否建议这样做 如果是 有
googlebigquery
googleclouddataflow
ApacheBeam
googlecloudpubsub
窗口后 Apache-beam 挂在 groupbykey 上 - 不触发
TLDR 如何使用 python SDK 更正触发计数窗口 Problem 我正在尝试创建一个用于转换和索引维基百科转储的管道 目标是 从压缩文件中读取 只需一个进程并以流式传输方式 因为该文件不适合 RAM 并行处理每个元素 ParDo
python3x
Streaming
ApacheBeam
在数据流中运行 Apache Beam Pipeline 时出现 SSLHandshakeException
我有一个 Apache Beam Pipeline 在 DoFn 步骤之一中 它执行 https 调用 想想 REST API 在我的本地环境中 所有这些都可以在 DirectRun 中正常运行 这是我的本地环境 apache beam 2
Java
SSL
googlecloudplatform
googleclouddataflow
ApacheBeam
究竟是什么在管理光束中的水印?
Beam 的强大功能来自于它先进的窗口功能 但它也有点令人困惑 在本地测试中看到一些奇怪的情况 我使用rabbitmq作为输入源 其中消息并不总是得到ackd 并修复了不总是关闭的窗口 我开始挖掘 StackOverflow 和 Beam
googleclouddataflow
ApacheBeam
ParDo 中的侧面输出 | Apache Beam Python SDK
由于该文档仅适用于 JAVA 我无法真正理解它的含义 它指出 虽然 ParDo 始终生成一个主输出 PCollection 作为 apply 的返回值 但您也可以让 ParDo 生成任意数量的附加输出 PCollection 如果您选择有多
googleclouddataflow
ApacheBeam
Apache Beam 中的异步 API 调用
正如标题所说 我想使用 python 在 apache beam 中进行异步 API 调用 目前 我正在为 Pcollection 中的每个元素调用 DoFn 内的 API 自由度代码 class textapi call beam DoF
python
pythonrequests
pythonasyncio
googleclouddataflow
ApacheBeam
旁加载静态数据
在 ParDo 中处理数据时 我需要使用存储在 Google Cloud Storage 上的 JSON 架构 我想这可能是侧面加载 我读了他们称之为文档的页面 https beam apache org releases pydoc 2
python3x
googleclouddataflow
ApacheBeam
如何从数据流中的PCollection读取bigQuery
我有一个从 pubsub 获得的对象 PCollection 比如说 PCollection
googlebigquery
googleclouddataflow
ApacheBeam
可以使用数据流将 pubsub 消息重复数据删除回 pubsub 吗?
我有一个将数据写入 Google Cloud pubsub 的应用程序 根据 pubsub 的文档 由于重试机制而导致的重复偶尔可能会发生 还有消息乱序的问题 这在 pubsub 中也得不到保证 另外 根据文档 可以使用 Google Cl
MessageQueue
googleclouddataflow
ApacheBeam
googlecloudpubsub
apache beam.io.BigQuerySource use_standard_sql 作为数据流运行程序运行时不起作用
我有一个数据流作业 我将首先从 bigquery 查询中读取 在标准 sql 中 它在直接运行模式下完美运行 但是 我尝试在数据流运行程序模式下运行此数据流并遇到此错误 响应 content 显然 use standard sql 参数在数
googlebigquery
googleclouddataflow
ApacheBeam
dataflow
是否可以使用 Apache Beam / Google Cloud Dataflow 从 Azure EventHub 主题进行消费?
Problem 我们希望使用 Google Cloud 中的数据流管道来使用 Azure 中的 EventHub 主题 Question 是否知道 KafkaIO 是否允许直接在 Apache Beam Google Cloud 数据流作业
使用 Apache Beam 查找 2 个列表的笛卡尔积
我有2个PCollections PCollection
Java
list
Collections
ApacheBeam
cartesianproduct
1
2
3
4
5
6
»