Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Google Cloud Dataflow (Python):读取和写入 .csv 文件的函数?
我无法弄清楚 GCP Dataflow Python SDK 中读取和写入 csv 文件 或任何非 txt 文件 的精确函数 对于BigQuery 我已经弄清楚了以下功能 beam io Read beam io BigQuerySourc
googlecloudplatform
googleclouddataflow
Dataflow 作业完成时通知 Google PubSub
有没有办法在 Google Dataflow 作业完成后将消息发布到 Google Pubsub 上 我们需要通知依赖系统传入数据的处理已完成 将数据写入到接收器后 Dataflow 如何发布 EDIT 我们希望在管道完成写入 GCS 后发
googleclouddataflow
googlecloudpubsub
在 Dataflow Python flex 模板中包含另一个文件 ImportError
是否有一个包含多个文件的 Python Dataflow Flex 模板示例 其中脚本导入同一文件夹中包含的其他文件 我的项目结构是这样的 pipeline init py main py setup py custom py 我正在尝试将
python
googlecloudplatform
googleclouddataflow
ApacheBeam
数据流中的值错误:GCS 位置无效:无
我正在尝试从 GCS 存储桶加载数据并将内容发布到 pubsub 和 bigquery 这些是我的管道选项 options PipelineOptions project project temp location gs dataflow
如何停止谷歌云数据流中的流管道
我有一个正在运行的流数据流来读取 PUB SUB 订阅 一段时间后或者可能是在处理一定量的数据后 我希望管道自行停止 我不希望我的计算引擎实例无限期地运行 当我通过数据流控制台取消作业时 它显示为失败的作业 有办法实现这一点吗 我错过了什么
googlecomputeengine
googleclouddataflow
googlecloudpubsub
如何获取当前滑动窗口的最大时间戳
我正在使用 X 大小和 Y 周期的滑动时间窗口 为了标记每个窗口的输出 我想获取PCollection当前窗口的时间戳 PCollection
googleclouddataflow
在 DataFlow 管道中,按键分组后的简单计数步骤非常慢
我有一个 DataFlow 管道尝试构建索引 键值对 并计算一些指标 例如每个键的值数量 输入数据总计约 60 GB 存储在 GCS 上 管道分配了约 126 个工作线程 根据 Stackdriver 所有工作线程的 CPU 利用率约为 6
googleclouddataflow
ApacheBeam
数据流/apache beam 窗口中字节数的触发窗口
我有一个简单的工作 将数据从 pub sub 移动到 gcs pub sub 主题是一个共享主题 具有许多不同大小的不同消息类型 我希望结果在 GCS 中相应地垂直分区 架构 版本 年 月 日 该父键下应该是当天的一组文件 并且文件的大小应
scala
googleclouddataflow
ApacheBeam
spotifyscio
优化内存密集型数据流管道的 GCP 成本
我们希望降低在 GCP Dataflow 中运行特定 Apache Beam 管道 Python SDK 的成本 我们构建了一个内存密集型 Apache Beam 管道 每个执行器上运行需要大约 8 5 GB RAM 当前正在加载一个大型机
googlecloudplatform
googleclouddataflow
ApacheBeam
Google Cloud Dataflow:通过命令行参数指定 TempLocation
我尝试通过将其作为命令行中的选项传递来指定我的 GCS 临时位置 如下所示 java jar pipeline 0 0 1 SNAPSHOT jar runner DataflowRunner project
googlecloudplatform
googlecloudstorage
googleclouddataflow
ApacheBeam
Apache Beam - Bigquery 流插入显示 RuntimeException:ManagedChannel 分配站点
我正在 Google Dataflow 中运行流式 Apache Beam 管道 它从 Kafka 读取数据并将数据流式插入到 Bigquery 但在 bigquery 流插入步骤中 它抛出了大量警告 java lang RuntimeEx
googlebigquery
googleclouddataflow
ApacheBeam
具有数据流的 Apache Beam - 从 BigQuery 读取时出现空指针
我正在使用 apache beam 编写的 google 数据流上运行一项作业 该作业从 BigQuery 表和文件中读取 转换数据并将其写入其他 BigQuery 表中 作业 通常 会成功 但有时在从大查询表读取数据时会随机出现空指针异常
googleclouddataflow
ApacheBeam
apachebeamio
google cloud dataflow (apache beam)可以使用ffmpeg来处理视频或图像数据吗
数据流进程可以使用 ffmpeg 处理视频或图像吗 如果可以 示例工作流程会是什么样子 是的 您可以使用以下命令确保工作人员可以使用必要的二进制文件 及其依赖项 filesToStage 管道选项 https cloud google co
ffmpeg
googleclouddataflow
无法通过在 Apache Beam 中创建模板来按所需顺序运行多个管道
我有两个独立的管道 分别为 P1 和 P2 根据我的要求 我只需要在 P1 完全完成执行后才运行 P2 我需要通过一个模板完成整个操作 基本上 模板在找到 run 方式 即 p1 run 时就被创建 所以我可以看到 我需要使用两个不同的模板
googleclouddataflow
ApacheBeam
dataflow
Apache Beam 每用户会话窗口未合并
我们有一个有用户的应用程序 每个用户每次使用我们的应用程序大约 10 40 分钟 我想根据发生的特定事件 例如 该用户已转换 该用户上次会话出现问题 该用户上次会话成功 在此之后 我想计算每天这些更高级别的事件 但这是一个单独的问题 为此
python
googleclouddataflow
ApacheBeam
NameError:名称“pvalue”未定义
在此处的文档中 https beam apache org documentation programming guide additional outputs https beam apache org documentation pro
python
googleclouddataflow
ApacheBeam
apache_beam.transforms.util.Reshuffle() 不适用于 GCP 数据流
我已通过以下方式升级到最新的 apache beam gcp 包pip install upgrade apache beam gcp 然而 我注意到改组 https github com apache beam blob master s
python
googlecloudplatform
googleclouddataflow
ApacheBeam
在 DirectPipelineRunner 上使用自定义 DataFlow 无界源
我正在编写一个从 Kafka 0 8 读取的自定义 DataFlow 无界数据源 我想使用 DirectPipelineRunner 在本地运行它 但是 我得到以下堆栈跟踪 Exception in thread main java lan
googleclouddataflow
从 Dataflow 将嵌套架构写入 BigQuery (Python)
我有一个数据流作业要写入 BigQuery 它适用于非嵌套模式 但不适用于嵌套模式 这是我的数据流管道 pipeline options PipelineOptions p beam Pipeline options pipeline op
Google Dataflow - Wall Time/PCollection 输出数字向后移动
我们正在执行的数据流管道的第一步是使用 Python Beam API 读取 BigQuery beam io Read beam io BigQuerySource project google project table table n
googleclouddataflow
«
1
2
3
4
5
6
...10
»