Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
数据流管道和 pubsub 模拟器
我正在尝试设置我的开发环境 我没有在生产中使用 google cloud pubsub 而是使用 pubsub 模拟器进行开发和测试 为了实现这一点 我设置了以下环境变量 export PUBSUB EMULATOR HOST localh
数据流作业失败并显示“无法启动足够的工作人员”
我的数据流作业失败并显示以下消息 我应该如何调试 工作流程失败 原因 65a939e801f185b6 无法提出足够的内容 工人 最少1名 实际0名 当服务无法从以下位置分配虚拟机时 该服务将输出此消息计算引擎 https cloud go
googleclouddataflow
使用 InProcessPipelineRunner 执行时,PubsubReader 失败并出现 NullPointerException
我有简单的管道 仅执行读取 PubsubIO Read subscription 在消耗大约 200 个元素后 每次运行都会失败 但有以下例外 error run main 0 java lang RuntimeException java
googleclouddataflow
使用 Google DataFlow/Apache Beam 并行化图像处理或爬行任务是否有意义?
我正在考虑将 Google DataFlow 作为运行管道的选项 该管道涉及以下步骤 从网络下载图像 处理图像 我喜欢 DataFlow 管理完成工作所需的虚拟机的生命周期 因此我不需要自己启动或停止它们 但我遇到的所有示例都使用它来执行数
如何在 Cloud Dataflow 中使用 TextIO.Read 将多个文件与名称进行匹配
我有一个 gcs 文件夹 如下所示 gs
在 Apache Beam 中使用 defaultNaming 进行动态窗口写入
我正在关注并回答这个帖子 https stackoverflow com questions 48519834 how to write to a file name defined at runtime 48531741 48531741
Java
googleclouddataflow
ApacheBeam
apachebeamio
数据流中的 nltk 依赖关系
我知道外部Python依赖项可以通过requirements txt文件输入到Dataflow中 我可以在我的数据流脚本中成功加载 nltk 然而 nltk 通常需要下载更多文件 例如停用词或 punkt 通常在本地运行脚本时 我可以运行
googlecloudplatform
googleclouddataflow
ApacheBeam
googledataapi
如何增加 Cassandra 的数据流读取并行性
我正在尝试将大量数据 2 TB 30kkk 行 从 Cassandra 导出到 BigQuery 我所有的基础设施都在 GCP 上 我的 Cassandra 集群有 4 个节点 每个节点 4 个 vCPU 26 GB 内存 2000 GB
如何在私有子网上运行Dataflow python?
Apache Beam 2 1 0 添加了对在私有子网上的 Dataflow 运行器上提交作业且无需公共 IP 的支持 这是我们需要满足防火墙规则的 我打算使用squid代理来访问apt get pip等安装python依赖项 代理实例已经
python
googleclouddataflow
ApacheBeam
在使用窗口化的 GroupByKey 之后,Beam pipeline 不会产生任何输出,并且出现内存错误
purpose 我想加载流数据 然后添加一个键 然后按键计数 problem 当我尝试使用流方法 无界数据 加载和按键分组大数据时 Apache Beam Dataflow pipline 出现内存错误 因为看起来数据是在 group by
googleclouddataflow
ApacheBeam
spotifyscio
Eclipse 上使用 Dataflow Runner 的 Apache Beam MinimalWordcount 示例
我正在尝试在 Windows 上使用 Eclipse 中的 DataFlowRunner 运行 MinimalWordCount 示例 使用 MinimalWordCount gt 在 Eclipse 中运行作为 Java 应用程序 它与使
Java
eclipse
googleclouddataflow
dataflow
ApacheBeam
从 Pub/Sub 流式传输到 BigQuery
我正在尝试使用 python 数据流将一些数据从 google PubSub 流式传输到 BigQuery 中 出于测试目的 我改编了以下代码https github com GoogleCloudPlatform DataflowSDK
Apache Beam 数据流中的外部 API 调用
我有一个用例 我读取存储在谷歌云存储中的换行 json 元素并开始处理每个 json 在处理每个 json 时 我必须调用外部 API 来进行重复数据删除 无论该 json 元素之前是否被发现 我正在做一个ParDo with a DoFn
Java
googleclouddataflow
ApacheBeam
apachebeamio
Google DataFlow/Python:save_main_session 和 __main__ 中的自定义模块导入错误
有人可以澄清使用时的预期行为吗save main session和导入的自定义模块 main 我的 DataFlow 管道导入 2 个非标准模块 一个通过requirements txt另一个通过setup file 除非我将导入移至使用它
python
googleclouddataflow
ApacheBeam
Google Cloud Dataflow 可以在没有外部 IP 地址的情况下运行吗?
在扩大 Google Cloud Dataflow 的使用范围时 我们注意到 我们将开始耗尽正在使用的 IP 地址的配额 我们知道请求增加配额是一种选择 并且已经这样做并已获得 CPU 的批准 但想知道是否 或将要 可以在没有外部 IP 地
googleclouddataflow
一个数据流作业内的并行管道
我想在 GCP 上的一个数据流作业中运行两个并行管道 我已经创建了一个管道 它工作得很好 但我想要另一个管道而不创建另一份工作 我已经搜索了很多答案 但找不到任何代码示例 如果我这样运行它就不起作用 pipe1 run pipe2 run
Java
googlecloudplatform
googleclouddataflow
gcloud
dataflow
如何使用多个工作人员加速批量导入谷歌云数据存储?
我有一个基于 apache beam 的数据流作业可以使用VCF源 https github com apache beam blob master sdks python apache beam io vcfio py从单个文本文件 存储
基于公共密钥分析数据的简单方法
处理映射到特定键的所有记录并输出该数据的多个记录的最简单方法是什么 例如 综合示例 假设我的密钥是日期 值是带有测量温度的当天时间戳 我想将一天内的温度分为高 平均 低 同样 低于 高于平均值 1 个标准偏差 输出将是具有新分类的原始温度
googleclouddataflow
数据流设置控制器服务帐户
我尝试为数据流设置控制器服务帐户 在我的数据流选项中 我有 options setGcpCredential GoogleCredentials fromStream new FileInputStream key json createS
googlecloudplatform
googleclouddataflow
dataflow
googlecloudiam
谷歌数据流防火墙规则/网络标记
我正在尝试从谷歌数据流批处理连接到cassandra 具有防火墙规则标签 此外数据流服务将创建带有 数据流 标记的工作人员 是否可以更改默认标签 或者添加更多标签 我认为目前无法更改数据流服务创建虚拟机所用的标签 但是 可以通过指定参数来控
googleclouddataflow
«
1 ...
3
4
5
6
7
8
9
10
»