如何使用多个工作人员加速批量导入谷歌云数据存储？

2023-12-23

我有一个基于 apache-beam 的数据流作业可以使用VCF源 https://github.com/apache/beam/blob/master/sdks/python/apache_beam/io/vcfio.py从单个文本文件（存储在谷歌云存储中），将文本行转换为数据存储Entities并将它们写入数据存储接收器 https://github.com/apache/beam/blob/master/sdks/python/apache_beam/io/gcp/datastore/v1/datastoreio.py。工作流程工作正常，但我注意到的缺点是：

数据存储的写入速度最多约为每秒 25-30 个实体。
我尝试使用--autoscalingAlgorithm=THROUGHPUT_BASED --numWorkers=10 --maxNumWorkers=100但执行似乎更喜欢一个工作人员（见下图：目标工作人员曾经增加到 2 个，但“基于当前运行步骤中并行工作的能力”减少到 1 个）。

我没有使用祖先路径作为键；所有实体都是相同的kind.

管道代码如下所示：

def write_to_datastore(project, user_options, pipeline_options):
"""Creates a pipeline that writes entities to Cloud Datastore."""
  with beam.Pipeline(options=pipeline_options) as p:
  (p
   | 'Read vcf files' >> vcfio.ReadFromVcf(user_options.input)
   | 'Create my entity' >> beam.ParDo(
     ToEntityFn(), user_options.kind)
   | 'Write to datastore' >> WriteToDatastore(project))

因为我有数百万行要写入数据存储，所以以 30 个实体/秒的速度写入会花费太长时间。

问题：输入只是一个巨大的 gzip 压缩文件。我需要将其拆分成多个小文件来触发多个worker吗？还有其他方法可以加快导入速度吗？我错过了什么吗num_workers设置？谢谢！

我对apache beam不熟悉，答案是从一般流程的角度来看。

假设各个输入文件部分中的实体数据之间没有依赖关系，那么是的，使用多个输入文件肯定会有所帮助，因为所有这些文件都可以虚拟地并行处理（当然，取决于可用的最大数量）工人）。

You might不需要预先分割巨大的zip文件，如果与实际数据段处理相比，这种切换本身的开销可以忽略不计，则可以简单地将单个输入数据流的各个段移交给单独的数据段工作人员进行写入。

总体性能限制是读取输入数据、将其分割成段并移交给段数据工作人员的速度。

数据段工作器将其接收的数据段进一步分割成更小的块，最多相当于最多 500 个实体，这些实体可以在单个批处理操作中转换为实体并写入数据存储。根据所使用的数据存储客户端库，可能可以异步执行此操作，从而允许继续拆分为块并转换为实体，而无需等待先前的数据存储写入完成。

数据段工作器的性能限制将是数据段被分割成块以及块转换为实体的速度

如果异步操作不可用或无法获得更高的吞吐量，则可以将每个块再次移交给段工作程序，由段工作程序执行到实体的转换和数据存储批量写入。

数据段工作器级别的性能限制将只是数据段被分割成块并移交给块工作器的速度。

通过这种方法，对实体的实际转换以及将它们批量写入数据存储（异步或非异步）将不再位于分割输入数据流的关键路径中，我相信这是当前方法中的性能限制。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用多个工作人员加速批量导入谷歌云数据存储？的相关文章

MySqlConnectionStringBuilder - 使用证书连接

我正在尝试连接到 Google Cloud Sql 这是一个 MySql 解决方案我能够使用 MySql Workbench 进行连接我如何使用 C 连接MySqlConnectionStringBuilder 我找不到提供这三个证书的
将 CSV 复制到 Amazon RDS 托管的 Postgresql 数据库

我有一个使用 Amazon 的 RDS 服务托管的数据库我正在尝试编写一个 Web 服务来更新所述数据库我遇到的问题是它不允许我使用 COPY 命令因为我收到此错误错误必须是超级用户才能复制到文件或从文件复制我正在使用我为数据库
如何在 PowerShell 中将长命令拆分为多行

如何在 PowerShell 中获取如下所示的命令并将其拆分为多行 C Program Files IIS Microsoft Web Deploy msdeploy exe verb sync source contentPath c w
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro
iOS 中是否需要 Google App Indexing SDK 才能使用 Google DeepLinking？

我想用谷歌应用程序索引与我的网页和 iOS 应用程序我支持通用链接 or 深层链接用谷歌术语与苹果Search并相应地设置我的网页 From 谷歌文档 https developers google com app indexing i
JavaScript 阶乘防止无穷大

我一直在 JavaScript 中使用这个函数来计算阶乘数 var f function factorial n if n 0 n 1 return 1 if f n gt 0 return f n return f n factorial
在构建内核模块时为什么需要 /lib/modules？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案在Kbuild树中当我们编写一个简单的hello ko程序时为什么我们需要在构建规则中使用 C lib module 为什么需要这样做
VBA全局类变量

我的障碍是试图让多个子程序识别类变量当我尝试全局声明它们时出现编译错误无效的外部过程然后当我运行公共函数或子函数来声明变量时它们在其他子函数中保持未定义状态我希望多个子程序能够识别变量因为它们的值应该通过用户窗体进行更改然
SSIS 包失败并出现“无法获取连接”错误

我们有一个从 Web 服务启动的 SSIS 包在开发环境中一切正常但在 QA 环境中尝试运行包时出现以下错误无法获取连接 ConnectionName 连接可能未正确配置或者您可能没有正确的权限这个连接连接使用 SQL 登录
长/宽数据到宽/长

我有一个数据框如下所示 import pandas as pd d decil 1 decil 1 decil 2 decil 2 decil 3 decil 3 decil kommune AA BB AA BB AA BB 2010
Postgresql：SERIAL 在约束 INSERT 失败时递增

有一个像这样的简单表结构 CREATE TABLE test id INT PRIMARY KEY sid SERIAL 我注意到如果我尝试插入一行但它未通过约束测试即主键约束 SERIAL计数器无论如何都会增加所以下一次成功插入 si
当用户更改 Windows 中的语言键盘布局时如何通知？

I want to show a message to user when the user changes the language keyboard layout of Windows for example from EN to FR
如何在控制器中获取f.submit的名称参数？

我创建了 form html erb 其中的编码如下是的我确实有两个相同表单的提交并且它们都有更新和销毁等名称当用户按下销毁按钮时 books controller 中的更新操作将被调用并判断是更新还是销
如何使用socket.io发送图像文件（二进制数据）？

我无法从以下位置发送数据Android Client to NodeJS Server I use Socket IO 客户端 https github com socketio socket io client java我的客户端中的ja
没有 Neo4Django 的 Django 和 Neo4j

我正在使用 Neo4j 以及 Postgres 构建一个 Django 应用程序我发现这个 Django 集成称为新4django https github com scholrly neo4django 我想知道是否可以只使用neo4r
令牌返回后，Google 操作和帐户关联失败

尝试使用 OAuth2 授权代码流在 Web 模拟器中测试身份验证 https developers google com actions tools web simulator https developers google com ac
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa
（Unity 中的 Firebase 数据库）在 Android 构建期间在 Temp 中缺少classes.jar

I am using Firebase Database in my Unity project but I am having some issues when building the project for android It ru
如何让 webpack 和 iis express 协同工作？

I have Angular 2 和 Webpack 2 入门 https github com qdouble angular webpack2 starter它通过 webpack dev server 在节点上运行我如何使用 web

随机推荐

创建已完成的任务

我想创建一个完整的Task not Task
如何关闭二进制文件（.doc、.pdf 等）的 git 1.7.8 开销

我使用 git 1 7 4 来处理大型 svn 存储库没问题我更新到 git 1 7 8 现在当我执行 git svn dcommit 时 git 做了一些多余的工作在任务管理器中我看到它执行了大约 1M 的写入操作我使用的是
从逻辑应用中的服务总线获取内容

I am new to Azure logic apps I have a service bus and pass a json object message to that service bus then I set up an ac
Android：将此对象设为可打包

我有一个对象需要在 2 个对象之间传递Activity 该对象有 HashTable String 等无法弄清楚如何使其成为 Parcalebale 以便我可以填充该对象的数组并将单个 obj 或数组传递给其他 Activity 我的班级
机器学习中回归和分类之间的区别？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是机器学习的新手谁能告诉我机器学习中分类和回归之间的主要区别回归旨在预测连续的输出值例如假设您试图根据许多输入参数来预测某个
如何消除渲染后“闪烁”？

我尽力成为 Javascript Ajax 技术使用的纯粹主义者确保所有 Ajax y 行为都是基本功能的增强同时在禁用 Javascript 时该网站也能正常运行然而这会导致一些问题在某些情况下 DOM 节点仅在浏览器中启用 J
ggplot将颜色渐变缩放到数据范围之外的范围

我正在寻找一种方法来拉伸两个值之间的颜色渐变并标记图例而不管数据集中的数据值范围如何本质上是否存在等价于的功能ylim 对于颜色渐变给定绘制通常在 1 和 1 之间的 z 值的代码如果中断在数据范围内我可以绘制并标记梯度 lib
手动为 gdb 创建调试符号

Intro 对于我的编译器课程我必须将一些语言翻译为汇编语言现在我的代码出现了段错误我很难对其进行调试具有监视变量的能力会大大简化过程但最终的 asm 代码只有寄存器及其导数 Question 如何手动为 gdb 创建调试符号我
文件存在冲突，尽管 gitignore 应该忽略它们

尽管我有一些文件存在冲突 gitignore应该忽略他们如果我尝试更新我得到的解决方案Unmerged path git status带来以下内容 On branch master Your branch is up to date wi
在 Java 中读取文本文件直至 EOL

我正在尝试读取一个文本文件其中包含 hello James How are you today 我想读取字符串中的每个字符直到找到 EOL 字符因为我使用的是 Windows 其中 n r 代表 EOL 字符我如何编写一个条件来遍历
应用程序生成的应用程序请求在 Silverlight 中失败

我正在尝试在两个用户之间发送应用程序生成的请求而不通过 JavaScript UI FacebookClient client new FacebookClient SessionSecret Dictionary
实体框架和 LINQ To SQL - 利益冲突？

过去一周我一直在博客圈上读到 Linq to SQL 已死而 EF 和 Linq to Entities 万岁但当我阅读 MSDN 上的概述时我发现 Linq to Entities 生成 eSQL 的方式与 Linq to SQL
为什么 justify-content space- Between 没有做任何事情？

我正在尝试获取top nav and bot nav通过使用垂直分隔的部门justify content space between 然而它什么也没做有人可以指出我做错了什么吗 import url https fonts google
Node.getTextContent() 有没有办法获取当前节点的文本内容，而不是后代的文本

Node getTextContent 返回当前节点及其后代的文本内容有没有办法获取当前节点的文本内容而不是后代的文本 Example
Swagger 编辑器正文中的多个参数

所以我明白如果我们想要身体参数我们就必须有一个模式我就是这么做的问题是无论我如何尝试定义我的架构它都不允许我拥有多个主体参数这是我尝试过的方法之一的示例任何帮助都会很棒 swagger 2 0 This is your doc
显示查询中的 11 个连续行，其中中间行包含变量

在我的网页上有一个名为 submission 我想显示下面查询中的 11 行该行 submission equals row title 其上方 5 行下方 5 行全部排名依据points下降我怎样才能做到这一点 sqlStr S
如何在 Linux 中进行队列管理器备份和恢复

您好我有名为 QM 1 的队列管理器在这里我已经备份了 QM 1 如下所示之后我在其他系统中创建了同名的队列管理器 QM 1 我需要恢复保存 qmgr 属性请提供如何恢复队列管理器属性 saveqmgr m QM 1 f 一些选
感知器学习算法不收敛于 0

这是我在 ANSI C 中的感知器实现 include
如何使用 parsley.js 模式标签？

我如何添加attr data parsley pattern 正确标记到输入我写了这个
如何使用多个工作人员加速批量导入谷歌云数据存储？

我有一个基于 apache beam 的数据流作业可以使用VCF源 https github com apache beam blob master sdks python apache beam io vcfio py从单个文本文件存储

如何使用多个工作人员加速批量导入谷歌云数据存储？

如何使用多个工作人员加速批量导入谷歌云数据存储？ 的相关文章

随机推荐

热门标签

如何使用多个工作人员加速批量导入谷歌云数据存储？的相关文章