优化内存密集型数据流管道的 GCP 成本

2024-03-12

我们希望降低在 GCP Dataflow 中运行特定 Apache Beam 管道 (Python SDK) 的成本。

我们构建了一个内存密集型 Apache Beam 管道，每个执行器上运行需要大约 8.5 GB RAM。当前正在加载一个大型机器学习模型进行转换DoFn.setup方法，以便我们可以为数百万用户预先计算推荐。

现有的 GCP 计算引擎机器类型的内存/vCPU 比率要么低于我们的要求（每个 vCPU 最多 8 GB RAM），要么高于我们的比率（每个 vCPU 24 GB RAM）：https://cloud.google.com/compute/docs/machine-types#machine_type_comparison https://cloud.google.com/compute/docs/machine-types#machine_type_comparison

我们已经使用 GCP 成功运行了该管道m1-ultramem-40机器的种类。然而，硬件使用——以及因此的成本——并不是最优的。此机器类型的每个 vCPU 的 RAM 比率为 24 GB。当使用它来运行上述管道时，虚拟机使用了不到 36% 的可用内存 - 但正如预期的那样，我们为此付出了全部代价。

当尝试使用运行相同的管道时custom-2-13312机器类型（2 个 vCPU 和 13 GB RAM），Dataflow 崩溃，并出现错误：

   Root cause: The worker lost contact with the service.

在监控运行 Dataflow 作业的 Compute Engine 实例时，很明显它们内存不足。 Dataflow 尝试将模型加载到内存中两次 - 每个 vCPU 一次 - 但可用内存只够一次。

如果我们能够告知 Apache Beam/Dataflow 特定转换需要特定数量的内存，那么问题就可以解决。但我们没能找到实现这一目标的方法。

我们能想到的另一个解决方案是尝试更改每个 Compute Engine 虚拟机的数据流执行器的比率。这将使我们能够找到一个比率，在尊重管道内存要求的同时，我们会浪费尽可能少的 vCPU。在使用前面提到的custom-2-13312机器类型，我们尝试使用以下配置运行管道：

--number_of_worker_harness_threads=1 --experiments=use_runner_v2
--experiments=no_use_multiple_sdk_containers --experiments=beam_fn_api
--sdk_worker_parallelism=1

使用 (1) 时，我们设法拥有单个线程，但 Dataflow 为每个虚拟机生成了两个 Python 执行器进程。这导致管道崩溃，因为当空间仅够一次时，尝试将模型加载到内存中两次。

使用 (2) 时，每个虚拟机生成一个 Python 进程，但它使用两个线程运行。每个线程都尝试加载模型，但虚拟机内存不足。方法（3）与（1）和（2）的结果非常相似。

不可能组合多个这些配置。

是否存在一组（一组）配置可以让我们控制每个虚拟机的数据流执行器数量？

还有其他我们可能没有想到的降低成本的替代方案吗？

我们正在研究这些问题的长期解决方案，但这里有一个战术修复方案，可以防止您在方法 1 和 2 中看到的模型重复：

跨工作线程共享虚拟机中的模型，以避免每个工作线程中重复模型。使用以下实用程序（https://github.com/apache/beam/blob/master/sdks/python/apache_beam/utils/shared.py https://github.com/apache/beam/blob/master/sdks/python/apache_beam/utils/shared.py），Beam 2.24 中开箱即用如果您使用的是 Beam 的早期版本，只需将 shared.py 复制到您的项目并将其用作用户代码。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

优化内存密集型数据流管道的 GCP 成本的相关文章

云函数部署 gen2 - 函数已存在错误？

正如我在 gen1 中所做的那样我首先创建一个名为func name on 网络用户界面有一个Function entry name 然后在 CLI 终端上 sudo gcloud functions deploy func name
如何在 Google Cloud Platform (GCP) 中测试 Cloud Function？

我一直在试图寻找这个问题的答案但无法在任何地方找到它在 Google Cloud Platform 控制台的 Cloud Functions 部分上有一个部分标题为测试但我不知道应该在此处放置什么来测试该函数即语法 I have
Ruby Stack 无法在 Google Developers Console 上部署

我尝试使用 Google Developers Console 部署 Ruby 堆栈但没有成功我在其他项目中尝试了几次错误总是相同的如下你知道为什么它总是失败吗 2014 10 23 15 59 44 rubyStackBox P
如何获取使用 Dataproc 工作流模板提交的 jobId

我已在 Airflow 操作员的帮助下使用 Dataproc 工作流模板提交了 Hive 作业 DataprocWorkflowTemplateInstantiateInlineOperator https airflow readthed
从云调度程序调用 Google 云函数时出现权限被拒绝错误

我正在尝试调用 Google 云函数该函数是由云调度程序触发的 Http 但每当我尝试运行云调度程序时它总是显示权限被拒绝错误 httpRequest status 403 insertId 14igacagbanzk3b jsonPa
我可以使用开发者密钥通过 Google Sheets API 无需 Oauth 向 Google Sheet 写入数据吗？

我正在开发一个使用 Google Sheets API 读取和更新 Google 电子表格中的值的应用程序我可以使用我的开发人员密钥进行读取但是尝试写入会返回此错误请求缺少所需的身份验证凭据需要 OAuth 2 访问令牌登录 co
从 Dataflow 中的 BigQuery 读取时设置 MaximumBillingTier

当我从 BigQuery 读取数据作为查询结果时我正在运行 GCP Dataflow 作业我正在使用 google cloud dataflow java sdk all 版本 1 9 0 设置管道的代码片段如下所示 PCollecti
GCP Dataproc Spark.jar.packages 下载依赖项时出现问题

创建 Dataproc Spark 集群时我们通过 properties spark spark jars packages mysql mysql connector java 6 0 6 to the gcloud dataproc
尝试将 CLI 登录到 Firebase 时出现“出现问题”

大约 2 年后我重新开始使用 Firebase 现在我在尝试将 CLI 登录到 Firebase 时遇到问题是的我已经安装了npm i g firebase tools 我已经尝试了 3 个不同的命令所有这些命令都会生成下面的图像之
签名 URL 在过期日期后仍然有效

我创建了一个签名 URL 有效期为 2 天尽管过期但它仍然有效我希望它给出一些错误 3XX 4XX 测试脚本 https gist githubusercontent com forvaidya 984003008b0603ca679
如何使用 Google Drive API 通过服务帐户访问域中的共享文件？

我一直在尝试从 Python 3 7 脚本访问有关 Google Shared Drive 文件的一些简单信息上次修改共享云端硬盘上的 Google 表格文件的时间我创建了一个服务帐户在 GCP Drive API 菜单中它可以通过
App Engine 上的 HTTP 到 HTTPS 重定向灵活

我已经遵循了这个答案在谷歌云中从http重定向到https https stackoverflow com questions 37135051 redirect from http to https in google cloud但目前
Google Cloud Platform：将上传的 MP4 文件转换为 HLS 文件

我正在构建一个平台允许用户将一些视频文件 20 40 秒从手机上传到服务器所有这些上传目前都运行良好文件通过nodejs云功能存储在谷歌存储桶中现在我想创建一个 gcp 转码器作业它将上传的 mp4 视频文件转换为 hls 视频
Google云平台项目限制

我可以在 Google Cloud Platform 帐户上创建的项目有限制吗我将为同一客户托管多个应用程序我的想法是每个应用程序一个项目这是一个好主意吗或者最好将所有应用程序拆分为前端和后端两个项目您可以创建的项目数量有配额 2
使用 NodeJS 从 GCP 存储下载对象

我在用着 google cloud 存储 https www npmjs com package google cloud storage从节点应用程序访问 Google Cloud Storage 存储桶内的对象但我无法使其工作我已在
firebase批量更新和onWrite触发同步

我在同步两个 Firebase 云函数时遇到问题第一个函数对多个文档执行批量更新第二个函数由onWrite触发这些文档之一为了便于说明假设我有两个文档A and B 在两个单独的集合中第一个云功能更新两个文档A and B有消防库
使用 TensorFlow 2.1 的 Cloud TPU v3 Pod 的 TPUClusterResolver 出现错误

我正在尝试在带有 TensorFlow 2 1 的 Google Cloud Compute Engine VM 上使用我的抢占式 Cloud TPU v3 256 但它似乎无法正常工作TPUClusterResolver抛出一个Coul
如何使用google AI平台在线预测？

我创建了一个自定义张量流模型并部署到谷歌云人工智能平台但是当我向在线预测 API 发送发布请求时 https ml googleapis com v1 projects my project models my model versio
编程错误：（psycopg2.errors.UndefinedColumn）关系“task_fail”的列“execution_date”不存在

我正在尝试在气流中运行 DAG 以将数据集摄取到谷歌云存储这是 DAG 脚本 import os from airflow import DAG from airflow utils dates import days ago from
Firebase 身份验证无法启用 Google 身份验证方法 - “更新 Google 时出错”

我正在尝试使用 Google Auth 登录方法启用 Firebase 身份验证但启用它并单击保存显示错误更新 Google 时出错 https i stack imgur com HMVGD png 在 Google Cloud

随机推荐

样式方面的
或填充/边距元素

现在有了 HTML5 和 CSS3 就是使用 br 当可以使用边距填充时标签会皱起眉头编辑这是关于我的用例的 div 元素之间的间距但也欢迎一般最佳实践建议实际上关于它的使用有相当明确的规则可以追溯到HTML 2 0 http
在不知道列名的情况下重命名单个 pandas DataFrame 列

我知道我可以使用以下方法重命名单个 pandas DataFrame 列 drugInfo rename columns col 1 col 1 new name inplace True 但我想重命名一个列根据其索引不知道它的名字虽然
如何更改TFS中的System.State字段？

我有需要更改的要求System State现场workitem当其他字段发生变化时我知道 TFS 工作流程是基于状态的即根据状态您可以更改其他字段的值但如何走另一条路呢 Mayur 我认为您无法通过使用内置工作项工作流程来实现这一目标
Mysql 获取刚刚插入的行

所以我正在设计一个函数将一行插入 MySQL 数据库该表有一个启用了自动增量的主键所以我不插入该列的值但PK是整个表中唯一唯一的列如何获取刚刚插入的行如果该函数在流量较小的情况下我看不到问题但是当其负载越来越重时我可以看到一
优化 SSE 代码

我目前正在为 Java 应用程序开发一个 C 模块需要一些性能改进请参阅提高网络编码性能 https stackoverflow com questions 7737488 improving performance of networ
如何从命令行获取 Ruby 文档 [重复]

这个问题在这里已经有答案了有没有办法找出我的哪一部分ri不显示 Ruby 文档的命令 ruby version ruby 1 9 3p392 2013 02 22 revision 39386 i686 linux ri version
从 pandas 中具有多个值的列创建虚拟对象

我正在寻找一种Python式的方法来处理以下问题 The pandas get dummies 方法非常适合从数据帧的分类列创建虚拟对象例如如果该列的值位于 A B get dummies 创建 2 个虚拟变量并相应地分配 0 或 1
如何使用 Spring Jdbctemplate.update(String sql, obj...args) 获取插入的 id

我正在使用 Jdbctemplate 我需要插入查询的 id 我读到我必须构建一个特定的PreparedStatement 并使用GenerateKeyHolder 对象问题是在我的应用程序中所有插入方法都使用此 JdbcTemplate
如何使用 AJAX 请求打开 jQuery UI 对话框？

在我的网页上有一个 jQuery UI 对话框当我单击按钮创建新用户时它会打开一个新窗口我的问题是如何使用 AJAX 请求打开该窗口从另一个页面打开对话框表单会很好例如 dialog html div title Create
Log4J 1.2 属性配置器 -> Log4J2

目前我们的应用程序使用 Log4J 1 2 并使用以下任一方式对其进行配置 File file PropertyConfigurator configure file getAbsolutePath or URL url Property
Mailgun：消息“已接受”，但需要很长时间才能送达（或未送达）

我正在将 Mailgun 用于我维护的网站通常 Mailgun 工作得很好但我遇到了一个奇怪的问题我的脚本调用 HTTP API 使用 Mailgun 发送消息然后这些消息在我的日志中显示为已接受但随后需要很长时间才能传送通
获取 HTML 元素中单击位置的文本

我有一个包含一些文本的 div 元素当用户单击该 div 内的单词时我想突出显示该单词为了做到这一点我需要知道点击发生在文本中的哪个字符位置这样我就可以找到附近的空白并在单词周围插入一些格式找出文本中点击发生的位置是这里的技巧
自动完成后端

这是一个面试问题设计一个自动完成的分布式后端我会回答如下自动完成是按给定后缀在字典中进行搜索这本词典可能应该被组织为trie 该词典是根据最常见的查询构建的但这是另一回事了现在我假设字典不会经常更改例如每天一次而不是每毫秒一次
使用断言的最佳实践？

使用是否存在性能或代码维护问题assert作为标准代码的一部分而不是仅将其用于调试目的 Is assert x gt 0 x is less than zero 比更好或更差 if x lt 0 raise Exception x is l
C++ 初始化数组指针

如何初始化指向文字数组的指针我希望 grid 指向新分配的 int 数组 1 2 3 int grid new int 3 grid 1 2 3 谢谢你不能初始化这样就可以动态分配数组你也不能assign以这种方式到数组动态或静态
在 OSX 上编译 clisp-2.49：未找到 LIBFFI

TL DR Even if libffi似乎已安装 configure即使我给它添加正确的前缀脚本也找不到它这篇文章的最后一部分是我陷入困境的地方我仅提供其他信息来解释我如何到达那里我对这篇长篇文章表示歉意如果有些内容与您无
Git 克隆：“您似乎克隆了一个空存储库”

我和一些同事一直致力于一个存储在私人 git 存储库中的项目历史上没有问题但最近我尝试克隆遇到了以下问题 Cloning into project warning You appear to have cloned an empty
限制从 Linq 列表中返回的结果数

我正在使用 Linq EF4 1 从数据库中提取一些结果并希望将结果限制为 X 个最新结果其中X是用户设置的数字有没有办法做到这一点我目前正在将它们作为List如果这有助于限制结果集虽然我可以通过循环来限制这一点直到我点击 X
默认 GNU 链接器脚本名称，以便 VIM 进行语法突出显示

链接描述文件的常用后缀是什么以便 VIM 对其使用语法突出显示好像是 ld 仅据我所知 Vim 没有提供它的语法文件至少我的没有 7 3 尝试提供下载的内容here http vim 1045645 n5 nabble com Syn
优化内存密集型数据流管道的 GCP 成本

我们希望降低在 GCP Dataflow 中运行特定 Apache Beam 管道 Python SDK 的成本我们构建了一个内存密集型 Apache Beam 管道每个执行器上运行需要大约 8 5 GB RAM 当前正在加载一个大型机

优化内存密集型数据流管道的 GCP 成本

优化内存密集型数据流管道的 GCP 成本 的相关文章

随机推荐

热门标签

优化内存密集型数据流管道的 GCP 成本的相关文章