如何使用 Cloud Composer 将大数据从 Postgres 导出到 S3？

2024-04-24

我一直在使用 Postgres to S3 运算符将数据从 Postgres 加载到 S3。但最近，我必须导出一个非常大的表，并且我的 Airflow Composer 失败，没有任何日志，这可能是因为我们正在使用 Python 临时文件模块的 NamedTemporaryFile 函数来创建临时文件，并且我们正在使用这个临时文件加载到 S3 。由于我们使用的是 Composer，因此这将被加载到 Composer 的本地内存中，并且由于文件的大小非常大，因此会失败。

参考这里：https://cloud.google.com/composer/docs/how-to/using/troubleshooting-dags#task_fails_without_emitting_logs https://cloud.google.com/composer/docs/how-to/using/troubleshooting-dags#task_fails_without_emitting_logs

我确实检查了 RedshiftToS3 运算符，因为它也使用 Postgres 钩子，并且它有几个可以轻松加载大文件的卸载选项，但我意识到 Redshift 和 Postgres 之间没有 1-1 对应关系。所以这是不可能的。有什么方法可以拆分我的 Postgres 查询吗？现在我正在做SELECT * FROM TABLENAME另外，我没有任何有关该表的信息。

我也遇到过这个类似的运算符：https://airflow.apache.org/docs/stable/_modules/airflow/contrib/operators/sql_to_gcs.html https://airflow.apache.org/docs/stable/_modules/airflow/contrib/operators/sql_to_gcs.html

这里有一个参数approx_max_file_size_bytes:

该运算符支持将大型表转储拆分为多个文件（请参阅上面文件名参数文档中的注释）。这 param 允许开发人员指定分割的文件大小。

我从代码中了解到的是，当大小超过给定限制时，他们正在创建一个新的临时文件，那么他们是否会将文件拆分为多个临时文件，然后分别上传？

编辑：我将再次准确地解释我想要做什么。目前，Postgres 到 S3 操作符会创建一个临时文件，并将游标返回的所有结果写入该文件，这会导致内存问题。所以我的想法是，我可以添加 max_file_size 限制，对于游标中的每一行，我将把结果写入临时文件，如果临时文件的大小超过我们设置的 max_file_size 限制，我们将写入我们的内容文件到 S3，然后刷新或删除该文件，然后创建一个新的临时文件并将光标的下一行写入该文件，并将该文件也上传到 S3。我不知道如何像这样修改运算符？

正如您已经发现的那样，这是因为您正在用表中的每一行构建一个字典，当表中有很多行时，机器上的内存就会耗尽。

您已经真正回答了自己的问题：仅写入 a 直到文件达到一定大小，然后将文件推送到 S3。或者，您可以将文件保留在磁盘上，并每 x 行刷新字典对象，但在这种情况下，您的文件可能会在磁盘上而不是在内存中变得非常大。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Cloud Composer 将大数据从 Postgres 导出到 S3？的相关文章

在Python子目录中创建文件？

在我的 Python 脚本中我需要在子目录中创建一个新文件而不更改目录并且需要从当前目录不断编辑该文件 My code os mkdir datetime dst for ip in open list txt with open ip
pandas 使用查询功能检查列是否为空

我有 pandas 数据框我想在它的查询函数上执行 isnull 或 not isnull 条件如下所示 In 67 df data pd DataFrame a 1 20 None 40 50 In 68 df data Out 68
Keras AttributeError：“顺序”对象没有属性“predict_classes”

我试图按照本指南找到模型性能指标 F1 分数准确性召回率 https machinelearningmastery com how to calculate precision recall f1 and more for deep l
Python - 重写 print()

我正在使用 mod wsgi 想知道是否可以覆盖 print 命令因为它没用这样做是行不通的 print myPrintFunction 因为这是一个语法错误 Print 不是 Python 2 x 中的函数因此这不能直接实现但是
Pytorch“展开”等价于 Tensorflow [重复]

这个问题在这里已经有答案了假设我有大小为 50 50 的灰度图像在本例中批量大小为 2 并且我使用 Pytorch Unfold 函数如下所示 import numpy as np from torch import nn from
使用 \COPY 将带有 JSON 字段的 CSV 加载到 Postgres 中

我正在尝试使用 COPY 命令将 TSV 数据从文件加载到 Postgres 表中这是一个示例数据行 2017 11 22 23 00 00 id 123 class 101 level 3 这是我正在使用的 psql 命令 COPY b
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
如何读取 10 位原始图像？其中包含 RGB-IR 数据

我想知道如何从我的 10 位原始它有 rgb ir 图像数据数据中提取 RGB 图像如何使用 Python 或 MATLAB 进行阅读拍摄时的相机分辨率为 1280x720 室内照片图片下载 https drive google c
在 PostgreSQL 中获取 JSONB 的精简版本

如何获取紧凑型JSONB from PostgreSQL 获取时我得到的只是空格 SELECT data FROM a table WHERE id 1 data is JSONB column unique bla bla foo bar
无法写入文本文件

我正在运行一些测试并需要写入文件当我运行测试时open file r 不写入文件测试脚本如下 class GetDetailsIP TestGet def runTest self self category PTZ try This
如何以编程方式关闭wx.DirDialog？

我有 wxpython 应用程序可以在单击按钮时打开 wx DirDialog dlg wx DirDialog self Choose a directory style wx DD DEFAULT STYLE if dlg ShowM
如何在这个可嵌套的 For 循环中实现 Robot Framework 风格的变量？

我在 Robot Framework 中见过很多嵌套 For 循环主要是创建一个内部带有 For 循环的关键字然后在另一个 For 循环中调用该关键字我使用 Python 2 7 13 制作了一个可嵌套的 For 循环但因为它主要
将 csv 写入谷歌云存储

我试图了解如何将多行 csv 文件写入谷歌云存储我只是没有遵循文档 https googlecloudplatform github io google cloud python stable storage blobs html hig
是否可以将 SpaCy 安装到 Raspberry Pi 4 Raspbian Buster

我一整天都在安装 SpaCy sudo pip install U spacy Looking in indexes https pypi org simple https www piwheels org simple Collectin
单个函数的 Numpy 均值和方差？

使用 Numpy Python 是否可以从单个函数调用返回均值 AND 方差我知道我可以单独做它们但是计算样本标准差需要平均值因此如果我使用单独的函数来获取均值和方差则会增加不必要的开销我尝试在这里查看 numpy 文档 htt
grails postgres 消息：错误：列 this_.id 不存在

grails 和 postgres 用于用户域 Message ERROR column this id does not exist 明白问题了对于用户域我将 postgres 表设置为用户因此默认情况下当它尝试查询用户表时
在 Postgresql 中使用标识符重新排序列

以下代码可以工作并创建一个带有序列号的临时表该表会为每个新名称重新启动 with results as select row number over partition by name order BY name as mytid nam
Postgis安装：类型“几何”不存在

我正在尝试使用 Postgis 创建表我按这个做page http postgis refractions net documentation manual 1 5 ch02 html id2619431 但是当我导入 postgis s
mpld3图，注释问题

我正在使用 mpld3 在 Intranet 网站上显示图形我正在使用将图形保存到字典并使用 mpld3 js 在客户端渲染它的选项除非我想使用注释否则该图呈现良好这些显然是抵消的我不明白为什么因为即使我将偏移量设置为 0 0
Django migrate：不创建表

经过一些错误后我删除了数据库删除了所有迁移文件我留下了init py 现在当我跑步时 python migrate py makemigrations It creates migrations correctly python m

随机推荐

为什么我应该将 IHttpContextAccessor 作为单例注入

在我见过的所有例子中IHttpContextAccessor注入时它被设置为单例例子如何在ASP NET Core 1 0中的DI中的Startup类中添加IHttpContextAccessor https stackoverflo
使用 AppleScript 和 Automator 在带有键盘的 Mac 上显示上下文菜单

我正在尝试找到一种方法在使用 Yosemite 的 Mac 上的 Finder 中调出上下文菜单without触摸鼠标触摸板 A context menu 经过对此问题的广泛研究唯一可能的途径似乎是使用 AppleScript 和 A
从 Webview 获取源代码（VB for Metro）

我正在制作一个 Windows Phone 的应用程序我可以从名为 DebWeb 的网络视图获取特定班级的 ClassRoom DebWeb 加载所有教室所在的网站但我想让我的应用程序搜索只是我的班级之前我制作了一个具有几乎相同目标的
如何传递具有动态参考 angular2 的元素？

我里面有元素ngFor环形每个元素都像这样得到引用 f floor b 如你所见floor是一个变量我想将这些元素传递给函数代码
Findbugs 和 Maven 3.x

有没有人设法让 findbugs 2 3 1 2 3 2 SNAPSHOT 或 2 4 SNAPSHOT 与 Maven 3 x 项目一起使用我总是最终得到错误未能执行目标 org codehaus mojo findbugs mav
因为它违反了以下内容安全策略指令：“style-src 'self'”

我有一个带有此标题的网页这是一个非交互式页面只有 twitter bootstrap js
从 takeOrdered 返回一个 RDD，而不是一个列表

我正在使用 pyspark 进行一些数据清理一个非常常见的操作是获取文件的一小部分并将其导出以供检查 self spark context textFile old filepath filename takeOrdered 100 sa
强制 TeamCity 基于特定代理进行构建

是否可以在不禁用所有其他连接的代理的情况下强制 TeamCity 在特定代理计算机上构建 Under Build Configuration Settings go to Agent Requirements并设置一个Explicit Re
在 PHP 中，某些浮点值的总和应为零，但并非如此 [重复]

这个问题在这里已经有答案了可能的重复浮点不准确示例 https stackoverflow com questions 2100490 floating point inaccuracy examples 它将显示 2 30926389
Android RecyclerView 与 GridLayoutManager 使项目跨越多行

I have a collection of photos and I m using a RecyclerView to display them I want to have the first element in my Recycl
简单的程序崩溃

所以我已经使用 MinGW GCC 版本 4 4 有一段时间了并决定是时候升级了我去MinGW网站下载了最新版本的GCC 4 7 0 删除以前的版本并安装最新版本后即使是最简单的程序也会崩溃例如如果我编译这个程序 include
通过日期时间列表根据日期列更新 pandas 数据框列

老问题 https stackoverflow com q 73168797 15975987 详情请参考上述问题我需要添加 0 5 个工作日business days第二个列表中不在第一个列表中的每个假期的列这是一个名为 df 的示例
值的 Ocaml 表示 - 原子

我查看了一些 OCaml 值的内部表示空数组的表示是atom 0 即一个块tag 0 and size 0 空浮点数数组由atom 0 too 是否存在由原子表示的任何 OCaml 值tag gt 0 如果不是 OCaml 字节码集包含以
AWS Kinesis ShardIteratorType TRIM_HORIZON 的预期行为

Context 我不一定指的是基于 KCL 的应用程序只是纯粹的 Kinesis API 调用是否使用TRIM HORIZON分片迭代器类型立即为您提供流中最早发布的记录即 Kinesis 内置 24 小时窗口内最早可用的记录或者只
初始化类和实例化对象之间的区别？

我尝试通过搜索引擎搜索这个问题但可以找到一个主题来解释初始化类和实例化对象之间的区别有人可以解释一下它们有何不同吗与该主题相关的三个术语是声明初始化和实例化从后到前工作实例化这是为对象分配内存的时候这就是new关键字正在做
在 F# 中的 Choice 之上构建 Either（或 Result）

我根据 Scott Wlaschin 中的信息构建了一个成功失败的 monadblog http fsharpforfunandprofit com posts computation expressions wrapper types
OpenAI GPT-3 API：如何让模型记住过去的对话？

有没有办法训练一个大语言模型法学硕士存储特定的上下文例如我有一个很长的故事我想提出问题但我不想把整个故事放在每个提示中如何才能让LLM 记住这个故事考虑到 GPT 3 模型没有能够记忆过去对话的参数看来目前记忆过去对话
在 linux shell 中执行程序时得到“dquote>”

当我在 Linux shell 中执行脚本时我得到以下输出 dquote gt 这是什么意思这意味着您执行了一行仅包含一个双引号字符的代码如下所示 echo Hello shell 正在等待其他报价
将 iPhone/iPad 应用程序合并为一个通用应用程序

我有两个应用程序一个用于 iPhone 另一个用于 iPad 我想将它们合并为一个通用应用程序在我的第一次尝试中我尝试创建一个新的通用应用程序项目并添加适用于 iPhone 和 iPad 版本的库 iPad 版本编译并运行良好如预期
如何使用 Cloud Composer 将大数据从 Postgres 导出到 S3？

我一直在使用 Postgres to S3 运算符将数据从 Postgres 加载到 S3 但最近我必须导出一个非常大的表并且我的 Airflow Composer 失败没有任何日志这可能是因为我们正在使用 Python 临时文件模

如何使用 Cloud Composer 将大数据从 Postgres 导出到 S3？

如何使用 Cloud Composer 将大数据从 Postgres 导出到 S3？ 的相关文章

随机推荐

热门标签

如何使用 Cloud Composer 将大数据从 Postgres 导出到 S3？的相关文章