即使启动复制命令的 lambda 函数已超时，如何使复制命令继续在 redshift 中运行？

2024-04-02

我正在尝试运行一个复制命令，将大约 100 GB 的数据从 S3 加载到 redshift。我每天都使用 lambda 函数来启动此复制命令。这是我当前的代码

from datetime import datetime, timedelta
import dateutil.tz
import psycopg2
from config import *

def lambda_handler(event, context):
    con = psycopg2.connect(dbname=dbname, user=user, password=password, host=host, port=port)
    cur = con.cursor()
    
    try:
        query = """BEGIN TRANSACTION;

                COPY """ + table_name + """ FROM '""" + intermediate_path + """' iam_role '""" + iam_role + """' FORMAT AS parquet;

                END TRANSACTION;"""

        print(query)
        cur.execute(query)
    
    except Exception as e:
        subject = "Error emr copy: {}".format(str(datetime.now().date()))
        body = "Exception occured " + str(e)
        print(body)
    
    con.close()

该函数运行良好，但唯一的问题是，在 lambda 函数 15 分钟超时后，复制命令也会在 reshift 中停止执行。因此，我无法完成从 s3 到 redshift 的副本加载。

我还尝试在 begin 语句之后和复制命令之前包含下面的 statements_timeout 语句。这没有帮助。

SET statement_timeout to 18000000;

有人可以建议我如何解决这个问题吗？

The AWS 文档 https://docs.aws.amazon.com/lambda/latest/dg/runtimes-context.html没有明确说明超时发生时会发生什么。但我认为可以肯定地说，它过渡到“关闭”阶段，此时运行时容器被环境强制终止。

这意味着数据库连接使用的套接字连接将被关闭，并且正在侦听该套接字的 Redshift 进程将收到文件结尾——客户端断开连接。在这种情况下，任何数据库的正常行为都是终止任何未完成的查询并回滚其事务。

我给出这样的描述的原因是为了让你知道你can't将查询的生命周期延长到启动该查询的 Lambda 的生命周期之外。如果您想坚持使用数据库连接库，则需要使用不会超时的服务：AWS Batch 或 ECS 是两个选择。

但是，有一个更好的选择：红移数据 API https://docs.aws.amazon.com/redshift/latest/mgmt/data-api.html，即由 Boto3 支持 https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/redshift-data.html.

此 API 异步运行：您向 Redshift 提交查询，并获取可用于检查查询操作的令牌。您还可以指示 Redshift 在查询完成/失败时向 AWS Eventbridge 发送消息（以便您可以创建另一个 Lambda 来采取适当的操作）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

即使启动复制命令的 lambda 函数已超时，如何使复制命令继续在 redshift 中运行？的相关文章

Python 中的哈希映射

我想用Python实现HashMap 我想请求用户输入根据他的输入我从 HashMap 中检索一些信息如果用户输入HashMap的某个键我想检索相应的值如何在 Python 中实现此功能 HashMap
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
使用Python请求登录Google帐户

在多个登录页面上需要谷歌登录才能继续我想用requestspython 中的库以便让我自己登录通常这很容易使用requests库但是我无法让它工作我不确定这是否是由于 Google 做出的一些限制也许我需要使用他们的 API 或
如何加速spark df.write jdbc到postgres数据库？

我是 Spark 新手正在尝试使用 df write 加速将数据帧的内容可以有 200k 到 2M 行附加到 postgres 数据库 df write format jdbc options url psql url spark d
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
Python 2：SMTPServerDisconnected：连接意外关闭

我在用 Python 发送电子邮件时遇到一个小问题 me my email address you recipient s email address me email protected cdn cgi l email protectio
使用连接池后如何处理过多的并发连接？

Scenario 假设您有一个拥有大量流量的网站或应用程序即使使用数据库连接池性能也会受到真正的打击站点应用程序甚至可能崩溃因为并发连接太多 Question 人们有什么选择来处理这个问题我的想法我在想有这个问题的人可以创建多
如何通过索引列表从 dask 数据框中选择数据？

我想根据索引列表从 dask 数据框中选择行我怎样才能做到这一点 Example 假设我有以下 dask 数据框 dict A 1 2 3 4 5 6 7 B 2 3 4 5 6 7 8 index x1 a2 x3 c4 x5 y6 x
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
不同编程语言中的浮点数学

我知道浮点数学充其量可能是丑陋的但我想知道是否有人可以解释以下怪癖在大多数编程语言中我测试了 0 4 到 0 2 的加法会产生轻微的错误而 0 4 0 1 0 1 则不会产生错误两者计算不平等的原因是什么在各自的编程语言中可以采
import matplotlib.pyplot 给出 AttributeError: 'NoneType' 对象没有属性 'is_interactive'

我尝试在 Pycharm 控制台中导入 matplotlib pyplt import matplotlib pyplot as plt 然后作为回报我得到 Traceback most recent call last File D Pr
如何在 Windows 命令行中使用参数运行 Python 脚本

这是我的蟒蛇hello py script def hello a b print hello and that s your sum sum a b print sum import sys if name main hello sys
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
如何解决 PDFBox 没有 unicode 映射错误？

我有一个现有的 PDF 文件我想使用 python 脚本将其转换为 Excel 文件目前正在使用PDFBox 但是存在多个类似以下错误 org apache pdfbox pdmodel font PDType0Font toUnico
Scipy Sparse：SciPy/NumPy 更新后出现奇异矩阵警告

我的问题是由大型电阻器系统的节点分析产生的我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点我正在使用scipy sparse linalg spsolve method 直到最近一切都
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解
cv2.VideoWriter：请求一个元组作为 Size 参数，然后拒绝它

我正在使用 OpenCV 4 0 和 Python 3 7 创建延时视频构造 VideoWriter 对象时文档表示 Size 参数应该是一个元组当我给它一个元组时它拒绝它当我尝试用其他东西替换它时它不会接受它因为它说参数不是
AWS DynamoDB 写后读一致性 - 理论上它是如何工作的？

大多数nosql解决方案仅使用最终一致性并且考虑到DynamoDB将数据复制到三个数据中心如何保持写后读一致性解决此类问题的通用方法是什么我认为这很有趣因为即使在 MySQL 复制中数据也是异步复制的我将详细告诉您 Dynam

随机推荐

JMS 监听器 - 动态选择目的地

我在部署在单独服务器上的 ActiveMQ 上有许多目的地队列我想从我的程序中动态收听这些目的地目前我正在收听这些目的地如下所示
无法从 Play 商店取消发布应用程序

当我单击未发布时出现错误您至少有一个活动的 apk 并且也无法更新应用程序因为密钥库丢失有什么解决办法吗今天遇到这个问题找到答案了here https stackoverflow com questions 67573622
如何将 GitHub Actions 与多个存储库结合使用并部署到 GitHub Pages？

有没有办法设置 Github Actions 来运行多个npm run build是我想使用多个存储库并将它们设置为主站点上的不同网页想象一下我有 3 个存储库 Main Angular App 和 React App 主存储库将有我的
Dart 中的函数重载

下面的代码 class Tools static int roll int min int max IMPLEMENTATION static int roll List
“父”资源中的 Django Tastypie“ToManyField”似乎破坏了对智利资源的 POST

我正在使用 Django 1 4 3 和 TastyPie 0 9 11 我有以下两个 django 模型 class Event models Model organizer models ForeignKey User related
球衣中后台调用的正确处理

我必须在 Web 应用程序中对 Web 服务进行一些后台调用电话的响应并不是真正的时间紧迫而且对我来说几乎没有兴趣它仅在极少数情况下发生变化在这种情况下我会通过抛出异常或记录失败或其他方式对其做出反应我现在的具体问题是指在 Je
避免 ssh 会话超时

我正在远程工作服务器在 5 分钟不活动后会自动注销以下是它执行此操作时通常提供的消息 Read from remote host XXXXXXX Operation timed out 我通常会打开多个会话大约每隔 30 分钟使用一次
在 ngModel 中对 Angular 中的 INPUT 元素使用管道

我有一个 HTML 输入字段
使用 double.PositiveInfinity WPF 进行测量控制

我正在开发一个具有自定义面板的自定义控件在自定义面板内我有一个小而简单的MeasureOverride传递大小的方法double PositiveInfinity给它的孩子MeasureOverride方法自定义面板应该负责布局并且应
是否可以使用子字符串而不必将它们存储在单独的变量中

我希望能够检查字符串中的第一个子字符串 random string fox is bright orange 不需要分割字符串然后从列表中读取或将其存储在其他变量中是否有可能做到这一点我在这里使用的字符串只是一个示例因此没有使用指
如何将GIT非Eclipse Java项目导入到Eclipse中？

我在将 Java 项目导入工作区时遇到一些问题我正在关注本教程 http www vogella de articles EGit article html respository checkoutproject 但是我不能使用最后的导入
我可以将对 System.Core.dll (.net 3.5) 的引用添加到 .net 2.0 应用程序并使用它吗

我可以将对 System Core dll net 3 5 的引用添加到 net 2 0 应用程序并使用它吗我试图通过引用 System Core dll 来使用仅在 net 3 5 中可用的 TimeZoneInfo 类或者它们是
元“viewport”设备宽度：Opera Mobile 9.7 上的错误宽度小（10 个作品）

对于我当前的移动 Web 项目我使用元 viewport 标签来指示移动浏览器使用设备宽度的 1 1 比例这适用于 IE mobile iPhone Safari 甚至 Opera 10 beta 但不适用于 Opera 9 7 默认情
将数组的一部分作为函数参数传递

我有一个数组int arr 5 10 2 3 5 1 我想将最后 4 个元素基本上是从索引 1 到索引 4 作为数组传递到参数中因此 2 3 5 1 有没有一种方法可以非常简单地做到这一点就像在 Ruby 中如何执行 arr 1 4
使用传单中的测量工具时禁用弹出窗口

我在传单中使用测量插件工具但是当我尝试在标记之间测量时弹出窗口会干扰有没有办法解决这个问题我读过一些关于 oddclicks 的内容我尝试使用它但没有成功 leaflet control measure click functio
编辑 Django 用户管理模板

我需要编辑显示的用于编辑特定用户的模板我需要显示一些不适合包含样式的附加数据我对这个简短的问题表示歉意但这就是目前的全部内容如果你不能通过子类化来完成你想要的事情admin ModelAdmin 您可以在模板目录中创建一个目录 ad
MVC 将 Base64 字符串转换为图像，但是... System.FormatException

我的控制器正在以下代码中的请求对象中获取上传的图像 HttpPost public string Upload string fileName Request Form FileName string description Request
如何快速知道Gimp中的图层尺寸？

每次我想知道 Gimp 中的图层尺寸时我都会打开缩放图层对话框来获取它有没有更好的方法可以一目了然可能是一些配置选项将其显示在图层名称的底部右侧或底部栏中也许这可能是 Gimp 功能请求谢谢你 GIMP 确实有方法配置状态
接收来自 N 个客户端的响应，以回复通过 UDP 的广播请求

我正在为特定类型的网络多媒体设备实现一种 IP 查找器我想找出 LAN 中该类型的所有活动设备及其 IP 地址和其他详细信息设备有自己的设备发现方式其工作原理如下客户端通过 UDP 通过 LAN 发送广播请求目的端口号是固定的作
即使启动复制命令的 lambda 函数已超时，如何使复制命令继续在 redshift 中运行？

我正在尝试运行一个复制命令将大约 100 GB 的数据从 S3 加载到 redshift 我每天都使用 lambda 函数来启动此复制命令这是我当前的代码 from datetime import datetime timedelta

即使启动复制命令的 lambda 函数已超时，如何使复制命令继续在 redshift 中运行？

即使启动复制命令的 lambda 函数已超时，如何使复制命令继续在 redshift 中运行？ 的相关文章

随机推荐

热门标签

即使启动复制命令的 lambda 函数已超时，如何使复制命令继续在 redshift 中运行？的相关文章