即使启动复制命令的 lambda 函数已超时,如何使复制命令继续在 redshift 中运行?

2024-04-02

我正在尝试运行一个复制命令,将大约 100 GB 的数据从 S3 加载到 redshift。我每天都使用 lambda 函数来启动此复制命令。这是我当前的代码

from datetime import datetime, timedelta
import dateutil.tz
import psycopg2
from config import *

def lambda_handler(event, context):
    con = psycopg2.connect(dbname=dbname, user=user, password=password, host=host, port=port)
    cur = con.cursor()
    
    try:
        query = """BEGIN TRANSACTION;

                COPY """ + table_name + """ FROM '""" + intermediate_path + """' iam_role '""" + iam_role + """' FORMAT AS parquet;

                END TRANSACTION;"""

        print(query)
        cur.execute(query)
    
    except Exception as e:
        subject = "Error emr copy: {}".format(str(datetime.now().date()))
        body = "Exception occured " + str(e)
        print(body)
    
    con.close()

该函数运行良好,但唯一的问题是,在 lambda 函数 15 分钟超时后,复制命令也会在 reshift 中停止执行。因此,我无法完成从 s3 到 redshift 的副本加载。

我还尝试在 begin 语句之后和复制命令之前包含下面的 statements_timeout 语句。这没有帮助。

SET statement_timeout to 18000000;

有人可以建议我如何解决这个问题吗?


The AWS 文档 https://docs.aws.amazon.com/lambda/latest/dg/runtimes-context.html没有明确说明超时发生时会发生什么。但我认为可以肯定地说,它过渡到“关闭”阶段,此时运行时容器被环境强制终止。

这意味着数据库连接使用的套接字连接将被关闭,并且正在侦听该套接字的 Redshift 进程将收到文件结尾——客户端断开连接。在这种情况下,任何数据库的正常行为都是终止任何未完成的查询并回滚其事务。

我给出这样的描述的原因是为了让你知道你can't将查询的生命周期延长到启动该查询的 Lambda 的生命周期之外。如果您想坚持使用数据库连接库,则需要使用不会超时的服务:AWS Batch 或 ECS 是两个选择。

但是,有一个更好的选择:红移数据 API https://docs.aws.amazon.com/redshift/latest/mgmt/data-api.html,即由 Boto3 支持 https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/redshift-data.html.

此 API 异步运行:您向 Redshift 提交查询,并获取可用于检查查询操作的令牌。您还可以指示 Redshift 在查询完成/失败时向 AWS Eventbridge 发送消息(以便您可以创建另一个 Lambda 来采取适当的操作)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

即使启动复制命令的 lambda 函数已超时,如何使复制命令继续在 redshift 中运行? 的相关文章

随机推荐