AWS Glue 截断 Redshift 表

2024-01-12

我创建了一个 Glue 作业，将数据从 S3（csv 文件）复制到 Redshift。它可以工作并填充所需的表。

但是，我需要在此过程中清除表，因为在该过程完成后我留下了重复的记录。

我正在寻找一种方法将这种清除添加到胶水过程中。任何意见，将不胜感激。

Thanks.

您可以更改 Glue 脚本以在插入之前执行“预操作”，如下所述：

https://aws.amazon.com/premiumsupport/knowledge-center/sql-commands-redshift-glue-job/ https://aws.amazon.com/premiumsupport/knowledge-center/sql-commands-redshift-glue-job/

datasink4 = glueContext.write_dynamic_frame.from_jdbc_conf(frame
= datasource0, catalog_connection = "test_red", connection_options = {"preactions":"truncate table target_table;","dbtable": "target_table", "database": "redshiftdb"}, redshift_tmp_dir = 's3://s3path', transformation_ctx = "datasink4")

例如，对于主要基于默认值的脚本，我在最后一个 DataSink 之前插入了一个新的 DataSink（我已用 {things} 替换了一些详细信息）：

## @type: DataSink
## @args: [catalog_connection = "redshift-data-live", connection_options = {"dbtable": "{DBTABLE}", "database": "{DBNAME}"}, redshift_tmp_dir = TempDir, transformation_ctx = "datasink4"]
## @return: datasink4
## @inputs: [frame = dropnullfields3]
datasink4 = glueContext.write_dynamic_frame.from_jdbc_conf(frame = dropnullfields3, catalog_connection = "redshift-data-live", connection_options = {"preactions":"truncate table {TABLENAME};","dbtable": "{SCHEMA.TABLENAME}", "database": "{DB}"}, redshift_tmp_dir = args["TempDir"], transformation_ctx = "datasink4")
## @type: DataSink
## @args: [catalog_connection = "redshift-data-live", connection_options = {"dbtable": "{SCHEMA.TABLENAME}", "database": "{DB}"}, redshift_tmp_dir = TempDir, transformation_ctx = "datasink4"]
## @return: datasink5
## @inputs: [frame = datasink4]
datasink5 = glueContext.write_dynamic_frame.from_jdbc_conf(frame = datasink4, catalog_connection = "redshift-data-live", connection_options = {"dbtable": "{SCHEMA.TABLENAME}", "database": "{DB}"}, redshift_tmp_dir = args["TempDir"], transformation_ctx = "datasink5")
job.commit()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

amazonwebservices

PySpark

amazonredshift

awsglue

AWS Glue 截断 Redshift 表的相关文章

以矢量化方式在另一个 DataFrame 中查找包含值子集的行

如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
最小二乘法拟合直线 python 代码

我有一个由 X 和 Y 坐标组成的散点图我想使用直线的最小二乘拟合来获得最佳拟合线直线最小二乘拟合是指如果 x 1 y 1 x n y n 是测量数据对则最佳直线是y A Bx 这是我的Python代码 number of poin
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
类型错误：float() 参数必须是字符串或数字，而不是“列表”python

我的 Python 有问题这是我的代码 def calcola a input b float a 0 split c float a 0 split d float a 0 split e float a 0 split j float
numpy：大量线段/点的快速规则间隔平均值

我沿着一维线有许多约 100 万个不规则间隔的点 P 这些标记线段这样如果点是 0 x a x b x c x d 则线段从 0 gt x a x a gt x b x b gt x c x c gt x d 等我还有每个段的 y
在 Linux 上的 Python 中使用受密码保护的 Excel 工作表

问题很简单我每周都会收到一堆受密码保护的 Excel 文件我必须解析它们并使用 Python 将某些部分写入新文件我得到了文件的密码当在 Windows 上完成此操作时处理起来很简单我只需导入 win32com 并使用 clie
使用 Elastic Beanstalk 进行 Logback

我在使用 Elastic Beanstalk 记录应用程序日志时遇到问题我正在 AWS Elastic Beanstalk 上的 Tomcat 8 5 with Corretto 11 running on 64bit Amazon Li
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
根据第三个变量更改散点图中的标记样式

我正在处理多列字典我想绘制两列然后根据第三列和第四列更改标记的颜色和样式我很难改变 pylab 散点图中的标记样式我的方法适用于颜色不幸的是不适用于标记样式 x 1 2 3 4 5 6 y 1 3 4 5 6 7 m k l l
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
具有多个主键的 SQLAlchemy 不会自动设置任何

我有一个简单的表 class test Base tablename test id Column Integer primary key True title Column String def init self title self
在 matplotlib 中绘制多边形的并集[重复]

这个问题在这里已经有答案了我正在尝试绘制几个多边形的并集matplotlib 具有一定的 alpha 水平我当前的代码在交叉点处颜色较深有没有办法让交叉路口与其他地方的颜色相同 import matplotlib pyplot as
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
如何更改matplotlib中双头注释的头大小？

Below figure shows the plot of which arrow head is very small 我尝试了下面的代码但它不起作用它说引发 AttributeError 未知属性 s k 属性错误未知属性头宽
如何从 nltk 下载器中删除数据/模型？

我在 python3 NLTK 中安装了一些 NLTK 包通过nltk download 尝试过它们但不需要它们现在想删除它们我怎样才能删除例如包large grammars来自我的 NLTK 安装我不想删除完整的 NLTK 安装
Java/Python 中的快速 IPC/Socket 通信

我的应用程序中需要两个进程 Java 和 Python 进行通信我注意到套接字通信占用了 93 的运行时间为什么通讯这么慢我应该寻找套接字通信的替代方案还是可以使其更快更新我发现了一个简单的修复方法由于某些未知原因缓冲输出流似
在 ec2 上托管 Rails

我想将 Rails 部署到亚马逊 ec2 上我看过 poolparty 和 ec2onrails 但似乎都不再维护了人们用什么来做到这一点都是自制的木偶和卡皮斯特拉诺还是有一个项目可以让我继续下去我可以推荐两个项目如果您有一个

随机推荐

带有托管扩展框架 (MEF) 的工厂模式

我正在尝试使用 MEF 实现工厂模式这是我的解决方案核心项目 IClass ObjectFactory static Class This is where the problem is 项目A Export typeof IClass
删除 SQL Server 中的记录后重置身份种子

我已将记录插入 SQL Server 数据库表中该表定义了主键并且自动增量身份种子设置为是这样做主要是因为在 SQL Azure 中每个表都必须定义主键和标识但由于我必须从表中删除一些记录这些表的身份种子将受到干扰并且索引列
是否可以使用隐式证据来强制抽象类型之间的静态类型兼容性？

假设具有以下特征 trait A type B def a A A 我使用抽象类型是因为我不想每次需要 A 时都在类型签名中拖动 B 是否仍然可以向方法添加任何隐式证据使用我的第一反应是拒绝但 scala 之前就给我带来了惊喜任何
Spring Integration - 当服务激活器组件中发生异常时写入错误队列

我开始使用 Spring 集成如果可能的话我不知道如何解决这种情况我想自动捕获应用程序的服务激活器中可能发生的每个异常并将此错误发送到专用队列网关不是一个解决方案因为我需要一些自定义代码所以如果我正确理解了原理我必须使用
使图像文件在 Lollipop 上的 Android Gallery 中可见

我试图使应用程序中拍摄的一些照片在图库中可见以便可以在应用程序外部共享和查看它们但我想将图像本身保留在应用程序的数据目录中以便当应用程序被删除它们被删除因此它们存储在 sdcard Android data appID 图片子文
Flutter 嵌套 JSON 解析

我这里有一个嵌套的 JSON api Employee Name Michael Jackson Identification 881228145031 Company Test Corporate DateOfBirth 1988 12
Gettext 不起作用，没有错误消息，使用 php 5.3

我已经在这件事上摸索了好几天了但没有成功我只是想让 gettext 工作发生的情况是打印 php 文件中写入的字符串而不是翻译后的字符串 IE 如果我做 echo gettext Service 然后打印 Service 而不是瑞典
Visual Studio 2008 中缺少 T4 代码生成？

所以我决定卷起袖子尝试一下 VS2008 内置的 T4 代码生成我打算继续写这篇文章 http www olegsych com 2008 09 t4 tutorial creatating your first code generat
Prolog - 描述事实和规则

我想在序言中描述以下事实和规则 Nick 正在使用 Java 进行编程 Nick 正在使用 Python 编程 Nick 是任何使用 Java 和 Python 编程的人的朋友 Jim 可以使用 Nick 所使用的所有语言进行编程我找到了
如果不可能，计算 x^n 并返回整数限制而不溢出的元函数？

考虑以下代码 template
如何将 ft_min_word_len=4 修改为 ft_min_word_len=1 以便 osclass 3.7.1 可以搜索最少 1 个字符的单词，而不是 4？

我想将搜索的最小字符长度从 4 更改为 1 我找到了这个文档https doc osclass org Fine Tuning MySQL Full Text Search Improving search https doc osclas
iOS8 中的 dismissViewControllerAnimated 崩溃

我有一个在 iOS7 0 7 1 中运行良好的应用程序自从上次 iOS 更新 8 0 以来 dismissViewControllerAnimated 每次都会崩溃有人看到同样的事情吗我有一个控件可以调用第二个控制器 detailVi
您可以运行可从公共IP访问的/host firebase模拟器吗？

我正在使用 firebase 模拟器在我的计算机上托管一些 GCF 功能它们被配置为在 localhost 5001 上运行托管这很好用我现在在我的应用程序中使用 Google Tasks 并且我的任务需要调用 GCF 函数任务不
在 jython 中实例化 webclient 对象给出奇怪的结果

我正在尝试在 jython 脚本中使用 java 的 WebClient jar 我正在运行 jython 脚本如下所示 jython Dpython path home tipu Dropbox dev proj lib test py
MPAndroidChart：“图例”现在已弃用 getColors()。我应该用什么来代替？

我正在 MPAndroidChart 中显示 PieChart 的自定义图例但是 getColors 和 getLabels 现已弃用我一直在使用它们分别获取 int 数组和字符串数组但我似乎找不到直接的替代方案我错过了一些明显的东
还记得在 parse.com android 上的用户登录吗？

您好我特别尝试使用解析 api 进行登录但我无法获取代码来检查用户之前是否已登录我在解析网站上发布了这个问题但没有答案我在教程中找到了这段代码但不确定将其放置在我的启动器活动中的何处 Intent intent if Parse
如何使用 PowerShell 将 Api 权限添加到 Azure 应用程序注册

我正在找出 Azure PowerShell 中的命令来添加User ReadApe 在 Azure 中注册我的应用程序的权限我可以找到一些使用的例子 Azure 但更喜欢使用 Az命令例如https learn microsoft c
如何检查我的应用程序中的 SDK 是否正在收集任何广告 ID

Google 向我发送了一条警告通知我我的一个应用程序正在收集信息安卓设备 ID and 广告ID信息有没有什么工具可以用来测试这个活动涉及哪个SDK P s 我正在使用以下 SDK Admob 中介 Firebase Onesigna
如何暂时禁用EGit？

当做类似的事情时git repack从命令行包被锁定并且无法删除从而使存储库大小加倍罪魁祸首很可能是 EGit 保持文件打开这在 Windows 中是不好的退出 Eclipse 是我所知道的唯一解决方法我发现了本文 https
AWS Glue 截断 Redshift 表

我创建了一个 Glue 作业将数据从 S3 csv 文件复制到 Redshift 它可以工作并填充所需的表但是我需要在此过程中清除表因为在该过程完成后我留下了重复的记录我正在寻找一种方法将这种清除添加到胶水过程中任何意见将不

AWS Glue 截断 Redshift 表

AWS Glue 截断 Redshift 表 的相关文章

随机推荐

热门标签

AWS Glue 截断 Redshift 表的相关文章