Amazon Redshift-备份和恢复最佳实践？

2024-04-25

我们在 Redshift 中有一组表，其中的列具有 IDENTITY 属性，用于序列生成。在测试阶段，需要进行备份和恢复，这是每个测试周期的重复活动。我们按照以下流程进行备份然后恢复，并遇到以下问题：

传统方式：使用 CREATE TABLE XYZ_BKP AS SELECT * FROM XYZ 在另一个备份模式中创建了备份表。但这样做我们丢失了表的 IDENTITY 和其他属性。因此，在恢复过程中，如果您尝试直接从备份创建表，您会丢失属性，并且无法更改添加 IDENTITY 约束。
传统方式备份和不同的恢复方法：这次我们首先使用 DDL 删除并重新创建表，然后尝试从备份执行 INSERT INTO。但它无法将值插入 IDENTITY 列。
卸载并复制：我们还尝试了 UNLOAD 等 Redshift 实用程序来备份 S3 中的表，然后使用副本进行恢复。它工作得很好，但随后我们遇到了其他问题 - A。具有前导零的 DATE 字段在 UNLOAD 提取中未正确提取。例如：日期“0001-01-01”提取为“1-01-01”。然后它在复制期间失败，说不是有效日期。在恢复（复制）过程中还会引发其他几个错误，例如非空字段的数据丢失或 int 数据类型的值无效。这意味着 UNLOAD 和 COPY 命令一起不能同步工作并且值会发生变化。
从快照恢复表：我还没有尝试过这个，但我知道AWS现在支持表恢复。但为 500 张桌子单独设置也是一项乏味的工作。您还可以长期保存和跟踪快照。

如果您能建议在我的场景中备份和恢复的最佳方法或组织遵循的最佳实践，这将非常有帮助。

我想在这里逐条回答，所以会有点长，请原谅；），但在我看来，我觉得最好的选择是Unload to S3 and Copy to table from S3。这里，S3可以替换为EC2.

传统方式- 如果我们需要进行一些数据替换并且我们希望空运行我们的查询，我们更愿意这样做。
传统方式备份和不同的恢复方法与#1 相同的问题，我们不使用。
卸载和复制：这是最方便的方法，甚至 IDENTITIES 也可以保留，因此始终是首选方法。

列出了一些有问题的问题，但大多数问题都是错误的，或者可以通过提供正确的导出/导入参数来避免。我想提供所有必要的步骤和数据来证明我的观点，即不存在任何问题dates and timestamps在装载和卸载过程中。

在这里我做了大部分数据类型来证明我的观点。

create table sales(
salesid integer not null Identity,
commission decimal(8,2),
saledate date,
description varchar(255),
created_at timestamp default sysdate,
updated_at timestamp);

CSV 中的内容（sales-example.txt）

salesid,commission,saledate,description,created_at,updated_at
1|3.55|2018-12-10|Test description|2018-05-17 23:54:51|2018-05-17 23:54:51
2|6.55|2018-01-01|Test description|2018-05-17 23:54:51|2018-05-17 23:54:51
4|7.55|2018-02-10|Test description|2018-05-17 23:54:51|2018-05-17 23:54:51
5|3.55||Test description|2018-05-17 23:54:51|2018-05-17 23:54:51
7|3.50|2018-10-10|Test description|2018-05-17 23:54:51|2018-05-17 23:54:51

复制将导入的命令date, timestamps，以及 ID。

copy sales(salesid,commission,saledate,description,created_at,updated_at) from 's3://****/de***/sales-example.txt' credentials 'aws_access_key_id=************;aws_secret_access_key=***********' IGNOREHEADER  1 EXPLICIT_IDS;

这将复制 5 条记录。我在这里做parallel off获取单个数据CSV来证明这一点，尽管不是必需的并且应该避免。

unload ('select salesid,commission,saledate,description,created_at,updated_at from sales') to 's3://assortdw/development/sales-example-2.txt' credentials 'aws_access_key_id=***********;aws_secret_access_key=***********' parallel off;

下面是我的内容，与导入完全相同，这意味着如果运行Copy命令到任何其他环境说dev or QA或者在某个地方，我会得到与中完全相同的记录Redshift簇。

5|3.55||Test description|2018-05-17 23:54:51|2018-05-17 23:54:51
1|3.55|2018-12-10|Test description|2018-05-17 23:54:51|2018-05-17 23:54:51
7|3.50|2018-10-10|Test description|2018-05-17 23:54:51|2018-05-17 23:54:51
2|6.55|2018-01-01|Test description|2018-05-17 23:54:51|2018-05-17 23:54:51
4|7.55|2018-02-10|Test description|2018-05-17 23:54:51|2018-05-17 23:54:51

从快照恢复表：这需要我们的“网络/基础设施小组”，因此我们避免这样做，尽管对此不太确定。非常欢迎其他专家对此发表评论/分享详细信息。

我希望这能回答这个问题，并提供一个起点discuss/summarize/conclude。欢迎大家踊跃补充积分。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazons3

amazonredshift

Amazon Redshift-备份和恢复最佳实践？的相关文章

使用 PySpark 写入 Amazon S3 时，我得到 org/apache/hadoop/fs/StreamCapability

Problem 我尝试将 hadoop aws 与 pyspark 结合使用以便能够从 Amazon S3 读取写入文件方法安装软件包安装中hadoop aws以及相应的依赖项将其 Maven 坐标及其依赖项传递给spark j
图片上传亚马逊s3 android SDK 2.0

我想将图像上传到 android 中的亚马逊 s3 存储桶我没有收到任何错误但它不起作用有人可以帮助我吗我找不到任何关于此的好的例子或问题我将图像分配给文件图像3 images3 new File uri getPath publ
节点 aws-sdk s3 文件上传大小

当使用 Node js 的 aws sdk npm 插件时我可以使用以下代码上传 50kb 的 pdf 到 AWS s3 var params Bucket BUCKET Key pdf key Body file ContentType
将 hadoop fs 路径转换为 EMR 上的 hdfs:// 路径

我想知道如何将数据从 EMR 集群的 HDFS 文件系统移动到 S3 存储桶我认识到我可以直接在 Spark 中写入 S3 但原则上之后执行它也应该很简单到目前为止我还没有发现在实践中这是正确的 AWS 文档建议s3 dist cp
当 S3 上的 ZIP 包更改时如何更新 aws_lambda_function Terraform 资源？

Zip 包不是由 Terraform 上传到 S3 Lambda 由 Terraform aws lambda function 资源配置当我在 S3 上更改 Zip 包并运行时terraform apply命令 Terraform 说没
在 github 推送上将静态站点部署到 s3 的最佳策略？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想自动将我们的网站部署到 AWS S3 我已经编写了一个节点脚本来自动构建和上传网站但我希望每当m
从 s3 静态网站中的按钮触发 lambda

我有一个静态网站其中有一个包含几个字段的表单 CloudFront 位于将流量路由到站点的存储桶的前面所涉及的表单自然有一个 POST 到的按钮有没有办法让按钮上的点击触发带有表单字段内容的 lambda 函数提前致谢 API G
使用存储桶级别权限调用 PutObject 操作时出现访问被拒绝的情况

我按照上面的例子http docs aws amazon com IAM latest UserGuide access policies examples html iam policy example s3 http docs aws
AWS CloudFront 重定向到 S3 存储桶

我创建了一个 CloudFront 发行版来为静态网站提供服务 S3是源服务器现在如果我们访问 CloudFront URL 它会重定向到 S3 位置 d2s18t7gwlicql cloudfront net or test tele
如何在heroku上设置django-compressor，离线压缩到S3

我遵循了在 SO 和不同博客中找到的每一条 QA 建议在我的开发机器上一切正常但在 Heroku 上没有任何效果这是我的设置 DEFAULT FILE STORAGE arena utils MediaRootS3BotoStorag
AWS Cloudfront 行为函数不重定向

尝试找到一种方法将流量从我的 AWS CloudFront 页面重定向到另一个 URL 我目前正在使用 Cloudfront Functions 设置函数函数代码函数名称 exampleFunction function handle
公共存储桶的 S3 CORS 策略

这似乎很容易但我不知道我错过了什么我有一个公共存储桶其中包含从我的网站获取的 js 脚本我注意到我没有发送Origin标头到 S3 这不是必需的并且无需任何 CORS 配置即可正常工作更重要的是即使我手动将 Origin 标头
非聚合查询内部的聚合情况

我有一个相当大的查询其最简单的形式如下所示 select r rep id u user id u signup date pi application date pi management date aum from table1 r
如何删除/统计 s3 存储桶中的对象？

所以我知道这是一个常见问题但似乎没有任何好的答案我有一个桶里面有大量我不知道有多少文件都在2k一个以内 1 我如何知道我有多少个这些文件没有列出他们我使用过 s3cmd rb aws s3 和 jets3t 的东西我能找到的
关于 S3 文件传输的权限

我正在使用 S3TransferManager Sample 进行测试我创建了Cognito并设置了IAM并最后更改了constants swift文件我上传没有问题但下载失败错误信息是下载失败错误域 com amazonaws
如何在使用 Active Storage 上传之前调整图像大小（与 AWS 链接）

我尝试将 Active Storage 与 Amazon Web Services 结合使用而不是 Carrierwave 和 Cloudinary 使用 Carrierwave 我有一些功能可以在通过上传器控制器上传之前调整图像大小但
在 RedShift 中声明变量

SQL Server能够声明一个变量然后在查询中调用该变量如下所示 DECLARE StartDate date SET StartDate 2015 01 01 SELECT FROM Orders WHERE OrderDate g
S3 不返回 Access-Control-Allow-Origin 标头？

我无法强制 S3 在从存储桶返回的所有对象上设置 CORS 标头尽管启用了 CORS 但由于客户端 S3 上传正在工作返回的对象没有 CORS 标头我启用的策略是
使用S3上传但不允许公共访问

我的想法是创建一个 S3 存储桶以允许用户上传二进制对象下一步是确认上传然后 API 将启动文件处理为了使其更安全客户端将首先请求上传位置然后 API 会在 S3 上为此上传分配并预先创建一个一次性使用目录并在该目录上设置访问策
将 zip 从 Blazor WASM 应用程序上传到 AWS-S3 - 遵循教程，没有观察到错误，但存储桶中也没有文件

我有一个 Blazor WASM 应用程序即客户端用户可以向其中上传一些数据对数据进行一些完整性和安全性检查后我想将这些数据上传到 AWS S3 中的 zip 文件中目前我已经构建了 zip 文件如下所示 using var o

随机推荐

Kafka 消费者通过 JMX 滞后

我正在尝试监控 Kafka 0 10 中消费者组的滞后情况我们的消费者在 Kafka 而不是 ZooKeper 中跟踪他们的偏移量这意味着我可以使用以下方式获取数据 bin kafka consumer groups sh bootst
如何在 QScrollArea() 之上显示 QPropertyAnimation()？

1 Intro 我工作于Python 3 7在 Windows 10 上并使用PyQt5对于图形用户界面在我的申请中我得到了一个QScrollArea 里面有一系列按钮单击时按钮必须移到该区域之外我用一个QPropertyAnim
Spark Shell 监听本地主机而不是配置的 IP 地址

我正在尝试通过 Spark Shell 运行一个简单的 Spark 作业它看起来像 Spark shell 的 BlockManager 侦听本地主机而不是配置的 IP 导致 Spark 作业失败的地址抛出的异常是无法连接到本地主机
尝试从 Delphi 打开 Excel 或 Word 时出现“接口不受支持”错误

当使用旧的 Delphi 代码将一些文本输出到 Excel 或 Word 时我在一台机器上遇到了接口不支持错误我怎样才能解决这个问题问题是计算机上以前版本的 Excel 未正确卸载为了修复它我使用了遵循指示 http soci
启动日志“未找到事务管理器”

当我启动jetty时日志中出现以下行 INFO oejpw PlusConfiguration No Transaction manager found if your webapp requires one please configu
JavaScript/jQuery - offsetLeft 和 offsetTop

当鼠标悬停在跨度上时我想获取 offsetLeft 和 offsetTop 值以便我可以将某些东西悬停在它附近当我这样做时两个值都为 0 有什么更好的方法来解决这个问题我正在使用 jQuery 假设我开始由服务器端脚本循环 sp
基类和派生类中的数据成员相同

我是 C 编程新手我正在阅读继承概念我对继承概念有疑问如果基类和派生类具有相同的数据成员会发生什么另外请仔细阅读我的代码如下所示 include stdafx h include
Flutter - 带有 SafeArea 的系统栏颜色

我正在尝试添加SafeArea带有彩色系统栏的 flutter 应用程序的小部件但不知何故它们总是变黑 override Widget build BuildContext context SystemChrome setSystemUI
powershell函数输出到变量

我在 powershell 2 0 中有一个名为 getip 的函数它可以获取远程系统的 IP 地址 function getip strComputer computername colItems GWMI cl Win32 Netwo
'迭代时不能对不可变值使用变异 getter：'self' 是不可变的'？

有谁知道为什么self indexCount in the ForEach给出了错误Cannot use mutating getter on immutable value self is immutable错误我可以提供aView w
移动视口尺寸是否大于屏幕尺寸？

我在谷歌上搜索了移动视口发现它是一个虚拟窗口大多数移动浏览器都在其中渲染页面视口比屏幕宽 here https developer mozilla org en docs Mozilla Mobile Viewport meta ta
如何使用 C++ 获取 Windows 中的应用程序数据路径？

我查遍了互联网似乎没有找到合适的解决方案我希望能够在 C 中以编程方式获取路径 ALLUSERSPROFILE Application Data 资源管理器可以将其转换为真实路径我可以在不依赖第三方代码的情况下做到这一点吗 Use S
复制带有格式的 Notepad++ 文本？

我正在使用 Notepad 来编写代码如何复制 Notepad 中的代码及其格式以粘贴到 Microsoft Word 中即语法突出显示等这是当您选择要复制为 html 的文本时来自 notepad 的图像 and how the f
hasattr 被称为方法，但它看起来像函数[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案在 Python 中函数接受参数并可选择返回信息 functionname param1 param2 returnvalue functio
如何获取旋转器中的项目数量？

如何动态获取微调器中的项目数你可以试试 mSpinner getAdapter getCount
AppWidgetProvider 和 RemoteViewsService.RemoteViewsFactory 之间共享数据的正确方法是什么

目前我的AppWidgetProvider有静态数据它用于传递信息AppWidgetProvider RemoteViewsService RemoteViewsFactory public class MyAppWidgetProvi
是什么原因导致 grunt.js 中的 /*global module: false*/

许多 grunt js 脚本以以下内容开头 global module false module exports function grunt 但是第一行注释的原因是什么它是 JSLint 或 JSHint 的指令它告诉 JSLint
如何矢量化 3D Numpy 数组

我有一个 3D numpy 数组例如a np zeros 100 100 20 我想对每个执行操作x y涉及所有元素的位置z轴结果存储在一个数组中例如b np zeros 100 100 在同一个对应的x y位置现在我使用 for
/storage/logs 处不存在现有目录且不可构建：权限被拒绝

我在 OVH Web 服务器上部署 Laravel 时遇到问题制作完成后 composer update php artisan cache clear php artisan route clear php artisan dump a
Amazon Redshift-备份和恢复最佳实践？

我们在 Redshift 中有一组表其中的列具有 IDENTITY 属性用于序列生成在测试阶段需要进行备份和恢复这是每个测试周期的重复活动我们按照以下流程进行备份然后恢复并遇到以下问题传统方式使用 CREATE TABLE

Amazon Redshift-备份和恢复最佳实践？

Amazon Redshift-备份和恢复最佳实践？ 的相关文章

随机推荐

热门标签

Amazon Redshift-备份和恢复最佳实践？的相关文章