您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗？

2024-03-09

我们有大量的服务器数据存储在S3（很快将在Parquet格式）。数据需要进行一些转换，因此它不能直接从 S3 复制。我将使用Spark访问数据，但我想知道是否可以跳过一个步骤并运行查询来提取/转换数据，然后复制它，而不是使用 Spark 操作它，写回 S3，然后复制到 Redshift直接红移？

当然，完全有可能。

用于读取 parquet 的 Scala 代码（取自here http://spark.apache.org/docs/latest/sql-programming-guide.html#loading-data-programmatically)

val people: RDD[Person] = ... 
people.write.parquet("people.parquet")
val parquetFile = sqlContext.read.parquet("people.parquet") //data frame

写入 redshift 的 Scala 代码（取自here https://github.com/databricks/spark-redshift)

parquetFile.write
.format("com.databricks.spark.redshift")
.option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass")
.option("dbtable", "my_table_copy")
.option("tempdir", "s3n://path/for/temp/data")
.mode("error")
.save()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗？的相关文章

YARN UNHEALTHY 节点

在我们的 YARN 集群已满 80 的情况下我们看到一些纱线节点管理器被标记为不健康在深入研究日志后我发现这是因为数据目录的磁盘空间已满 90 出现以下错误 2015 02 21 08 33 51 590 INFO org apach
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
Spark.sql.shuffle.partitions 的最佳值应该是多少，或者在使用 Spark SQL 时如何增加分区？

我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询我遇到了 OOM 问题所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
如何在AWS策略中提供多个StringNotEquals条件？

我正在尝试编写 AWS S3 存储桶策略拒绝所有流量除非来自两个 VPC 的流量我正在尝试编写的策略如下所示两者之间有逻辑与StringNotEquals 除非这是无效的政策 Version 2012 10 17 Id Policy
AWS S3 上传的图像已损坏

我正在 AWS ec2 ubuntu 机器上工作我的代码在 cakephp 中当我尝试将任何图像上传到 AWS S3 时它都会损坏虽然它在核心 php 代码中运行良好这是我的控制器代码 if this gt User gt sav
将 CSV 转换为序列文件

我有一个 CSV 文件我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
如何将SQL数据加载到Hortonworks中？

我已在我的电脑中安装了 Hortonworks SandBox 还尝试使用 CSV 文件并以表结构的方式获取它这是可以的 Hive Hadoop nw 我想将当前的 SQL 数据库迁移到沙箱 MS SQL 2008 r2 中我将如何做
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
猪的组连接等效吗？

试图在 Pig 上完成这个任务寻找 MySQL 的 group concat 等效项例如在我的表中我有以下内容 3fields userid clickcount pagenumber 155 2 12 155 3 133 155
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
如何使用 Scala 从 Spark 更新 ORC Hive 表

我想更新 orc 格式的 hive 表我可以从 ambari hive 视图进行更新但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
Windows 上的 Apache Pig 在运行“pig -x local”时出现“hadoop-config.cmd”未被识别为内部或外部命令”错误

如果您由于以下错误而无法在 Windows 上运行 Apache Pig hadoop 2 4 0 bin hadoop config cmd is not recognized as an internal or external com
使用 AWS Java SDK 为现有 S3 对象设置 Expires 标头

我正在更新 Amazon S3 存储桶中的现有对象以设置一些元数据我想设置 HTTPExpires每个对象的标头以更好地处理 HTTP 1 0 客户端我们正在使用AWS Java SDK http aws amazon com sdkf
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1

随机推荐

将 Dictionary 序列化为 BSON 时出现 BsonSerializationException

我最近搬到了新的 MongoDB C 驱动程序 v2 0 https www nuget org packages MongoDB Driver 2 0 0来自已弃用 v1 9 https www nuget org packages mo
如何在 try catch 语句中重新请求输入

string l Console ReadLine try int Parse l catch FormatException Console WriteLine Invalid input Please enter 1 2 or 3 正如
在python中将字典的字典写入csv

我有一本字典我想将其写入 csv 我的字典看起来像 dict object1 time1 value1 value2 time2 value3 value4 object2 time1 value5 value6 time2 value7
使用 boost 序列化抽象类时出错

我正在尝试序列化我的数据结构以便将它们写入 TCP 套接字到目前为止我发现我的问题是序列化我什至尝试使用 BOOST SERIALIZATION ASSUME ABSTRACT T 但我找不到任何与我的程序类似的工作示例以及如何正确实
Numba 和 numpy 数组分配：为什么这么慢？

我最近使用 Cython 和 Numba 来加速进行数值模拟的 python 的小片段起初使用 numba 进行开发似乎更容易然而我发现很难理解 numba 何时会提供更好的性能何时不会意外性能下降的一个例子是当我使用该函数时n
@Entity 和 @Table 中的名称属性

我有疑问因为 Entity 和 Table 中都有 name 属性例如我允许 name 属性具有相同的值 Entity name someThing Table name someThing 我也可以为同一个班级使用不同的名字 Ent
如何使用java从cucumber中的场景大纲中获取场景名称

假设我有一个测试用例例如 Scenario Facebook login test GIVEN I am a Facebook user WHEN I enter my user name password THEN login shou
从完整 URL 获取域名

假设有人输入这样的 URL http i imgur com a b c query value query2 value 我想返回 imgur com not i imgur com 这是我现在拥有的代码 sourceUrl parse
PHP 中的 AES/CBC/PKCS#5 加密算法

我正在尝试使用表单集成方法将 SagePay 支付网关集成到网站中基本上表单集成方法的工作原理是在网页中插入表单并在选择表单的提交按钮时将信息发布到 SagePay 的服务器在将信息发送到 SagePay 的服务器之前必须
如何在xcode中链接glew

我无法将 glew 与 xcode 链接我有 glew 库位于 usr local lib libGLEW dylib 当我在命令行中编译文件时 g usr local lib libGLEW dylib framework OpenGL
通过同一程序集的反射生成代码

我已经开始涉足 T4 一开始相处得很好但后来遇到了一个实际上非常明显并且可能无法解决的问题但也许有一种方法我只是缺乏知道或看到的经验给定以下课程 public class T4Test CodeActivity protected o
无法连接，因为目标机器主动拒绝 127.0.0.1:2382

我正在尝试连接 SSAS 引擎 SQL Server Denali 但失败并出现以下错误无法建立连接因为目标计算机主动拒绝它 127 0 0 1 2382 SSAS 服务在网络服务帐户下运行 SQL 浏览器服务在本地系统帐户上运行你运
仅使用 Yocto/bitbake 快速重建设备树？

因此每次修改设备树时我通常会更改自定义配方中的 dts 并重建映像重建需要很长时间因为它会重建整个内核然后需要构建镜像最后部署到目标设备我是否缺少任何仅重建设备树的技巧 UPDATE 我已将 g0hl1n 的答案标记为正确答案
面板数据中汇总回归模型的模型预测

我正在尝试生成一个预测模型在该模型中我每年都会进行多次汇总回归基于前几年从而允许系数随时间变化这在提供的示例数据中可能没有意义但在我的示例中实际上是这样做的这是我到目前为止的想法我将代码调整为 plm 包中的可重现示例数据
不同文化信息之间的日期时间转换

我想在国家地区之间创建不同的转换并且我正在使用 C 我正在尝试将日期时间转换为另一个日期时间格式为 dd mmm yyyy CultureInfo ci CultureInfo CreateSpecificCulture langua
seq2seq 中的 TimeDistributed(Dense) 与 Dense

鉴于下面的代码 encoder inputs Input shape 16 70 encoder LSTM latent dim return state True encoder outputs state h state c encod
在 Maven 中设置注释处理器生成的源目录

我正在尝试将使用注释处理器生成源的构建移动到 Maven 我尝试按如下方式配置 maven compiler plugin
Angular6 - 读取文本/纯文本的响应正文

我正在执行注册操作当用户成功注册时我会在后端返回他的 ID 例如 105 当注册失败用户已存在时我返回 USER EXISTS 我已经在 Postman 上检查了请求响应正文是正确的在这两种情况下我都会返回纯文本文本但
Django 双向ManyToMany - 如何防止在第二个模型上创建表？

我有两个模型每个模型都有一个共享的 ManyToMany 使用 db table 字段但是如何防止syncdb 尝试为第二个模型创建共享表呢 class Model1 models Model othermodels ManyToMan
您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗？

我们有大量的服务器数据存储在S3 很快将在Parquet格式数据需要进行一些转换因此它不能直接从 S3 复制我将使用Spark访问数据但我想知道是否可以跳过一个步骤并运行查询来提取转换数据然后复制它而不是使用 Spark 操作

您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗？

您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗？ 的相关文章

随机推荐

热门标签

您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗？的相关文章