Spark 中简单的 RDD 写入 DynamoDB

2024-02-16

刚刚在尝试将基本 RDD 数据集导入 DynamoDB 时陷入困境。这是代码：

import org.apache.hadoop.mapred.JobConf

var rdd = sc.parallelize(Array(("", Map("col1" -> Map("s" -> "abc"), "col2" -> Map("n" -> "123")))))

var jobConf = new JobConf(sc.hadoopConfiguration)
jobConf.set("dynamodb.output.tableName", "table_x")
jobConf.set("mapred.output.format.class", "org.apache.hadoop.dynamodb.write.DynamoDBOutputFormat")

rdd.saveAsHadoopDataset(jobConf)

这是我得到的错误：

16/02/28 15:40:38 WARN TaskSetManager: Lost task 7.0 in stage 1.0 (TID 18, ip-172-31-9-224.eu-west-1.compute.internal): java.lang.ClassCastException: java.lang.String cannot be cast to org.apache.hadoop.io.Text
at org.apache.hadoop.dynamodb.write.DefaultDynamoDBRecordWriter.convertValueToDynamoDBItem(DefaultDynamoDBRecordWriter.java:10)
at org.apache.hadoop.dynamodb.write.AbstractDynamoDBRecordWriter.write(AbstractDynamoDBRecordWriter.java:90)
at org.apache.spark.SparkHadoopWriter.write(SparkHadoopWriter.scala:96)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$13$$anonfun$apply$6.apply$mcV$sp(PairRDDFunctions.scala:1199)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$13$$anonfun$apply$6.apply(PairRDDFunctions.scala:1197)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$13$$anonfun$apply$6.apply(PairRDDFunctions.scala:1197)
at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1250)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$13.apply(PairRDDFunctions.scala:1205)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$13.apply(PairRDDFunctions.scala:1185)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
at org.apache.spark.scheduler.Task.run(Task.scala:89)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:213)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:745)

我可以做什么来解决这个问题？

您需要将对象转换为文本对象。

我建议你看看这里：

https://aws.amazon.com/blogs/big-data/using-spark-sql-for-etl/ https://aws.amazon.com/blogs/big-data/using-spark-sql-for-etl/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachespark

amazondynamodb

amazonemr

Spark 中简单的 RDD 写入 DynamoDB 的相关文章

Scala Sparkcollect_list() 与 array()

有什么区别collect list and array 在 Spark 中使用 scala 我看到到处都有使用情况但我不清楚用例来确定差异尽管两者array https spark apache org docs latest api
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
如何检查SparkContext是否已停止？

如何检测是否SparkContext http spark apache org docs latest programming guide html已经stopped https spark apache org docs latest
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
公平调度器和容量调度器有什么区别？

我是 Hadoop 世界的新手想了解公平调度程序和容量调度程序之间的区别另外我们什么时候应该使用每一个请简单地回答一下因为我在网上读了很多东西但从中得到的不多公平调度是一种为作业分配资源的方法使得所有作业随着时间的推移平均获得
读取不同文件夹深度的多个 csv 文件

我想递归地将给定文件夹中的所有 csv 文件读入 Spark SQLDataFrame如果可能的话使用单一路径我的文件夹结构如下所示我想包含具有一个路径的所有文件 resources first csv resources subfo
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
来自 Janino 和 Commons-Compiler 的 Spark java.lang.NoSuchMethodError

我正在构建一个使用 Spark 进行基于随机森林分类的应用程序当尝试运行该程序时我从该行收到异常 StringIndexerModel labelIndexer new StringIndexer setInputCol label
覆盖hadoop中的log4j.properties

如何覆盖hadoop中的默认log4j properties 如果我设置 hadoop root logger WARN console 它不会在控制台上打印日志而我想要的是它不应该在日志文件中打印 INFO 我在 jar 中添加了一个
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
Spark Python：标准缩放器错误“不支持... SparseVector”

我又撞到了堵墙我是一个新手所以我不得不再次依赖你强大的知识我从一个数据集开始如下所示 user account id user lifetime user no outgoing activity in days user acco
Spark Dataframe/Parquet 中的枚举等效项

我有一个包含数亿行的表我想将其存储在 Spark 的数据帧中并作为 parquet 文件持久保存到磁盘我的 Parquet 文件的大小现在超过 2TB 我想确保我已经对此进行了优化这些列中很大一部分是字符串值它们可能很长但值通常也
如何通过数据框中数组列的索引计算平均值

我正在使用 Spark 2 2 我有一个关于合作的基本问题ArrayType 我没有找到可以使用的内置聚合函数 Given a DataFrame有一个柱子id和一列values of ArrayType 我们想按 id 分组然后按索引计
在 pyspark 中包装 java 函数

我正在尝试创建一个用户定义的聚合函数我可以从 python 调用它我试图遵循答案this https stackoverflow com questions 33233737 spark how to map python with s
如何避免连续“重置偏移量”和“寻找最新偏移量”？

我正在尝试遵循本指南 https spark apache org docs latest structed streaming kafka integration html https spark apache org docs late
Hive NVL 不适用于列的日期类型 - NullpointerException

我正在使用 HDFS 上的 MapR Hive 发行版并面临以下问题如果表的列类型是日期类型则NVL https cwiki apache org confluence display Hive LanguageManual UDF
非键属性查询

看起来 dynamodb 的query方法必须包含分区键作为过滤器的一部分如果不知道分区键如何进行查询例如您有一个具有属性的用户表userid设置为分区键现在我们想通过电话号码查找用户是否可以在没有分区键的情况下执行查询使用sc

随机推荐

如何使用 Storyboard 在 AppDelegate 中使用自定义导航控制器

我有一个关于 AppDelegate 中的 Navigationcontroller 的问题我正在使用故事板如下所示由于使用推送通知我的 AppDelegate 文件中具有以下功能 void application UIApplic
对角循环二维数组

我编写了以下代码来遍历数组的一半对角线 String b a b c d e f g h i public void LoopDiag for int i b length 1 i gt 0 i String temp for int j
当 main() 退出时，分离的线程会发生什么？

假设我正在开始一个std thread进而detach 它所以线程继续执行即使std thread曾经代表它的东西已经超出了范围 Assume further that the program does not have a relia
如何使用 Jackson 将对象转换为具有前导零的整数字段的 JSON？

当我尝试转换具有整数字段的对象时其值为0000 转换后的 JSON 包含0代替0000 我该如何配置杰克逊的ObjectMapper转换0000 to 00000 前导 0 表示八进制数因此 JSON 中的数值不允许有前导零请参阅以下
组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化

我明白那个unicodedata normalize将变音符号转换为非变音符号 import unicodedata join c for c in unicodedata normalize NFD u B u0153uf if unic
在上传文件夹中存储图像时出错

我的控制器 Home php
如何用listview实现autocompletetextview？

我从服务器收到响应并使用列表视图显示它它工作正常现在我正在尝试添加自动完成文本视图来按名称搜索项目但是当我运行我的应用程序时它崩溃并显示错误我已经问过这个 Tab1Activity java public class Tab1Ac
如何在没有临时文件的情况下将流从 Web API 传递到 Azure Blob 存储？

我正在开发一个经常发生文件上传的应用程序并且文件大小可能非常大这些文件正在上传到 Web API 然后该 API 将从请求中获取流并将其传递到我的存储服务然后将其上传到 Azure Blob 存储我需要确保 Web API 实例上
类成员变量的decltype，是否被禁止？为什么？

我可以写 int a decltype a b 但是我的编译器 Microsoft Visual Studio 2010 cl版本 16 00 40219 01 禁止我 class A int a decltype a b error C2
我们怎样才能将数组向左旋转呢？

例如我有一个数组 1 2 3 4 5 和一个整数7它会旋转7右边的空格如 4 5 1 2 3 我也有那个数组 1 2 3 4 5 和一个整数 7它会旋转7左边的空格如 3 4 5 1 2 我使用以下方法将数组旋转到右侧 for int i
使用 NodeJS 将文件上传到 Amazon S3

我在尝试将文件上传到 S3 存储桶时遇到问题除了我的文件参数似乎不合适之外一切正常我正在使用 Amazon S3 sdk 从 nodejs 上传到 s3 这些是我的路线设置 var multiparty require connect
不支持在 c 或 c++ 中添加两个指针。为什么？

为什么 C 或 C 不支持两个指针相加当我做 int ptr ptr1 int sum ptr ptr1 C 或 C 会引发错误虽然支持 int diff ptr ptr1 指针包含地址添加两个地址是没有意义的因为你不知道你会指向什
通过关联 update_all

我正在尝试通过关联使用 update all 并且收到 mysql 错误有人知道为什么吗 class Basket lt ActiveRecord Base has many basket items has many articles
有没有实现按键删除并同时获取值？ [复制]

这个问题在这里已经有答案了我正在做一个性能关键的程序一些学术性的东西我希望尽可能地优化不像它证明的这是瓶颈我有一个自定义字典结构 NET 的包装器Dictionary lt gt 并且我会在一个阶段不断地删除项目通过Key价
如何使用按钮触发回调更新？

我刚刚开始使用破折号举个例子here https plot ly dash getting started part 2 interactivity 我想转换下面的破折号应用程序 import dash from dash depende
批处理文件变量范围问题

当尝试创建 dos Windows 7 命令行批处理文件时我遇到了一个奇怪的变量范围问题该文件执行一些字符串操作来创建新的文件路径谁能明白为什么在下面的示例中 OUTPUT FILENAME 变量总是最终为空 echo Enter
Java 8 元空间与堆使用

我有这段代码可以动态生成类并加载它 import javassist CannotCompileException import javassist ClassPool public class PermGenLeak private st
测试覆盖率 React，伊斯坦布尔 -_registerComponent(...)：目标容器不是 DOM 元素

我正在使用 React Redux Webpack 编写一个应用程序我正在使用 karma mocha 构建测试并希望使用 istanbul 进行测试覆盖为了使覆盖范围与业力覆盖范围一起工作我设置了以下内容karma config
是否可以根据批次标签（y_true）分布更新每个批次的学习率？

编辑请参阅此问题的结尾以获取解决方案 TL DR 我需要找到一种方法来计算每批次的标签分布并更新学习率有没有办法访问当前模型的优化器来更新每批的learning rate 下面是如何计算标签分布它可以在损失函数中完成因为默认情况下
Spark 中简单的 RDD 写入 DynamoDB

刚刚在尝试将基本 RDD 数据集导入 DynamoDB 时陷入困境这是代码 import org apache hadoop mapred JobConf var rdd sc parallelize Array Map col1 gt

Spark 中简单的 RDD 写入 DynamoDB

Spark 中简单的 RDD 写入 DynamoDB 的相关文章

随机推荐

热门标签