获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

2024-05-08

我有一个 DynamoDB 表，需要将其连接到 EMR Spark SQL 才能对该表运行查询。我获得了带有发行标签 emr-4.6.0 和 Spark 1.6.1 的 EMR Spark Cluster。

我指的是文档：使用 Spark 分析 DynamoDB 数据 https://blogs.aws.amazon.com/bigdata/post/Tx1G4SQRV049UL0/Analyze-Your-Data-on-Amazon-DynamoDB-with-Apache-Spark

连接到主节点后，我运行命令：

spark-shell --jars /usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar

它给出了一个警告：

Warning: Local jar /usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar does not exist, skipping.

稍后，当我使用以下命令导入 DynamoDB 输入格式时

import org.apache.hadoop.dynamodb.read.DynamoDBInputFormat import org.apache.hadoop.dynamodb.write.DynamoDBOutputFormat

它给出了错误：

 error: object dynamodb is not a member of package org.apache.hadoop
     import org.apache.hadoop.dynamodb.read.DynamoDBInputFormat
 error: object dynamodb is not a member of package org.apache.hadoop
     import org.apache.hadoop.dynamodb.write.DynamoDBOutputFormat

我认为是 jar 导致了这个错误。从哪里获取这个 emr-ddb-hadoop.jar？

不要使用spark-shell --jars，spark-default.cnf中的配置：

spark.driver.extraClassPath  /usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar
spark.executor.extraClassPath /usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar

稍后导入DynamoDB输入格式就OK了

import org.apache.hadoop.dynamodb.read.DynamoDBInputFormat
import org.apache.hadoop.dynamodb.write.DynamoDBOutputFormat

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

amazonwebservices

apachespark

amazondynamodb

获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接的相关文章

java.io.IOException: EnsureRemaining: 仅剩余 0 个字节，尝试读取 1

我在 giraph 中的自定义类方面遇到一些问题我制作了 VertexInput 和 Output 格式但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
在 AWS Glue 中覆盖动态框架中的镶木地板文件

我使用动态框架在 S3 中写入镶木地板文件但如果文件已存在我的程序会附加一个新文件而不是替换它我用的句子是这样的 glueContext write dynamic frame from options frame table con
从 RabbitMQ 迁移到 Amazon SQS [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们的初创公司目前正在使用RabbitMQ with Python Django 对于消息队列现在我们计划转移到Amazon SQS其高可用性
我可以指定默认的 AWS 配置文件吗？

在我的开发环境中我经常在多个 AWS 访问密钥之间切换所以在我的 aws credentials文件我有几个配置文件然后我可以通过指定以下内容将这些配置文件与 aws cli 一起使用 profile
AWS DynamoDB 的 r 语言支持 [重复]

这个问题在这里已经有答案了这是对此的后续更新问题 AWS dynamodb 支持 R 编程语言 https stackoverflow com questions 14224919 aws dynamodb support for r
在地图类型中创建 DataFrame 分组列

My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
AWS SAM - 无法创建变更集：Waiter ChangeSetCreateComplete 失败

AWS SAM 使用 aws sam cli 将代码库部署到 AWS 云但出现以下错误 Failed to create the changeset Waiter ChangeSetCreateComplete failed Waiter
Hadoop Windows 设置。运行 WordCountJob 时出错：“任何本地目录中都没有可用空间”

我正在按照此视频教程尝试在我的计算机上设置 hadoop 如何在 Windows 10 上安装 Hadoop https www youtube com watch v zujpglKP0Nw 我已经成功设置它从 sbin 目录执行 st
ECS任务定义中容器之间的通信

我在 ECS 中运行了一个任务定义awsvpc模式包含 2 个 docker 容器我的问题是如何在任务定义中的容器之间进行通信它们的行为与 docker compose 类似吗 awsvpc 网络模式下的任务中的多个容器将共享任务 E
适用于 AWS 区域的 Cassandra Ec2MultiRegionSnitch 或 GossipingPropertyFileSnitch

我们在美国 AWS 区域有 3 个 Cassandra 节点在新加坡 AWS 区域有 3 个节点如果我必须构建多数据中心我们是否必须使用 Ec2MultiRegionSnitch 或者我们可以使用 GossipingPropertyF
如何计算 OpenID Connect 服务器的指纹？

创建 OpenID Connect 提供商例如 AWS 时我需要指定一个指纹对于连接器它是什么我如何获得它例如从如何在不使用密钥的情况下将 GitHub 操作与 AWS 部署连接起来 https stackoverflow co
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
为什么只有 50 个实例在 AWS lambda 上运行？

我在用context logStreamName识别 lambda 实例并发设置为无保留但日志显示只有 50 个实例正在运行我是否误解了logStream pre logStream pre实例我从那里得到的信息这个博客 https
如何处理自动缩放期间网络流量的突然激增

我在 ELB 后面和 Auto Scaling 组中有两个 EC2 实例扩大规模政策如下 CPUUtilization gt 70 持续 300 秒添加一台服务器当 Atoscaling 活动正在进行时现有实例上的负载已达到 99
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
是否可以更新 amazon dynamodb 中的哈希键？

我想更新 amazon dynamodb 表中的哈希键值我在同一张表中也有一个范围键是否有可能做到这一点您无法更新哈希键值您必须删除并重新创建该项目这是相关的aws文档http docs aws amazon com amazon
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
使用 PySpark 从 azure blob 存储读取 csv 文件

我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目要在我的集群上进行操作请使用 Jupyter 笔记本另外我的数据一个 csv 文件存储在 Azure Blob 存
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h

随机推荐

在 Chaquopy 中转换数组和张量

我该怎么做呢我看到你的帖子说你可以将 java 对象传递给 Python 方法但这不适用于 numpy 数组和 TensorFlow 张量以下以及其各种变体是我尝试过的但没有成功 double anchors new double
KAA 0.10.0 中使用 ESP8266 SDK 编译错误

我根据以下内容构建了ESP8266 SDK这个文件 https kaaproject github io kaa docs v0 10 0 Programming guide Using Kaa endpoint SDKs C SDK ES
在触发器函数中使用动态表名进行 INSERT

我不确定如何实现类似以下的目标 CREATE OR REPLACE FUNCTION fnJobQueueBEFORE RETURNS trigger AS DECLARE shadowname varchar TG TABLE NAME
具有多个数据源的 Tomcat 6/7 JNDI

当有多个时
使用 strftime 将 NSDate 转换为 String

如何将 NSDate 转换为使用 strftime 说明符格式化的 NSString 你可以使用 strftime NSDate date NSDate date time t time date timeIntervalSince1970
pygraphviz，导入错误：未定义的符号：Agundirected

import pygraphviz Traceback most recent call last File
Nasm 打印到下一行

我用 nasm Assembly 编写了以下程序 section text global start start Input variables mov edx inLen mov ecx inMsg mov ebx 1 mov eax 4
在C#中，如何检测一个字符是否是非ASCII字符？

我想在 C 中检查 char 是否包含非 ASCII 字符检查特殊字符的最佳方法是什么例如志 or ASCII 范围为 0 127 因此只需检查该范围 char c a or whatever char you have bool is
WebView ssl 错误

对不起我的英语不好我需要加载 url https 我有一些问题当我尝试加载页面时 webView 给我错误 primary error 3 certificate Issued to CN my site com Issued by C
在多个

获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接 的相关文章

随机推荐

获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接的相关文章