AWS EMR PySpark 连接到 mysql

2024-05-04

我正在尝试使用 jdbc 通过 pyspark 连接到 mysql。我可以在 EMR 之外完成此操作。但是当我尝试使用 EMR 时，pyspark 无法正确启动。

我在我的机器上使用的命令

pyspark --conf spark.executor.extraClassPath=/home/hadoop/mysql-connector-java-5.1.38-bin.jar --driver-class-path /home/hadoop/mysql-connector-java-5.1.38-bin.jar --jars /home/hadoop/mysql-connector-java-5.1.38-bin.jar

并得到以下输出：

16/05/18 14:29:21 INFO Client: Application report for application_1463578502297_0011 (state: FAILED)
16/05/18 14:29:21 INFO Client: 
     client token: N/A
     diagnostics: Application application_1463578502297_0011 failed 2 times due to AM Container for appattempt_1463578502297_0011_000002 exited with  exitCode: 1
For more detailed output, check application tracking page:http://ip-10-24-0-75.ec2.internal:8088/cluster/app/application_1463578502297_0011Then, click on links to logs of each attempt.
Diagnostics: Exception from container-launch.
Container id: container_1463578502297_0011_02_000001
Exit code: 1
Stack trace: ExitCodeException exitCode=1: 
    at org.apache.hadoop.util.Shell.runCommand(Shell.java:545)
    at org.apache.hadoop.util.Shell.run(Shell.java:456)
    at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:722)
    at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer(DefaultContainerExecutor.java:212)
    at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302)
    at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:82)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)


Container exited with a non-zero exit code 1
Failing this attempt. Failing the application.
     ApplicationMaster host: N/A
     ApplicationMaster RPC port: -1
     queue: default
     start time: 1463581754050
     final status: FAILED
     tracking URL: http://ip-10-24-0-75.ec2.internal:8088/cluster/app/application_1463578502297_0011
     user: hadoop
16/05/18 14:29:21 INFO Client: Deleting staging directory .sparkStaging/application_1463578502297_0011
16/05/18 14:29:21 ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master.
    at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.waitForApplication(YarnClientSchedulerBackend.scala:124)
    at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:64)
    at org.apache.spark.scheduler.TaskSchedulerImpl.start(TaskSchedulerImpl.scala:144)
    at org.apache.spark.SparkContext.<init>(SparkContext.scala:530)
    at org.apache.spark.api.java.JavaSparkContext.<init>(JavaSparkContext.scala:59)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
    at java.lang.reflect.Constructor.newInstance(Constructor.java:526)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:234)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:381)
    at py4j.Gateway.invoke(Gateway.java:214)
    at py4j.commands.ConstructorCommand.invokeConstructor(ConstructorCommand.java:79)
    at py4j.commands.ConstructorCommand.execute(ConstructorCommand.java:68)
    at py4j.GatewayConnection.run(GatewayConnection.java:209)
    at java.lang.Thread.run(Thread.java:745)

我也尝试不使用额外的 jar，但与 mariadb.jdbc 连接，我读过的是默认驱动程序：

from pyspark.sql import SQLContext
sqlctx = SQLContext(sc)
df = sqlctx.read.format("jdbc").option("url", "jdbc:mysql://ip:port/db").option("driver", "com.mariadb.jdbc.Driver").option("dbtable", "...").option("user", "....").option("password", "...").load()

但我得到

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/lib/spark/python/pyspark/sql/readwriter.py", line 139, in load
    return self._df(self._jreader.load())
  File "/usr/lib/spark/python/lib/py4j-0.9-src.zip/py4j/java_gateway.py", line 813, in __call__
  File "/usr/lib/spark/python/pyspark/sql/utils.py", line 45, in deco
    return f(*a, **kw)
  File "/usr/lib/spark/python/lib/py4j-0.9-src.zip/py4j/protocol.py", line 308, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred while calling o81.load.
: java.lang.ClassNotFoundException: com.mariadb.jdbc.Driver
    at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
    at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
    at org.apache.spark.sql.execution.datasources.jdbc.DriverRegistry$.register(DriverRegistry.scala:38)
    at org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils$$anonfun$createConnectionFactory$1.apply(JdbcUtils.scala:45)
    at org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils$$anonfun$createConnectionFactory$1.apply(JdbcUtils.scala:45)
    at scala.Option.foreach(Option.scala:236)
    at org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils$.createConnectionFactory(JdbcUtils.scala:45)
    at org.apache.spark.sql.execution.datasources.jdbc.JDBCRDD$.resolveTable(JDBCRDD.scala:120)
    at org.apache.spark.sql.execution.datasources.jdbc.JDBCRelation.<init>(JDBCRelation.scala:91)
    at org.apache.spark.sql.execution.datasources.jdbc.DefaultSource.createRelation(DefaultSource.scala:57)
    at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.apply(ResolvedDataSource.scala:158)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:119)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:606)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:231)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:381)
    at py4j.Gateway.invoke(Gateway.java:259)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:133)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:209)
    at java.lang.Thread.run(Thread.java:745)

应该怎么做呢？

谢谢你，佩德罗·罗萨内斯.

如果您想在 Amazon EMR 3.x 或 EMR 4.x 上运行任何 Spark 作业，您需要执行以下操作：

1）你可以提到火花默认值.conf引导时的属性，即您可以更改的配置驱动程序类路径 and 执行器类路径财产也最大化资源分配（如果需要，请在评论中询问更多信息。）docs http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-spark-configure.html#spark-change-defaults

2）您需要下载所有必需的 jar，即（mysql-connector.jar 和 mariadb-connector.jar），在您的情况下，MariaDB 和 MySQL 连接器 JDBC jar 到所有类路径位置，例如所有节点上的 Spark、Yarn 和 Hadoop是大师、核心或任务（Spark On Yarn 场景覆盖最多）引导脚本文档 https://docs.aws.amazon.com/ElasticMapReduce/latest/ManagementGuide/emr-plan-bootstrap.html#CustombootstrapCLI

3）如果您的 Spark 作业仅从驱动程序节点到数据库进行通信，那么您可能只需要使用它--jars并且不会给你例外并且工作正常。

4）还推荐您尝试Master作为纱线簇代替local or 纱线客户端

就您而言，如果您使用 MariaDB 或 MySQL，请将您的 jar 复制到$SPARK_HOME/lib, $HADOOP_HOME/lib等等，然后在集群的每个节点上尝试一下。

稍后您可以使用引导操作在创建集群时将 jar 复制到所有节点上。

请在下面评论以获取更多信息。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

AWS EMR PySpark 连接到 mysql 的相关文章

MYSQL：如何在同一查询中联接两个表，两次引用同一个表

我有两张桌子我正在尝试将下面的示例两个表与表 1 引用表 2 两次结合起来例如如果我查看表 1 组 2 和成员 7 它应该查找表 2 中的 ID 并给出输出 Group Members Name Name 2 7 Blue Dog T
条件触发器的Django迁移sql

我想创建一个触发器仅在满足条件时插入表我尝试过使用 IF BEGIN END 和 WHERE 的各种组合但 Django 每次都会返回 SQL 语法错误这里 type user id指的是触发该事件的人 user id指的是接收到通
MySQL如何获取unix时间戳的时间差

我有一个保存值1506947452的变量需要使用公式从该日期提取分钟 started data now date 但started date采用unix时间戳格式10位int数字我以ajax形式收到并需要放入mysql查询i试试这个 S
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
将表值参数与 SQL Server JDBC 结合使用

任何人都可以提供一些有关如何将表值参数 TVP 与 SQL Server JDBC 一起使用的指导吗我使用的是微软提供的6 0版本的SQL Server驱动程序我已经查看了官方文档 https msdn microsoft com en
在 MySQL 数据库中保持 TEXT 字段唯一的最佳方法

我想让 TEXT 字段的值在我的 MySQL 表中唯一经过小型研究我发现由于性能问题每个人都不鼓励在 TEXT 字段上使用 UNIQUE INDEX 我现在想用的是 1 创建另一个字段来包含 TEXT 值的哈希值 md5 text v
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
选择获取与 MySQL Group 中 max 对应的整行

当我使用Max使用后查找特定 MySQL 组中字段的最大值GROUP BY 是否可以获取包含最大值的整行我在处理一些论坛代码时偶然发现了这个线程我想获取每个线程的最新帖子并将其显示在特定板的线程列表中 Quassnoi上面的回答对我非常
pyspark通过特定键加入rdd

我有两个 rdd 需要将它们连接在一起它们看起来像下面这样 RDD1 u 2 u 100 2 u 1 u 300 1 u 1 u 200 1 RDD2 u 1 u 2 u 1 u 3 我想要的输出是 u 1 u 2 u 100 2 所以我
如何在 MySQL 中构建跨数据库查询？

我在同一台服务器上有两个数据库谷歌给了我一些提示但我找不到任何官方的东西有人可以向我指出解释如何执行此操作的文档吗使用 PHP 进行解释也很有用谢谢我在同一台服务器上有两个数据库如何在 MySQL 中构建跨数据库查询您可
mysql GROUP_CONCAT 重复项

我从 farmTOanimal 表中进行连接如下所示有一个类似的farmTotool表 id FarmID animal 1 1 cat 2 1 dog 当我在视图中加入表时我得到的结果如下所示 FarmID animal tool
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
MySQL查询，删除所有空格

我有一个不寻常的查询这让我现在陷入困境表字段有 id bigint 20 name varchar 255 desc text 有许多记录具有相同的名称和 desc 但 desc 的单词之间有一些额外的空格 like 1 t1 hell
由于缺少 PHP 扩展，CakePHP 3 无法连接到数据库

我正在尝试使用 WT NMP 安装 cakePHP 3 0 0 但收到以下消息 CakePHP 无法连接到数据库由于以下原因无法使用数据库驱动程序 Cake Database Driver Mysql 缺少 PHP 扩展或未满足的依赖项
复杂的sql树行

表结构 id message reply id 1 help me 0 434 love to 1 852 didn t work 434 0110 try this 852 2200 this wont 0 5465 done 0110
如何使用php在mysql数据库中添加照片？ [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我对 PH
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
数据读取过程中遇到致命错误

我正在进行定期更新表扫描 Using connect1 As New MySqlConnection ConnectLocalhost serverString connect1 Open Dim cmd New MySqlCommand
您可以使用 MySQL 查询来完整创建数据库的副本吗

我有一个包含 5 个表的 MySQL 数据库的实时版本和一个测试版本我不断使用 phpMyAdmin 将实时版本中的每个表复制到测试版本有谁有mysql查询语句来制作数据库的完整副本吗查询字符串需要考虑结构数据自动增量值以及与需要
Innodb页面大小设置

在innodb中页面大小默认为16kb 如何将页面大小设置为 8kb 是否有在源编译步骤中设置的选项您不需要在源编译步骤中指定页面大小 MySQL 5 6 及更高版本支持不同的页面大小无需重新编译但是您必须在初始化 InnoDB

随机推荐

Jupyter Notebook仅适用于基础环境

Jupyter 笔记本今天突然停止正常工作如果我像这样启动 Jupyter 那么一切都在基础环境中正常工作 activate base jupyter notebook 但是在任何其他环境中启动它或者只是在不声明环境的情况下启动它 act
无法加载文件或程序集“App_Web_1btizmpz，

我遇到以下错误 Could not load file or assembly App Web 1btizmpz Version 0 0 0 0 Culture neutral PublicKeyToken null or one of i
setTimeout 调用期间超出最大调用堆栈大小

我试图每 4 秒调用一次我的函数这样它就会实时增加一个数字由于某种原因我不断收到错误这是我的代码
如何仅在某些列中设置带有复选框的 TListView？

我正在使用 Delphi 2010 并且我试图允许用户在 TListView 中的每行 2 个选项之间进行选择使用 TListView 我可以将样式设置为 vsReport 并启用复选框但这只会让我每行有 1 个复选框我需要的是每行
如何在 excel 2007 vba 中以编程方式对一组形状进行分组？

我正在迭代电气表表上的数据并在形状表上创建形状创建形状后我想以编程方式对它们进行分组但是我无法找出正确的语法形状就在那里被选中如果我单击分组按钮它们就会完美分组但是通过下面的代码我得到运行时错误 438 对象不支持此方法或
使用 MVVM 的 C# 泛型，将 T 从中取出

My Model是一个泛型类包含例如 Value属性可以是 int float string bool 等所以很自然地这个类的表示形式如下Model
jQuery：移动窗口视口以显示新切换的元素

我在文档中有一段 jQuery 代码片段它可以切换包含 a 的 divtextarea div addnote area hide hide the div a addnote link click function click even
Storm动态拓扑

Storm 支持动态拓扑吗我想要的功能是在 Storm 拓扑运行时根据用户要求动态更改拓扑例如当用户想知道流的前 10 个单词时我使用前 10 个 Bolt 来处理它当用户想知道其他内容时我使用另一个 Bolt 来处理流并拔掉
使用 jQuery 选择特定 href 的锚标记

THE AIM 刷新浏览器后我希望用户保留在刷新之前的菜单内容中问题刷新浏览器后用户刷新之前所在的特定菜单的内容将显示为活动状态即显示在屏幕上但是该特定内容的菜单图标未显示为活动状态即它不显示黑色我在选择锚元素时遇到困
Visual C# 窗体中的控制台

我想在我的表单中获得一个控制台窗口基本上当你点击button1 它运行一个批处理脚本 test exe 我不需要单独的批处理窗口但我希望它显示在我的表单中我认为可能有两种方法可以做到这一点要么 1 以某种方式将控制台嵌入到我的表单中
PowerShell 中一个命令中的多个前景色

我想用一个语句输出许多不同的前景色 PS C gt Write Host Red ForegroundColor Red Red 该输出为红色 PS C gt Write Host Blue ForegroundColor Blue Blu
如何关闭使用presentModalViewController打开的视图控制器：

我使用了一个视图控制器presentModalViewController 现在如何关闭关闭它对于 iOS6 使用此代码 self dismissViewControllerAnimated YES completion Nil 代替
我怎样才能重写这个nginx“if”语句？

例如我想这样做 if http user agent MSIE 6 0 http user agent MSIE 7 0 etc etc rewrite ROOT ROOT ancient last break 而不是这个 if http
document.all 和 document.forms 之间的区别[0]

任何人都可以解释一下两者之间有什么区别 document all 和document forms 0 please 谢谢 document all为您提供对包含文档所有元素的类数组对象的引用在 Internet Explorer 中 IE
是否可以在切换 QTreeWidgetItem 复选框时创建信号？

我使用下面的代码创建了一个也是 QTreeWidgetItem 的复选框 Populate list QTreeWidgetItem program createCheckedTreeItem QString fromStdString i
Google Cloud ML：输出的外部尺寸必须未知

我们在本地得到了一个工作的导出模型正在创建一个新的模型版本谷歌云机器学习如下 Create Version failed Model validation failed Outer dimension for outputs must b
JobService 在 android 9 中不会重新安排

我正在尝试让我的应用程序在 Android 9 上运行以下代码在 Android 8 上运行良好但由于某种原因 JobService 不会在 android 9 上重新安排它第一次被安排但不会根据到设定的周期 class Retri
如果为 null 则替换为 0，否则在同一列中使用默认值

在SparkR shell 1 5 0中创建了一个示例数据集 df test lt createDataFrame sqlContext data frame mon c 1 2 3 4 5 year c 2011 2012 2013 2
使图例填满字段集中的整个宽度

我想要一个背景legend场内的一个fieldset 我希望它占据整个宽度但仅限于字段集中如果我使用legend width 100 这将是wider比fieldset 这是一个例子可以运行在JSFiddle http jsfiddl
AWS EMR PySpark 连接到 mysql

我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作但是当我尝试使用 EMR 时 pyspark 无法正确启动我在我的机器上使用的命令 pyspark conf spark executo

AWS EMR PySpark 连接到 mysql

AWS EMR PySpark 连接到 mysql 的相关文章

随机推荐

热门标签