将 SparkSession.sql() 与 JDBC 结合使用

2024-03-22

问题：

我想使用 JDBC 连接来使用 Spark 发出自定义请求。

此查询的目标是优化工作人员的内存分配，因为我无法使用：

ss.read
  .format("jdbc")
  .option("url", "jdbc:postgresql:dbserver")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "password")
  .load()

现在：

我目前正在尝试运行：

ss = SparkSession
  .builder()
  .appName(appName)
  .master("local")
  .config(conf)
  .getOrCreate()

ss.sql("some custom query")

配置：

url=jdbc:mysql://127.0.0.1/database_name
driver=com.mysql.jdbc.Driver
user=user_name
password=xxxxxxxxxx

Error :

[info] Exception encountered when attempting to run a suite with class name: db.TestUserProvider *** ABORTED ***
[info]   org.apache.spark.sql.AnalysisException: Table or view not found: users; line 1 pos 14
[info]   at org.apache.spark.sql.catalyst.analysis.package$AnalysisErrorAt.failAnalysis(package.scala:42)
[info]   at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$.org$apache$spark$sql$catalyst$analysis$Analyzer$ResolveRelations$$lookupTableFromCatalog(Analyzer.scala:459)
[info]   at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$$anonfun$apply$8.applyOrElse(Analyzer.scala:478)
[info]   at org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveRelations$$anonfun$apply$8.applyOrElse(Analyzer.scala:463)
[info]   at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan$$anonfun$resolveOperators$1.apply(LogicalPlan.scala:61)
[info]   at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan$$anonfun$resolveOperators$1.apply(LogicalPlan.scala:61)
[info]   at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:70)
[info]   at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan.resolveOperators(LogicalPlan.scala:60)
[info]   at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan$$anonfun$1.apply(LogicalPlan.scala:58)
[info]   at org.apache.spark.sql.catalyst.plans.logical.LogicalPlan$$anonfun$1.apply(LogicalPlan.scala:58)

假设：

我猜是配置错误，但我找不到哪里。

火花罐read and write使用 JDBC 数据源将数据传入或传出关系数据库（就像您在第一个代码示例中所做的那样）。

此外（并且完全独立），spark 允许使用 SQL 进行查询views它们是根据已从某个源加载到 DataFrame 中的数据创建的。例如：

val df = Seq(1,2,3).toDF("a") // could be any DF, loaded from file/JDBC/memory...
df.createOrReplaceTempView("my_spark_table")
spark.sql("select a from my_spark_table").show()

只有以这种方式创建的“表”（称为视图，从 Spark 2.0.0 开始）可以使用以下命令进行查询SparkSession.sql.

如果您的数据存储在关系数据库中，Spark 必须首先从那里读取数据，然后才能在加载的副本上执行任何分布式计算。底线 - 我们可以使用从表中加载数据read，创建一个临时视图，然后查询它：

ss.read
  .format("jdbc")
  .option("url", "jdbc:mysql://127.0.0.1/database_name")
  .option("dbtable", "schema.tablename")
  .option("user", "username")
  .option("password", "password")
  .load()
  .createOrReplaceTempView("my_spark_table")

// and then you can query the view:
val df = ss.sql("select * from my_spark_table where ... ")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mysql

scala

apachespark

JDBC

将 SparkSession.sql() 与 JDBC 结合使用的相关文章

使用 slick 3.0.0-RC1 无法在 TableQuery 上找到方法结果

我正在尝试 Slick3 0 0 RC1我遇到了一个奇怪的问题这是我的代码 import slick driver SQLiteDriver api import scala concurrent ExecutionContext Imp
PDOException SQLSTATE[HY000] [2002] 我的本地计算机上的连接超时

最近我从服务器导入了代码但本地代码无法连接到远程 mysql 数据库所以我有两个问题我可以访问我的远程数据库吗如果是为什么我的代码不起作用如果没有有没有办法绕过这个问题我不想复制在本地计算机上运行的 mysql 数据库我的
从 pandas udf 记录

我正在尝试从 python 转换中调用的 pandas udf 进行日志记录因为在执行器上调用的代码不会显示在驱动程序的日志中我一直在寻找一些选项但到目前为止最接近的选项是这个one https stackoverflow com q
删除所有值比第二高值低 5 倍的记录

我有一个表价格有两个字段代码字符和价格小数我需要查找具有相同代码价格比两个最高价格低 5 倍或更少的所有记录例如在这种情况下我希望删除 id 1 id code price 1 1001 10 2 1001 101 3
通过日期选择器过滤查询后检索具有特定值的行数[重复]

这个问题在这里已经有答案了目前我正在使用 CodeIgniter 来检索特定时间范围内的数据所有这些条目都有一个状态我想将具有相同状态的所有条目分组并将其显示在各自的标题中目前这是我的模型类其中我有以下条目来返回特定日期范围内
无法在 mysql 表中的值中使用破折号（-）[重复]

这个问题在这里已经有答案了我一直在尝试从 python 将数据插入 MYSQL 表我的sql表中的字段是id token start time end time和no of trans 我想存储使用生成的令牌uuid4在令牌栏中但由于
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
如何使用 scala 宏打印变量名称和值？

我确信有一种更优雅的方式来编写以下宏来打印变量的名称和值 def mprintx c Context linecode c Expr Any c Expr Unit import c universe val namez c enclosi
MySQL中Join同表临时表

我喜欢在 MySQL 中加入一个失败的临时表这个想法很简单 CREATE TEMPORARY TABLE temp table LIKE any other table srsly it does not matter which tab
用于真实 Web 项目的 Scala-JS [已关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案有人用过吗Scala JS在真实的网络项目中但不仅仅适用于普通的JavaScript在隔离环境中替换我想尽可能多地使用 Scala 我希望可
PHP strtotime返回Mysql UNIX_TIMESTAMP的不同值

我在 stackoverflow 上搜索过帖子发现了一些类似的帖子但我认为这是一篇不同的帖子我的 PHP 和 Mysql 服务器的时区全部设置为 UTC 在表中我使用时间戳字段值为 2010 11 08 02 54 15 我使用这样
Scala：尝试 .getOrElse 与 if/else

我是一名相当新的 Scala 开发人员我是一名经验丰富的 Java 开发人员到目前为止我一直很喜欢 Scala 的简单性我真的很喜欢函数式结构而且它们常常迫使你编写更简洁的代码然而最近我注意到由于舒适性和简单性我最终使用了在
SQL查询：按字符长度排序？

是否可以按字符总数对sql数据行进行排序 e g SELECT FROM database ORDER BY data length 我想你想用这个 http dev mysql com doc refman 5 0 en string f
Mysql：my.cnf中的修改不生效

我已经更新了my cnf我的数据库文件包含以下行 max connections 200 之后我停止并启动 mysql 服务以使更改生效但由于某种原因此更改不会影响数据库因为如果我运行 mysql gt select max conn
scala 中 'Array[Int]' 隐式转换为 'Int => Int' 的地方在哪里？

这是一个问题this https stackoverflow com questions 70000384 why val arr int int array1 2 3 is allowed in scala 现在我们已经证明了Array
Twitter Future 与 Scala Future 相比有何优势？

我知道 Scala Future 变得更好的很多原因有什么理由改用 Twitter Future 吗除了 Finagle 使用它这一事实之外免责声明我在 Twitter 负责 Future 的实施一点背景知识在 Scala 有一
如何在具有动态列的表中插入值 Jdbc/Mysql

我想在具有动态列的表中添加值我设法创建一个包含动态列的表但我不知道如何插入数据 Create Table sql CREATE TABLE MyDB myTable level INTEGER 255 int columnNumber
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
寻找多列索引的最佳顺序

假设我有一个包含两个索引的表一个位于 a 列一个位于 a b 和 c 列我注意到根据索引定义中列的顺序 MySQL 可能最终使用单列索引而不是多列索引即使多列索引中的所有三列都在 ON 中引用JOIN 的一部分这有点引出了一个问
什么样的函数被认为是“可组合的”？

维基百科文章函数组合计算机科学 https en wikipedia org wiki Function composition computer science says 就像数学中通常的函数组合一样每个函数的结果作为下一个函数的参数

随机推荐

在 FPC 下的自动化对象中使用标识符或保留字

实际上我在 Free Pascal 下使用 OLE 自动化但某些对象具有使用保留字作为名称的属性因此我无法编译代码检查这个样本 MyObj OleVariant begin MyObj CrealeOleObject AObject
使用 BottomNavigationBar 根据页面更改 AppBar 标题

我试图根据用户所在的页面更改 AppBar 标题页面由加载不同类页面的 BottomNavigationBar 控制我设法改变这一点的唯一方法是为每个页面添加一个应用栏我认为这不是继续下去的方法 class HomePage ex
如何更改 Android 中滚动条的颜色？

当前的问题是我们的主题继承自 Theme AppCompat 它似乎有一个白色滚动条并且在白色背景上不可见我知道我可以使用
三星 S4 上的蓝牙崩溃

我正在运行一个带有 BLE 扫描的应用程序一段时间后在 Samsung S4 上或者如果周围有超过 10 个信标我会看到此错误 07 18 11 51 57 169 W bt userial 7819 userial read thre
如何在 django admin 中显示我的模型的所有字段？

此代码显示如下对象 Home Object 1 Home Object 2 但我想在我的 django 管理页面中显示所有模型字段我该怎么做我是 django 的初学者这是我的第一个项目模型 py class Home models
R：如何使 data.table 只读而不复制它（例如用于数据验证）

我进行数据整理 ETL 以将新数据加载到数据库中并希望让用户基于我现有的实现自己的数据验证功能data table包含准备好的数据的对象如何避免用户可以更改修改我的数据data table在验证函数中有意或无意而不进行复制因为
升级到1.2.162.1后：vkQueueWaitIdle == VK_ERROR_DEVICE_LOST

我最近将光线追踪渲染器从 Vulkan SDK 版本 1 2 148 0 升级到 1 2 162 1 这是必要的因为光线追踪扩展已经结束测试版因此现在可以与非测试版一起使用显卡驱动程序我的 RTX 2070 SUPER 的版本为 4
实体框架 - 从数据库更新模型... - 没有更新发生！

我的数据库中有一个名为CompanyDetails 它有一个名为CharacterID varchar 255 我刚刚将其从NOT NULL列到一个NULL柱子我在模型浏览器和 EDMX 文件查看器中运行了从数据库更新模型命令这是它
C# 中的十六进制运算[重复]

这个问题在这里已经有答案了有关在 C 中解析转换操作十六进制值的任何提示吗特别是我想将十进制整数转换为十六进制然后输出为字符串 Int32 decValue 42 string hexValue decValue ToString
GAE/GWT：加载模块时出错：无法找到“com/androidstartup/serialization/KPadProject.gwt.xml”

我正在使用 Eclipse 3 5 和 GAE SDK 1 3 7 GWT SDK 2 1 0 和 Restlet 2 0 3 当我运行我的应用程序时控制台日志显示 Loading modules com androidstartup s
如何在 Curses 中获取 Shift+X / Alt+X 键？

I am currently using this code to grab key strokes but I am missing e g Shift Alt keys like Ctrl Shift S Ctrl Shift Alt
为什么 JDBC 驱动程序必须放在 TOMCAT_HOME/lib 文件夹中？

我有一个奇怪的问题两个带有 Oracle JDBC 驱动程序的 Web 应用程序会相互冲突我必须将 JDBC 驱动程序 JAR 放在 common 文件夹中TOMCAT HOME lib 这是什么原因呢 JDBC 驱动程序在 JVM 范
Android - 全透明状态栏与不透明导航栏

我一直在寻找一种在状态栏完全透明不是半透明的情况下重新着色导航栏的方法要使状态栏完全透明需要将布局标志设置为 NO LIMITS 但这也会使导航栏失去其颜色有什么办法可以实现这一点吗如果您不需要状态栏文本变暗则可以使用以下方法
Spring-MVC 与原始 Servlet：内存消耗、性能

我正在读这个问题 Raw Servlet 与 Spring MVC https stackoverflow com questions 10775522 raw servlet vs spring mvc想知道与原始 servlet 相比
声明可变大小的数组而不使用动态内存分配

我想在函数中分配可变大小的二维数组而不使用 new 运算符以便该二维数组可用于同一文件中的其他函数 void draw int i size i void assign char symbol char one size size Ass
jQuery - 仅从元素获取第一个类

该元素如下所示 li class blah active li jQuery attr class 将返回两个类我怎样才能用 jQuery 只获得第一类在本例中为 blah 你需要split http www w3schools com
如何获取Java资源的最后修改时间？

有人可以告诉我一种可靠的方法来获取 Java 资源的最后修改时间吗资源可以是文件或 JAR 中的条目如果资源意味着可以通过 Class getResource 或 ClassLoader getResource 访问的内容则可以通
git stash pop 之后撤消 git reset --hard

我尝试使用以下方法恢复存储中的一些更改git stash pop 存在一些合并冲突我决定重置它而不是解决它们不幸的是在一个愚蠢的时刻我做了一个git reset hard 现在所有以前隐藏的更改都消失了有什么办法可以恢复这些变化
如何增加 kubernetes 容器的 shm 大小（--shm-size 相当于 docker）

默认情况下如果未指定 docker 使用 64m 的 shm 大小但可以在 docker 中使用 shm size 256m 增加该大小我应该如何增加 kubernetes 容器的 shm 大小或在 kubernetes 中使用 do
将 SparkSession.sql() 与 JDBC 结合使用

问题我想使用 JDBC 连接来使用 Spark 发出自定义请求此查询的目标是优化工作人员的内存分配因为我无法使用 ss read format jdbc option url jdbc postgresql dbserver opti

将 SparkSession.sql() 与 JDBC 结合使用

将 SparkSession.sql() 与 JDBC 结合使用 的相关文章

随机推荐

热门标签

将 SparkSession.sql() 与 JDBC 结合使用的相关文章