到处导入 Spark 隐式的解决方法

2023-12-28

我是 Spark 2.0 的新手，并且在我们的代码库中使用数据集。我有点注意到我需要import spark.implicits._在我们的代码中随处可见。例如：

File A
class A {
    def job(spark: SparkSession) = {
        import spark.implcits._
        //create dataset ds
        val b = new B(spark)
        b.doSomething(ds)
        doSomething(ds)
    }
    private def doSomething(ds: Dataset[Foo], spark: SparkSession) = {
        import spark.implicits._
        ds.map(e => 1)            
    }
}

File B
class B(spark: SparkSession) {
    def doSomething(ds: Dataset[Foo]) = {
        import spark.implicits._
        ds.map(e => "SomeString")
    }
}

我想问的是是否有更干净的方法可以做到

ds.map(e => "SomeString")

无需在我执行映射的每个函数中导入隐式函数？如果我不导入它，我会收到以下错误：

错误：(53, 13) 无法找到数据集中存储类型的编码器。通过导入spark.implicits来支持基本类型（Int、String等）和产品类型（case类）。_在未来的版本中将添加对序列化其他类型的支持。

有点帮助的事情是在class or object而不是每个函数。对于“文件 A”和“文件 B”示例：

File A
class A {
    val spark = SparkSession.builder.getOrCreate()
    import spark.implicits._

    def job() = {
        //create dataset ds
        val b = new B(spark)
        b.doSomething(ds)
        doSomething(ds)
    }

    private def doSomething(ds: Dataset[Foo]) = {
        ds.map(e => 1)            
    }
}

File B
class B(spark: SparkSession) {
    import spark.implicits._

    def doSomething(ds: Dataset[Foo]) = {    
        ds.map(e => "SomeString")
    }
}

通过这种方式，您可以获得可管理的数量imports.

不幸的是，据我所知，没有其他方法可以进一步减少进口数量。这是由于需要SparkSession实际执行时的对象import。因此，这是可以做的最好的事情。

Update:

更方便的方法是创建一个 ScalaTrait并将其与空的组合Object。这允许在每个文件的顶部轻松导入隐式，同时允许扩展特征以使用SparkSession目的。

Example:

trait SparkJob {
  val spark: SparkSession = SparkSession.builder.
    .master(...)
    .config(..., ....) // Any settings to be applied
    .getOrCreate()
}

object SparkJob extends SparkJob {}

这样我们就可以对文件 A 和 B 执行以下操作：

File A:

import SparkJob.spark.implicits._
class A extends SparkJob {
  spark.sql(...) // Allows for usage of the SparkSession inside the class
  ...
}

File B:

import SparkJob.spark.implicits._
class B extends SparkJob {
  ...    
}

请注意，只需扩展SparkJob对于使用的类或对象spark对象本身。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

apachespark20

implicits

到处导入 Spark 隐式的解决方法的相关文章

具有两个通用参数的上下文边界

在 Scala 中我可以使用上下文边界 def sort T Ordered t Seq T 与以下意思相同 def sort T t Seq T implicit def Ordered T 如果我有一个带有两个泛型参数的类怎么办 IE
Scala 宏的位置怎么了？

我试图获取宏参数的原始输入字符串但返回的位置似乎有点偏离考虑这个宏例如 object M import scala reflect macros Context import language experimental macros
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
从 HList 获取元素

我尝试了 HList 并按预期进行了以下工作 val hl 1 foo HNil val i Int hl 0 val s String hl 1 但是我无法让以下代码正常工作让我们暂时假设对列表进行随机访问是一个聪明的主意 class
对两种类型之间的二元关系进行建模

有企业也有人用户可以对某个企业点赞或发表评论但效果是一样的can not发生在一个人身上当用户发布有关某个企业的内容或对其点赞时该企业就被称为target喜欢或帖子 trait TargetingRelation Targetin
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
在 Scala 中将元素追加到列表末尾

我无法添加 type 元素T到一个列表中List T 我尝试过myList myElement但它似乎创建了一个奇怪的对象并访问myList last始终返回放入列表中的第一个元素我怎么解决这个问题 List 1 2 3 4 Result
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
如何在超时的情况下在单独的调度程序上运行 Akka Streams 图？

这个问题是基于我做过的一个宠物项目这个SO https stackoverflow com questions 34641861 akka http blocking in a future blocks the server 34645
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
在scala 2.13中，为什么有时无法显式调用类型类？

这是 Shapeless 2 3 3 中的一个简单示例 val book author gt gt Benjamin Pierce title gt gt Types and Programming Languages id gt gt 2
如何通过 javascript 和 ajax 调用 Scala 中的方法？

我不知道我的标题是否有点误导但这是我真正需要帮助的我正在获取这个网址 get fb login fbEmail function data console log data 这是我的路线 GET fb login email prese
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
为什么这些类型参数不符合类型细化？

为什么此 Scala 代码无法进行类型检查 trait T type A trait GenFoo A0 S lt T type A A0 trait Foo S lt T extends GenFoo S A S 我不明白为什么类型参数
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功

随机推荐

获取线段和 2^n 网格之间的所有交点（以整数表示）

我有一条从 x0 y0 到 x1 y1 的线穿过由 2 n 宽的方形瓷砖组成的网格我不仅需要找到线相交的图块还需要找到相应的入口点和出口点我可以找到所有关于此的问题都涉及 1x1 图块而不关心图块内交叉点的位置这些点并不总是精确
第一次后按时 searchview 未正确关闭（它只是失去焦点）

我必须按两次后退按钮才能关闭SearchView 为什么第一次按下时 SearchView只会失去焦点 Setting setOnKeyListener on SearchView也不起作用顺便说一句我正在使用 ABS 实现我的代码
javascript 中有效的 base64 图像字符串出现 DOM 异常 5 INVALID CHARACTER 错误

我正在尝试将图像的 Base64 字符串解码回二进制以便操作系统可以在本地下载和显示它当将字符串作为带有数据 URI 前缀数据 img png base64 的 HTML IMG 元素的 src 时我成功渲染了字符串但是当使用 a
C 中的指针（将地址传递给函数）

我正在尝试解决这个问题问题说 swap nums 似乎有效但 swap pointers 无效修复它顺便说一句我是初学者我相信我可以自己解决这个问题但问题是我有点难以理解 C 语言中的一些编程概念这里我展示了需要编辑的给定代
CakePHP 中的 base_url

在大多数 Web 应用程序中我们需要全局变量 base url 在cakephp中当前要获取base url 我将以下代码放在app controller php中的beforeRender方法上 function beforeRend
如何在 VS Code 中为 Spring Boot 项目添加 JVM 参数？

我正在尝试 VS Code 方法是将我在 Eclipse 上完成的项目移至 VS Code 我在 Eclipse 中有一个该项目的运行配置其中包含以下 JVM 参数 module path lib javafx sdk 13 lib ad
在 Mac 上安装 Caffe 错误：“致命错误：找不到‘cblas.h’文件”

我一直在关注本指南 http playittodeath ru how to install caffe on mac os x yosemite 10 10 4 安装在我的 El Capitan macbook pro 上使用 CMak
用于 C++ 的 UML 免费逆向工程工具（.h/.cpp ==> 类图）[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有哪些工具可用于创建 UMLClass来自一组 h 文件或 cpp 文件的图表我正在寻找一些东西 is
如何将一个大型、复杂、深度嵌套的 JSON 文件扁平化为多个 CSV 文件（链接标识符）

我有一个复杂的 JSON 文件 8GB 其中包含企业公开可用的数据我们决定将文件拆分为多个 CSV 文件或 xlsx 中的选项卡以便客户可以轻松使用数据这些文件将通过 NZBN 列键链接我正在使用 R 和 jsonlite 读取
Tensorflow 对象检测 API 无法正确检测对象/根本无法检测对象

我已遵循代码的整个步骤格式多次交叉检查以确保 100 正确以及在 Tensorflow 对象检测 API 上训练自定义对象所需的数据我尝试使用 ssd mobilenet v1 coco faster rcnn resnet101
Nhibernate - 如何调试“Antlr.Runtime.NoViableAltException”？

对于许多 HQL 查询我一次又一次地遇到此异常 Antlr Runtime NoViableAltException 这确实很通用并且没有帮助有人知道如何最好地调试它吗显然这是我的 HQL 的问题但没有任何线索知道到底出了什么问题
PyDev 中的假未解决导入错误

PyDev 报告不存在的导入错误最初的症状是一个假的未解决的导入错误该错误通过以下某些组合修复清理项目重新索引项目删除解释器再次添加重新启动 Eclipse 向蟒蛇神烧香现在错误是导入时未验证的变量它似乎找不到 py
如何在有向图中的两个节点之间制作弯曲边？

我正在尝试使用 NetworkX 库在有向图中的两个节点之间添加弯曲箭头该函数的文档nx draw networkx edges https networkx org documentation latest reference gene
模型视图矩阵中的 openGL 位置和方向

我的问题如下我在 opengl 场景中嵌套了对象我只知道它们的相对位置和方向如何获得内部对象的绝对位置和方向我正在考虑计算内部对象的模型视图矩阵之后我就有了当前矩阵但如何将其转换为位置和方向换句话说要两个浮点向量所以我可以
schema.org 中有多个作者或贡献者

如果有人看Movie https schema org Movie输入 schema org 两者actor and actors允许属性演员取代演员但没有等效的author and contributor特性在我看来例如一篇新闻文
dispatchKeyEvent() 调用两次[重复]

这个问题在这里已经有答案了我调试了以下代码片段并了解了该方法dispatchKeyEvent 被调用两次请提出解决方案 Override public boolean dispatchKeyEvent KeyEvent event if
如何在单元测试中使用模拟对象并仍然使用代码覆盖率？

目前我开始将模拟对象的概念引入我的单元测试中特别是我正在使用 Moq 框架然而我注意到的一件事是我使用此框架测试的类突然显示代码覆盖率为 0 现在我明白了因为我只是嘲笑该类所以它本身并没有运行实际的类但是我如何编写这些测试并
实体框架中的表值函数？

是否可以使用实体框架调用表值函数 TVF 我在数据库中定义了三个 TVF 它们没有显示在实体框架的模型中也没有显示在从数据库更新模型向导中在 Linq to SQL 中可以轻松做到这一点只需将 TVF 拖到设计界面上即可但在 L
haskell——n 级约束？（或者，monad 转换器和 Data.Suitable）

我正在尝试写一些看起来类似于 rank 2 types 的东西但是为了约束或者也许假设改变是不正确的 gt 在 rank 2 types 的定义中 gt 是有意义的如果您想出更好的术语请编辑问题 setup 首先 Suitable
到处导入 Spark 隐式的解决方法

我是 Spark 2 0 的新手并且在我们的代码库中使用数据集我有点注意到我需要import spark implicits 在我们的代码中随处可见例如 File A class A def job spark SparkSessio

到处导入 Spark 隐式的解决方法

到处导入 Spark 隐式的解决方法 的相关文章

随机推荐

热门标签

到处导入 Spark 隐式的解决方法的相关文章