如何在 Spark 2.0+ 中编写单元测试？

2024-01-30

我一直在尝试寻找一种合理的测试方法SparkSession使用 JUnit 测试框架。虽然似乎有很好的例子SparkContext，我不知道如何获得相应的示例SparkSession，即使它在内部的多个地方使用火花测试基地 https://github.com/holdenk/spark-testing-base/。如果这不是真正正确的方法，我很乐意尝试一个不使用 Spark-testing-base 的解决方案。

简单的测试用例（完整的MWE项目 https://github.com/bbarker/ProjectGists/tree/master/Scala/SparkSessionTester with build.sbt):

import com.holdenkarau.spark.testing.DataFrameSuiteBase
import org.junit.Test
import org.scalatest.FunSuite

import org.apache.spark.sql.SparkSession


class SessionTest extends FunSuite with DataFrameSuiteBase {

  implicit val sparkImpl: SparkSession = spark

  @Test
  def simpleLookupTest {

    val homeDir = System.getProperty("user.home")
    val training = spark.read.format("libsvm")
      .load(s"$homeDir\\Documents\\GitHub\\sample_linear_regression_data.txt")
    println("completed simple lookup test")
  }

}

使用 JUnit 运行的结果是加载线处的 NPE：

java.lang.NullPointerException
    at SessionTest.simpleLookupTest(SessionTest.scala:16)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.junit.runners.model.FrameworkMethod$1.runReflectiveCall(FrameworkMethod.java:50)
    at org.junit.internal.runners.model.ReflectiveCallable.run(ReflectiveCallable.java:12)
    at org.junit.runners.model.FrameworkMethod.invokeExplosively(FrameworkMethod.java:47)
    at org.junit.internal.runners.statements.InvokeMethod.evaluate(InvokeMethod.java:17)
    at org.junit.runners.ParentRunner.runLeaf(ParentRunner.java:325)
    at org.junit.runners.BlockJUnit4ClassRunner.runChild(BlockJUnit4ClassRunner.java:78)
    at org.junit.runners.BlockJUnit4ClassRunner.runChild(BlockJUnit4ClassRunner.java:57)
    at org.junit.runners.ParentRunner$3.run(ParentRunner.java:290)
    at org.junit.runners.ParentRunner$1.schedule(ParentRunner.java:71)
    at org.junit.runners.ParentRunner.runChildren(ParentRunner.java:288)
    at org.junit.runners.ParentRunner.access$000(ParentRunner.java:58)
    at org.junit.runners.ParentRunner$2.evaluate(ParentRunner.java:268)
    at org.junit.runners.ParentRunner.run(ParentRunner.java:363)
    at org.junit.runner.JUnitCore.run(JUnitCore.java:137)
    at com.intellij.junit4.JUnit4IdeaTestRunner.startRunnerWithArgs(JUnit4IdeaTestRunner.java:68)
    at com.intellij.rt.execution.junit.IdeaTestRunner$Repeater.startRunnerWithArgs(IdeaTestRunner.java:51)
    at com.intellij.rt.execution.junit.JUnitStarter.prepareStreamsAndStart(JUnitStarter.java:237)
    at com.intellij.rt.execution.junit.JUnitStarter.main(JUnitStarter.java:70)

请注意，正在加载的文件是否存在并不重要；在正确配置的 SparkSession 中，会抛出更明智的错误 https://issues.apache.org/jira/browse/SPARK-20497.

感谢您提出这个悬而未决的问题。出于某种原因，当谈到 Spark 时，每个人都过于专注于分析，以至于忘记了过去 15 年左右出现的优秀软件工程实践。这就是为什么我们在课程中重点讨论测试和持续集成（以及 DevOps 等其他内容）。

术语简介

A true单元测试意味着您可以完全控制测试中的每个组件。不能与数据库、REST 调用、文件系统甚至系统时钟进行交互；正如 Gerard Mezaros 所说，一切都必须“加倍”（例如嘲笑、存根等）xUnit 测试模式 http://www.gerardmeszaros.com/。我知道这看起来像是语义学，但它确实很重要。不理解这一点是您在持续集成中看到间歇性测试失败的主要原因之一。

我们仍然可以进行单元测试

因此，鉴于这种理解，单元测试RDD是不可能的。然而，在开发分析时仍然需要进行单元测试。

考虑一个简单的操作：

rdd.map(foo).map(bar)

Here foo and bar都是简单的函数。这些可以以正常方式进行单元测试，并且它们应该包含尽可能多的极端情况。毕竟，为什么他们关心从哪里获得输入，无论是测试装置还是测试装置？RDD?

不要忘记 Spark Shell

这不是测试per se，但在这些早期阶段，您还应该在 Spark shell 中进行试验，以找出您的转换，尤其是您的方法的结果。例如，您可以使用许多不同的功能来检查物理和逻辑查询计划、分区策略和保存以及数据的状态，例如toDebugString, explain, glom, show, printSchema，等等。我会让你探索这些。

您还可以将您的主人设置为local[2]在 Spark shell 和测试中识别仅在开始分发工作后可能出现的任何问题。

使用 Spark 进行集成测试

现在来说说有趣的事情。

为了集成测试当您对辅助功能的质量充满信心并且RDD/DataFrame转换逻辑，做一些事情很关键（无论构建工具和测试框架如何）：

增加 JVM 内存。
启用分叉但禁用并行执行。
使用您的测试框架将 Spark 集成测试累积到套件中，并初始化SparkContext在所有测试之前并在所有测试之后停止它。

使用 ScalaTest，您可以混合使用BeforeAndAfterAll（我通常更喜欢）或BeforeAndAfterEach正如 @ShankarKoirala 所做的那样初始化和拆除 Spark 工件。我知道这是一个合理的例外，但我真的不喜欢那些可变的var但你必须使用。

贷款模式

另一种方法是使用贷款模式 https://stackoverflow.com/questions/20762240/loaner-pattern-in-scala.

例如（使用 ScalaTest）：

class MySpec extends WordSpec with Matchers with SparkContextSetup {
  "My analytics" should {
    "calculate the right thing" in withSparkContext { (sparkContext) =>
      val data = Seq(...)
      val rdd = sparkContext.parallelize(data)
      val total = rdd.map(...).filter(...).map(...).reduce(_ + _)

      total shouldBe 1000
    }
  }
}

trait SparkContextSetup {
  def withSparkContext(testMethod: (SparkContext) => Any) {
    val conf = new SparkConf()
      .setMaster("local")
      .setAppName("Spark test")
    val sparkContext = new SparkContext(conf)
    try {
      testMethod(sparkContext)
    }
    finally sparkContext.stop()
  }
}

正如您所看到的，贷款模式利用高阶函数来“贷款”SparkContext进行测试，然后在完成后进行处理。

面向痛苦的编程（谢谢，Nathan）

这完全是一个偏好问题，但我更喜欢使用贷款模式，并在引入另一个框架之前尽可能长时间地自己进行连接。除了试图保持轻量级之外，框架有时还会添加很多“魔力”，使调试测试失败变得难以推理。所以我采取面向痛苦的编程 http://nathanmarz.com/blog/suffering-oriented-programming.html方法——我避免添加新框架，直到无法承受没有它的痛苦。但同样，这取决于你。

该替代框架的最佳选择当然是火花测试基地 https://github.com/holdenk/spark-testing-base正如@ShankarKoirala 提到的。在这种情况下，上面的测试将如下所示：

class MySpec extends WordSpec with Matchers with SharedSparkContext {
      "My analytics" should {
        "calculate the right thing" in { 
          val data = Seq(...)
          val rdd = sc.parallelize(data)
          val total = rdd.map(...).filter(...).map(...).reduce(_ + _)
    
          total shouldBe 1000
        }
      }
 }

请注意我不需要做任何事情来处理SparkContext. SharedSparkContext给了我这一切——sc as the SparkContext- 免费。就我个人而言，我不会仅仅为了这个目的而引入这种依赖关系，因为贷款模式正是我所需要的。此外，由于分布式系统存在如此多的不可预测性，当持续集成中出现问题时，必须追溯第三方库源代码中发生的魔力可能是一件非常痛苦的事情。

现在在哪里火花测试基地真正令人眼前一亮的是基于 Hadoop 的助手，例如HDFSClusterLike and YARNClusterLike。将这些特征混合在一起确实可以为您省去很多设置的麻烦。它的另一个闪光点是斯卡拉检查 https://www.scalacheck.org/- 就像属性和生成器 - 当然假设您了解基于属性的测试如何工作以及它为什么有用。但同样，我个人会推迟使用它，直到我的分析和测试达到这种复杂程度。

“只有西斯才会做到绝对。” ——欧比旺·克诺比

当然，您也不必选择其中之一。也许您可以在大多数测试中使用贷款模式方法火花测试基地仅用于一些更严格的测试。选择不是二元的；而是二元的。你可以两者都做。

与 Spark Streaming 的集成测试

最后，我只想展示一个带有内存值的 Spark Streaming 集成测试设置的片段，如果没有火花测试基地:

val sparkContext: SparkContext = ...
val data: Seq[(String, String)] = Seq(("a", "1"), ("b", "2"), ("c", "3"))
val rdd: RDD[(String, String)] = sparkContext.parallelize(data)
val strings: mutable.Queue[RDD[(String, String)]] = mutable.Queue.empty[RDD[(String, String)]]
val streamingContext = new StreamingContext(sparkContext, Seconds(1))
val dStream: InputDStream = streamingContext.queueStream(strings)
strings += rdd

这比看起来更简单。它实际上只是将一系列数据转换成一个队列以提供给DStream。其中大部分实际上只是与 Spark API 配合使用的样板设置。无论如何，您可以将其与StreamingSuiteBase 如发现于 https://github.com/holdenk/spark-testing-base/wiki/StreamingSuiteBase 火花测试基地来决定您更喜欢哪一个。

这可能是我有史以来最长的帖子，所以我将其留在这里。我希望其他人提出其他想法，通过与改进所有其他应用程序开发相同的敏捷软件工程实践来帮助提高我们的分析质量。

对无耻的插件表示歉意，您可以查看我们的课程使用 Apache Spark 进行软件工程 https://www.vidyasource.com/courses/software-engineering-with-apache-spark，我们在这里讨论了很多这样的想法以及更多。我们希望尽快推出在线版本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Spark 2.0+ 中编写单元测试？的相关文章

如何在 Lift 框架中添加新页面

如何在 lift 中的 webapp 目录中添加一个可供用户访问的新页面目前只能通过index html访问http localhost 8080 com http localhost 8080 or http localhost 808
Junit maven构建错误（maven-surefire-plugin：2.19.1：测试失败：分叉进程中出现错误）[重复]

这个问题在这里已经有答案了我通过引用创建了一个示例 struts 2 项目和 J unit 测试用例link http self learning java tutorial blogspot com au 2015 04 struts2
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
模拟对象 - 将所有方法声明为虚拟方法还是使用接口？

与 Java 不同 net 中的方法默认不是虚拟的为了使用大多数模拟对象框架您要么必须将要在模拟上使用的方法标记为真实对象上的虚拟方法要么必须有一个可以模拟被测试类将使用的接口接受代替执行将每个方法标记为虚拟似乎是一种不好的形式
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
如何调用 Scala 抽象类型的构造函数？

我试图弄清楚如何调用 Scala 抽象类型的构造函数 class Journey val length Int class PlaneJourney length Int extends Journey length class BoatJ
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
实现只有一个居民的类型的价值

感谢 MilesSabin 的answer https stackoverflow com a 32157259 867671我可以编写类型级别的斐波那契序列 sealed trait Digit case object Zero exte
过滤器的 Scala 集合类型

假设您有一个 List 1 1 其类型为 List Any 这当然是正确的且符合预期现在如果我像这样映射列表 scala gt List 1 1 map case x Int gt x case y String gt y toInt 结
用于共享大型不可变对象的工厂/缓存策略

我的问题很像上一篇文章最佳哈希集初始化 Scala Java https stackoverflow com questions 14714900 optimal hashset initialization scala java 我想用的
Intellij IDEA 代码覆盖率不起作用

当我尝试运行具有覆盖范围的 JUnit 测试时我收到以下错误 FATAL ERROR in native method processing of javaagent failed java lang reflect Invocation
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
ScalaTest v3：为什么需要实现convertToLegacyEqualizer

Using 斯卡拉测试3 0 0 http www scalatest org install环境 Scala 2 11 8 sbt 0 13 5 IntelliJ 14 1 4 build sbt 只有 NOTE not using or
使用cameltestsupport进行Camel单元测试，模板始终为空

我正在用 Camel 做一个简单的单元测试我想做的就是从文件在资源下读取 JSON 内容将其发送到 Java 类进行验证这是我试图测试的路线无论我做什么模板我用来发送正文 json 始终为空这是我的代码 public cl
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
在泛型方法中返回原始集合类型

假设我们想要创建一个像这样的函数minBy返回集合中同等极简主义的所有元素 def multiMinBy A B Ordering xs Traversable A f A gt B val minVal f xs minBy f xs f
Espresso 和 Proguard 的 Java.lang.NoClassDefFoundError

我对 Espresso 不太有经验但我终于成功地运行了它我有一个应用程序需要通过 Proguard 缩小才能处于 56K 方法之下该应用程序以 3 秒的动画开始因此我需要等到该动画结束才能继续这就是我尝试用该方法做的事情waitF

随机推荐

KnockOut.js 与 Asp.net mvc [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案刚刚开始学习新的 asp net mvc4 SPA 模板注意到正在使用淘汰赛所以请给我参考任何从头
正则表达式匹配前面没有字符串的字符

我试图在标点符号后面匹配空格以便可以分割大量文本但我看到一些常见的边缘情况包括地点标题和常见缩写 I am from New York N Y and I would like to say hello How are you to
如何让 jQuery $('#div').html() 在 IE7+ 中工作？

我已经使用下面的代码编写了动态更改 div 的 ajax 请求 document ready function ajax type GET url url success function data some div html data 它
ReDim Preserve 有什么作用？

我正在看别人的vba excel代码他们在ReDim Preserve dataMatrix 7 i 在两个循环中这是做什么的另外第二个循环似乎只是覆盖了第一个循环中的数据这是正确的吗 Dim dataMatrix As Stri
输入类型 datetime-local 在 Firefox 中不起作用

我有一个 datetime local 的输入类型它在 chrome 中工作正常但是当我尝试在 firefox 中运行同一页面时它显示文本框而不是 datepicker 我尝试过使用现代化器但仍然存在问题任何人都可以告诉我怎么办日
如何为编写自定义转换器

在使用使用 POJO 列表的 PrimeFaces 组件时如何编写自定义转换器我的具体问题是
如何删除字符串中重复的空格？ [复制]

这个问题在这里已经有答案了可能的重复将 JavaScript 字符串中的多个空格替换为单个空格 https stackoverflow com questions 6163169 removing whitespace from str
'' aria-label='错误 TS2322: 类型 '{ id: string; }' 不可分配给类型 'ApiModelFilter''> 错误 TS2322: 类型 '{ id: string; }' 不可分配给类型 'ApiModelFilter'

我尝试定义一些过滤器其中过滤器对象的键应该是从模型接口扩展的任何接口的键模型接口只定义了一个id属性当我尝试通过定义在通用类中使用 ApiModelFilter 类型时id和一个字符串作为值我从标题中得到错误我有什么想法可以解决这个
OpenID 与 Django 的最佳解决方案是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案请注意这是一个古老的问题也有古老的答案大多数链接的应用程序现在都已不再维护如今大多数人似乎都使用Django allauth http
在触发器内调用的 postgres 函数中的 select 语句

我正在尝试为社交媒体应用程序网站的后端开发一个通知系统现在我专注于状态更新我要做的就是在与状态更新相关的 postgres 表上放置一个触发器以便每次发布新的状态更新时都会向我的代码发送通知到目前为止我已经能够做到这一点但我喜
在 Debian Jessie 上编译 Python 3.6.2 在共享模块上出现段错误

我正在尝试使用以下选项在 Debian Jessie 盒子上编译 Python 3 6 2 configure prefix opt python3 enable optimizations with lto enable profilin
PHP默认参数[重复]

这个问题在这里已经有答案了在 PHP 中如果我有一个这样写的函数 function example argument1 argument2 argument3 我可以像这样在其他地方调用这个函数 example argument1 但如
preg_match() 与 strpos() 进行匹配查找？

For 单值检查两者中哪一个是首选为什么 string The quick brown fox jumps over the lazy dog if strpos string fox false do the routine vers
根据换行符将命令输出行存储到数组中

我有一个如下变量并且我执行某些操作来一一打印输出如下所述 a My name is A Her Name is B His Name is C echo a awk F nN ame for i 2 i lt NF i 2 print
Delphi中如何识别发送者的Tobject类型？

我正在为带有无线电组的对话框创建代码作为首选项表单的一部分我们代码的一部分是当打开首选项表单时单击单选按钮组这会配置一堆内容即如果单选按钮处于关闭状态则隐藏一堆配置内容我想要知道用户何时实际单击单选按钮组而不是在首选
仅在反应本机 MapView 上设置初始区域

使用案例使用react native MapView 组件将注释显示在地图上设置初始地图区域以便所有注释都可见注释正在移动这会触发重新渲染此外用户应该能够平移缩放地图所以onRegionChange and onRegio
使用 Leiningen 在 Raspberry Pi 上改进 Clojure REPL 的启动时间

我获得了 Raspberry Pi 512MB 版本 2012 年末并安装了适用于 ARM 的 Java SE 8 开发者预览版 https blogs oracle com java entry developer preview of
无限循环 - 顶部还是底部？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案本着这样的问题的精神您的循环是在顶部还是底部进行测试 https stackoverflow com questions 224059 do y
当你是 git 中的原始仓库时，你如何进行本地拉取？

我有一台服务器我在其中设置了 Git 存储库从我的客户那里我可以执行 git拉原点 and git 推送原点我的更改已正确推送拉取到远程 Git 服务器我还需要能够在服务器本身上签出项目我没有使用初始化裸露当我设置它时因为
如何在 Spark 2.0+ 中编写单元测试？

我一直在尝试寻找一种合理的测试方法SparkSession使用 JUnit 测试框架虽然似乎有很好的例子SparkContext 我不知道如何获得相应的示例SparkSession 即使它在内部的多个地方使用火花测试基地 https gi

如何在 Spark 2.0+ 中编写单元测试？

如何在 Spark 2.0+ 中编写单元测试？ 的相关文章

随机推荐

热门标签

如何在 Spark 2.0+ 中编写单元测试？的相关文章