是否可以在不使用sparkContext的情况下模拟RDD?
我想对以下实用函数进行单元测试:
def myUtilityFunction(data1: org.apache.spark.rdd.RDD[myClass1], data2: org.apache.spark.rdd.RDD[myClass2]): org.apache.spark.rdd.RDD[myClass1] = {...}
所以我需要将 data1 和 data2 传递给 myUtilityFunction。如何从模拟 org.apache.spark.rdd.RDD[myClass1] 创建 data1,而不是从 SparkContext 创建真正的 RDD?谢谢你!
RDD 非常复杂,模拟它们可能不是创建测试数据的最佳方法。相反,我建议对您的数据使用 sc.parallelize 。我也(有点偏见)认为https://github.com/holdenk/spark-testing-base https://github.com/holdenk/spark-testing-base可以通过提供一个特征来为您的测试设置和拆卸 Spark 上下文来提供帮助。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)