Spark 1.6 中的 HDFS 单元测试

2024-04-08

我正在 Spark 1.6 应用程序中编写单元测试，并且必须模拟 HDFS。正在使用 MiniDFSClusterhttps://wiki.apache.org/hadoop/HowToDevelopUnitTests https://wiki.apache.org/hadoop/HowToDevelopUnitTests如此处所述。我在当前的 Spark 1.6 代码中没有看到任何使用 MiniDFSCluster 的示例。

以下是显示如何设置和使用集群的片段。

    val conf = new HdfsConfiguration()
    val testDataCluster = new File("/var/path", "root")
    conf.set(MiniDFSCluster.HDFS_MINIDFS_BASEDIR, testDataCluster.getAbsolutePath)
    conf.setInt("dfs.blocksize", 512)
    conf.setInt("dfs.namenode.fs-limits.min-block-size", 512)
    val dfs =  new MiniDFSCluster.Builder(conf).build()
    dfs.waitActive()
    val fileSystem: org.apache.hadoop.fs.FileSystem = dfs.getFileSystem
    fileSystem.copyFromLocalFile(false, new Path(sourceDir),
      new Path(hdfsDir))

您可能需要的一些依赖项是（以下采用 sbt 模块定义格式）

  "org.apache.hadoop" % "hadoop-client" % "2.7.2" % "provided",
  "org.apache.hadoop" % "hadoop-hdfs" % "2.7.2" % "test",
  "org.apache.hadoop" % "hadoop-common" % "2.7.2" % "test",
  "org.apache.hadoop" % "hadoop-hdfs" % "2.7.2" % "test" classifier "tests",
  "org.apache.hadoop" % "hadoop-common" % "2.7.2" % "test" classifier "tests"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

Spark 1.6 中的 HDFS 单元测试的相关文章

pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
DataFrame 分区到单个 Parquet 文件（每个分区）

我想重新分区合并我的数据以便将其保存到每个分区的一个 Parquet 文件中我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
通过spark-shell以静默模式执行scala脚本

需要通过spark shell以静默模式执行scala脚本当我使用时spark shell i file scala 执行后我进入scala交互模式我不想进入那里我尝试执行spark shell i file scala 但我不知道
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
Spark s3 写入（s3 与 s3a 连接器）

我正在从事一项在 EMR 上运行的作业它在 s3 上保存了数千个分区分区为年月日我有过去 50 年的数据现在当 Spark 写入 10000 个分区时使用以下命令大约需要 1 小时s3a联系它非常慢 df repartit
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
为什么我的代码在 Spark Pregel 中执行需要很长时间？

我在 Spark 中使用 Pregel 编写了处理图形的代码但对于小数据集来说它的执行速度非常非常慢我以前用pregel写过程序但是这段代码运行速度确实很慢我的集群由 2 个工作人员组成每个都有核心 i5 CPU 和 6 GB
无法使用 Spark 结构化流在 Parquet 文件中写入数据

我有一个 Spark 结构化流 val df spark readStream format kafka option kafka bootstrap servers localhost 9092 option startingOffset
使用 Spark SQL 时找不到 Spark Logging 类

我正在尝试用 Java 进行简单的 Spark SQL 编程在程序中我从 Cassandra 表获取数据将RDD into a Dataset并显示数据当我运行spark submit命令我收到错误 java lang Class
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
Pyspark - 根据条件重置累积和列

我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件我有 180 个文件我的 Jupyter 笔记本中有 7GB 数据根据我的理解我需要创建一个循环来获取所有文件用 Spark 解压缩它们并附加到
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
按元素聚合数组

Spark scala 相当新我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
Spark 数据帧分组、排序和选择一组列的顶部行

我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行基于列权重的值数据类型为 Double 如

随机推荐

Hadoop 顺序数据访问

根据 Hadoop 权威指南 HDFS 是一个文件系统设计用于存储非常大的文件流式或顺序数据访问模式什么是流式或顺序数据访问它如何减少磁盘的寻道时间这并不是 Hadoop 特有的顺序访问模式是指按顺序读取数据通常是从开始到结束
如何在 bash 中撤消 exec > /dev/null ？

I used exec gt dev null 来抑制输出有命令可以撤消此操作吗无需重新启动脚本为了正确执行此操作您需要将原始 FD 1 复制到其他位置然后再将其重新指向 dev null 在本例中我将备份存储在 FD 5 上
一个只接受编译时已知表达式的函数？

编译时表达式很好因为您可以使用它们来专门化模板例如可以通过使用带有以下内容的编译时表达式来访问元组std get method std cout lt lt std get lt 0 gt my tuple lt lt std end
在 flutter 2.5 中 Android 全屏靠背、粘性、粘性沉浸式、边到边

我该如何实施lean back sticky sticky immersive and edge to edge in 颤振2 5安卓什么时候全屏它们是 flutter 2 5 中的新功能您需要调用该方法SystemChrome set
释放临时 COM 对象

请考虑以下使用 COM 对象的 C 代码 MyComObject o new MyComObject try var baz o Foo Bar Baz try do something with baz finally Marshal R
改进 API 以检索 png 图像

您好我是 Android Retrofit 框架的新手我可以使用它从 REST 服务获取 JSON 响应但我不知道如何使用改造下载 png 我正在尝试从此网址下载 png http wwwns akamai com media res
Facebook FQL 查询 Event_member“Inviter”和“Inviter_type”

In the FQL event member 页面的描述 https developers facebook com docs reference fql event member 它说该列inviter应告知我们在活动中邀请 UID 的
如何从表中删除或选择具有特定行号的行？

我有一个关于 Microsoft SQL Server 2005 的问题如何从具有特定行号的表中删除或选择行编辑修改代码使其更符合OP的意图 Declare RowNum as INT SET RowNum 15 Just for
如何在 setup.py 中指定多个作者/电子邮件

我们为 Twitter 应用程序编写了一个小包装并将此信息发布到http pypi python org http pypi python org 但 setup py 仅包含一个用于指定作者的电子邮件姓名的字段我如何在以下字段中指定
TemplateDoesNotExist - 文件存在，没有权限问题

我在尝试在 django 中渲染模板时收到此错误模板不存在 Template loader postmortem Django tried loading these templates in this order Using loade
Maven 找不到 Spring Social

我需要一个网站的 Spring Social 但我的专家在查找它时遇到问题我添加了 Spring Social Core 和 Spring Social Facebook 依赖项但我在 Eclipse 中得到了这个 Missing ar
如何使用 Intent 在 Android 中以编程方式打开主页启动器列表设置屏幕

我正在寻找一种使用 Intent 在系统设置的主页选项中打开启动器列表屏幕的方法主系统设置 gt gt 首页 gt gt 启动器列表我需要使用 Intent 打开此启动器列表屏幕如果有人能指出我正确的方向我将非常感激非常感谢要调
无法在 Qt5 应用程序中加载 qca-ossl

我决定将我的应用程序从 Qt4 迁移到 Qt5 在 Qt4 中我将 QCA 与 QCA OSSL 一起使用没有任何问题但现在 OSSL 插件不想加载我已经在 Qt5 下从 git anongit kde org qca git 编译
在 SQL Server Reporting Services 中将 GUID 转换为字符串

当试图显示一个GUID报告中的列其显示为 error CStr Fields number Value ToString 我在列的属性中尝试了上面的代码它不起作用请指教 CType Fields number Value GUID T
Kivy 文件选择器在屏幕滚动上重叠文本

Versions 蟒蛇 3 7 操作系统 Windows 10 基维 1 11 1 Kivy安装方法 pip 描述 FileChooser 在滚动文件列表时重叠文本看起来第一个内容仍然存在并且滚动时滚动数据的内容显示在第一个内容的顶部
将字符串转换为日期

我曾经转换过法国日期23 d cembre 2015 15 03迄今为止它工作了一段时间现在它不起作用了有什么想法吗 var date new Date 23 d cembre 2015 15 03 console log date
为什么我在 Chrome 中收到“jquery.mobile-1.3.2.min.map 文件未找到”消息

我正在使用这三个 CDN 文件按照 JQM 文档中的入门建议
Matplotlib 艺术家在放大时保持相同的大小，但也随着平移而移动？

这是一个非常直接的后续这个问题 https stackoverflow com questions 5678950 matplotlib artists to stay the same size when zoomed in 567974
Jquery - 从选项值更改值

我已经有了这个
Spark 1.6 中的 HDFS 单元测试

我正在 Spark 1 6 应用程序中编写单元测试并且必须模拟 HDFS 正在使用 MiniDFSClusterhttps wiki apache org hadoop HowToDevelopUnitTests https wiki a

Spark 1.6 中的 HDFS 单元测试

Spark 1.6 中的 HDFS 单元测试 的相关文章

随机推荐

热门标签

Spark 1.6 中的 HDFS 单元测试的相关文章