我可以使用 Spark 数据帧创建序列文件吗？

2024-01-11

我有一个要求，我需要创建一个序列文件。现在我们已经在 hadoop api 之上编写了自定义 api，但是由于我们正在使用 Spark，我们必须使用 Spark 来实现相同的目的。这可以使用 Spark 数据帧来实现吗？

AFAIK 中没有直接可用的本机 api数据框 https://spark.apache.org/docs/1.5.1/api/java/org/apache/spark/sql/DataFrame.html除了下面的方法

请尝试/思考类似的事情（这是 DataFrame 风格的 RDD，灵感来自SequenceFileRDDFunctions.scala＆方法saveAsSequenceFile）在下面的例子中：

（键，值）对 RDD 上提供额外的函数，通过隐式转换创建 Hadoop SequenceFile。 https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/SequenceFileRDDFunctions.scala

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.SequenceFileRDDFunctions
import org.apache.hadoop.io.NullWritable

object driver extends App {

   val conf = new SparkConf()
        .setAppName("HDFS writable test")
   val sc = new SparkContext(conf)

   val empty = sc.emptyRDD[Any].repartition(10)

   val data = empty.mapPartitions(Generator.generate).map{ (NullWritable.get(), _) }

   val seq = new SequenceFileRDDFunctions(data)

   // seq.saveAsSequenceFile("/tmp/s1", None)

   seq.saveAsSequenceFile(s"hdfs://localdomain/tmp/s1/${new scala.util.Random().nextInt()}", None)
   sc.stop()
}

更多信息请参阅..

如何将从 hive 表获取的数据帧写入 hadoop 序列文件和 r https://stackoverflow.com/questions/39830518/how-to-write-dataframe-obtained-from-hive-table-into-hadoop-sequencefile-and-r
序列文件 http://dmtolpeko.com/category/sequencefile/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachespark

apachesparksql

sequencefile

outputformat

我可以使用 Spark 数据帧创建序列文件吗？的相关文章

由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
Apache hadoop 版本 2.0 与 0.23

Hadoop 的版本和发行版太多让我很困惑我有几个问题 Apache Hadoop 1 x 是从 0 20 205 开始的 Apache Hadoop 2 0 是从 0 22 还是 0 23 开始根据这个blogpost http b
使用什么工具来可视化逻辑和物理查询计划？

我很熟悉explain 还有 WebUI 我很好奇是否有任何工具可以生成优化前后逻辑物理计划的树结构图像也就是返回的信息explain 作为图像 PNG 或 JPG 之类的图片我自己从未听说过但您可以使用 Web UI 查看物理计划
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
在S3中捕获Kubernetes Spark驱动程序和执行程序日志并在历史服务器中查看

我正在 Kubernetes 上使用 Spark submit cli 运行 Spark 3 0 0 和 Hadoop 2 7 如下所示 spark submit master k8s https api k8s my domain com
为什么在 Spark-Shell 中导入 SparkSession 会失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”？

我在我的 VM Cloudera 机器上使用 Spark 1 6 0 我正在尝试从 Spark shell 将一些数据输入到 Hive 表中为此我尝试使用 SparkSession 但以下导入不起作用 scala gt import o
Spark 输出：日志式与进度式

spark submit两个不同集群都运行 Spark 1 2 上的输出看起来不同一个是日志式即大量消息流例如 15 04 06 14 53 13 INFO TaskSetManager Starting task 262 0 i
为什么我的代码在 Spark Pregel 中执行需要很长时间？

我在 Spark 中使用 Pregel 编写了处理图形的代码但对于小数据集来说它的执行速度非常非常慢我以前用pregel写过程序但是这段代码运行速度确实很慢我的集群由 2 个工作人员组成每个都有核心 i5 CPU 和 6 GB
嵌套 json 中的结构化流式传输不同模式

您好我有一个场景传入的消息是一个 Json 其标题为表名数据部分包含表列数据现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的但在结构化流媒体中我无法分割它我怎
使用 Spark SQL 时找不到 Spark Logging 类

我正在尝试用 Java 进行简单的 Spark SQL 编程在程序中我从 Cassandra 表获取数据将RDD into a Dataset并显示数据当我运行spark submit命令我收到错误 java lang Class
无法验证 serde：org.openx.data.jsonserde.jsonserde

我编写了这个查询来在配置单元上创建一个表我的数据最初是 json 格式所以我已经下载并构建了 serde 并添加了它运行所需的所有 jar 但我收到以下错误 FAILED Execution Error return code 1 fr
如何直接将一个mapper-reducer的输出发送到另一个mapper-reducer而不将输出保存到hdfs中

问题最终解决检查底部的我的解决方案最近我尝试运行 Mahout in Action 的第 6 章列表 6 1 6 4 中的推荐示例但我遇到了一个问题我用谷歌搜索但找不到解决方案问题是我有一对映射器减速器 public fina
如何使用 Spark-submit 命令获取提交到 Spark 集群的作业的应用程序 ID/作业 ID？

我正在使用 Spark submit 命令提交 Apache Spark 作业我想检索使用 Spark submit 命令提交的作业的应用程序 ID 或作业 ID 推荐的方式应该是什么可以解析 Spark submit 命令的输出以获取
运行 Sqoop 导入和导出时如何找到最佳映射器数量？

我正在使用 Sqoop 版本 1 4 2 和 Oracle 数据库运行 Sqoop 命令时例如这样 sqoop import fs
为什么spark.memory.fraction的默认值这么低？

来自Spark配置文档 https spark apache org docs latest configuration html memory management 我们了解以下有关spark memory fraction配置参数用于
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
如何向数据框spark添加标题和列？

我有一个数据框我想在其中添加标题和第一列手动这是数据框 import org apache spark sql SparkSession val spark SparkSession builder master local appN

随机推荐

选项菜单操作栏

谁能明白为什么我的帮助图标没有显示在操作栏中我已将代码的相关部分粘贴在下面谢谢菜单topline xml
使用 jQuery 交换 div 内容

这是我的 HTML div class large img src images photos Interior jpg alt The interior div class caption The interior div div div
如何将 POINT mysql 类型与 mysqli - php 一起使用[重复]

这个问题在这里已经有答案了基于这张桌子 http php net manual en mysqli stmt bind param php来自 PHP net Type specification chars Character Desc
使用 EF core 2.1 调用 DbFunction

我尝试调用存储在数据库中的标量函数这是我的代码 public class PronosticDbContext DbContext public PronosticDbContext DbContextOptions
PhoneGap：Camera API getPicture 对话框放大

在Android 4 4中使用Camera API getPicture API将导致对话框放大代码如下 var sourceType pictureSource SAVEDPHOTOALBUM navigator camera get
PHPUnit TDD，PHP 致命错误：调用未定义的方法

我正在使用 PHPUnit 启动一个 TDD 项目但有些事情确实让我烦恼似乎只要所有的类和方法都没有实现所有的测试就无法运行如果类或方法尚未实现我该如何使测试继续事件 Thanks 编辑 TDD 的重点不就是你的测试套件在编写测试
Django 按计数排序

我有这些模型 class Project models Model title models CharField max length 80 date created models DateTimeField auto now add Tr
如何在GDB中打印Fortran数组？

在 C C 中我通常将指针打印为数组name dimension Fortran 的等价物是什么 Fortran 90 使用描述符来表示其数组的维度形状并传递假定形状的数组参数 Fortran 中的指针也很特殊它们只能指向合格的目标
在 jBoss 6.2 与 jBoss 7.3 中部署应用程序时的不同响应

我们最近将 jBoss EAP 从 6 2 升级到 7 3 0 升级后我们观察到该应用程序开始表现异常我们使用的是 spring 框架版本 4 1 9 RELEASE 例如 RestController public class Com
相当于本机 javascript 中的 $(this)

我想向按钮添加事件侦听器并且我对纯 javascript 编码还比较陌生所以我不知道本机等效项是什么 this 在我的代码中 the markup ul class menu li a href text a li li a href
为什么2010 Cassini 提供静态文件时性能很慢？

在 2010 年以调试模式运行站点时当 cassini 提供静态文件时我的性能变得令人难以置信的缓慢根据 Firebug 的说法每个请求大约需要 1 秒才能解析 20 个 2kb 图像我没有更改任何设置只是完成了直接安装然后转
如何在 Android Studio 1.2 中将可绘制文件夹中的图像添加到 ImageView 中？

自从 Google 为启动器图标添加了 mipmap 文件夹以来我在使用drawables 文件夹时遇到了问题我在可绘制文件夹中手动添加了 hdpi 文件夹但是当我尝试添加 src 路径时图像不允许我查看和选择它们如何在 Andr
将输入框焦点放在负载上

如何在页面加载时光标聚焦在特定输入框上是否也可以保留初始文本值并将光标放在输入末尾
在自己的内容提供商中插入数据时出错？

在这里我制作了自己的主屏幕启动器当我在屏幕上长按时我会得到一个包含选择选项如小部件和快捷方式等的对话框因此当我选择小部件时我会得到另一个对话框如内置应用程序小部件当我选择任何要加载的小部件时我遇到了问题我参考Andr
即使在 DataGridRow.Item 不是 CollectionView.NewItemPlaceholder 之后，WPF DataGridRow.IsNewItem 仍保持 True

跟踪后DataGridRow Item and DataGridRow IsNewItem属性我发现每个添加的项目当源为 DataGrid 时ObservableCollection
Tidyr 如何传播到出现次数[重复]

这个问题在这里已经有答案了有一个像这样的数据框 other data frame name c a b a c d result c Y N Y Y N 如何在 tidyr 或其他函数中使用扩展函数来获取结果 Y 或 N 的计数作为列标题
如何从字符串列表中生成逗号分隔的字符串？

从序列中连接字符串的首选方法是什么以便在每两个连续对之间添加一个逗号也就是说你如何映射例如 a b c to a b c 案例 s and 应该映射到 s and 分别我通常最终会使用类似的东西 join map lambda x
带有正则表达式的 jQuery 选择器

我正在扫描一个页面并查找具有包含该单词的类或 id 的任何 html 元素price 我的想法是在这里使用正则表达式但我无法让它正确触发我在 OS X 上使用 Safari 和 Chrome var price div regex bp
我们是否有理由使用 Directory.GetFiles() 而不是 Directory.EnumerateFiles()？

我不知道为什么我们会使用Directory GetFiles for if Directory EnumerateFiles将能够做同样的事情甚至在返回找到的整个目录列表之前您也可以枚举该列表 Directory EnumerateFil
我可以使用 Spark 数据帧创建序列文件吗？

我有一个要求我需要创建一个序列文件现在我们已经在 hadoop api 之上编写了自定义 api 但是由于我们正在使用 Spark 我们必须使用 Spark 来实现相同的目的这可以使用 Spark 数据帧来实现吗 AFAIK 中没有直

我可以使用 Spark 数据帧创建序列文件吗？

AFAIK 中没有直接可用的本机 api数据框 https://spark.apache.org/docs/1.5.1/api/java/org/apache/spark/sql/DataFrame.html除了下面的方法

我可以使用 Spark 数据帧创建序列文件吗？ 的相关文章

随机推荐

热门标签

我可以使用 Spark 数据帧创建序列文件吗？的相关文章