在 PySpark 2.0 中读取序列文件

2023-12-03

我有一个序列文件，其值如下所示

(string_value, json_value)

我不关心字符串值。

在 Scala 中我可以通过以下方式读取文件

val reader = sc.sequenceFile[String, String]("/path...")
val data = reader.map{case (x, y) => (y.toString)}
val jsondata = spark.read.json(data)

我很难将其转换为 PySpark。我尝试过使用

reader= sc.sequenceFile("/path","org.apache.hadoop.io.Text", "org.apache.hadoop.io.Text")
data = reader.map(lambda x,y: str(y))
jsondata = spark.read.json(data)

这些错误很神秘，但如果有帮助的话我可以提供它们。我的问题是，在 pySpark2 中读取这些序列文件的正确语法是什么？

我认为我没有正确地将数组元素转换为字符串。如果我做一些简单的事情，比如

m = sc.parallelize([(1, 2), (3, 4)])
m.map(lambda x,y: y.toString).collect()

m = sc.parallelize([(1, 2), (3, 4)])
m.map(lambda x,y: str(y)).collect()

Thanks!

您的代码的根本问题是您使用的函数。函数传递给map应该采用一个参数。使用以下任一方法：

reader.map(lambda x: x[1])

or just:

reader.values()

只要keyClass and valueClass匹配数据，这应该是您在这里需要的全部内容，并且不需要额外的类型转换（这是由内部处理的）sequenceFile）。用 Scala 写：

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/

Using Scala version 2.11.8 (OpenJDK 64-Bit Server VM, Java 1.8.0_111)
Type in expressions to have them evaluated.
Type :help for more information.

scala> :paste
// Entering paste mode (ctrl-D to finish)

sc
  .parallelize(Seq(
    ("foo", """{"foo": 1}"""), ("bar", """{"bar": 2}""")))
  .saveAsSequenceFile("example")

// Exiting paste mode, now interpreting.

用 Python 阅读：

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/

Using Python version 3.5.1 (default, Dec  7 2015 11:16:01)
SparkSession available as 'spark'.

In [1]: Text = "org.apache.hadoop.io.Text"

In [2]: (sc
   ...:     .sequenceFile("example", Text, Text)
   ...:     .values()  
   ...:     .first())
Out[2]: '{"bar": 2}'

Note:

旧版 Python 版本支持元组参数解包：

reader.map(lambda (_, v): v)

不要使用它对于应该向前兼容的代码。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

sequencefile

在 PySpark 2.0 中读取序列文件的相关文章

Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
列对象不可调用 Spark

我尝试安装 Spark 并运行教程中给出的命令但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
如何将模型从 ML Pipeline 保存到 S3 或 HDFS？

我正在尝试保存 ML Pipeline 生成的数千个模型正如答案中所示here https stackoverflow com questions 32121046 run 3000 random forest models by gro
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
以编程方式结束/退出粘合作业

我正在使用 Glue 书签来处理数据我的工作是每天安排的但也可以手动启动由于我使用书签有时胶水作业可以在没有新数据要处理的情况下启动然后读取的数据帧为空在这种情况下我想好好地结束我的工作因为它没有什么关系我试过 if
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

更多源数据来自我需要定期轮询的 Web 服务端点获得数据后我可以使用 pyspark 执行传统的 ETL 并最终将数据写入 S3 和 Redshift 我不确定如何进行初始提取甚至不确定我应该在 AWS Glue 文档中查找什么内容
将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
Spark 中的 StandardScaler 未按预期工作

知道为什么 Spark 会这样做吗StandardScaler 根据定义StandardScaler StandardScaler 将一组特征标准化为均值为零标准差为 1 withStd 标志将数据缩放为单位标准差而标志 withMe
Spark 2.2 无法将 df 写入 parquet

我正在构建一个聚类算法我需要存储模型以供将来加载我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
将 CSV 转换为序列文件

我有一个 CSV 文件我想将其转换为 SequenceFile 我最终将使用它来创建 NamedVectors 以在聚类作业中使用我一直在使用 seqdirectory 命令尝试创建 SequenceFile 然后使用 nv 选项将该输

随机推荐

在 Firefox 中使用 HTML5 音频播放 mp3 Shoutcast 流？

我正在尝试使用 HTML5 音频播放 mp3shoutcast 流广播电台我认为这不相关但无论如何这里是代码 var player new Audio player autobuffer true player src http 17
Sql Developer 上出现“IO 错误：网络适配器无法建立连接”问题的原因是什么？

我建立了连接到数据库服务器其他机器的连接然后我发现执行请求的操作时遇到错误 IO 错误网络适配器无法建立连接供应商代码 17002 请查看下面 URL 中的图片我尝试建立连接但无法访问但我的团队可以访问它我的朋友使用 TN
将任意大数转换为基数 256

我有一个号码非常大长度可能达到50位我将其作为字符串输入但是我需要对其执行操作所以我需要将它们转换为适当的基数比如说 256 这样做的最佳算法是什么多精度算术又名bignums 是一个困难的主题好的算法是不直观的有关于
如何使用Struts 2在Apache Tomcat应用程序中建立数据库连接

我想在应用程序级别建立数据库连接所以我想在web xmlApache Tomcat 服务器的文件我正在使用 Struts2 MVC 框架开发我们的应用程序实际上我不想在每个Java 文件上创建数据库连接如何在应用程序中建立数据库连接
Directshow录制/预览问题

我有一个项目需要使用 DirectShow 从网络摄像头录制视频但我需要能够在预览继续运行时停止录制我正在使用 WPFMediaKit http wpfmediakit codeplex com 问题是当我录制视频时暂停功能也会暂
EclEmma 代码覆盖率插件和 PowerMockRunner

我在Eclipse中使用EclEmma插件时遇到了问题当我使用注释时它不显示代码覆盖率 RunWith通过 PowerMockRunner class 作为一个论点如果使用 MockitoJUnitRunner class 一切安好等
如何更改 SwiftUI 中导航栏标题的文本属性？

最近我一直在尝试新的 SwiftUI 框架我确实对该框架的工作原理有基本的了解但我无法找到更改导航栏标题属性的方法我使用的是最新的 Xcode 11 beta 5 和相应的 swift swiftUI 版本我已经尝试过一些事情我
C++\CLI 应用程序加载时崩溃

我有一个 C 应用程序它加载大量 C DLL 和一些选定的 C CLI DLL 在其中一台计算机 Windows Server 2003 SP2 上启动时收到错误消息应用程序无法正确初始化 0xC0000005 单击确定终止应用程序
如何在没有秒的情况下格式化 MySQL TIMEDIFF？

我正在运行这个SELECT陈述 TIMEDIFF NOW posts date modified as time ago 并得到格式的结果02 58 32 最后一组数字 32 是秒数我怎样才能省略秒 SELECT TIME FORMAT
iOS 的 Cordova healthkit 插件函数返回未定义？

我正在尝试使用科尔多瓦插件健康我正在开发的phonegap应用程序的插件每当我使用该应用程序时每个插件都可以工作但这个插件除外我正在使用phonegap mac 应用程序在iPhone 6s 上进行测试我已采取的步骤安装的插件c
仅在根进程上声明的数组

特别是在 Fortran 的 MPI 中仅在根进程上定义数组是否可能并且是一个不错的选择例如这样的事情 program test implicit none include mpif h all mpi init ierr call m
比较两个字符串并返回差异。 Python 3 [重复]

这个问题在这里已经有答案了我的目标是编写一个程序来比较两个字符串并显示前两个不匹配字符之间的差异例子 str1 dog str2 doc 应该返回 gc 我知道我尝试使用的代码很糟糕但我希望收到一些提示这是我解决这个练习的糟糕尝试
C#性能分析-如何计算CPU周期？

这是进行性能分析的有效方法吗我想要获得纳秒精度并确定类型转换的性能 class PerformanceTest static double last 0 0 static List numericGenericData new List
如何创建 html 输入文本区域，以便可以为某些单词添加下划线或设置其格式？

我想要一个输入字段我可以让javascript为输入字段的不同部分设置某些属性一个简单的例子来演示我想做的事情假设我想在输入文本区域中的所有咒语单词下划线因此当插入新字母时 JavaScript 将检查输入文本区域并且对于与我的
RichtextBox 中的粗体

我一直在研究我的富文本框但遇到了一些奇怪的事情我想将每一行的第一个单词加粗使用此代码 RichTextBox bold richTextBox1 foreach string line in bold Lines string nam
用于向下钻取图表的自己的后退按钮

我有一个带有向下钻取数据的饼图是否可以隐藏默认的后退按钮并从我自己的按钮触发后退功能是的这是可能的只需创建您自己的按钮然后单击调用chart drillUp 功能看docs Highcharts v5 和 v6 在 Highch
AWS RDS 是否支持 MySQL 作为文档存储

我能够连接普通的AWS RDS MySQL实例 5 7 16 但是由于我必须使用 MySQL 作为文档存储因此我通过安装 mysqlx 插件配置了 MySQL 实例这是文档存储所需的此后我尝试连接同一实例上端口 33060 上的
YouTube 嵌入视频开始/停止事件

我想知道通过 iframe 嵌入 YouTube 视频是否会暴露某些事件例如 onStart 或 onStop 您可以在其中指定一些回调这是处理启动和停止事件的示例 HTML 文件 index html
如何在 Spring Boot 中将 Json 字节数组转换为 AMQP？

按照此我有这个代码 Bean open fun messageConverter om ObjectMapper MessageConverter return Jackson2JsonMessageConverter om Bean o
在 PySpark 2.0 中读取序列文件

我有一个序列文件其值如下所示 string value json value 我不关心字符串值在 Scala 中我可以通过以下方式读取文件 val reader sc sequenceFile String String path va

在 PySpark 2.0 中读取序列文件

在 PySpark 2.0 中读取序列文件 的相关文章

随机推荐

热门标签

在 PySpark 2.0 中读取序列文件的相关文章