在pyspark中读取json文件

2024-04-11

我是 PySpark 的新手，下面是来自 kafka 的 JSON 文件格式。

{
        "header": {
        "platform":"atm",
        "version":"2.0"
       }
        "details":[
       {
        "abc":"3",
        "def":"4"
       },
       {
        "abc":"5",
        "def":"6"
       },
       {
        "abc":"7",
        "def":"8"
       }    
      ]
    }

我怎样才能读懂所有的价值观"abc" "def"详细信息并将其添加到这样的新列表中[(1,2),(3,4),(5,6),(7,8)]。新列表将用于创建 Spark 数据框。我如何在 pyspark 中执行此操作。我尝试了以下代码。

parsed = messages.map(lambda (k,v): json.loads(v))
list = []
summed = parsed.map(lambda detail:list.append((String(['mcc']), String(['mid']), String(['dsrc']))))
output = summed.collect()
print output

它产生错误'太多的值需要解压'

语句下方出现错误消息summed.collect()

16/09/12 12:46:10 信息弃用：mapred.task.is.map 已弃用。相反，使用 mapreduce.task.ismap 16/09/12 12:46:10 INFO 弃用： mapred.task.partition 已弃用。相反，使用 mapreduce.task.partition 16/09/12 12:46:10 信息弃用： mapred.job.id 已弃用。相反，使用mapreduce.job.id 16/09/12 12:46:10 错误执行器：阶段 0.0 中的任务 1.0 出现异常（TID 1） org.apache.spark.api.python.PythonException：回溯（最新最后调用）：文件 “/usr/hdp/2.3.4.0-3485/spark/python/lib/pyspark.zip/pyspark/worker.py”， 111行，主要 process() 文件“/usr/hdp/2.3.4.0-3485/spark/python/lib/pyspark.zip/pyspark/worker.py”，第 106 行，正在进行中 serializer.dump_stream(func(split_index, iterator), outfile) 文件 “/usr/hdp/2.3.4.0-3485/spark/python/lib/pyspark.zip/pyspark/serializers.py”，第 263 行，在 dump_stream 中 vs = list(itertools.islice(iterator, batch)) File "", line 1, in ValueError: 太多值无法解压

首先，json无效。标题 a 之后,不见了。

话虽这么说，让我们看一下这个 json：

{"header":{"platform":"atm","version":"2.0"},"details":[{"abc":"3","def":"4"},{"abc":"5","def":"6"},{"abc":"7","def":"8"}]}

这可以通过以下方式处理：

>>> df = sqlContext.jsonFile('test.json')
>>> df.first()
Row(details=[Row(abc='3', def='4'), Row(abc='5', def='6'), Row(abc='7', def='8')], header=Row(platform='atm', version='2.0'))

>>> df = df.flatMap(lambda row: row['details'])
PythonRDD[38] at RDD at PythonRDD.scala:43

>>> df.collect()
[Row(abc='3', def='4'), Row(abc='5', def='6'), Row(abc='7', def='8')]

>>> df.map(lambda entry: (int(entry['abc']),     int(entry['def']))).collect()
[(3, 4), (5, 6), (7, 8)]

希望这可以帮助！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

SparkStreaming

在pyspark中读取json文件的相关文章

在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
将 Tuple2 的值部分（即映射）合并为按 Tuple2 的键分组的单个映射

我在 Scala 和 Spark 中这样做我有和Dataset of Tuple2 as Dataset String Map String String 下面是值的示例Dataset A 1 gt 100 2 gt 200 3 gt 1
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数

我有一个文件夹里面有 14 个文件我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
pyspark通过特定键加入rdd

我有两个 rdd 需要将它们连接在一起它们看起来像下面这样 RDD1 u 2 u 100 2 u 1 u 300 1 u 1 u 200 1 RDD2 u 1 u 2 u 1 u 3 我想要的输出是 u 1 u 2 u 100 2 所以我
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll

随机推荐

如何以正确的方式将很长的表格布局放入水平滚动视图中？

我尝试查看大量示例和帖子但没有一个符合我的问题我需要制作一个非常长水平的表格其中有很多列因此无法在单个屏幕中显示我不想弄乱桌子因为以这种方式展示我的桌子很重要我在下面粘贴了我的 XML 布局包括主要的重要的问题是如果我
Clojure：在 let 绑定中展开 var

我想在let不同功能的形式比方说 def common assign x 10 y 20 一种方法是用eval eval defn foo let common assign hello world balala 问题是现在你必须引用所有
需要采取的行动：您的应用不符合 Google Play 政策，解决方案是什么？

发现问题数据安全部分无效我们审核了您应用在 Play 管理中心内的数据安全部分发现它与应用收集和共享用户数据的方式之间存在差异所有应用程序都需要完成准确的数据安全部分披露其数据收集和共享实践即使您的应用程序不收集任何用户数据这
RichTextBox 控件中的表格损坏（自动换行）[重复]

这个问题在这里已经有答案了可能的重复为什么 Richtextbox 无法正确显示该表格 https stackoverflow com questions 1928853 why isnt the richtextbox display
在 R 中结合 head 和 tail 方法

我经常使用 R 包 utils 中的 head d 和 tail d 方法经常一个接一个所以我为这两个函数编写了一个简单的包装器 ht lt function d m 5 n m print the head and tail toge
限制从 AWS SQS 触发的 AWS Lambda 的并发调用（忽略保留并发）？

对我来说一开始这似乎是一个简单的用例但结果比我预期的要困难得多 Problem 我有一个 AWS SQS 作为作业队列触发工作线程 AWS Lambda 然而由于工作人员 lambda 共享不可扩展的资源因此将并发运行的 lamb
按列名称对矩阵进行排序

我有以下矩阵 z 0 1 2 3 4 5 8 9 11 12 15 16 17 1 0 9992149 0 0001345895 4 486317e 05 2 243158e 05 6 729475e 05 8 972633e 05 2 2
Android 谷歌地图无法获取连接工厂客户端

我们开始吧去掉问题中的多余部分现在我将添加你想要的任何内容请快点几个问题 1 更改这些行中的包名称
如何自动设置 Watchkit 应用程序目标的版本和内部版本号

Watchkit 应用程序和扩展的版本和内部版本号或版本和短版本必须设置为与包含应用程序相同的值我使用环境变量来设置应用程序版本Info plist在构建时动态地这对于 Watchkit 扩展也适用但不适用于 Watchkit 应
ID3v2.3：ETCO 框架事件格式澄清

根据非正式标准 https web archive org web 20220311010154 https id3 org id3v2 3 0 sec4 6 an ETCO框架是帧头十个字节后面是 a 时间戳格式一个字节接下来是
TF2 对象检测 API：model_main_tf2.py - 验证丢失？

过去两个月我一直在尝试训练一个对象检测模型并最终通过以下方法成功了tutorial https tensorflow object detection api tutorial readthedocs io en latest 这是我的c
某些子网格未使用 CUDA 动态并行执行

我正在尝试 CUDA 5 0 GTK 110 中的新动态并行功能我遇到了一个奇怪的行为即我的程序没有返回某些配置的预期结果不仅是意外的而且每次启动都会出现不同的结果现在我想我找到了问题的根源似乎当生成太多子网格时某些子网格由
为什么 CMake 被设计为在安装时删除运行时路径

我自己构建了我的共享库例如我使用一个计算斐波那契数的库并希望在我的另一个 C 项目中使用它CMake 假设共享库和标头位于 path to my lib 共享库libfib so is in path to my lib lib和标题
ARM Linux 如何模拟 PTE 的脏位、访问位和文件位？

As per pgtable 2 level h https git kernel org cgit linux kernel git torvalds linux git tree arch arm include asm pgtable
在 Django 中使用多个数据库，仅使用一张表“django_migrations”

对于 Django 中的项目我必须使用两个数据库 default and remote 我创造了routers py一切正常需要在远程数据库上创建一个表我创建了迁移运行它和表django migrations被创建我只想有一张桌子
比较 unicode 字符时，Javascript 字符串比较失败

我想比较 JavaScript 中两个相同的字符串但相等运算符返回假一个字符串包含一个特殊字符例如丹麦语 JavaScript 代码 var filenameFromJS Designh ndbog pdf var filename
Silex 安全提供商

我有课UserMapper
在 Angular 2 中使用 require 设置 templateUrl 时出现错误

在我的组件中我想使用 require 设置 templateUrl 如下所示 import Component from angular2 core Component selector header styleUrls app head
在Dir函数（VBA）中“ReadOnly”属性的作用是什么？似乎 vbNormal 也列出了“只读”文件

我想知道只读是做什么的 VbNormal 也返回所有 ReadOnly 文件因此 vbNormal vbReadOnly 组合似乎没有效果但我想它必须有一些功能非常感谢你的想法 Sub test x Dir C Folder vb
在pyspark中读取json文件

我是 PySpark 的新手下面是来自 kafka 的 JSON 文件格式 header platform atm version 2 0 details abc 3 def 4 abc 5 def 6 abc 7 def 8 我怎样才能

在pyspark中读取json文件

在pyspark中读取json文件 的相关文章

随机推荐

热门标签

在pyspark中读取json文件的相关文章