RDD

如何在 PySpark 中获得不同的字典 RDD？

我有一个字典的 RDD 我想获得一个仅包含不同元素的 RDD 但是当我尝试打电话时 rdd distinct PySpark 给我以下错误 TypeError unhashable type dict at org apache spar

python apachespark PySpark RDD

缓存和持久化有什么区别？

按照RDD坚持两者有什么区别cache and persist 在火花 With cache 您仅使用默认存储级别 MEMORY ONLY for RDD MEMORY AND DISK for Dataset With persist

apachespark distributedcomputing RDD

如何使用 pyspark 对 RDD 中的值进行分组和计数以返回一个小摘要？

一些示例数据 new data name Tom subject maths exam score 85 name Tom subject science exam score 55 name Tom subject history exa

python apachespark PySpark filter RDD

如果文件已存在于 pyspark 中，如何覆盖 rdd saveAsPickleFile(path)？

如何覆盖当我们节省时间时 RDD 输出对象任何现有路径 test1 975078 56691 2 000 20171001 926 570 1322 975078 42993 1 690 20171001 926 570 1322 975

apachespark PySpark RDD apachesparksql

Spark：reduce和reduceByKey之间的语义差异

在 Spark 的文档中它说 RDDs 方法reduce http spark apache org docs latest api scala index html org apache spark rdd RDD需要一个结合与交换的二

scala apachespark RDD reduce

Spark 中的 RDD 内存占用

我不确定内存占用的概念当加载例如镶木地板文件时 1GB 并在 Spark 中创建 RDD 每个 RDD 的内存食物打印是什么当您从 parquet 文件创建 RDD 时在您对 RDD 运行操作例如首先收集之前不会加载执行任何

apachespark Compression RDD parquet memoryfootprint

Spark RDD 通过键查找

我有一个从 HBase 转换而来的 RDD val hbaseRDD RDD String Array String 其中 tuple 1 是行键数组是HBase中的值 4929101 ACTIVE 4929101 2015 05 20

scala apachespark MapReduce Hbase RDD

Apache Spark：map、flatMap、mapPartitions、mapPartitionsWithIndex 的比较

Apache Spark map flatMap mapPartitions mapPartitionsWithIndex 的比较欢迎提出建议以提高我们的知识地图函数它有什么作用通过提供的函数传递 RDD 的每个元素即功能平

apachespark RDD

作为 PySpark 的 reduceByKey 的键的列表

我试图对格式的数据调用 pyspark 的 reduceByKey 函数 a b c 1 a b c 1 a d b e 1 看来 pyspark 不会接受数组作为普通键中的键通过简单地应用 reduceByKey add 来减少值我已

python apachespark RDD PySpark

保存之前和加载之后的数据框状态 - 有什么不同？

我有一个包含一些 SQL 表达式合并 case when 等的 DF 我后来尝试映射平面映射这个 DF 在那里我得到了Task not serializable由于字段包含 SQL 表达式而导致错误为什么我需要 map flatMa

scala apachespark DataFrame RDD parquet

PySpark - RDD 中对象的时间重叠

我的目标是根据时间重叠对对象进行分组我的每个对象rdd包含一个start time and end time 我可能效率很低但我计划做的是根据每个对象是否与任何其他对象有任何时间重叠来为每个对象分配一个重叠 id 我有时间重叠的逻辑然

python apachespark PySpark RDD

RDD 谱系何时创建？如何找到谱系图？

我正在学习 Apache Spark 并尝试获取 RDD 的谱系图但我找不到特定谱系何时创建另外哪里可以找到 RDD 的谱系 RDD谱系是每次应用转换时创建和扩展的分布式计算的逻辑执行计划any RDD 请注意执行操作后发生的逻辑

apachespark RDD

为什么Spark的重新分区没有将数据平衡到分区中？

gt gt gt rdd sc parallelize range 10 2 gt gt gt rdd glom collect 0 1 2 3 4 5 6 7 8 9 gt gt gt rdd repartition 3 glom col

apachespark PySpark RDD

Pyspark 合并数据框中的 WrappedArrays

当前的 Pyspark 数据帧具有以下结构 col2 的 WrappedArrays 列表 id col2 a WrappedArray code2 WrappedArray code1 code3

python27 PySpark apachesparksql RDD

多个RDD的Spark联合

在我的猪代码中我这样做 all combined Union relation1 relation2 relation3 relation4 relation5 relation 6 我想对火花做同样的事情然而不幸的是我发现我必须继续

python apachespark PySpark RDD

从 SPARK 中的另一个 RDD 返回最大 N 值的 RDD

我正在尝试过滤元组 RDD 以根据键值返回最大的 N 个元组我需要返回格式为 RDD 所以RDD 4 a 12 e 2 u 49 y 6 p 过滤最大的 3 个键应该返回 RDD 6 p 12 e 49 y Doing a sortByK

python apachespark PySpark RDD

Spark 独立应用程序的“收集”操作未在驱动程序窗口中显示结果

我在本地系统上使用 Spark 1 4 0 每当我创建 RDD 并通过 Spark 的 Scala shell 调用收集时它都工作正常但是当我创建一个独立的应用程序并在 RDD 上调用收集操作时我看不到结果尽管运行期间的 Sp

apachespark RDD

在哪些情况下会跳过 DAG 的阶段？

我正在尝试查找在我使用 RDD 的情况下 Spark 会跳过阶段的情况我知道如果发生洗牌操作它会跳过阶段于是我写了下面的代码来看看是否正确 def main args Array String Unit val conf new S

apachespark RDD

以字节数组为键的ReduceByKey

我想使用 RDD 对Tuple2

apachespark RDD

创建数据框时如何解决 scala.MatchError

我有一个具有复杂结构行的文本文件我正在使用客户转换器它将给定的字符串行转换为 Pojo 类 countryInfo 转换后我正在构建 DF POJO 类有一个字段它是自定义类型列表 GlobalizedPlayTimeWindo

scala DataFrame RDD caseclass