RDD

如何在两个应用程序之间共享 Spark RDD 的数据

在两个 Spark 作业之间共享 Spark RDD 数据的最佳方式是什么我有一个案例作业 1 Spark 滑动窗口流应用程序将定期消耗数据并创建 RDD 我们不想将其持久化到存储中作业 2 查询作业将访问作业 1 中创建的相同 RD

apachespark RDD sharing

PySpark：使用 binaryFiles() 函数读取二进制文件时进行分区

sc SparkContext Local rdd sc binaryFiles Path to the binary file minPartitions 5 partitionBy 8 or sc SparkContext Local

apachespark PySpark RDD binaryfiles partitioning

PySpark：将 SchemaRDD 映射到 SchemaRDD

我正在将 JSON 对象文件作为 PySpark 加载SchemaRDD 我想更改对象的形状基本上我将它们展平然后插入到 Hive 表中我遇到的问题是以下返回PipelinedRDD not a SchemaRDD log jso

apachespark hive PySpark apachesparksql RDD

Apache Spark 处理 case 语句

我正在处理将 SQL 代码转换为 PySpark 代码的过程并遇到了一些 SQL 语句我不知道如何处理 pyspark 中的案例陈述我计划创建一个 RDD 然后使用 rdd map 然后进行一些逻辑检查这是正确的做法吗请帮忙基本

apachespark PySpark RDD apachesparksql

如何在 Python 3 pyspark 中反转 RDD 中的键和值？

这在 Python 2 7 中有效但在 Python 3 5 中它返回语法错误语法无效我不确定这是否与我在另一篇文章中读到的元组解包从 Python 3 中删除这一事实有关或者是一个不同的问题 rddInverted rdd

python python3x RDD

Spark RDD：如何最有效地计算统计数据？

假设存在类似于以下的元组 RDD key1 1 key3 9 key2 3 key1 4 key1 5 key3 2 key2 7 计算每个键对应的统计信息的最有效并且理想情况下是分布式的方法是什么目前我特别希望计算标准差方差据

apachespark PySpark distributedcomputing RDD apachesparkmllib

使用正则表达式进行 Spark 过滤

我试图将文件数据过滤为每个日期的好数据和坏数据因此将得到 2 个结果文件从测试文件中前 4 行需要输入良好的数据最后 2 行需要输入错误的数据我有 2 个问题我没有得到任何好的数据结果文件为空错误的数据结果如下所示仅选取名

scala apachespark RDD

Apache Spark 中的矩阵乘法 [关闭]

Closed 这个问题需要调试细节目前不接受答案我正在尝试使用 Apache Spark 和 Java 执行矩阵乘法我有两个主要问题如何在 Apache Spark 中创建可以表示矩阵的 RDD 如何将两个这样的 RDD 相乘一切

Java scala apachespark RDD apachesparkmllib

使用 Apache Spark 将键值对简化为键列表对

我正在编写一个 Spark 应用程序想要组合一组键值对 K V1 K V2 K Vn 成一个键多值对 K V1 V2 Vn 我觉得我应该能够使用reduceByKey带有某种味道的函数 My KMV My KV reduce lambd

python apachespark MapReduce PySpark RDD

重用缓存的 Spark RDD

Spark 是否有可能在另一个应用程序中或在同一应用程序的另一个运行中重用缓存的 RDD JavaRDD

caching apachespark RDD

Spark：将 RDD 保存在 HDFS 中已有的路径中

我可以将 RDD 输出保存到 HDFS另存为文本文件方法如果文件路径已存在此方法将引发异常我有一个用例需要将 RDDS 保存在 HDFS 中已有的文件路径中有没有办法将新的 RDD 数据附加到同一路径中已存在的数据中从 Spar

Hadoop apachespark HDFS RDD

Spark：当键是不可散列的numpy数组时如何“reduceByKey”？

我有一个键值元素的 RDD 键是 NumPy 数组 NumPy 数组不可散列当我尝试执行以下操作时这会导致问题reduceByKey手术有没有办法为 Spark 上下文提供我的手动哈希函数或者有没有其他方法可以解决这个问题除

python NumPy PySpark RDD

从 RDD 访问 KafkaOffset 时出现异常

我有一个来自 Kafka 的 Spark 消费者我正在尝试管理一次性语义的偏移量但是在访问偏移量时它会引发以下异常 java lang ClassCastException org apache spark rdd MapParti

scala apachespark ApacheKafka SparkStreaming RDD

RDD 在内存中保留多长时间？

考虑到内存有限我有一种感觉 spark会自动从每个节点中删除RDD 我想知道这个时间可以配置吗 Spark如何决定何时从内存中驱逐RDD 注意我不是在谈论rdd cache 我想知道这个时间可以配置吗 Spark 如何决定何时从内存中

apachespark RDD

将 RDD[org.apache.spark.sql.Row] 转换为 RDD[org.apache.spark.mllib.linalg.Vector]

我对 Spark 和 Scala 比较陌生我从以下数据框开始由密集的双精度向量组成的单列 scala gt val scaledDataOnly pruned scaledDataOnly select features scaledD

scala apachespark RDD apachesparksql apachesparkmllib

为什么Spark要将Map阶段的输出保存到本地磁盘？

我试图深入了解 Spark Shuffle 过程当我开始阅读时我遇到了以下几点 Spark 完成后将 Map 任务 ShuffleMapTask 输出直接写入磁盘我想了解以下关于 Hadoop MapReduce 的内容如果Map

apachespark MapReduce RDD

使用 Scala 转换 PySpark RDD

TL DR 我在 PySpark 应用程序中有看起来像字符串 DStream 的东西我想将其作为DStream String 到 Scala 库不过 Py4j 不会转换字符串我正在开发一个 PySpark 应用程序该应用程序使用 S

apachespark PySpark RDD

有没有办法重写Spark RDD unique以使用mapPartitions而不是distinct？

我有一个 RDD 太大无法一致地执行不同的语句而不产生虚假错误例如 SparkException 阶段失败 4 次 ExecutorLostFailure HDFS 文件系统关闭达到执行器失败的最大数量由于 SparkContext

scala apachespark Distinct shuffle RDD

如何从Spark RDD中的特定分区获取数据？

我想访问 Spark RDD 中特定分区的数据我可以按如下方式获取分区的地址 myRDD partitions 0 但我想从中获取数据myRDD partitions 0 分割我尝试了官方 org apache spark 文档但找不到

apachespark RDD

RDD API 与 UDF 与 DataFrame API 混合的性能影响

Scala 特定问题虽然 Spark 文档鼓励尽可能使用 DataFrame API 但如果 DataFrame API 不足通常需要选择回退到 RDD API 或使用 UDF 这两种替代方案之间是否存在固有的性能差异 RDD 和 UD

scala performance apachespark apachesparksql RDD