Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何在两个应用程序之间共享 Spark RDD 的数据
在两个 Spark 作业之间共享 Spark RDD 数据的最佳方式是什么 我有一个案例 作业 1 Spark 滑动窗口流应用程序将定期消耗数据并创建 RDD 我们不想将其持久化到存储中 作业 2 查询作业将访问作业 1 中创建的相同 RD
apachespark
RDD
sharing
PySpark:使用 binaryFiles() 函数读取二进制文件时进行分区
sc SparkContext Local rdd sc binaryFiles Path to the binary file minPartitions 5 partitionBy 8 or sc SparkContext Local
apachespark
PySpark
RDD
binaryfiles
partitioning
PySpark:将 SchemaRDD 映射到 SchemaRDD
我正在将 JSON 对象文件作为 PySpark 加载SchemaRDD 我想更改对象的 形状 基本上 我将它们展平 然后插入到 Hive 表中 我遇到的问题是以下返回PipelinedRDD not a SchemaRDD log jso
apachespark
hive
PySpark
apachesparksql
RDD
Apache Spark 处理 case 语句
我正在处理将 SQL 代码转换为 PySpark 代码的过程 并遇到了一些 SQL 语句 我不知道如何处理 pyspark 中的案例陈述 我计划创建一个 RDD 然后使用 rdd map 然后进行一些逻辑检查 这是正确的做法吗 请帮忙 基本
apachespark
PySpark
RDD
apachesparksql
如何在 Python 3 pyspark 中反转 RDD 中的键和值?
这在 Python 2 7 中有效 但在 Python 3 5 中它返回 语法错误 语法无效 我不确定这是否与我在另一篇文章中读到的 元组解包 从 Python 3 中删除这一事实有关 或者是一个不同的问题 rddInverted rdd
python
python3x
RDD
Spark RDD:如何最有效地计算统计数据?
假设存在类似于以下的元组 RDD key1 1 key3 9 key2 3 key1 4 key1 5 key3 2 key2 7 计算每个键对应的统计信息的最有效 并且理想情况下是分布式 的方法是什么 目前 我特别希望计算标准差 方差 据
apachespark
PySpark
distributedcomputing
RDD
apachesparkmllib
使用正则表达式进行 Spark 过滤
我试图将文件数据过滤为每个日期的好数据和坏数据 因此将得到 2 个结果文件 从测试文件中 前 4 行需要输入良好的数据 最后 2 行需要输入错误的数据 我有 2 个问题 我没有得到任何好的数据 结果文件为空 错误的数据结果如下所示 仅选取名
scala
apachespark
RDD
Apache Spark 中的矩阵乘法 [关闭]
Closed 这个问题需要调试细节 目前不接受答案 我正在尝试使用 Apache Spark 和 Java 执行矩阵乘法 我有两个主要问题 如何在 Apache Spark 中创建可以表示矩阵的 RDD 如何将两个这样的 RDD 相乘 一切
Java
scala
apachespark
RDD
apachesparkmllib
使用 Apache Spark 将键值对简化为键列表对
我正在编写一个 Spark 应用程序 想要组合一组键值对 K V1 K V2 K Vn 成一个键 多值对 K V1 V2 Vn 我觉得我应该能够使用reduceByKey带有某种味道的函数 My KMV My KV reduce lambd
python
apachespark
MapReduce
PySpark
RDD
重用缓存的 Spark RDD
Spark 是否有可能在另一个应用程序中 或在同一应用程序的另一个运行中 重用缓存的 RDD JavaRDD
caching
apachespark
RDD
Spark:将 RDD 保存在 HDFS 中已有的路径中
我可以将 RDD 输出保存到 HDFS另存为文本文件方法 如果文件路径已存在 此方法将引发异常 我有一个用例 需要将 RDDS 保存在 HDFS 中已有的文件路径中 有没有办法将新的 RDD 数据附加到同一路径中已存在的数据中 从 Spar
Hadoop
apachespark
HDFS
RDD
Spark:当键是不可散列的numpy数组时如何“reduceByKey”?
我有一个 键 值 元素的 RDD 键是 NumPy 数组 NumPy 数组不可散列 当我尝试执行以下操作时 这会导致问题reduceByKey手术 有没有办法为 Spark 上下文提供我的手动哈希函数 或者有没有其他方法可以解决这个问题 除
python
NumPy
PySpark
RDD
从 RDD 访问 KafkaOffset 时出现异常
我有一个来自 Kafka 的 Spark 消费者 我正在尝试管理一次性语义的偏移量 但是 在访问偏移量时 它会引发以下异常 java lang ClassCastException org apache spark rdd MapParti
scala
apachespark
ApacheKafka
SparkStreaming
RDD
RDD 在内存中保留多长时间?
考虑到内存有限 我有一种感觉 spark会自动从每个节点中删除RDD 我想知道这个时间可以配置吗 Spark如何决定何时从内存中驱逐RDD 注意 我不是在谈论rdd cache 我想知道这个时间可以配置吗 Spark 如何决定何时 从内存中
apachespark
RDD
将 RDD[org.apache.spark.sql.Row] 转换为 RDD[org.apache.spark.mllib.linalg.Vector]
我对 Spark 和 Scala 比较陌生 我从以下数据框开始 由密集的双精度向量组成的单列 scala gt val scaledDataOnly pruned scaledDataOnly select features scaledD
scala
apachespark
RDD
apachesparksql
apachesparkmllib
为什么Spark要将Map阶段的输出保存到本地磁盘?
我试图深入了解 Spark Shuffle 过程 当我开始阅读时 我遇到了以下几点 Spark 完成后将 Map 任务 ShuffleMapTask 输出直接写入磁盘 我想了解以下关于 Hadoop MapReduce 的内容 如果Map
apachespark
MapReduce
RDD
使用 Scala 转换 PySpark RDD
TL DR 我在 PySpark 应用程序中有看起来像字符串 DStream 的东西 我想将其作为DStream String 到 Scala 库 不过 Py4j 不会转换字符串 我正在开发一个 PySpark 应用程序 该应用程序使用 S
apachespark
PySpark
RDD
有没有办法重写Spark RDD unique以使用mapPartitions而不是distinct?
我有一个 RDD 太大 无法一致地执行不同的语句而不产生虚假错误 例如 SparkException 阶段失败 4 次 ExecutorLostFailure HDFS 文件系统关闭 达到执行器失败的最大数量 由于 SparkContext
scala
apachespark
Distinct
shuffle
RDD
如何从Spark RDD中的特定分区获取数据?
我想访问 Spark RDD 中特定分区的数据 我可以按如下方式获取分区的地址 myRDD partitions 0 但我想从中获取数据myRDD partitions 0 分割 我尝试了官方 org apache spark 文档但找不到
apachespark
RDD
RDD API 与 UDF 与 DataFrame API 混合的性能影响
Scala 特定问题 虽然 Spark 文档鼓励尽可能使用 DataFrame API 但如果 DataFrame API 不足 通常需要选择回退到 RDD API 或使用 UDF 这两种替代方案之间是否存在固有的性能差异 RDD 和 UD
scala
performance
apachespark
apachesparksql
RDD
«
1
2
3
4
5
6
7
8
»