Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何在 PySpark 中获得不同的字典 RDD?
我有一个字典的 RDD 我想获得一个仅包含不同元素的 RDD 但是 当我尝试打电话时 rdd distinct PySpark 给我以下错误 TypeError unhashable type dict at org apache spar
python
apachespark
PySpark
RDD
缓存和持久化有什么区别?
按照RDD坚持 两者有什么区别cache and persist 在火花 With cache 您仅使用默认存储级别 MEMORY ONLY for RDD MEMORY AND DISK for Dataset With persist
apachespark
distributedcomputing
RDD
如何使用 pyspark 对 RDD 中的值进行分组和计数以返回一个小摘要?
一些示例数据 new data name Tom subject maths exam score 85 name Tom subject science exam score 55 name Tom subject history exa
python
apachespark
PySpark
filter
RDD
如果文件已存在于 pyspark 中,如何覆盖 rdd saveAsPickleFile(path)?
如何覆盖 当我们节省时间时 RDD 输出对象任何现有路径 test1 975078 56691 2 000 20171001 926 570 1322 975078 42993 1 690 20171001 926 570 1322 975
apachespark
PySpark
RDD
apachesparksql
Spark:reduce和reduceByKey之间的语义差异
在 Spark 的文档中 它说 RDDs 方法reduce http spark apache org docs latest api scala index html org apache spark rdd RDD需要一个结合与交换的二
scala
apachespark
RDD
reduce
Spark 中的 RDD 内存占用
我不确定内存占用的概念 当加载例如镶木地板文件时 1GB 并在 Spark 中创建 RDD 每个 RDD 的内存食物打印是什么 当您从 parquet 文件创建 RDD 时 在您对 RDD 运行操作 例如 首先收集 之前 不会加载 执行任何
apachespark
Compression
RDD
parquet
memoryfootprint
Spark RDD 通过键查找
我有一个从 HBase 转换而来的 RDD val hbaseRDD RDD String Array String 其中 tuple 1 是行键 数组是HBase中的值 4929101 ACTIVE 4929101 2015 05 20
scala
apachespark
MapReduce
Hbase
RDD
Apache Spark:map、flatMap、mapPartitions、mapPartitionsWithIndex 的比较
Apache Spark map flatMap mapPartitions mapPartitionsWithIndex 的比较 欢迎提出建议 以提高我们的知识 地图 函数 它有什么作用 通过提供的函数传递 RDD 的每个元素 即功能 平
apachespark
RDD
作为 PySpark 的 reduceByKey 的键的列表
我试图对格式的数据调用 pyspark 的 reduceByKey 函数 a b c 1 a b c 1 a d b e 1 看来 pyspark 不会接受数组作为普通键中的键 通过简单地应用 reduceByKey add 来减少值 我已
python
apachespark
RDD
PySpark
保存之前和加载之后的数据框状态 - 有什么不同?
我有一个包含一些 SQL 表达式 合并 case when 等 的 DF 我后来尝试映射 平面映射这个 DF 在那里我得到了Task not serializable由于字段包含 SQL 表达式而导致错误 为什么我需要 map flatMa
scala
apachespark
DataFrame
RDD
parquet
PySpark - RDD 中对象的时间重叠
我的目标是根据时间重叠对对象进行分组 我的每个对象rdd包含一个start time and end time 我可能效率很低 但我计划做的是根据每个对象是否与任何其他对象有任何时间重叠来为每个对象分配一个重叠 id 我有时间重叠的逻辑 然
python
apachespark
PySpark
RDD
RDD 谱系何时创建?如何找到谱系图?
我正在学习 Apache Spark 并尝试获取 RDD 的谱系图 但我找不到特定谱系何时创建 另外 哪里可以找到 RDD 的谱系 RDD谱系是每次应用转换时创建和扩展的分布式计算的逻辑执行计划any RDD 请注意执行操作后发生的 逻辑
apachespark
RDD
为什么Spark的重新分区没有将数据平衡到分区中?
gt gt gt rdd sc parallelize range 10 2 gt gt gt rdd glom collect 0 1 2 3 4 5 6 7 8 9 gt gt gt rdd repartition 3 glom col
apachespark
PySpark
RDD
Pyspark 合并数据框中的 WrappedArrays
当前的 Pyspark 数据帧具有以下结构 col2 的 WrappedArrays 列表 id col2 a WrappedArray code2 WrappedArray code1 code3
python27
PySpark
apachesparksql
RDD
多个RDD的Spark联合
在我的猪代码中我这样做 all combined Union relation1 relation2 relation3 relation4 relation5 relation 6 我想对火花做同样的事情 然而 不幸的是 我发现我必须继续
python
apachespark
PySpark
RDD
从 SPARK 中的另一个 RDD 返回最大 N 值的 RDD
我正在尝试过滤元组 RDD 以根据键值返回最大的 N 个元组 我需要返回格式为 RDD 所以RDD 4 a 12 e 2 u 49 y 6 p 过滤最大的 3 个键应该返回 RDD 6 p 12 e 49 y Doing a sortByK
python
apachespark
PySpark
RDD
Spark 独立应用程序的“收集”操作未在驱动程序窗口中显示结果
我在本地系统上使用 Spark 1 4 0 每当我创建 RDD 并通过 Spark 的 Scala shell 调用收集时 它都工作正常 但是 当我创建一个独立的应用程序并在 RDD 上调用 收集 操作时 我看不到结果 尽管运行期间的 Sp
apachespark
RDD
在哪些情况下会跳过 DAG 的阶段?
我正在尝试查找在我使用 RDD 的情况下 Spark 会跳过阶段的情况 我知道如果发生洗牌操作 它会跳过阶段 于是 我写了下面的代码来看看是否正确 def main args Array String Unit val conf new S
apachespark
RDD
以字节数组为键的ReduceByKey
我想使用 RDD 对Tuple2
apachespark
RDD
创建数据框时如何解决 scala.MatchError
我有一个具有复杂结构行的文本文件 我正在使用客户转换器 它将给定的字符串 行 转换为 Pojo 类 countryInfo 转换后 我正在构建 DF POJO 类有一个字段 它是自定义类型列表 GlobalizedPlayTimeWindo
scala
DataFrame
RDD
caseclass
«
1
2
3
4
5
6
7
8
»