RDD

如何向 Spark RDD 添加新列？

我有一个 RDDMANY列例如 hundreds 如何在此 RDD 的末尾添加一列例如如果我的 RDD 如下所示 123 523 534 893 536 98 1623 98472 537 89 83640 9265 7297 983

apachespark RDD

如何在spark中合并两个预排序的rdd？

我有两个大型 csv 文件按其中一列进行了预排序有没有办法利用它们已经排序的事实来更快地获得新的排序 RDD 而无需再次完全排序简短的回答不在使用 Apache Spark 提供的排序工具时无法利用两个输入 RDD 已经排序的事

Sorting apachespark RDD

在 Spark Streaming 中，我必须在 cache() 或 persist() 之后调用 count() 才能强制缓存/持久性真正发生吗？

观看关于 Spark 内部结构的非常好的视频演示者说除非在缓存 RDD 后对其执行操作否则缓存不会真正发生我从未见过在任何其他情况下调用 count 所以我猜测他只是在 cache 之后调用 count 来强制他给出的简单示例中的

caching apachespark RDD

将 Spark 数据加载到 Mongo / Memcached 中以供 Web 服务使用

我对 Spark 非常陌生并且有一个特定的工作流程相关问题虽然它并不是真正与编码相关的问题但它更像是与 Spark 功能相关的问题我认为它在这里是合适的如果您认为这个问题不适合请随时将我重定向到正确的网站所以这里是 1 我计划

WebServices MongoDB memcached apachespark RDD

如何在 JSON 中使用 read.schema 仅指定特定字段：SPARK Scala

我正在尝试以编程方式在看起来像 json 的 textFile 上强制执行 schema json 我尝试使用 jsonFile 但问题是从 json 文件列表创建数据帧 spark 必须对数据进行 1 次传递才能为数据帧创建模式因此它需

json scala apachespark RDD

Spark python中基于条件过滤RDD并提取匹配数据

我有这样的数据 cl id cn id cn value 10004 77173296 390 0 10004 77173299 376 0 10004 77173300 0 0 20005 77173296 0 0 20005 77173

python apachespark RDD

如何获取 Spark RDD 的 SQL row_number 等效项？

我需要为包含许多列的数据表生成行号的完整列表在 SQL 中这看起来像这样 select key value col1 col2 col3 row number over partition by key value order by c

sql apachespark rownumber RDD

Spark-将 JavaRDD 保存到 Cassandra

This link http www datastax com dev blog accessing cassandra from spark in java显示了一种保存方法JavaRDD to Cassandra这样 import st

Java apachespark cassandra RDD sparkcassandraconnector

在scala中将Spark Dataframe（带有WrappedArray）转换为RDD [labelPoint]

我是 Scala 新手我想将 dataframe 转换为 rdd 让标签特点转换成RDD labelPoint 用于MLlib的输入但我找不到处理的方法WrappedArray scala gt test printSchema ro

Arrays scala DataFrame RDD

Spark：将 RDD 结果写入文件系统很慢

我正在使用 Scala 开发 Spark 应用程序我的应用程序仅包含一项需要改组的操作即cogroup 它在合理的时间完美运行我面临的问题是当我想将结果写回文件系统时由于某种原因它比运行实际程序花费的时间更长起初我尝试在不重新

scala apachespark amazons3 RDD

如何在spark中将rdd对象转换为dataframe

如何转换 RDD org apache spark rdd RDD org apache spark sql Row 到数据框org apache spark sql DataFrame 我使用将数据帧转换为 rdd rdd 处理后我希望它

scala apachespark apachesparksql RDD

Spark 中何时持久化 RDD 以及何时取消持久化 RDD

可以说我有以下内容 val dataset2 dataset1 persist StorageLevel MEMORY AND DISK val dataset3 dataset2 map 如果您对 dataset2 进行转换那么您必须保

scala Hadoop apachespark RDD

Spark中Map任务内存消耗巨大

我有很多文件大约包含 60 000 000 行我的所有文件都采用以下格式 timestamp producer messageId data bytes n 我一一浏览我的文件并且还想为每个输入文件构建一个输出文件因为有些台词依赖于

Hadoop apachespark RDD

从 PySpark 中的两个不同数据帧中减去列的值以找到 RMSE

我无法弄清楚我正在尝试计算测试数据和预测数据之间的 RMSE test col1 col2 a 2 b 3 预言 col1 col2 a 4 b 5 我正在尝试做这个测试 col2 预测 col2 那是 2 4 2 3 5 2 I tri

python apachespark DataFrame PySpark RDD

Pyspark RDD 收集前 163 行

有没有办法在不转换为 df 的情况下获取 rdd 的前 163 行我尝试过类似的东西newrdd rdd take 163 但这会返回一个列表并且rdd collect 返回整个rdd 有没有办法做到这一点或者如果没有有没有办法将列

python apachespark PySpark RDD

使用 RDD 中的索引扫描 Spark 中的 Hadoop 数据库表

那么如果数据库中有一张表如下所示 Key2 DateTimeAge AAA1 XXX XXX XXX AAA2 XXX XXX XXX AAA3 XXX XXX XXX AAA4 XXX XXX XXX AAA5 XXX XXX XXX A

apachespark Hbase PySpark RDD

Spark：测试 RDD 是否为空的有效方法

没有一个isEmptyRDD 上的方法那么测试 RDD 是否为空的最有效方法是什么 RDD isEmpty https issues apache org jira browse SPARK 5270将成为 Spark 1 3 0 的一部

scala apachespark RDD

坏元素的映射

我正在实施k means我想创建新的质心但映射遗漏了一个元素然而当K值较小例如 15 效果会很好基于此code http www cs berkeley edu rxin ampcamp ecnu machine learning

Java scala apachespark distributedcomputing RDD

在 Spark GraphX 中更新节点属性时选择什么最佳结构？

我有一段时间在寻找一种更新 GraphX 中节点属性的方法我正在研究一个由节点和节点属性组成的图例如 1 2 true 在此示例中 1 是节点 ID 2 是节点的标签 true 表示节点已被访问我已经使用 GraphLoader 加载

scala apachespark RDD sparkgraphx

为什么 sortBy 转换会触发 Spark 作业？

根据 Spark 文档只有 RDD 操作可以触发 Spark 作业并且在调用操作时会延迟评估转换我看到sortBy转换函数会立即应用并在 SparkUI 中显示为作业触发器为什么 sortBy是使用实现的sortByKey这取决于

apachespark RDD partitioning partitioner