Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何向 Spark RDD 添加新列?
我有一个 RDDMANY列 例如 hundreds 如何在此 RDD 的末尾添加一列 例如 如果我的 RDD 如下所示 123 523 534 893 536 98 1623 98472 537 89 83640 9265 7297 983
apachespark
RDD
如何在spark中合并两个预排序的rdd?
我有两个大型 csv 文件 按其中一列进行了预排序 有没有办法利用它们已经排序的事实来更快地获得新的排序 RDD 而无需再次完全排序 简短的回答 不 在使用 Apache Spark 提供的排序工具时 无法利用两个输入 RDD 已经排序的事
Sorting
apachespark
RDD
在 Spark Streaming 中,我必须在 cache() 或 persist() 之后调用 count() 才能强制缓存/持久性真正发生吗?
观看关于 Spark 内部结构的非常好的视频 演示者说 除非在缓存 RDD 后对其执行操作 否则缓存不会真正发生 我从未见过在任何其他情况下调用 count 所以 我猜测他只是在 cache 之后调用 count 来强制他给出的简单示例中的
caching
apachespark
RDD
将 Spark 数据加载到 Mongo / Memcached 中以供 Web 服务使用
我对 Spark 非常陌生 并且有一个特定的工作流程相关问题 虽然它并不是真正与编码相关的问题 但它更像是与 Spark 功能相关的问题 我认为它在这里是合适的 如果您认为这个问题不适合 请随时将我重定向到正确的网站 所以这里是 1 我计划
WebServices
MongoDB
memcached
apachespark
RDD
如何在 JSON 中使用 read.schema 仅指定特定字段:SPARK Scala
我正在尝试以编程方式在看起来像 json 的 textFile 上强制执行 schema json 我尝试使用 jsonFile 但问题是从 json 文件列表创建数据帧 spark 必须对数据进行 1 次传递才能为数据帧创建模式 因此它需
json
scala
apachespark
RDD
Spark python中基于条件过滤RDD并提取匹配数据
我有这样的数据 cl id cn id cn value 10004 77173296 390 0 10004 77173299 376 0 10004 77173300 0 0 20005 77173296 0 0 20005 77173
python
apachespark
RDD
如何获取 Spark RDD 的 SQL row_number 等效项?
我需要为包含许多列的数据表生成行号的完整列表 在 SQL 中 这看起来像这样 select key value col1 col2 col3 row number over partition by key value order by c
sql
apachespark
rownumber
RDD
Spark-将 JavaRDD 保存到 Cassandra
This link http www datastax com dev blog accessing cassandra from spark in java显示了一种保存方法JavaRDD to Cassandra这样 import st
Java
apachespark
cassandra
RDD
sparkcassandraconnector
在scala中将Spark Dataframe(带有WrappedArray)转换为RDD [labelPoint]
我是 Scala 新手 我想将 dataframe 转换为 rdd 让标签 特点转换成RDD labelPoint 用于MLlib的输入 但我找不到处理的方法WrappedArray scala gt test printSchema ro
Arrays
scala
DataFrame
RDD
Spark:将 RDD 结果写入文件系统很慢
我正在使用 Scala 开发 Spark 应用程序 我的应用程序仅包含一项需要改组的操作 即cogroup 它在合理的时间完美运行 我面临的问题是当我想将结果写回文件系统时 由于某种原因 它比运行实际程序花费的时间更长 起初 我尝试在不重新
scala
apachespark
amazons3
RDD
如何在spark中将rdd对象转换为dataframe
如何转换 RDD org apache spark rdd RDD org apache spark sql Row 到数据框org apache spark sql DataFrame 我使用将数据帧转换为 rdd rdd 处理后我希望它
scala
apachespark
apachesparksql
RDD
Spark 中何时持久化 RDD 以及何时取消持久化 RDD
可以说我有以下内容 val dataset2 dataset1 persist StorageLevel MEMORY AND DISK val dataset3 dataset2 map 如果您对 dataset2 进行转换 那么您必须保
scala
Hadoop
apachespark
RDD
Spark中Map任务内存消耗巨大
我有很多文件 大约包含 60 000 000 行 我的所有文件都采用以下格式 timestamp producer messageId data bytes n 我一一浏览我的文件 并且还想为每个输入文件构建一个输出文件 因为有些台词依赖于
Hadoop
apachespark
RDD
从 PySpark 中的两个不同数据帧中减去列的值以找到 RMSE
我无法弄清楚 我正在尝试计算测试数据和预测数据之间的 RMSE test col1 col2 a 2 b 3 预言 col1 col2 a 4 b 5 我正在尝试做这个测试 col2 预测 col2 那是 2 4 2 3 5 2 I tri
python
apachespark
DataFrame
PySpark
RDD
Pyspark RDD 收集前 163 行
有没有办法在不转换为 df 的情况下获取 rdd 的前 163 行 我尝试过类似的东西newrdd rdd take 163 但这会返回一个列表 并且rdd collect 返回整个rdd 有没有办法做到这一点 或者如果没有 有没有办法将列
python
apachespark
PySpark
RDD
使用 RDD 中的索引扫描 Spark 中的 Hadoop 数据库表
那么如果数据库中有一张表如下所示 Key2 DateTimeAge AAA1 XXX XXX XXX AAA2 XXX XXX XXX AAA3 XXX XXX XXX AAA4 XXX XXX XXX AAA5 XXX XXX XXX A
apachespark
Hbase
PySpark
RDD
Spark:测试 RDD 是否为空的有效方法
没有一个isEmptyRDD 上的方法 那么测试 RDD 是否为空的最有效方法是什么 RDD isEmpty https issues apache org jira browse SPARK 5270将成为 Spark 1 3 0 的一部
scala
apachespark
RDD
坏元素的映射
我正在实施k means我想创建新的质心 但映射遗漏了一个元素 然而 当K值较小 例如 15 效果会很好 基于此code http www cs berkeley edu rxin ampcamp ecnu machine learning
Java
scala
apachespark
distributedcomputing
RDD
在 Spark GraphX 中更新节点属性时选择什么最佳结构?
我有一段时间在寻找一种更新 GraphX 中节点属性的方法 我正在研究一个由节点和节点属性组成的图 例如 1 2 true 在此示例中 1 是节点 ID 2 是节点的标签 true 表示节点已被访问 我已经使用 GraphLoader 加载
scala
apachespark
RDD
sparkgraphx
为什么 sortBy 转换会触发 Spark 作业?
根据 Spark 文档 只有 RDD 操作可以触发 Spark 作业 并且在调用操作时会延迟评估转换 我看到sortBy转换函数会立即应用 并在 SparkUI 中显示为作业触发器 为什么 sortBy是使用实现的sortByKey这取决于
apachespark
RDD
partitioning
partitioner
«
1
2
3
4
5
6
7
8
»