Spark MLLib Kmeans 来自数据帧，然后再次返回

2023-11-24

我的目标是使用 Spark (1.3.1) MLLib 将 kmeans 聚类算法应用于非常大的数据集。我已经使用 Spark 中的 hiveContext 调用了 HDFS 中的数据，并且最终希望以这种方式将其放回原处 - 以这种格式

    |I.D     |cluster |
    ===================
    |546     |2       |
    |6534    |4       |
    |236     |5       |
    |875     |2       |

我运行了以下代码，其中“data”是双精度数的数据框，以及第一列的 ID。

    val parsedData = data.rdd.map(s => Vectors.dense(s.getDouble(1),s.getDouble(2))).cache()
    val clusters = KMeans.train(parsedData, 3, 20)

它运行成功，我现在被困在如上所述的数据帧中将集群映射回它们各自的 ID。我可以使用以下方法将其转换为数据框：

    sc.makeRDD(clusters.predict(parsedData).toArray()).toDF()

但据我所知。这个帖子走在正确的轨道上，并且这个帖子我认为正在问与我类似的问题。

我怀疑需要labeledPoint 库。任何评论，答案将不胜感激，干杯。

编辑：刚刚发现this在 Spark 用户列表中，看起来很有前途

我知道你想最后得到 DataFrame 。我看到两种可能的解决方案。我想说，在它们之间进行选择是品味问题。

从 RDD 创建列

以 RDD 的形式获取 id 和 cluster 对非常容易：

val idPointRDD = data.rdd.map(s => (s.getInt(0), Vectors.dense(s.getDouble(1),s.getDouble(2)))).cache()
val clusters = KMeans.train(idPointRDD.map(_._2), 3, 20)
val clustersRDD = clusters.predict(idPointRDD.map(_._2))
val idClusterRDD = idPointRDD.map(_._1).zip(clustersRDD)

然后你从中创建 DataFrame

val idCluster = idClusterRDD.toDF("id", "cluster")

它之所以有效，是因为地图不会改变 RDD 中数据的顺序，这就是为什么你可以只用预测结果压缩 id。

使用UDF（用户定义函数）

第二种方法涉及使用clusters.predict方法作为 UDF：

val bcClusters = sc.broadcast(clusters)
def predict(x: Double, y: Double): Int = {
    bcClusters.value.predict(Vectors.dense(x, y))
}
sqlContext.udf.register("predict", predict _)

现在我们可以使用它来向数据添加预测：

val idCluster = data.selectExpr("id", "predict(x, y) as cluster")

请记住，Spark API 不允许取消 UDF 注册。这意味着闭包数据将保存在内存中。

错误/非最佳解决方案

~~Using clusters.predict without broadcasting~~

~~It won't work in the distributed setup.~~ Edit: actually it will work, I was confused by implementation of predict for RDD, which uses broadcast.

sc.makeRDD(clusters.predict(parsedData).toArray()).toDF()

toArray收集驱动程序中的所有数据。这意味着在分布式模式下，您将把集群 ID 复制到一个节点中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

kmeans

Spark MLLib Kmeans 来自数据帧，然后再次返回的相关文章

数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
Talend 和 Apache Spark？

我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法通过内置组件支
使用什么工具来可视化逻辑和物理查询计划？

我很熟悉explain 还有 WebUI 我很好奇是否有任何工具可以生成优化前后逻辑物理计划的树结构图像也就是返回的信息explain 作为图像 PNG 或 JPG 之类的图片我自己从未听说过但您可以使用 Web UI 查看物理计划
通过spark-shell以静默模式执行scala脚本

需要通过spark shell以静默模式执行scala脚本当我使用时spark shell i file scala 执行后我进入scala交互模式我不想进入那里我尝试执行spark shell i file scala 但我不知道
向数据框添加新列的问题 - Spark/scala

我是 Spark scala 的新手我正在尝试将一些数据从配置单元表读取到 Spark 数据帧然后根据某些条件添加一列这是我的代码 val DF hiveContext sql select from select from test
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
为什么在 Spark-Shell 中导入 SparkSession 会失败并显示“对象 SparkSession 不是包 org.apache.spark.sql 的成员”？

我在我的 VM Cloudera 机器上使用 Spark 1 6 0 我正在尝试从 Spark shell 将一些数据输入到 Hive 表中为此我尝试使用 SparkSession 但以下导入不起作用 scala gt import o
使用 Spark sql DataFrame 删除功能

我需要为我的 Spark 应用程序从 postgres 数据库加载删除特定记录为了加载我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
为什么我的代码在 Spark Pregel 中执行需要很长时间？

我在 Spark 中使用 Pregel 编写了处理图形的代码但对于小数据集来说它的执行速度非常非常慢我以前用pregel写过程序但是这段代码运行速度确实很慢我的集群由 2 个工作人员组成每个都有核心 i5 CPU 和 6 GB
Spark shell (spark 3.0.0) 添加包 confluence kafka 5.5.1 javax.ws.rs-api 问题

我本地的win10 WSL回到ubuntu 在ubuntu上我安装了spark3 0 0 confluence平台5 5 1 手动下载当我尝试运行spark shell或spark submit时下面是shell示例 spark sh
Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
将 Spark 添加到 Oozie 共享库

默认情况下 Oozie 共享 lib 目录提供 Hive Pig 和 Map Reduce 的库如果我想在 Oozie 上运行 Spark 作业最好将 Spark lib jar 添加到 Oozie 的共享库而不是将它们复制到应用程序
Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h

随机推荐

如何使用msbuild创建nuget包而不重建项目？

我想设置一个包含构建测试和部署阶段的 CI CD 管道我可以在构建阶段构建我的项目 msbuild src MyProject csproj t Restore msbuild src MyProject csproj p Config
尝试导入错误：“firebase/app”不包含默认导出（导入为“firebase”）

我尝试使用 React 进行 firebase 身份验证但它显示错误 Attempted import error firebase app does not contain a default export imported as fi
gpus_ReturnGuiltyForHardwareRestart 崩溃

应用程序在presentFrameBuffer中崩溃在前台运行时没有发生中断它没有在第一帧中崩溃它绘制了一段时间然后突然崩溃我没有具体的重现步骤但似乎与绘制特定的内容有关但我仍然没有通过应用程序报告 openGL 错误包括在
x86 BSWAP 指令 REX 不遵循 Intel 规范？

我一直在使用 NASM 和 GAS 汇编和反汇编 BSWAP x64 指令并且都汇编指令BSWAP r15 as 490FCF以十六进制表示反汇编器也将其反汇编为相同的指令指令的 REX 前缀 49 因此设置了 REX W 位位
导出到 Excel 时，SSRS 不支持 CanGrow 属性

我在 SSRS 报告中有一个表表格单元之一包含订单中零件的描述这些描述的长度可能会有所不同因此我将 CanGrow 属性设置为 True 当我尝试将报告导出到 Excel 时我希望如果文本长度超过单元格的宽度那么单元格的高度将会增
$(window) 绑定 hashchange 如何检查部分哈希更改？

我在学习Google Ajax Crawlable I use window bind hashchange控制ajax页面加载我的网址如下 domain com keywords num 1 有两种改变 domain com apple
在 OpenGLES 中让精灵正确面对相机

我有一款或多或少是 2D 的游戏但以 3D 渲染摄像机悬停在 2D 游戏场上方与完全垂直的角度倾斜约 20 度从而为其提供一点 3D 视角我有一些精灵需要渲染为完美的正方形因为它们代表球形物体我的第一种方法将四边形渲染在 2D
STL - 以下代码有什么问题？

include stdafx h include
PDF 到 Github 风格的 Markdown

我有一个 PDF 格式的项目描述如果我能以某种方式设法在 github 网站上预览它而不是单击查看原始数据并下载它我会非常高兴我以为可能有一个从 pdf 到 github 风格的 markdown 的转换器但没有找到再次声明
字典应用程序的数据库设计

目前我想开发移动设备的词典应用程序词典本身使用离线文件数据库来翻译单词它只翻译两种语言例如英语西班牙语词典我脑子里有一个简单的设计这将是两个表英语表和西班牙语表每个表包含 word id id 它将作为其他表的外键词词
重命名 cassandra 集群名称 1.2.6 时出错

我在具有单个节点的集群中使用 cassandra 1 2 6 我正在尝试使用以下说明重命名集群 Cassandra 集群名称不匹配完成所有步骤后当我更改 cassandra yaml 文件后启动 cassandra 时我继续出现相同的
matplotlib 再次显示图形

使用 matplotlib 时 from matplotlib import pyplot as plt figure plt figure ax figure add subplot 111 ax plot x y figure show
废弃的命名信号量未释放

当 C 程序持有命名信号量时当应用程序提前终止例如按 Ctrl C 或关闭控制台窗口时它似乎不会被释放至少在该进程的所有实例都终止之前不会对于命名互斥体在这种情况下会引发 AbandonedMutexException 但对于
如何让 Subversion（或任何程序）执行定期提交？

我想配置我的计算机以便每半小时自动提交我正在处理的程序我正在使用 svn 存储库因此即使它只是一个每 30 分钟运行一次 svn ci 的脚本也没关系问题是我不知道该怎么做有人可以告诉我或者指导我去做一些事情让我让这个定期提交
在新选项卡中打开链接[重复]

这个问题在这里已经有答案了我为我正在做的一个项目创建了一个网站网站内容中有一些可以访问的外部网页的链接同时当用户单击其中一个链接时他将被带到指定的链接并且他将不再位于当前页面上我想要做的是当用户单击链接时单击的链接中的指定
如何确保 Rails API 免受 CSRF 的保护？

我一直在使用 REST API 开发 Rails 应用程序以便从移动应用程序进行访问它运作得很好当用户从移动应用程序登录时他会得到auth token他在将来的 API 请求中使用它问题是 API 也可以通过路径 api v1 从
python - 创建数据透视表

我正在尝试从 python 中的 Numpy 数组创建数据透视表我做了很多研究但找不到直接的解决方案我知道你可以用 Pandas 来做到这一点但我在安装它时遇到了麻烦但一定有一种方法可以在没有 Pandas 的情况下做到这一点我
cakephp 在数据源默认值中找不到模型表

我的数据库中只有一个名为 ficha seg 的表我的模型文件的名称是 Ficha php 控制器的名称是 FichasController php 那么为什么我收到错误 Error Table fichas for model Fic
使用指针迭代 argv[]

我想使用以下代码但不使用索引数组并用指针替换它 for int i 0 i lt argc i for int j 0 argv i j 0 j code 我知道您可以使用指针来遍历数组但我不确定如何使用第二个数组中未定义的长度在本
Spark MLLib Kmeans 来自数据帧，然后再次返回

我的目标是使用 Spark 1 3 1 MLLib 将 kmeans 聚类算法应用于非常大的数据集我已经使用 Spark 中的 hiveContext 调用了 HDFS 中的数据并且最终希望以这种方式将其放回原处以这种格式 I D c

热门标签