K 表示使用 PySpark 进行聚类

2024-03-22

我有一个非常大的数据框，我必须使用数据框中的特定 8 列，其中值要么是“强烈同意”、“同意”或“不同意”。根据这 8 列，我需要创建一个新列来告诉该行属于哪个簇（1-8）（最好使用 K 均值聚类）。

这在 PySpark 中可能吗？

PS：我是 PySpark 的新手，任何帮助将不胜感激

column:1     Column:2    column:3   column:4    column:5 .........column:8    new_column_required?
----------   --------    --------   --------    --------          ---------   --------------------
agree        disagree    agree      agree       disagree          disagree    cluster1?

disagree     NaN         disagree    disagree   NaN                agree       NaN?       
.            .           .           .          .                 .           .
.            .           .           .          .                 .           .

agree        disagree    agree       agree     disagree           agree       cluster 7?

Step 1:生成测试数据

创建一些（几乎）随机的测试数据。

cols=[f'col{i}' for i in range(1,9)]
rows=100

def create_data():
  from random import random
  for i in range(0,rows):
    yield ['agree' if random() < i/rows else 'disagree' if random() < 0.95 else None for c in cols]

df=spark.createDataFrame(list(create_data()), cols)

Step 2:转换字符串

The agree/disagree字符串不能被处理VectorAssembler在步骤3中。因此字符串被转换为数值。在这里，我们将 Null/NaN 值视为第三类。

boolean_cols=[f'{c}_bool' for c in cols]
df2 = df.selectExpr(cols + [f'if( {c} = "agree", 1.0, if( {c} = "disagree", 2.0, 3.0)) as {b}' for c, b in zip(cols,boolean_cols)])

Using a 字符串索引器 https://spark.apache.org/docs/3.3.0/api/python/reference/api/pyspark.ml.feature.StringIndexer.html也将是一个选择。但由于只有两个不同的字符串，这可能有点过度设计。

Step 3:创建特征栏

PySpark 的 K-Means 实现需要单个向量列中的特征。用一个矢量汇编器 https://spark.apache.org/docs/3.1.3/api/python/reference/api/pyspark.ml.feature.VectorAssembler.html为了这个任务。

from pyspark.ml.feature import VectorAssembler
df3 = VectorAssembler(inputCols=boolean_cols, outputCol="features").transform(df2)

Step 4:最后运行聚类算法 https://spark.apache.org/docs/3.3.0/api/python/reference/api/pyspark.ml.clustering.KMeans.html

from pyspark.ml.clustering import KMeans
kmeans = KMeans(k=8).setSeed(1)
kmeans.setMaxIter(10)
model = kmeans.fit(df3)
predictions = model.transform(df3)

从输出中删除中间列后，我们得到

predictions.select(cols + ['prediction']).show()

+--------+--------+--------+--------+--------+--------+--------+--------+----------+
|    col1|    col2|    col3|    col4|    col5|    col6|    col7|    col8|prediction|
+--------+--------+--------+--------+--------+--------+--------+--------+----------+
|disagree|disagree|disagree|disagree|disagree|disagree|disagree|disagree|         1|
|disagree|disagree|disagree|disagree|disagree|disagree|disagree|disagree|         1|
|disagree|disagree|disagree|disagree|disagree|disagree|disagree|disagree|         1|
[...]
|disagree|   agree|disagree|   agree|   agree|disagree|disagree|disagree|         3|
|disagree|disagree|disagree|disagree|disagree|disagree|disagree|disagree|         1|
|disagree|disagree|disagree|disagree|disagree|disagree|   agree|disagree|         5|
|disagree|   agree|   agree|   agree|disagree|disagree|disagree|   agree|         3|
|   agree|   agree|   agree|disagree|disagree|   agree|disagree|disagree|         6|
[...]
|   agree|   agree|   agree|   agree|   agree|   agree|   agree|   agree|         7|
|   agree|   agree|   agree|   agree|   agree|disagree|   agree|   agree|         2|
|   agree|   agree|   agree|   agree|   agree|   agree|   agree|   agree|         7|
+--------+--------+--------+--------+--------+--------+--------+--------+----------+

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

K 表示使用 PySpark 进行聚类的相关文章

通过 add_subplot 添加子图后如何共享轴？

我有一个像这样的数据框 df pd DataFrame A 0 3 0 2 0 5 0 2 B 0 1 0 0 0 3 0 1 C 0 2 0 5 0 0 0 7 D 0 6 0 3 0 4 0 6 index list abcd A B
如何（重新）命名 pandas 数据框中的空列标题而不导出到 csv

我有一个熊猫数据框df1带有一个索引列和一系列未命名的值我想为未命名的系列指定一个名称到目前为止我知道的唯一方法是导出到df1 csv using df1 to csv df1 csv header Signal 然后使用以下命令重新
Python 转换矩阵

我有一个如下所示的列表 2 1 3 1 2 3 1 2 2 2 我想要的是一个转换矩阵它向我显示如下序列 1 后跟 1 的频率是多少 1 后面跟着 2 的频率是多少 1 后跟 3 的频率是多少 2 后跟 1 的频率是多少 2 后跟 2 的
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
Flask 中“缺少 CSRF 令牌”，但它在模板中呈现

问题当我尝试登录使用 Flask login 时我得到Bad Request The CSRF session token is missing但令牌正在呈现在模板中 secret key 已设置并且我在本地运行localhost
来自 pandas 数据帧的烛台图，用日期替换索引

此代码给出了带有移动平均线的烛台图但 x 轴位于索引中我需要 x 轴位于日期中需要做什么改变 import numpy as np import pandas as pd import matplotlib pyplot as plt
如何在Windows中的Python 3.9下pip安装pickle？

我需要pickle https docs python org 3 9 library pickle html module pickle包安装在我的下面Python 3 9在 Windows 10 下我尝试过的当尝试与pip inst
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
如何在matplotlib中调整x轴

I have a graph like this x轴上的数据表示小时所以我希望x轴设置为0 24 48 72 而不是现在的值很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
Python 2.7 缩进错误[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这个问题是由拼写错误或无法再重现的问题引起的虽然类似的问题可能是on topic help on topic在这里这个问题的解决方式不
是否可以使用 Anaconda 包作为 Google Cloud Functions 的依赖项？

我正在使用 Python 运行时编写 Google Cloud Function 我需要包含一些无法使用的依赖项pip 如文档中所述here https cloud google com functions docs writing spe
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
没有名为“turtle”的模块

我正在学习并尝试用Python3制作贪吃蛇游戏我正在进口海龟我正在使用 Linux mint 19 PyCharm python37 python3 tk Traceback most recent call last File hom
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1

随机推荐

为什么在一行中运行两个 PowerShell 命令时输出格式会发生变化？

执行两个用分号分隔的 PowerShell 命令时我得到了意外的结果第二个命令的输出发生变化如果我以相反的顺序运行它们我看不到第二个命令输出在这里我只是想获取时间戳和用户在 AD 中所属的组列表作为一句简单的话如果我运行这一
Android IAP 问题，购买对象中没有 OrderID

我正在使用具有测试许可证访问权限的帐户之一测试 Android 应用内购买订阅我知道测试访问权限不支持订阅注意到没有orderId在购买响应 JSON 中但付款已完成不过不收费因为此订阅有 7 天的跟踪响应 json 如下所示
Nexus 工件上传

如何使用 jenkins shell 将工件上传到 Nexus 并自动生成版本我正在使用这个脚本我想在上传工件时自动生成版本 mvn deploy deploy file DgroupId DartifactId Dversion Dg
如何使用 Inno Setup 检查互联网连接

我正在学习 Inno Setup 来制作一个简单的安装程序在安装过程中我需要从网站下载文件因此检查是否有互联网连接很重要在安装过程中如何检查或采取一些警报以连接互联网 Thanks 最好的检查是尝试实际下载该文件互联网几乎不是一个
Makefile 排列

Bash 可以产生排列笛卡尔积 http wikipedia org wiki Cartesian product echo 1 2 a b 1a 1b 2a 2b 我想用 makefile 做类似的事情这是一个例子生成文件 all
无效异常展开导致崩溃？

我正在调试我们的一项测试中发生的崩溃我们有一个用 C 编写的 ODBC 驱动程序 so 正在使用我们的测试工具称为 Touchstone 通过 iODBC 对其进行测试该工具也是用 C 编写的我已使用 Oracle Solaris
jQuery 的 .data() 缓存是否在 jQuery mobile 中的页面转换中持续存在？

我刚刚在读 jQuery data API参考 http api jquery com data 之前我推测它可能通过分配来工作 data 页面元素的属性有效地捷径 foo attr data foobar bar 1 想象一下它确实
具有自定义默认值的 EclipseLink JPA 主键

我的 SQL Server 数据库中有一个表其中主键字段定义为NEWID 作为默认值期望客户端不需要传递主键字段值 SQL Server 将处理它在 JPA 定义模型类时我必须使用生成类型定义此 ID 字段我试过IDENTITY
如何通过RPC监听firestore

我想听firestore中的实时变化而且我也只允许使用Go 由于 Firestore SDK for Go 没有任何选项来监听实时更改因此我决定使用 firestore v1beta1 sdk 我编写了以下代码来做到这一点 func T
jq：打印对象中每个条目的键和值

如何得到jq像这样获取 json host1 ip 10 1 2 3 host2 ip 10 1 2 2 host3 ip 10 1 18 1 并生成此输出 host1 10 1 2 3 host2 10 1 2 2 host3 10 1
Django 查询中的列比较

我有以下模型 class Car models Model make models CharField max length 40 mileage limit models IntegerField mileage models Integ
滥用设计模式

在规范的四人帮列表中是否有任何您经常发现误用误解或过度使用的设计模式除了备受争议的单例模式之外换句话说是否有一种设计模式您建议在使用之前三思而后行为什么工厂模式我之前被空投到一个项目中每个人都MyObject系统中有一
从日期中分割日期和时间以单独键入

我想这样做 Date meetingDateAndTime
非负整数和小数值的验证

我的字段是 tax rate and tax amount我想在其中验证积极的价值观我写了这个验证 format gt with gt A d Z 但它并不是像这样取带小数点的数字4 67 它给我带来了一个错误什么类型的验证适用于整数和
某些曲目上的 SoundCloud API 403

我已经有一个使用 soundcloud API 将 soundcloud 链接嵌入为有效播放器的应用程序有一段时间了我最近注意到中等数量的403 Unauthorized从曲目查找返回的错误 api soundcloud com trac
UTF-8 和 TinyXML

由于某种原因我无法正确从 xml 文件读取数据例如我得到的不是 Schr der 而是类似 Schr der 的内容 My code tinyxml2 XMLDocument doc bool open string path if
InternalsVisibleTo 不适用于 wpf 应用程序

我在另一个程序集中设置了程序集 InternalsVisibleTo GuiAssembly 但是当 wpf 绑定发生在另一个程序集中的类上时它会抛出异常因为该类中的属性是内部的我知道这适用于其他应用程序但不确定为什么它不适用于这
SQL Server 递归 CTE 是否被视为循环？

我的印象是递归 CTE 是基于集合的但是在一个最近的SO帖子 https stackoverflow com questions 7824831 generate dates between date ranges 7824919 com
Python-Docx 缺少默认模板

我最近安装了 python docx 包但在使用默认模板时遇到了一些问题我只是设置一个文档并具有以下代码在名为 maintitle py 的文件中 from docx import Document from docx shared
K 表示使用 PySpark 进行聚类

我有一个非常大的数据框我必须使用数据框中的特定 8 列其中值要么是强烈同意同意或不同意根据这 8 列我需要创建一个新列来告诉该行属于哪个簇 1 8 最好使用 K 均值聚类这在 PySpark 中可能吗 PS 我是 PySp

K 表示使用 PySpark 进行聚类

K 表示使用 PySpark 进行聚类 的相关文章

随机推荐

热门标签

K 表示使用 PySpark 进行聚类的相关文章