Pyspark：在数据帧的不同组上应用 kmeans

2023-12-27

使用 Pyspark 我想将 kmeans 单独应用于数据帧组，而不是立即应用于整个数据帧。目前，我使用 for 循环对每个组进行迭代，应用 kmeans 并将结果附加到另一个表。但是有很多组会很耗时。有人可以帮我吗？多谢！

for customer in customer_list:
    temp_df = togroup.filter(col("customer_id")==customer)
    df = assembler.transform(temp_df)
    k = 1
    while (k < 5 & mtrc < width):
        k += 1
        kmeans = KMeans(k=k,seed=5,maxIter=20,initSteps=5)
        model = kmeans.fit(df)
        mtric = 1 - model.computeCost(df)/ttvar
        a = model.transform(df)select(cols)
        allcustomers = allcustomers .union(a)

我想出了一个使用 pandas_udf 的解决方案。纯 Spark 或 scala 解决方案是首选，但尚未提供。假设我的数据是

import pandas as pd
df_pd = pd.DataFrame([['cat1',10.],['cat1',20.],['cat1',11.],['cat1',21.],['cat1',22.],['cat1',9.],['cat2',101.],['cat2',201.],['cat2',111.],['cat2',214.],['cat2',224.],['cat2',99.]],columns=['cat','val'])
df_sprk = spark.createDataFrame(df_pd)

首先解决pandas中的问题：

from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=2,random_state=0)

def skmean(kmeans,x):
    X = np.array(x)
    kmeans.fit(X)
    return(kmeans.predict(X))

您可以将 skmean() 应用于 panda 数据框（以确保其正常工作）：

df_pd.groupby('cat').apply(lambda x:skmean(kmeans,x)).reset_index()

为了将该函数应用于 pyspark 数据帧，我们使用 pandas udf。但首先为输出数据帧定义一个模式：

from pyspark.sql.types import *
schema = StructType(
       [StructField('cat',StringType(),True),
        StructField('clusters',ArrayType(IntegerType()))])

将上面的函数转换为 pandas_udf：

from pyspark.sql.functions import pandas_udf
from pyspark.sql.functions import PandasUDFType  

@pandas_udf(schema, functionType=PandasUDFType.GROUPED_MAP)
def skmean_udf(df):
    result = pd.DataFrame(
             df.groupby('cat').apply(lambda x: skmean(kmeans,x))
    result.reset_index(inplace=True, drop=False)
    return(result)

您可以按如下方式使用该功能：

df_spark.groupby('cat').apply(skmean_udf).show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

groupby

PySpark

kmeans

Pyspark：在数据帧的不同组上应用 kmeans 的相关文章

Spark 数据框添加带有随机数据的新列

我想向数据框中添加一个新列其值由 0 或 1 组成我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
pyspark中的稀疏向量RDD

我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
pyspark.pandas 与 pandas 有什么区别？

开始在 Databricks 上使用 PySpark 我发现我可以导入pyspark pandas旁边pandas 有什么不同我认为这不像koalas right PySpark 是 Python 中 Apache Spark 的接口它
LINQ 分组依据和选择集合

我有这个结构 Customer has many Orders has many OrderItems 我想生成一个列表CustomerItems通过 LINQ 给出的子集OrderItems List of new Customer Li
在Python Spark中查看RDD内容？

在 pyspark 中运行一个简单的应用程序 f sc textFile README md wc f flatMap lambda x x split map lambda x x 1 reduceByKey add 我想使用 forea
LINQ Group By 投影成非匿名类型？

我有以下 LINQ 示例 var colorDistribution from product in ctx Products group product by product Color into productColors select
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl
使用 avg 和 group by 进行 SQL 查询

我在为 MySQL 编写 SQL 查询时遇到一些问题我有一个具有以下结构的表 mysql gt select id pass val from data r1 limit 10 id pass val DA02959106 5 00000
如何在 Spark 中创建空数据帧

我有一组基于 Avro 的配置单元表我需要从中读取数据由于Spark SQL使用hive serdes从HDFS读取数据因此比直接读取HDFS慢很多因此我使用数据块 Spark Avro jar 从底层 HDFS 目录读取 Avr
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
Spark：Aggregator和UDAF有什么区别？

在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化用户定义聚合的基类可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值用户定义的聚合函数是抽象类 UserDefinedAgg
MySQL GROUP 通过还是使用 PHP？

我有一个看起来很简单的问题但我只是想问你如何解决它在 MySQL 表中有以下结构 provider artist a 1 a 2 a 3 b 4 现在需要在 HTML 中回显一个列表例如 provider a 1 2 3 provid
Delta Lake 独立于 Apache Spark？

我一直在探索数据湖屋概念和 Delta Lake 它的一些功能看起来真的很有趣就在项目主页上https delta io https delta io 有一个图表显示 Delta Lake 运行在您现有的数据湖上但没有提及 Spar
在 Spark Dataframe 中提取数组索引

我有一个带有数组类型列的数据框例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin
如何从 PySpark 中某个表中找到的多个表中获取所有数据？

我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
如何从 Databricks Delta 表中删除列？

我最近开始发现 Databricks 并遇到了需要删除增量表的特定列的情况当我使用 PostgreSQL 时它就像 ALTER TABLE main metrics table DROP COLUMN metric 1 我正在浏览 Da
pyspark：将多个数据帧字段传递给 udf

我是 Spark 和 Python 的新手任何帮助表示赞赏我有一个 UDF 并使用 US zipcd 纬度和经度创建了一个 Spark 数据框 UDF import math def distance origin destinatio
如何使用注释和聚合在 Django 的 ORM 中执行此 GROUP BY 查询

我真的不知道如何翻译GROUP BY and HAVING到姜戈的QuerySet annotate and QuerySet aggregate 我正在尝试将这个 SQL 查询转换为 ORM 语言 SELECT EXTRACT year

随机推荐

Flash/Flex 跨域问题 - 对来自 AWS S3 的图像使用 BitmapData.draw() 会导致 SecurityError：错误 #2122：违反安全沙箱

我在 DisplayObject 上使用 BitmapData draw 其中包含来自我的 AWS S3 存储桶的图像当我将 S3 图像 URL 设置为 Image 对象的源时图像在 swf 中加载正常但当我在其上使用 BitmapD
magento 中的货币符号

我用两种不同的语言创建了两个 Magento 商店视图 English Dutch 英语 EURO 货币符号以正确的方式出现例如 20 00 但对于荷兰语视图它显示为 20 00 EUR 我想为两种视图设置默认符号因为欧元是相同的我
哪个 magento 表包含产品图像名称？

我遇到的问题是我使用 Magmi magento 产品导入开源解决方案导入产品但我在前端看不到产品图像我需要知道 magento 数据库中的哪个表包含图像名称以便我可以直接以某种方式提供它 Catalog product entit
PHP 停用词列表

我正在代码中使用停止词我有一个充满我想要检查的单词的数组以及一个我想要检查的单词数组目前我一次循环一个数组并删除该单词如果其 in array 与停用词列表但我想知道是否有更好的方法来做到这一点我已经查看了 array di
有没有办法同时查看两个 Laravel Mix Webpack 配置文件是否有任何更改？

使用 Laravel Mix 是否可以使用一个命令查看两个 Webpack 配置文件以便对任何底层文件的更改立即导致必要的文件被编译具体来说我有以下两个与 Laravel Mix 一起使用的 Webpack 配置文件 webpack
现代英特尔处理器有多少种超标量方式？

我刚刚了解了超标量处理器 https en wikipedia org wiki Superscalar processor https en wikipedia org wiki Superscalar processor 我还了解到随
SqlBulkCopy - 给定的 ColumnName 与源或目标中的任何列都不匹配

我正在尝试使用 SqlBulkCopy 将数据复制到 SQL 数据库表中但它错误地说列不匹配他们确实匹配如果我使用断点来查看正在映射的列的名称它们是正确的错误消息显示了列的名称并且它是正确的这是我的方法我有一个相同的方法
根据String生成唯一的Hash码

我有以下两个字符串 var string1 MHH2016 05 20MASTECH HOLDINGS INC Financialshttp finance yahoo com q is s mhhEDGAR Online Financia
将数据框折叠成单行并基于 R 行创建新列

我有一个包含对象名称和该对象的统计矩列表的数据框如下所示 Object Mean IQR Skew x 1 1 1 y 2 2 2 z 3 3 3 我想要的是为每一行创建带有统计矩和对象名称前缀的列就像这样 xMean xIQR xSk
如何编写递归打印程序

Gurus 我想知道如何编写一个打印的递归函数 1 12 123 1234 例如 display 4 应该打印 1 12 123 1234 Code include
Redux router - 刷新后如何重放状态？

我有一个多步骤表单应用程序我正在努力思考如何保存我的 redux 状态并在刷新后重播它在应用程序中后退前进按预期工作但浏览器刷新后我之前的状态为空理想情况下我希望能够将先前的状态保存在与路径相关的会话存储中以便稍后重播但我
在 HTML 画布中创建链接

是否可以从 canvas 元素中呈现的文本创建 html 链接没有简单的方法您必须将链接文本绘制到画布上然后检查鼠标单击情况这是一个演示 html 页面
与泛型的多重绑定

我正在尝试创建一个Multibinder
ASP Classic 应用程序中的多部分/表单数据和 UTF-8

我有一个问题我真的不明白我正在尝试在 ASP 经典应用程序中上传文件而不使用外部组件我还想发布一些将存储在数据库中的文本文件上传完美我正在使用以下代码问题是其他表单输入字段我使用的是 UTF 8 但它们最终并不是 UTF 8
后期绑定onclick事件

以下是我的 javascript 的一部分使用 jquery list a b c for var i 0 i lt list length i a click here a click function foo list i appen
Java中如何实现“按引用调用”？

Java中如何实现按引用调用假设我们使用该术语的方式与自 1960 年代以来同行评审的计算机科学文献中使用该术语的方式相同请参阅这个维基百科页面 https en wikipedia org wiki Evaluation strat
在 MFC 应用程序中显示文本

我需要在 MFC 应用程序中显示文本我有一个示例文本例如在 mfc 应用程序中显示文本假设我打算在其中绘制此文本的客户端窗口非常小水平以至于在一行中唯一可以容纳的文本是显示文本不显示 mfc 应用程序字样我的问题是如何
pjsip 2.5.5 构建错误

我正在尝试为 android 构建 pjsipNDK r13b 标准构建就像 configure android with opus home user pjsip pjproject opus dev lib工作完美但我需要几个TARG
如何使用另一个数组的长度来初始化 Rust 中的数组？

我想初始化一个数组其长度等于另一个数组的长度 fn foo array i32 let mut sum 0 array len 它会出错 error E0080 constant evaluation error gt test rs 2
Pyspark：在数据帧的不同组上应用 kmeans

使用 Pyspark 我想将 kmeans 单独应用于数据帧组而不是立即应用于整个数据帧目前我使用 for 循环对每个组进行迭代应用 kmeans 并将结果附加到另一个表但是有很多组会很耗时有人可以帮我吗多谢 for cust

Pyspark：在数据帧的不同组上应用 kmeans

Pyspark：在数据帧的不同组上应用 kmeans 的相关文章

随机推荐

热门标签