在 PySpark 中将 StringType 转换为 ArrayType

2024-03-14

我正在尝试在我的数据集上运行 PySpark 中的 FPGrowth 算法。

from pyspark.ml.fpm import FPGrowth

fpGrowth = FPGrowth(itemsCol="name", minSupport=0.5,minConfidence=0.6) 
model = fpGrowth.fit(df)

我收到以下错误：

An error occurred while calling o2139.fit.
: java.lang.IllegalArgumentException: requirement failed: The input 
column must be ArrayType, but got StringType.
at scala.Predef$.require(Predef.scala:224)

我的数据框 df 的形式为：

df.show(2)

+---+---------+--------------------+
| id|     name|               actor|
+---+---------+--------------------+
|  0|['ab,df']|                 tom|
|  1|['rs,ce']|                brad|
+---+---------+--------------------+
only showing top 2 rows

如果“名称”列中的数据采用以下形式，则 FP 算法有效：

 name
[ab,df]
[rs,ce]

如何以从 StringType 转换为 ArrayType 的形式获得它

我从 RDD 中形成了 Dataframe：

rd2=rd.map(lambda x: (x[1], x[0][0] , [x[0][1]]))

rd3 = rd2.map(lambda p:Row(id=int(p[0]),name=str(p[2]),actor=str(p[1])))
df = spark.createDataFrame(rd3)

rd2.take(2):

[(0, 'tom', ['ab,df']), (1, 'brad', ['rs,ce'])]

中的每一行用逗号分隔name数据框的列。e.g.

from pyspark.sql.functions import pandas_udf, PandasUDFType

@pandas_udf('list', PandasUDFType.SCALAR)
def split_comma(v):
    return v[1:-1].split(',')

df.withColumn('name', split_comma(df.name))

或者更好的是，不要推迟这个。直接将名称设置到列表中。

rd2 = rd.map(lambda x: (x[1], x[0][0], x[0][1].split(',')))
rd3 = rd2.map(lambda p:Row(id=int(p[0]), name=p[2], actor=str(p[1])))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

DataFrame

PySpark

RDD

在 PySpark 中将 StringType 转换为 ArrayType 的相关文章

Python 子进程（ffmpeg）仅在我按 Ctrl-C 程序时启动？

我正在尝试使用 Cygwin 和 Python 2 7 并行运行一些 ffmpeg 命令这大概是我所拥有的 import subprocess processes set commands ffmpeg i input mp4 outpu
在 pandas 中单独打印一列的原始值？

我有一个数据框 df pd DataFrame name george age 23 name anna age 26 现在我想检索乔治的年龄 df df name george age 但这会输出一些额外的信息以及原始值 0 23 Nam
如何使用 conda 在一行中安装多个包？

我需要使用 conda 安装以下多个软件包我不确定 conda forge 是什么有些使用 conda forge 有些不使用它是否可以将它们安装成一行而不需要一一安装谢谢 conda install c conda forge d
正则表达式，选择最接近的匹配

假设以下单词序列 BLA text text text text text text BLA text text text text LOOK text text text BLA text text BLA 我想做的是将 BLA 中的文本
Python 的 mysqldb 晦涩文档

Python 模块 mysqldb 中有许多转义函数我不理解它们的文档而且我努力查找它们也没有发现任何结果 gt gt gt print mysql escape doc escape obj dict escape any speci
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
如何在Python代码中查找列号

简短问题当按上述方式调用函数时我可以找到行号here https stackoverflow com questions 3056048 filename and line number of python script 同样如何找到
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
Tensorflow 不分配完整的 GPU 内存

Tensorflow 默认分配所有 GPU 内存但我的新设置实际上只有 9588 MiB 11264 MiB 我预计大约 11 000MiB 就像我的旧设置一样张量流信息在这里 from tensorflow python client
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
使用 WSGI 在 Windows XAMPP 中设置 Python 路径

我正在 Webfaction 上设置实时服务器的开发版本在本地计算机上的虚拟 Apache 服务器环境运行没有任何错误中运行 Django 应用程序 XP 使用 Python 2 6 运行 XAMPP Lite 我可以提交更改通过 G
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
根据列索引重命名 Dataframe 列

是否有内置函数可以按索引重命名 pandas 数据框我以为我知道列标题的名称但事实证明第二列中有一些十六进制字符根据我接收数据的方式我将来可能会在第 2 列中遇到这个问题因此我无法将这些特定的十六进制字符硬编码到 datafram
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
沿轴 0 重复 scipy csr 稀疏矩阵

我想重复 scipy csr 稀疏矩阵的行但是当我尝试调用 numpy 的重复方法时它只是将稀疏矩阵视为对象并且只会将其作为 ndarray 中的对象重复我浏览了文档但找不到任何实用程序来重复 scipy csr 稀疏矩阵的行我
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt

随机推荐

为什么 C++ 隐式转换有效，但显式转换无效？

以下代码在 C 11 中编译成功 include json hpp using json nlohmann json using namespace std int main json js asd string s1 js lt comp
如何获取 firestore 文档中的字段？

我正在开发一些与 Firestore 配合使用的云功能我正在尝试获取特定文档的字段列表例如我有一个文档参考even data ref 但我不确定该文档是否包含我正在查看的字段我想获取字段名称的列表但我不知道该怎么做我试图使用Ob
使用目录树和过滤填充 TTreeView

在 Lazarus 0 9 28 2 项目上我有一个TTreeView 与名字DirTree在我的表格上 frmConvert 但我想用所有目录树填充它因为C 像这样 C 目录树 http i imagehost org 0185 cdi
卷曲 IP 地址

我需要发送一个带有用户 IP 地址而不是服务器 IP 地址的卷曲请求我尝试了这个但没有运气 curl setopt ch CURLOPT INTERFACE ip 有任何想法吗好吧所以没有办法安全地欺骗curl请求的ip地址但我发现
2 的幂公式帮助

我知道 Java 中的 2 i i i 1 1 可以让我找到一个数字是否是 2 的幂但是有人可以解释为什么这样做吗 2 i i i 1 1 基本上如果i是 2 的幂它将有一个1在其位模式中如果从中减去 1 则该值的所有低位1有点变成
LinkedIn 验证用户身份验证令牌服务器端

经过一天的研究我以以下问题结束我正在使用 ember js 构建一个 Web 应用程序目前我正在使用 linkedin javascript sdk 实现 LinkedIn 登录我遇到的问题是在收到用户信息令牌电子邮件名字等
为什么 SSLSocketFactory 缺少 setEnabledCipherSuites？

SSLSocketFactory提供getDefaultCipherSuites 默认情况下在套接字上启用的密码和getSupportedCipherSuites 如果需要可以启用密码然而 SSLSocketFactory不提供set
迭代 MultiDict 中的键和所有值

我有一本字典 params ImmutableMultiDict dataStore tardis symbol 1 symbol 2 我希望能够迭代字典并获取所有值及其键的列表但是当我尝试这样做时它只获取第一个符号键值对并忽略另一个
选择更改事件 - Html.DropDownListFor

我有两个下拉列表从第一个值中选择的值加载另一个值当控制器中有辅助方法时我该如何做到这一点 using Html BeginForm div table width 100 cellpadding 0 cellspacing 0 tr
添加 BouncyCastle 提供程序会破坏 KeyStore.load()

我使用以下命令生成了密钥库 keytool genkeypair keystore test ks storetype pkcs12 然后我运行以下测试 base64 代表我创建的密钥库 private static final Strin
实例关闭时的 Spring Cloud Gateway 500

我有一个使用Spring Cloud Load Balancer Spring Cloud版本 Hoxton SR6 的Spring Cloud Gateway eureka客户端应用程序并且我有一个Spring Boot应用程序的实例
std::to_string 线程安全吗？

我正在寻找使用将整数类型转换为字符串std to string http en cppreference com w cpp string basic string to string 但我看到了这一段 std to string依靠std
将中文文档拆分成句子[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我必须将中文文本分成多个句子我尝试了斯坦福文档预处理器它对于英语来说效果很好但对于中文则不然请
Java 说 FileNotFoundException 但文件存在

我的计算机科学课程有一项作业其中要求读取包含多个测试分数的文件并要求我对它们进行求和并求平均值虽然求和和求平均值很容易但我在读取文件时遇到问题老师说使用这个语法 Scanner scores new Scanner new Fil
使用 POST 发送数据到 JSONP 请求

概括想要使用 POST 方法将数据发送到另一个域 JSONP Code http jsonp scope baseApiUrl QueryBuilder getData callback JSON CALLBACK success fun
我可以在 MSBuild 文件中执行循环吗？

目前我让他遵循以下代码MSBuild项目文件这真的很简单定义4变量并为每个变量调用一次我的 MSBuild 任务求代码
画布默认尺寸

Chrome 似乎将画布标签的默认宽度设置为 300px 当我希望画布默认为其包含的 div 的大小其大小未指定时这有点麻烦使用示例here http jsfiddle net ecTCD 1 我希望画布默认为标题的宽度并添加填充
string.GetHashCode() 唯一性和冲突

给定两个不同的字符串情况是否总是这样s GetHashCode s1 GetHashCode 是否存在不同整数的数量小于不同字符串的数量 No Just as a simple thought experiment How many st
在 Openshift 上使用 node-gyp 构建模块

当尝试在 Openshift 上构建需要 Node gyp 的模块如 Node canvas 时我收到此错误 gt email protected cdn cgi l email protection install var lib r
在 PySpark 中将 StringType 转换为 ArrayType

我正在尝试在我的数据集上运行 PySpark 中的 FPGrowth 算法 from pyspark ml fpm import FPGrowth fpGrowth FPGrowth itemsCol name minSupport 0 5

在 PySpark 中将 StringType 转换为 ArrayType

在 PySpark 中将 StringType 转换为 ArrayType 的相关文章

随机推荐

热门标签