PySpark 在嵌套数组中反转 StringIndexer

2024-04-07

我正在使用 PySpark 使用 ALS 进行协作过滤。我原来的用户和项目 ID 是字符串，所以我使用StringIndexer将它们转换为数字索引（PySpark 的 ALS 模型要求我们这样做）。

安装模型后，我可以获得每个用户的前 3 个推荐，如下所示：

recs = (
    model
    .recommendForAllUsers(3)
)

The recs数据框看起来像这样：

+-----------+--------------------+
|userIdIndex|     recommendations|
+-----------+--------------------+
|       1580|[[10096,3.6725707...|
|       4900|[[10096,3.0137873...|
|       5300|[[10096,2.7274625...|
|       6620|[[10096,2.4493625...|
|       7240|[[10096,2.4928937...|
+-----------+--------------------+
only showing top 5 rows

root
 |-- userIdIndex: integer (nullable = false)
 |-- recommendations: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- productIdIndex: integer (nullable = true)
 |    |    |-- rating: float (nullable = true)

我想用这个数据帧创建一个巨大的 JSON 转储，我可以这样：

(
    recs
    .toJSON()
    .saveAsTextFile("name_i_must_hide.recs")
)

这些 json 的示例是：

{
  "userIdIndex": 1580,
  "recommendations": [
    {
      "productIdIndex": 10096,
      "rating": 3.6725707
    },
    {
      "productIdIndex": 10141,
      "rating": 3.61542
    },
    {
      "productIdIndex": 11591,
      "rating": 3.536216
    }
  ]
}

The userIdIndex and productIdIndex键是由于StringIndexer转型。

如何取回这些列的原始值？我怀疑我必须使用IndexToString变压器，但我不太清楚如何，因为数据嵌套在数组内recs数据框。

我尝试使用Pipeline评估者（stages=[StringIndexer, ALS, IndexToString]）但看起来这个评估器不支持这些索引器。

Cheers!

在这两种情况下，您都需要访问标签列表。可以使用以下任一方式访问此内容：StringIndexerModel

user_indexer_model = ...  # type: StringIndexerModel
user_labels = user_indexer_model.labels

product_indexer_model = ...  # type: StringIndexerModel
product_labels = product_indexer_model.labels

或列元数据。

For userIdIndex你可以申请IndexToString:

from pyspark.ml.feature import IndexToString

user_id_to_label = IndexToString(
    inputCol="userIdIndex", outputCol="userId", labels=user_labels)
user_id_to_label.transform(recs)

对于建议，您需要udf或这样的表达：

from pyspark.sql.functions import array, col, lit, struct

n = 3  # Same as numItems

product_labels_ = array(*[lit(x) for x in product_labels])
recommendations = array(*[struct(
    product_labels_[col("recommendations")[i]["productIdIndex"]].alias("productId"),
    col("recommendations")[i]["rating"].alias("rating")
) for i in range(n)])

recs.withColumn("recommendations", recommendations)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

apachesparksql

apachesparkml

PySpark 在嵌套数组中反转 StringIndexer 的相关文章

来自多元 t 分布的样本 python

我想知道Python中是否有一个从多元学生t分布中采样的函数我有包含 14 个元素的均值向量 14x14 协方差矩阵和自由度我想从这个 t 分布中采样一个向量对于一维情况我使用 stats t rvs df loc scale 并且
打开文件路径在 python 中不起作用[重复]

这个问题在这里已经有答案了我正在编写一个数据库程序 personica 是我的测试主题我通常在文件路径的位置有一个变量但出于测试和演示的目的我只有一个字符串在我的计算机上的这个确切位置有一个文本文件顺便说一句因为我很偏执所以
为什么 pandas.DataFrame.update 会更改更新后的数据帧的数据类型？

出于显而易见的原因我想在更新后将列的数据类型保留为 int 有什么想法为什么这不能按预期工作吗 import pandas as pd df1 pd DataFrame a 1 b 2 c foo a 3 b 4 c baz df2 pd
ipython/jupyter 中的 tk 问题

我正在尝试编写一个用于从 ipython jupyter 笔记本启动的 gui 但在笔记本中使用 tkinter 时遇到了麻烦特别是在让 tk gui 窗口正常关闭方面如何从 jupyter 制作启动 tkinter gui 然后在不
R.scale() 和 sklearn.preprocessing.scale() 之间的区别

我目前正在将数据分析从 R 转移到 Python 当在 R 中缩放数据集时我将使用 R scale 根据我的理解它将执行以下操作 x mean x sd x 为了替换该函数我尝试使用 sklearn preprocessing sca
如何在 Django 中像应用程序一样从配置中注册 Flask 蓝图？

如何从我的配置中注册 Flask 蓝图就像 Django 中的应用程序一样我想在配置文件中定义蓝图它将自动注册 config py BLUEPRINTS news files 实际上我一直在一个暂定名为的项目中勾勒出类似的东西臀部口袋
LogRecord 没有预期的字段

在使用 logging 模块的Python中文档承诺LogRecord实例将具有许多属性这些属性在文档中明确列出然而情况似乎并不总是如此当我不使用日志记录模块的 basicConfig 方法时下面的程序显示属性 asctime
django-allauth：电子邮件确认

我已经设置了 django allauth 并在新用户注册时使用电子邮件确认效果很好但在确认电子邮件中我得到 Hello from example com You re receiving this e mail because us
如何检查discord.py中的所有者

我试图让这个命令只有所有者才能运行它是否有办法检查服务器的最高角色或创建者我尝试了 commands is owner 但这仅检查某人是否是机器人的所有者 Guild owner https discordpy readthedocs
如何在solidpython中设置特殊变量$fa、$fs、$fn

in 上一个线程 https stackoverflow com questions 54040390 how to save data in stl file after python solid processing显示了如何通过 So
Python：两个列表之间的成对比较：列表 a >= 列表 b？

如果我想检查列表中的所有元素 a 1 2 3 6 大于或等于另一个列表中对应的元素 b 0 2 3 5 如果 a i gt b i 对于所有i的则返回 true 否则返回 false 这有逻辑功能吗比如a gt b 谢谢你可以这样做
在python中检测按下了哪些键

我需要知道现在按下的是哪个键我不想捕获一些特定的按键来触发事件或类似的事情我想知道现在按下了哪些键并显示它们的列表我还需要捕获特殊键如 F1 F12 shift alt home windows 等基本上是键盘上的所有键我如何在
如何在 Python 中连接两个列表？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动如何在 Python 中连接两个列表 Example listone 1 2 3 lis
如何将动态数据传递给装饰器

我正在尝试编写一个基本的 CRUD 控制器类来执行以下操作下列的 class BaseCrudController model field validation template dir expose self template dir
类unix系统中的python和python3命令有什么区别？

我通读了每个命令的描述但每个命令的描述都是完全相同的所以我不明白这两个命令在类 Unix 系统中的工作方式有何不同谁能解释其中的区别吗 Python3命令的引入是因为python命令指向了python2 从那时起 Python3 已成
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
重写 __cmp__ python 函数

嗨我是压倒一切的 cmp 如果传递的第二个对象是None 或者如果它不是一个实例someClass 然后返回 1 我不明白这里到底发生了什么 class someClass def cmp self obj if obj None ret
在不同进程之间共享列表？

我有以下问题我编写了一个函数它将列表作为输入并为列表中的每个元素创建一个字典然后我想将这本字典附加到一个新列表中这样我就得到了一个字典列表我正在尝试为此生成多个进程我的问题是我希望不同的进程访问由其他进程更新的字典列表例如
如何通过解析导入来组合并获取单个 Python 文件

我正在尝试获取单个 Python 文件作为输出我有一个 Python 脚本其中有多个此类导入 from that import sub 导入来自所有本地模块而不是来自系统或 Python 库有什么方法可以解决这些问题并获得一个完整的
如何使用多阶段构建减小 python (docker) 图像大小？

我正在寻找一种使用 python 和 Dockerfile 创建多阶段构建的方法例如使用以下图像第一张图片安装所有编译时要求并安装所有需要的 python 模块第二张图片将所有已编译构建的包从第一个映像复制到第二个映像而不

随机推荐

如何解决“DL已弃用，请使用Fiddle”Rails 4.1.8？

我在 Rails 包上安装 ruby 并检查版本当我检查 Rails 版本时它显示 DL 已弃用请使用 Fiddle 如何解决 DL 已弃用请使用 Fiddle 我使用的是 Windows 8 1 谢谢之前由于 Ruby 2 0
为什么 RedirectToRoute("Default") 不重定向到根目录？

鉴于这些路线 routes MapRoute Test test new controller Test action Index routes MapRoute Default controller action id new contr
git push = 时出错！ [远程拒绝] master -> master（预接收挂钩被拒绝）

我认为这是一个与此不同的问题远程拒绝主控 gt 主控预接收挂钩拒绝 https stackoverflow com questions 9542665 remote rejected master master pre receive
Knit 在 R 代码中转义乳胶特殊字符（例如 ~、$）

当我在这个knitr文档的输出上运行它时 LaTeX崩溃了因为LaTeX特殊字符没有正确转义有任何提示如何解决这个问题吗 documentclass beamer begin document begin frame Unescaped
更改 MVC3 索引视图中的顺序

想要有可点击的列标题例如点击 TagCode 一次它会按该顺序排序然后再次反转号码也一样使用 MVC3 Razor 和 LightSpeed ORM 我知道网格例如http mvccontrib codeplex com http
Bootstrap 3 Datepicker v4 - 设置默认日期

我正在使用这个日期时间选择器http eonasdan github io bootstrap datetimepicker http eonasdan github io bootstrap datetimepicker 在我的编辑表格中
运行时无命令输出：'am start -n Error

当我在 Eclipse 中运行应用程序并单击按钮启动新活动时我的应用程序强制关闭并收到此错误 null Error Sat Apr 23 19 53 21 CDT 2011 No command output when running
MongoDb 和 Nodejs SSL/安全连接

我如何通过ssl连接mongoDB和nodejs 我正在使用此代码来创建连接但它不起作用 var Db require mongodb Db var Server require mongodb Server Db connect mon
在类实例之间共享字典内容

假设我有一个像这样的字典结构 var stocks new Dictionary
Xcode 4.4.1 - C 编程 - 添加新的 .c 文件

我正在 Xcode 4 4 1 中编写 C 程序一个新项目从 main c 文件开始这显然是我的主文件如果我想编写一个不同的程序怎么办如果我选择文件 gt 新建文件 Xcode 将在 main c 旁边创建一个新的 c 文件问题
OpenGL ES 2.0 多个程序或多着色器还是什么？它是如何工作的？

问题 TL DR 我的问题从根本上来说是我不知道 OpenGL ES 2 0 期望我如何编写和使用多个着色器或者如果甚至建议期望一个人会这样做这里的基本问题是如果我有一个苹果一块发光的岩石和一个模糊网格它们都在同一个 3D 世界
ffmpeg：“未找到引用的 QT 章节轨道”

Using ffmpeg将 QuickTime 中的音频替换为 WAV 中的音频谁知道我为什么会这样Referenced QT chapter track not found Command ffmpeg i video t 25 i a
JavaScript 中的文本搜索？

我有一个页面其中包含 200 多个采用这种格式的链接 h1 a href somelink Somelink a some text that explain the meaning of the link h1 现在为了更容易通过此链
生成人类可区分的随机颜色

我正在尝试在 JavaScript 中随机生成十六进制颜色然而生成的颜色几乎无法区分有办法改善吗这是我正在使用的代码 function randomColor var allowed ABCDEF0123456789 S while
Heroku-未找到 (Python)

作为一个初学者我无法再进一步我正在尝试在heroku上加载python程序但不知何故总是只出现以下内容未找到在服务器上找不到请求的 URL 如果您手动输入 URL 请检查拼写并重试 My logs 2018 02 12T11 33
file_get_contents() 与 CURL 等效吗？

我正在尝试从这样的 url 获取一些 JSON 数据 url http site com search php term search term here result json decode file get contents url 然
postgresql 中第一个和最后一个值聚合函数可以正确处理 NULL 值

我知道有聚合函数可以获取行的最后一个和第一个值PostgreSQL https wiki postgresql org wiki First last 28aggregate 29 我的问题是它们不能按我的需要工作我可以使用 postg
根据另一个单元格范围的值创建对一个单元格范围的注释

我想为一系列单元格创建注释注释应包含另一个单元格范围的值这是我到目前为止所拥有的 Private Sub Worksheet Change ByVal Target As Range Dim sResult As String If U
CSS3：背景颜色过渡为透明

我想做一个过渡div that 以开始background color rgba 242 245 169 1 三秒后以结束background color rgba 242 245 169 0 还有在两场表演之间background
PySpark 在嵌套数组中反转 StringIndexer

我正在使用 PySpark 使用 ALS 进行协作过滤我原来的用户和项目 ID 是字符串所以我使用StringIndexer将它们转换为数字索引 PySpark 的 ALS 模型要求我们这样做安装模型后我可以获得每个用户的前 3 个

PySpark 在嵌套数组中反转 StringIndexer

PySpark 在嵌套数组中反转 StringIndexer 的相关文章

随机推荐

热门标签