如何在 PySpark 中构建稀疏矩阵？

2024-04-10

我是 Spark 新手。我想制作一个稀疏矩阵，专门用于推荐引擎的用户 ID 项目 ID 矩阵。我知道如何在 python 中做到这一点。如何在 PySpark 中做到这一点？这是我在矩阵中的做法。桌子现在看起来像这样。

Session ID| Item ID | Rating
     1          2       1
     1          3       5

    import numpy as np

    data=df[['session_id','item_id','rating']].values
    data

    rows, row_pos = np.unique(data[:, 0], return_inverse=True)
    cols, col_pos = np.unique(data[:, 1], return_inverse=True)

    pivot_table = np.zeros((len(rows), len(cols)), dtype=data.dtype)
    pivot_table[row_pos, col_pos] = data[:, 2]

像那样：

from pyspark.mllib.linalg.distributed import CoordinateMatrix, MatrixEntry

# Create an RDD of (row, col, value) triples
coordinates = sc.parallelize([(1, 2, 1), (1, 3, 5)])
matrix = CoordinateMatrix(coordinates.map(lambda coords: MatrixEntry(*coords)))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

sparsematrix

recommendationengine

如何在 PySpark 中构建稀疏矩阵？的相关文章

如何阻止 Django 中发生级联删除？

我的 Django 应用程序中有三个模型类 class Folder models Model folder models ForeignKey Folder null True blank True related name folder
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
如何使用 tweepy 仅提取主题标签中的文本？

我想为我的情感分析项目提取主题标签但是我得到了一个字典列表其中包含所有主题标签及其在推文中的索引我只想要文字我的代码 data tweepy Cursor api search q since a i until b i items
尽管 Matplotlib FuncAnimation(...,repeat=False) 保存的动画图不断循环

我想使用制作动画matplotlib进行 Powerpoint 演示动画应该只播放一次在我的代码中参数repeat of FuncAnimation 被设置为 false 因为我需要将图导入到powerpoint中所以我使用保存它a
根据Python中两行之间的匹配创建一个带有[0,1]的新列

我正在尝试将多个列表或数据帧与一个大型基础数据帧进行比较然后对于任何匹配我想附加一个存储 1 匹配或 0 不匹配的列 df pd DataFrame Name A B C D ID 5 6 6 7 8 9 7 list1 5 6 8 9
如何在 Mac OS X 10.8 上安装 hg Convert 所需的 python subversion 绑定？

我正在寻找一种解决方案最好是干净且简单的以启用hg convert使用 SVN 存储库在 OS X 10 8 上工作目前如果您尝试转换 SVN 存储库您将得到一个could not load Subversion python b
如何从分组数据创建直方图

我正在尝试根据 pandas 中的分组数据创建直方图到目前为止我已经能够创建标准线图但我不知道如何做同样的事情来获取直方图条形图我想获得泰坦尼克号事故中幸存者和未幸存者的 2 个年龄直方图看看年龄分布是否存在差异来源数据 ht
通过Python通过蓝牙发送消息或数据

如何通过 python 通过蓝牙发送消息而无需输入数字等密钥身份验证我用过 pybluez 但我收到了这个错误 File send line 12 in
Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
如何编辑 QProgressBar 的样式表

我无法在我的应用程序中编辑进度条的颜色仅编辑文本颜色 pyhton 3 9 PySide6 QT Creator 7 0 2 Python应用程序 https i stack imgur com 6hKFI png import sys
为什么类型提示“float”接受“int”，而它甚至不是子类？

一方面我了解到数字可以int or float应将类型注释为float 来源 PEP 484 类型提示 https www python org dev peps pep 0484 the numeric tower and 这个计算器问
按最小值分组并用另一列中的值填充 NA

我有一个如下所示的示例数据框 df pd DataFrame data uid 1 1 1 2 2 3 pagename home blah blah home blah blah startpage NA NA NA home home
在python中打开带有重音符号的文本文件

我尝试使用 Python 2 7 打开法语文本文件我使用了命令 f open textfr r 但是当我使用 f read 我失去了重音字符我明白了u J xc3 xa9tais xc3 xa0巴黎而不是J tais 巴黎等当在lin
加载 IPython 笔记本时出错

一旦我用 Jupyter 打开笔记本文件它要求我转换文件我就再也无法在标准 IPython 笔记本中打开它了我收到以下错误 Error loading notebook Bad Request 2014 12 21 04 13 03
如何检索 SQLAlchemy 结果集的 python 列表？ [复制]

这个问题在这里已经有答案了我有以下查询来检索单列数据 routes query select schema stop times c route number schema stop times c stop id stop id dis
ValueError：对于optimize.curve_fit中所需的数组来说对象太深

我正在尝试拟合化学系统中四个变量 A B C D 的人口增长和衰退的动力学模型我正在尝试求解以下一组方程我已将其以矩阵形式附加方程的矩阵形式 https i stack imgur com ysEdZ png 其中 t 是时间步长 k
Python：Scrapy返回元素后面的所有html，而不仅仅是元素的html

我遇到了 Scrapy 行为异常的问题几个月前我编写了一个简单的函数它返回给定 xpath 处的项目列表 def get html response path sel Selector text response page source
类型提示：解决循环依赖

以下产生NameError name Client is not defined 我该如何解决 class Server def register client self client Client pass class Client de
为什么 Python ggplot 返回名称“aes”未定义？

当我使用以下命令时 p ggplot aes x DTM y TMP1 data data 我收到以下错误 NameError name aes is not defined 你可以帮帮我吗你需要导入aes from ggplot imp
在 python 中使用 ftplib 时

这是导致错误的相关代码 ftp ftplib FTP server ftp login r user r pass change directories to the incoming folder ftp cwd incoming fil

随机推荐

如何让子类自动调用父类__init__？

我有一个名为 CacheObject 的类许多类都从它扩展现在我需要在该类的所有类中添加一些通用的东西所以我写了这个 class CacheObject object def init self self updatedict dic
我的应用程序中的按钮应该只获取 8 个文本字段中的文本，如果所有字段都已填写，则将其发送到表格

我的应用程序中的一个按钮获取您在 8 个文本字段中输入的所有文本并将其发送到表格我需要代码以便您需要填写所有字段才能发送信息 if 语句怎么写这是代码add info button private void jButton1Actio
不使用 FindFirstFile 迭代目录中的文件

在Windows操作系统上如何在不使用第三方库或不使用FindFirstFile FindNextFile等的情况下迭代给定目录中的文件鉴于 FindFirstFile 是 Windows 中主要的文件枚举方法您还期望得到什么有 N
获取对象时如何处理“匹配查询不存在”

当我想使用 get 函数选择对象时例如 personalProfile World objects get ID personID 如果 get 函数未返回查找值则匹配的查询不存在发生错误如果我不需要这个错误我将使用 try 和
如何使 Google App Engine 上的 Rails 应用程序重定向到 HTTPS

我已成功将 Rails 应用程序部署到 Google App Engine 我的域也由 Google 托管现在我想将访问我的 http 地址的任何人重定向到我的 https 地址我找到了针对 Python 应用程序执行此操作的文档her
IDataErrorInfo - 即使收到错误消息也没有看到任何错误消息

我有 ItemType 它在 IDataErrorInfo 接口的帮助下实现了验证所需的一切 region IDataErrorInfo implementation WPF doesn t need this one public str
浏览器Ctrl+F查找不可见文本

Can the browser feature of Ctrl F to find text be integrated with text in popup windows I d like to have some scientific
html2canvas和toDataURL生成的图像有水平线

我循环遍历 10 14 个 html 元素并在数组中生成图像数据以供稍后插入 PDF 时使用问题是这些图像偶尔会有一条水平线穿过它们这似乎是 html2canvas 现有的问题主要发生在 FF 和 IE 中偶尔在 Chrome
如何在 git 中获取/重新推送子模块？

在我的 git 存储库 Bitbucket 中我引用了一个子项目当我将它推到第一个位置时包含了 git 文件夹即使我仅使用存储库进行备份因此并不是真正需要的现在我有一个对该子模块的引用在存储库中
Java 的 C++ 解析器/模型

我想知道是否有人知道可以在 Java 中以编程方式使用的现有 C 解析器代码模型我正在寻找类似于 Eclipse CDT 的东西它可以用作 Java 的库并且不依赖于 Eclipse 提前致谢您不想构建自己的 C 解析器它会杀了
src/lxml/etree_defs.h:9:31：致命错误：libxml/xmlversion.h：没有这样的文件或目录

我正在运行以下命令来安装该文件中的软件包 pip install r requirements txt download cache tmp pip cache requirement txt 包含类似的包 Data formats PIL
模板不存在于 /

嘿嘿这里的许多线程都有相同的标题但没有一个能解决我的问题我有一个 Django 站点可以访问 admin 但它看起来很丑但在上出现以下错误页面 DEBUG True in settings py TemplateDoesNotE
如何使元素相对于其父元素居中？

我有以下容器 container width 75 margin 0 auto background color FFF padding 20px 40px border solid 1px black margin top 20px 它是
ES6 Map 仅返回对象键数组

我正在尝试编写一个方法它将帮助我返回所有货币的对象键数组但是我陷入了一个困境我无法获得带有键值对的完整对象数组是的我主要需要使用 ES6 方法我不想使用任何其他迭代器例如我需要的 AED ALL AUD EUR 我得到什
如何只使用一个 boost 库/文件？ [复制]

这个问题在这里已经有答案了可能的重复在 Windows 中构建 boost 的子集 https stackoverflow com questions 439402 building a subset of boost in windo
带有聚合函数的 SQL GROUP BY CASE 语句

我有一个看起来像这样的专栏 CASE WHEN col1 gt col2 THEN SUM col3 col4 ELSE 0 END AS some product 我想将它放在我的 GROUP BY 子句中但这似乎会导致问题因为列中有
关闭“Python 版本 3.5 不支持变量注释”错误消息

我刚刚将 PyCharm 更新到最新版本但一直遇到此错误消息的问题基本上我无法关闭 Python 版本 3 5 不支持变量注释的错误消息我的默认和项目解释器是 Python 3 6 我什至没有在 PyCharm 中添加 Pytho
C++ 使用内部类指针类型定义模板类的静态成员

我有一个像这里一样的模板类在标头中其中包含一个内部类和一个指向内部类的类型指针的静态成员 template
C++ 如何将 char 数组转换为字节向量 (vector)

我有大量的字符 char myCharArray 0x9B 0x3E 0x34 0x87 0xFD 0x24 0xB4 0x64 0xBA 0x80 0x04 0xFD 0xDF 0x23 0x41 0xEE 0x00 0x00 0x00
如何在 PySpark 中构建稀疏矩阵？

我是 Spark 新手我想制作一个稀疏矩阵专门用于推荐引擎的用户 ID 项目 ID 矩阵我知道如何在 python 中做到这一点如何在 PySpark 中做到这一点这是我在矩阵中的做法桌子现在看起来像这样 Session ID

如何在 PySpark 中构建稀疏矩阵？

如何在 PySpark 中构建稀疏矩阵？ 的相关文章

随机推荐

热门标签

如何在 PySpark 中构建稀疏矩阵？的相关文章