通过 pyspark.ml CrossValidator 调整隐式 pyspark.ml ALS 矩阵分解模型的参数

2024-03-29

我正在尝试调整使用隐式数据的 ALS 矩阵分解模型的参数。为此，我尝试使用 pyspark.ml.tuning.CrossValidator 运行参数网格并选择最佳模型。我相信我的问题出在评估器上，但我无法弄清楚。

我可以使用回归 RMSE 求值器将其用于显式数据模型，如下所示：

from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext
from pyspark.ml.recommendation import ALS
from pyspark.ml.tuning import CrossValidator, ParamGridBuilder
from pyspark.ml.evaluation import BinaryClassificationEvaluator
from pyspark.ml.evaluation import RegressionEvaluator

from pyspark.sql.functions import rand


conf = SparkConf() \
  .setAppName("MovieLensALS") \
  .set("spark.executor.memory", "2g")
sc = SparkContext(conf=conf)

sqlContext = SQLContext(sc)

dfRatings = sqlContext.createDataFrame([(0, 0, 4.0), (0, 1, 2.0), (1, 1, 3.0), (1, 2, 4.0), (2, 1, 1.0), (2, 2, 5.0)],
                                 ["user", "item", "rating"])
dfRatingsTest = sqlContext.createDataFrame([(0, 0), (0, 1), (1, 1), (1, 2), (2, 1), (2, 2)], ["user", "item"])

alsExplicit = ALS()
defaultModel = alsExplicit.fit(dfRatings)

paramMapExplicit = ParamGridBuilder() \
                    .addGrid(alsExplicit.rank, [8, 12]) \
                    .addGrid(alsExplicit.maxIter, [10, 15]) \
                    .addGrid(alsExplicit.regParam, [1.0, 10.0]) \
                    .build()

evaluatorR = RegressionEvaluator(metricName="rmse", labelCol="rating")

cvExplicit = CrossValidator(estimator=alsExplicit, estimatorParamMaps=paramMapExplicit, evaluator=evaluatorR)
cvModelExplicit = cvExplicit.fit(dfRatings)

predsExplicit = cvModelExplicit.bestModel.transform(dfRatingsTest)
predsExplicit.show()

当我尝试对隐式数据（假设是观看次数而不是评级）执行此操作时，我收到一个我无法完全弄清楚的错误。这是代码（与上面非常相似）：

dfCounts = sqlContext.createDataFrame([(0,0,0), (0,1,12), (0,2,3), (1,0,5), (1,1,9), (1,2,0), (2,0,0), (2,1,11), (2,2,25)],
                                 ["user", "item", "rating"])
dfCountsTest = sqlContext.createDataFrame([(0, 0), (0, 1), (1, 1), (1, 2), (2, 1), (2, 2)], ["user", "item"])

alsImplicit = ALS(implicitPrefs=True)
defaultModelImplicit = alsImplicit.fit(dfCounts)

paramMapImplicit = ParamGridBuilder() \
                    .addGrid(alsImplicit.rank, [8, 12]) \
                    .addGrid(alsImplicit.maxIter, [10, 15]) \
                    .addGrid(alsImplicit.regParam, [1.0, 10.0]) \
                    .addGrid(alsImplicit.alpha, [2.0,3.0]) \
                    .build()

evaluatorB = BinaryClassificationEvaluator(metricName="areaUnderROC", labelCol="rating")
evaluatorR = RegressionEvaluator(metricName="rmse", labelCol="rating")

cv = CrossValidator(estimator=alsImplicit, estimatorParamMaps=paramMapImplicit, evaluator=evaluatorR)
cvModel = cv.fit(dfCounts)

predsImplicit = cvModel.bestModel.transform(dfCountsTest)
predsImplicit.show()

我尝试使用 RMSE 评估器执行此操作，但出现错误。据我了解，我还应该能够将 AUC 度量用于二元分类评估器，因为隐式矩阵分解的预测是用于二元矩阵 p_ui 预测的置信矩阵 c_ui根据本文 http://yifanhu.net/PUB/cf.pdf，pyspark ALS 的文档引用了该内容。

使用任一评估器都会出现错误，而且我在网上找不到任何关于交叉验证隐式 ALS 模型的富有成效的讨论。我正在查看 CrossValidator 源代码，试图找出问题所在，但遇到了麻烦。我的想法之一是，在该过程将隐式数据矩阵 r_ui 转换为二进制矩阵 p_ui 和置信矩阵 c_ui 后，我不确定在评估阶段将预测的 c_ui 矩阵与什么进行比较。

这是错误：

Traceback (most recent call last):

  File "<ipython-input-16-6c43b997005e>", line 1, in <module>
    cvModel = cv.fit(dfCounts)

  File "C:/spark-1.6.1-bin-hadoop2.6/python\pyspark\ml\pipeline.py", line 69, in fit
    return self._fit(dataset)

  File "C:/spark-1.6.1-bin-hadoop2.6/python\pyspark\ml\tuning.py", line 239, in _fit
    model = est.fit(train, epm[j])

  File "C:/spark-1.6.1-bin-hadoop2.6/python\pyspark\ml\pipeline.py", line 67, in fit
    return self.copy(params)._fit(dataset)

  File "C:/spark-1.6.1-bin-hadoop2.6/python\pyspark\ml\wrapper.py", line 133, in _fit
    java_model = self._fit_java(dataset)

  File "C:/spark-1.6.1-bin-hadoop2.6/python\pyspark\ml\wrapper.py", line 130, in _fit_java
    return self._java_obj.fit(dataset._jdf)

  File "C:\spark-1.6.1-bin-hadoop2.6\python\lib\py4j-0.9-src.zip\py4j\java_gateway.py", line 813, in __call__
    answer, self.gateway_client, self.target_id, self.name)

  File "C:/spark-1.6.1-bin-hadoop2.6/python\pyspark\sql\utils.py", line 45, in deco
    return f(*a, **kw)

  File "C:\spark-1.6.1-bin-hadoop2.6\python\lib\py4j-0.9-src.zip\py4j\protocol.py", line 308, in get_return_value
    format(target_id, ".", name), value)

etc.......

UPDATE

我尝试缩放输入，使其在 0 到 1 的范围内，并使用 RMSE 求值器。在我尝试将其插入 CrossValidator 之前，它似乎运行良好。

以下代码有效。我得到预测，并从评估员那里得到 RMSE 值。

from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.types import FloatType
import pyspark.sql.functions as F
from pyspark.ml.recommendation import ALS
from pyspark.ml.tuning import CrossValidator, ParamGridBuilder
from pyspark.ml.evaluation import RegressionEvaluator


conf = SparkConf() \
  .setAppName("ALSPractice") \
  .set("spark.executor.memory", "2g")
sc = SparkContext(conf=conf)

sqlContext = SQLContext(sc)

# Users 0, 1, 2, 3 - Items 0, 1, 2, 3, 4, 5 - Ratings 0.0-5.0
dfCounts2 = sqlContext.createDataFrame([(0,0,5.0), (0,1,5.0),            (0,3,0.0), (0,4,0.0), 
                                        (1,0,5.0),            (1,2,4.0), (1,3,0.0), (1,4,0.0),
                                        (2,0,0.0),            (2,2,0.0), (2,3,5.0), (2,4,5.0),
                                        (3,0,0.0), (3,1,0.0),            (3,3,4.0)            ],
                                       ["user", "item", "rating"])

dfCountsTest2 = sqlContext.createDataFrame([(0,0), (0,1), (0,2), (0,3), (0,4),
                                            (1,0), (1,1), (1,2), (1,3), (1,4),
                                            (2,0), (2,1), (2,2), (2,3), (2,4),
                                            (3,0), (3,1), (3,2), (3,3), (3,4)], ["user", "item"])

# Normalize rating data to [0,1] range based on max rating
colmax = dfCounts2.select(F.max('rating')).collect()[0].asDict().values()[0]
normalize = udf(lambda x: x/colmax, FloatType())
dfCountsNorm = dfCounts2.withColumn('ratingNorm', normalize(col('rating')))

alsImplicit = ALS(implicitPrefs=True)
defaultModelImplicit = alsImplicit.fit(dfCountsNorm)
preds = defaultModelImplicit.transform(dfCountsTest2)

evaluatorR2 = RegressionEvaluator(metricName="rmse", labelCol="ratingNorm")
evaluatorR2.evaluate(defaultModelImplicit.transform(dfCountsNorm))

preds = defaultModelImplicit.transform(dfCountsTest2)

我不明白的是为什么以下不起作用。我使用相同的估计器、相同的评估器并拟合相同的数据。为什么这些可以在上面工作但不能在 CrossValidator 中工作：

paramMapImplicit = ParamGridBuilder() \
                    .addGrid(alsImplicit.rank, [8, 12]) \
                    .addGrid(alsImplicit.maxIter, [10, 15]) \
                    .addGrid(alsImplicit.regParam, [1.0, 10.0]) \
                    .addGrid(alsImplicit.alpha, [2.0,3.0]) \
                    .build()

cv = CrossValidator(estimator=alsImplicit, estimatorParamMaps=paramMapImplicit, evaluator=evaluatorR2)
cvModel = cv.fit(dfCountsNorm)

忽略技术问题，严格来说，考虑到 ALS 生成的带有隐式反馈的输入，这两种方法都不正确。

你不能使用RegressionEvaluator因为，正如您所知，预测可以解释为置信度值，并表示为 [0, 1] 范围内的浮点数，而标签列只是一个未绑定的整数。这些值显然没有可比性。
你不能使用BinaryClassificationEvaluator因为即使预测可以解释为概率标签也不代表二元决策。此外，预测列的类型无效，无法直接使用BinaryClassificationEvaluator

您可以尝试转换其中一列，以便输入满足要求，但这从理论角度来看并不是真正合理的方法，并且引入了难以调整的附加参数。

将标签列映射到 [0, 1] 范围并使用 RMSE。

将标签列转换为具有固定阈值和扩展的二进制指示器ALS / ALSModel返回预期的列类型。假设阈值是1，它可能是这样的

from pyspark.ml.recommendation import *
from pyspark.sql.functions import udf, col
from pyspark.mllib.linalg import DenseVector, VectorUDT

class BinaryALS(ALS):
    def fit(self, df):
        assert self.getImplicitPrefs()
        model = super(BinaryALS, self).fit(df)
        return ALSBinaryModel(model._java_obj)

class ALSBinaryModel(ALSModel):
    def transform(self, df):
        transformed = super(ALSBinaryModel, self).transform(df)
        as_vector = udf(lambda x: DenseVector([1 - x, x]), VectorUDT())
        return transformed.withColumn(
            "rawPrediction", as_vector(col("prediction")))

# Add binary label column
with_binary = dfCounts.withColumn(
    "label_binary", (col("rating") > 0).cast("double"))

als_binary_model = BinaryALS(implicitPrefs=True).fit(with_binary)

evaluatorB = BinaryClassificationEvaluator(
    metricName="areaUnderROC", labelCol="label_binary")

evaluatorB.evaluate(als_binary_model.transform(with_binary))
## 1.0

一般来说，教科书中缺少有关使用隐式反馈评估推荐系统的材料，我建议您阅读eliasah https://stackoverflow.com/users/3415409/eliasah's answer https://stackoverflow.com/questions/46462470/how-can-i-evaluate-the-implicit-feedback-als-algorithm-for-recommendations-in-ap/46490352#46490352关于评估此类推荐人。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

通过 pyspark.ml CrossValidator 调整隐式 pyspark.ml ALS 矩阵分解模型的参数的相关文章

如何编译Python 1.0

出于某种反常的原因我想尝试Python 1 0 我将如何编译它或者更确切地说可以使用当前编译器干净地编译的早期版本是什么我使用的是 Mac OS X 10 5 不过因为这只是出于好奇关于语言如何变化所以在 Linux 虚拟机中编
查找其他列表项中列表项的列表索引

我有一个长字符串列表我想获取与另一个列表中的字符串子字符串匹配的列表元素的索引使用列表理解可以轻松检查列表项是否包含列表中的单个字符串例如这个问题 https stackoverflow com questions 4843158 c
从 Spark-Shell (pyspark) 查询 Spark 流应用程序

我正在关注这个example http cdn2 hubspot net hubfs 438089 notebooks spark2 0 Structured 20Streaming 20using 20Python 20DataFrame
TypeError：PyQt4.QtCore.QVariantAnimation 表示 C++ 抽象类，无法实例化

我有这个 PyQt5 片段我正在尝试将其转换为 PyQt4 PyQt5 版本运行得很好但是当我尝试转换为 PyQt4 时出现此错误我删除了QtWidgets但我仍然收到此错误我也尝试过实例化self animation QtCor
如何从 Django 中的 ModelForm 手动创建选择字段？

我有一个ModelForm其中字段之一名为creator is a ForeignKey 因此对于 form creator Django 渲染
如何模拟嵌套函数？

我想模拟特定函数中的一些嵌套函数 tools py def cpu count def get cpu quota return int load sys fs cgroup cpu cpu cfs quota us def get cpu
Python 中的类位于不同的文件中吗？

与 Java 或 php 非常相似我习惯将类与文件分开 Python 中也是同样的情况吗另外我应该如何命名该文件像classname py一样小写还是像ClassName py一样如果我想从此类创建一个对象我是否需要做一些特殊的
如何从 __subclasses__ 中删除类？

当从类继承时子类可以通过父类访问 subclasses method class BaseClass pass class SubClass BaseClass pass BaseClass subclasses
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
Python中基于行输入的条件求和

我正在尝试用Python 做一个条件和积简化的思路如下 A 1 1 2 3 3 3 B 0 50 0 25 0 99 0 80 0 70 0 20 我想要作为输出 Total1 0 50 1 0 25 1 Total2 0 99 2 To
在 virtualenv 中安装 Python-Dbus

我正在虚拟环境中运行一个应用程序需要访问 DBus 主要是与网络管理器交互我尝试使用 easyinstall 和 pip 安装 Dbus Python 但都失败了当我尝试这样做时 myvirtualenv borrajax borra
Google CoLab 中的 Python 3 支持

我一直在尝试使用 Jupyter 笔记本https colab research google com https colab research google com 并且默认情况下它们似乎运行 Python 2 7 有什么方法可以在 Co
将字符串作为有序字典导入

我有一个没有扩展名的文件其中包含这样的行忽略行之间的间距但每一行都是单独的行 OrderedDict key1 u value1 key2 value2 OrderedDict key1 u value1 key2 value2 Or
Python elasticsearch DSL 聚合/每个文档嵌套值的度量

我试图找到 2 级嵌套中的最小值每个文档单独的最小值到目前为止我能够进行聚合计算搜索结果中所有嵌套值的最小值但无需按文档进行分隔我的示例架构 class MyExample DocType myexample id Intege
pip 安装与本地包具有相同命名空间的包

我使用的是 Python 3 6 5 通过 miniconda 安装我的问题是由于我正在安装一个与本地包具有相同命名空间的包 pip 安装此包后我无法再从本地包导入我收到一个ModuleNotFoundError错误如果可能的话命
如何提取数字（以及比较形容词或范围）

我正在用 Python 开发两个 NLP 项目它们都有类似的任务提取数值和比较运算符来自句子如下所示 greater than 10 weight not more than 200lbs height in 5 7 feets fas
在 python matplotlib 中格式化损坏的 y 轴

我正在 matplotlib 中处理一个相当复杂的条形图它包含来自多个源的摘要数据每个源都沿 x 轴标记 y 轴上有一系列结果许多结果都是异常值我尝试使用断开的 y 轴来显示这些结果而不会使用以下组合来扭曲整个图表这个方法 h
如何使用 Pandas 在现有 Excel 文件中保存新工作表？

我想使用excel文件来存储用python详细说明的数据我的问题是我无法将工作表添加到现有的 Excel 文件中在这里我建议使用示例代码来解决此问题 import pandas as pd import numpy as np pat
pytest - ModuleNotFoundError - python 3.6.4

我有一个具有以下布局的项目 MANIFEST in README md init py company init py api init py auth py debug py exceptions py reporting py rest
Python TDD 目录结构

Python 中是否有用于 TDD 的特定目录结构教程讨论测试的内容但不讨论测试的位置通过研究 Python Koans 怀疑它是这样的 project main program py This has main method sta

随机推荐

将 xgboost.Booster 类转换为 XGBRegressor 或从 xgboost.Booster 加载 XGBRegressor

我从 Sagemaker 获得了一个模型其类型为
使用标签和优先级记录到 Crashlytics，而无需发送到 logcat

根据以下说明有两种方式登录 Crashlytics文档 https docs fabric io android crashlytics enhanced reports html custom logging Crashlytics l
如何捕获通过读/写文件引发的所有异常？

在Java中有没有办法获取捕获所有exceptions而不是单独捕获异常如果需要您可以向方法中添加 throws 子句那么你不必立即捕获检查的方法这样您就可以抓住exceptions稍后也许与其他时间同时 exceptio
将 SWIG 与构建系统结合使用[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 有人有使用 SWIG 界面生成器的
Codeigniter 数据库插入失败

目前在我的控制器中当添加新数据时我会验证输入如果存在任何问题它会让用户知道否则它将数据传递到模型以插入到数据库中现在我如何检查插入语句在模型中是否正常工作并让用户知道是否没有像下面这样的插入语句是否返回 true 或 fal
HTML5 视频自动播放且声音未静音

我需要在我的网站上实现本地自动播放视频不过我知道当视频没有静音属性时较新的浏览器即 Chrome Mozilla 和 Safari 会阻止自动播放所以有没有办法通过 HTML 或 Javascript 中的任何技巧在 HT
成员函数定义

正确的做法是什么定义成员类函数inside班上定义成员类函数outside班上 Thanks 假设您正在谈论这三种可能性头文件中的类定义中定义的方法方法在头文件中定义在类定义之外方法定义在实现文件中的类定义之外那么项目和
node_modules/@types/react-dom/... 处出现错误。后续变量声明必须具有相同的类型。变量“a”

我已经安装了 types react dom 以及 typescript types react 和 types meteor 但是当我尝试从命令行运行类型检查器时出现以下错误您可以在此处重现错误并查看我的所有配置 https gith
强制嵌入推文为 100% 宽度

我试图通过将宽度设置为 100 来强制嵌入的推文做出响应式行为我尝试按如下方式调整内联宽度 blockquote class twitter tweet width 100 blockquote 我还尝试对 twitter tweet 类
C 字符串初始值设定项不包含终止符？

我对以下 C 代码片段有点困惑 printf Peter string is d bytes n sizeof Peter Peter string is 6 bytes 这告诉我当 C 编译双引号中的字符串时它会自动为空终止符添加一个
使用Gson时出现奇怪的“nameValuePairs”键

我正在尝试重建一个Object从它的字段我将字段作为 JSONObject 获取如下所示 JSONObject jObj new JSONObject JSONObject jObj1 new JSONObject JSONObject
Apache CXF 客户端代理设置

我正在尝试使用以下教程开发肥皂服务的消费者http cxf apache org docs developing a consumer html http cxf apache org docs developing a consumer
GNU Mailman 的简单/轻量级替代品？

我正在寻找一个非常简单的邮件列表 unix 友好稳健性细粒度可配置性企业就绪性无论这意味着什么都不是要求我只需要为几个朋友建立一个小型邮件列表我不想自己破解一些东西而是想知道是否有人知道已经有类似目标的东西我现在应该注意的
如何使用 log4j2 Commons 日志桥

我想将 log4j2 Commons Logging Bridge 与 commons 1 2 一起使用我尝试使用如下内容 import org apache logging log4j jcl LogFactoryImpl public
在 ASP.net MVC 中通过 jQuery 在客户端本地化验证消息

我使用 jquery 进行客户端验证以及数据注释一切工作正常但我想在数字文本框中输入非数字值时本地化消息对于服务器端验证可以通过将 DefaultModelBinder ResourceClassKey 设置为资源类名称并为 Pro
如何获取手机的位置

我正在编写一个管理非常大的表的脚本当用户单击表格单元格时我想知道他们单击了哪个单元格例如 Click 应该给我一个 1 1 的单元格引用无论如何我都可以用 javascript 来做到这一点它运行的页面将 jquery 用于其他目
如何像在 Matlab 中一样在 Java 中绘制绘图（相同语法）

在 Matlab 中绘图非常简单明了例如 figure Position 100 80 1000 600 plot x y1 or MarkerSize 0 2 MarkerFaceColor r LineWidth 2 xlabel M
关于“在 DirectShow 之外使用 DirectShow 过滤器？”

我在以下链接中有完全相同的问题在 DirectShow 之外使用 DirectShow 过滤器 https stackoverflow com q 3458868 683527我是一名刚开始执导节目的人该堆栈中的两个答案对我来说还不够清
在登录视图中找到控件

I have a masterpage with a loginview in the loginview i have an asp login control i also have a label that is NOT contai
通过 pyspark.ml CrossValidator 调整隐式 pyspark.ml ALS 矩阵分解模型的参数

我正在尝试调整使用隐式数据的 ALS 矩阵分解模型的参数为此我尝试使用 pyspark ml tuning CrossValidator 运行参数网格并选择最佳模型我相信我的问题出在评估器上但我无法弄清楚我可以使用回归 RMSE

通过 pyspark.ml CrossValidator 调整隐式 pyspark.ml ALS 矩阵分解模型的参数

通过 pyspark.ml CrossValidator 调整隐式 pyspark.ml ALS 矩阵分解模型的参数 的相关文章

随机推荐

热门标签

通过 pyspark.ml CrossValidator 调整隐式 pyspark.ml ALS 矩阵分解模型的参数的相关文章