为推荐引擎生成测试集

2024-02-02

我正在研究基于隐式反馈的推荐引擎。我正在使用这个链接：http://insightdatascience.com/blog/explicit_matrix_factorization.html#movielens http://insightdatascience.com/blog/explicit_matrix_factorization.html#movielens

这使用 ALS（交替最小二乘法）来计算用户和项目向量。因为，我的数据集无法按时间分区。我随机从用户那里获取“x”个评分并将其放入测试集中。这是我的训练用户项目矩阵的可重现示例。




col1    col2     col3   col4   col5   col6    col7     col8    col9   col10   col1    col12    col13 
+---------------------------------------------------------------------------------------------------+
| 1        0       0     3      10      0       0         3        0      0       1       0        0 |                                                                                   | 
| 0        0       0     5      0       0        1         8        0      0       1       0        0 |                                                                                  |
| 0        0       0     6      7       1        0         2        0      0       1       0        0 |                                                                                   |
+---------------------------------------------------------------------------------------------------+



I then create a test set using this piece of code
    test_ratings = np.random.choice(counts[user,:].nonzero()[0],size=1,replace=True)
        train[user,test_ratings] = 0
        test[user,test_ratings] = counts[user,test_ratings]  
        assert(np.all((train * test) == 0))

这给了我：



col1    col2     col3   col4   col5   col6    col7     col8    col9   col10   col1    col12    col13 
+---------------------------------------------------------------------------------------------------+
| 0        0       0     0      0      0       0         3        0      0       0       0        0 |                                                                                   | 
| 0        0       0     0      0      0       1         0        0      0       0       0        0 |                                                                                  |
| 0        0       0     6      0      0       0         0        0      0       0       0        0 |                                                                                   |
+---------------------------------------------------------------------------------------------------+

这里的行是用户，列是项目。

现在，我想知道这是否是我的测试集的正确表示。我选取了一个非零值并使所有值都为零。因此，我的算法应该将非零值排名为推荐项目。

这是正确的处理方式吗？

任何帮助将非常感激

Updated:

是的，您应该使用一些原始计数创建一个测试集，并查看您的系统是否将这些用户项识别为良好匹配。

您应该注意以下几点：

仅对您拥有的项目或用户添加测试集值更多数据；
从训练数据中隐藏这些测试集值；
仅在您有数据的用户-项目对上训练您的模型，而不是在 0 上 - 这样做的原因是因为假设您的 0 代表您没有数据的对，而不是真实的评分；

Note:这张纸，隐式反馈数据集的协同过滤 http://yifanhu.net/PUB/cf.pdf，应该可以帮助您解决这些问题和其他问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

machinelearning

recommendationengine

collaborativefiltering

为推荐引擎生成测试集的相关文章

当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过
kmeans 对分组数据进行聚类

目前我尝试在分组数据中找到簇的中心通过使用示例数据集和问题定义我能够创建kmeans每个组内的集群然而当涉及到给定组的集群的每个中心时我不知道如何获取它们 https rdrr io cran broom man kmeans
libsvm 收缩启发法

我在 C SVC 模式下使用 libsvm 和 2 次多项式内核并且需要训练多个 SVM 在训练期间我训练的一些 SVM 会收到以下一个或什至两个警告 WARNING using h 0 may be faster WARNING re
使用 LightGBM 进行多类分类

我正在尝试使用 Python 中的 LightGBM 为多类分类问题 3 类建模分类器我使用了以下参数 params task train boosting type gbdt objective multiclass num clas
如何在sklearn管道中通过特征消除选择特征名称？

我在 sklearn 管道中使用递归特征消除管道看起来像这样 from sklearn pipeline import FeatureUnion Pipeline from sklearn import feature selection
从 scikit_learn 反转 MinMaxScaler

为了为我的生成神经网络提供数据我需要将一些数据标准化在 1 和 1 之间我用MinMaxScaler来自 Sklearn 效果很好现在我的生成器将输出 1 到 1 之间的数据如何恢复MinMaxScaler获得真实数据让我们首先
如何创建增量NER训练模型（追加到现有模型中）？

我正在训练定制命名实体识别 NER 模型使用斯坦福自然语言处理但问题是我想要重新训练模型 Example 假设我训练过xyz模型然后我将在一些文本上测试它如果模型检测到错误那么我最终用户将更正它并希望在更正的文本上重新训练追加模
Scikit Learn GridSearchCV 无需交叉验证（无监督学习）

是否可以在没有交叉验证的情况下使用 GridSearchCV 我正在尝试通过网格搜索优化 KMeans 聚类中的聚类数量因此我不需要或想要交叉验证 The 文档 http scikit learn org stable modules g
Pytorch TypeError：eq() 收到无效的参数组合

num samples 10 def predict x sampled models guide None None for in range num samples yhats model x data for model in sam
Haar级联正例图像大小调整

我正在迈出第一步为自定义对象识别创建 haar 级联我花了时间获取大量数据并编写了一些预处理脚本以将视频转换为帧我的下一步是裁剪感兴趣的对象以创建一些积极的训练示例我有几个问题我确实在网上寻找答案我有点困惑我读到我应该致力于
按相似度对矩阵进行排序

我有 100 个矩阵其中每一行对应一个个体列对应站点我想通过相似性度量对行进行排序以便最相似的个体在矩阵中彼此相邻我使用 k 近邻按行对矩阵进行排序并将这些排序的矩阵提供给卷积神经网络我想知道是否还有其他措施可以完成手头的任务
使用预训练（Tensorflow）CNN 提取特征

深度学习已成功应用于多个大型数据集用于对少数类别猫狗汽车飞机等进行分类其性能优于 SIFT 特征袋颜色直方图等更简单的描述符然而训练这样的网络需要每个类别大量的数据和大量的训练时间然而在花时间设计和训练这样一种设备并
使用张量流导出神经网络的权重

我使用张量流工具编写了神经网络一切正常现在我想导出神经网络的最终权重以制定单一的预测方法我怎样才能做到这一点您需要在训练结束时使用以下命令保存模型tf train Saver https www tensorflow org ver
使用神经网络包进行多项分类

这个问题应该很简单但文档没有帮助我正在使用 R 我必须使用neuralnet多项式分类问题的包所有示例均针对二项式或线性输出我可以使用二项式输出进行一些一对一的实现但我相信我应该能够通过使用 3 个单元作为输出层来做到这一点其中
如何跨多个文本文件查找字典中键的频率？

我应该计算文档 individual articles 中所有文件中字典 d 的所有键值的频率这里文档 individual articles 大约有20000个txt文件文件名为1 2 3 4 例如假设 d Britain 5 7
如何使用机器学习从数据序列计算状态图？

通用配方我有一个由一系列点组成的数据集每个点有 12 个特征我有兴趣检测此数据中的事件在训练数据中我知道事件发生的时刻当事件发生时我可以在事件发生之前的点序列中看到可观察到的模式该形态由大约 300 个连续点形成我感兴趣的是
使用 glmnet 纠正 n 个数据集上的 n 个 LASSO 回归的输出（严格来说是所选的特征/变量）

注意这是对上一个问题 https stackoverflow com questions 75006466 how to replicate my results from running n lassos iteratively usi
Azure 机器学习 - CORS

我已经搜索了几个小时但找不到任何可以回答这个问题的东西我创建并发布了新的 Azure 机器学习服务并创建了一个终结点我可以使用 Postman REST 客户端调用该服务但通过 JavaScript 网页访问它会返回一个控制台日志
收到的标签值 1 超出了 [0, 1) 的有效范围 - Python、Keras

我正在使用具有张量流背景的 keras 开发一个简单的 cnn 分类器 def cnnKeras training data training labels test data test labels n dim print Initiat
sklearn.model_selection.train_test_split 示例中的“随机状态”是什么？ [复制]

这个问题在这里已经有答案了有人能给我解释一下吗random state在下面的例子中意味着什么 import numpy as np from sklearn model selection import train test split

随机推荐

如何查看linux中特定进程每5秒的内存消耗情况

我只是想知道如何找到特定进程在特定时间比如5秒的内存消耗我是linux新手因此详细的步骤将不胜感激 Use top p PID其中 PID 是进程 ID 应显示有关进程的信息包括使用的系统内存百分比类型d以及一个以秒为单位的整
条件子句中的赋值是好的 ruby 风格吗？

为了写得更简洁而不是这样做 test value method call that might return nil if test value do something with test value end 我一直在条件分配 if t
当我运行 Protractor 时，“Runtime.executionContextCreated 有无效的‘上下文’错误

当我运行量角器时我收到以下错误下面是我的 webstorm 控制台中显示的错误 C Program Files x86 JetBrains WebStorm 2016 2 bin runnerw exe C Program Files
在 PowerShell 脚本中无法通过管道将字符串输入 cmd

当我直接在 PowerShell 窗口中执行它时我有以下工作调用 myexe C MyExe exe MyString myexe works Write Output MyString myexe seems to work too 但
Visual Studio 2017 - 允许远程用户访问 IIS Express 中的网站

一直在浏览并尝试我找到的有关该主题的所有指南但没有运气我正在使用 HTTPS 运行 MVC 项目并希望使用一些远程移动设备访问调试站点来测试该网站我遵循了一个几乎可以工作的指南我想我已经非常接近让它工作了以下是我已完成的步骤关
如何获得可旋转div的四个角旋转手柄？

我有一个div 用过Jquery UI rotatable旋转 div 的插件我怎样才能让这个旋转手柄与绿色div的四个角一起旋转 box draggable rotatable 这是示例图像在黑色圆形标记中我需要放置其他三个可旋转手柄
使用supervisord管理docker容器的最佳方式

我必须在上面设置 dockerized 环境集成质量保证和生产 same服务器客户端的要求每个环境的组成如下 rabbitmq celery flower 基于 python 3 的应用程序称为 A 每个特定分支环境在它们之上
XXX.exe 中发生“System.ExecutionEngineException”类型的未处理异常

我有一个用 C 编写的 DLL 文件我尝试在我的 C 代码中使用 C DLL C 方法调用正确但进程完成后出现错误异常详细信息 Completed System ExecutionEngineException 未处理消息 Syst
格式化输出流 ios::left 和 ios::right

我有这个代码 cout lt lt std setiosflags std ios right cout lt lt setw 3 lt lt 1 lt lt setw 3 lt lt 2 lt lt n Output two values
如何编写 IQueryable 来查询递归数据库表？

我有一个这样的数据库表 Entity ID int PK ParentID int FK Code varchar Text text The ParentID字段是与同一表中另一条记录的外键递归所以该结构代表一棵树我正在尝试编写一种
SetPixel 太慢了。有没有更快的方法来绘制位图？

我正在开发一个小型绘画程序我在位图上使用 SetPixel 来绘制线条当画笔尺寸变大例如 25 像素时性能会明显下降我想知道是否有更快的方法来绘制位图以下是该项目的一些背景我使用位图这样我就可以利用图层就像在 Photo
typedef 函数指针递归

我试图声明一个采用相同类型的函数作为参数的函数 void rec void f void void f f 我最终进行了递归尝试您始终可以从void void rec void f void f f 但它不是类型安全的我尝试用typed
这是过度拟合吗？

我有一个 CNN 它在训练数据上表现非常好 96 准确率 1 损失但在测试数据上表现不佳 50 准确率 3 5 损失泄密者签名过度拟合是指验证损失开始增加而训练损失持续减少即图片改编自维基百科条目过拟合 https en wiki
在configuration.nix中从nixos-unstable安装virtualbox模块

可以从 nixos unstable 安装软件包 etc nixos configuration nix使用来自的配置这个答案 https stackoverflow com a 48838322 3040129 这是安装的示例htop来自
以等概率从 Pandas 组中随机选择——意外行为

我尝试从 12 个独特的组中随机抽样每个组都有不同数量的观察值我想从整个群体数据框中随机抽样每个组都有相同的被选择概率最简单的例子是一个包含 2 个组的数据框 groups probability 0 a 0 25 1 a 0
Chartjs初始动画想要从左到右改变（默认是从下到上）

使用chartjs 2 1 4 定制的默认图表从下到上显示动画在我们的应用程序画布的下方有两个按钮左和右在单击左侧按钮图表动画中想要从右到左单击右键图表动画想要从左到右显示请帮我找到解决方案提前致谢 var myData x
HTML5 音频无法通过 Javascript 播放，除非手动触发一次

我正在尝试使用标签和 JavaScript 来启动一个小声音文件来自动播放
ABAP 对象中的“ADD-CORRESPONDING”相当于什么？

对于以下可执行程序存在以下语法错误 OO 上下文中不支持 ADD CORRESPONDING 相当于什么ADD CORRESPONDING在ABAP对象中 REPORT CLASS lcl app DEFINITION FOR TESTI
terraform init 和 terraform plan 成功运行后，terraform apply 报告 S3 后端配置错误

我正在我的 Linux 实例上运行 terraform 我遇到了下面的恐怖情况 usr local bin terraform workspace new test enter code here 0m 0m 1m 33mBackend r
为推荐引擎生成测试集

我正在研究基于隐式反馈的推荐引擎我正在使用这个链接 http insightdatascience com blog explicit matrix factorization html movielens http insightdat

为推荐引擎生成测试集

为推荐引擎生成测试集 的相关文章

随机推荐

热门标签

为推荐引擎生成测试集的相关文章