针对 Mahout 推荐器使用多个加权数据模型

2024-04-27

我有一个基于用户相似性的布尔偏好推荐器。我的数据集本质上包含关系，其中 ItemId 是用户决定阅读的文章。我想添加第二个数据模型，其中 ItemId 是对特定主题的订阅。

我能想到的唯一方法是将两者合并在一起，偏移订阅 ID，这样它们就不会与文章 ID 冲突。对于加权，我考虑放弃布尔偏好设置并引入偏好分数，其中文章子集的偏好分数为 1（例如），订阅子集的偏好分数为 2。

然而，我不确定这是否有效，因为偏好分数并不完全类似于我所追求的权重；它们可能包含一些代表不满意的较低分数的概念。

我必须想象有更好的方法来做到这一点，或者至少对我的计划进行一些调整，使其更符合我想要的方式。

我认为你的想法是正确的。是的，对于订阅和文章，您想要比简单的存在/不存在更具表现力，因为它们的含义有些不同。我建议选择反映其相对频率的权重。例如，如果用户一直阅读 100K 篇文章，并进行了 10000 次订阅，那么您可以选择订阅权重为“10”，阅读权重为“1”。

如果您将这些值视为偏好分数，则由于多种原因，这不太有效。如果您使用一种按其本来面目对待它们的方法，即线性权重，效果会更好。

我会向您介绍 ALS-WR 算法，它是专门为此类输入设计的。例如：隐式反馈数据集的协同过滤 http://www2.research.att.com/~yifanhu/PUB/cf.pdf

这在 Mahout 中实现为ParallelALSFactorizationJob在 Hadoop 上。尽管需要 Hadoop，但它工作得很好。（虽然我确实在 Mahout 中编写了大部分推荐代码，但我不能因此而获得荣誉。）

广告：我正在致力于将“下一代”系统商业化，该系统是由我在 Mahout 的工作演变而来的，Myrrix http://myrrix.com/。它是 ALS-WR 的实现，非常适合您的输入类型。这很容易下载并运行 http://myrrix.com/quick-start/，并且不需要 Hadoop。

鉴于它可能直接适合您的问题，我不介意将其插入此处。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mahout

recommendationengine

针对 Mahout 推荐器使用多个加权数据模型的相关文章

评估 LightFM 推荐模型

我一直在玩lightfm很长一段时间以来我发现生成推荐确实很有用但是我想知道两个主要问题在推荐排名很重要的情况下评估 LightFM 模型我应该更多地依赖precision k或其他提供的评估指标例如AUC score 在什么情
如何读取 Mahout 聚类输出

我已经对 Mahout 教程中的合成控制数据运行了 k 均值聚类算法并且想知道是否有人可以解释如何解释输出我运行 clusterdump 并收到如下所示的输出被截断以节省空间 CL 592 n 57 c 30 726 29 813 r
如何使用存储为 CSV 的矢量数据在 mahout 中执行 k 均值聚类？

我有一个包含数据向量的文件其中每行包含一个以逗号分隔的值列表我想知道如何使用 mahout 对这些数据执行 k 均值聚类 wiki 中提供的示例提到了创建sequenceFiles 但除此之外我不确定是否需要进行某种类型的转换才能获取
在 Mahout 0.8 中运行 cvb

当前的 Mahout 0 8 SNAPSHOT 包括用于主题建模的折叠变分贝叶斯 cvb 版本并删除了潜在狄利克雷分析 lda 方法因为 cvb 可以更好地并行化不幸的是只有文档lda https cwiki apache org
Hadoop 2.2.0 与 Mahout 0.8 兼容吗？

我的 hadoop 集群版本 2 2 0 与 mahout 0 8 一起运行它兼容吗因为每当我运行这个命令时 bin mahout recommenditembased input mydata dat usersFile user d
通过 TensorFlow 中 CSV 的分类特征数组列创建多热 SparseTensor

这是推荐系统中处理稀疏特征例如一些ID特征的典型方式我正在寻找一种方便的方法来为 TensorFlow 管道准备数据我做了很多搜索但尚未找到好的解决方案下面是似乎接近我需要的但尚未工作 See 下面的部分数据文件如下 csv
多种条件提前停止

我正在为推荐系统项目推荐进行多类分类并且我目前正在使用sparse categorical crossentropy损失因此合理执行EarlyStopping通过监控我的验证损失 val loss像这样 tf keras call
如何使用 Vowpal Wabbit 的上下文强盗学习排名？

我正在使用 Vowpal Wabbit 的上下文强盗来对给定上下文的各种操作进行排名 Train Data 1 10 0 1 123 2 9 0 1 123 3 8 0 1 123 4 7 0 1 123 5 6 0 1 123 6 5 0
用户与当前数据匹配

我有一个包含两种不同类型的用户导师和学员的数据库我希望第二组学员能够搜索第一组导师中与其个人资料匹配的人导师和学员都可以随时进入并更改其个人资料中的项目目前我使用 Apache Mahout 进行用户匹配 recom
ruby on Rails 的 Mahout 插件

我想在 Ruby on Rails 项目中使用 Apache Mahout 来实现推荐和协作过滤特别是我的要求是建议相关标签推荐相关文章根据用户的喜好提示他评论文章根据用户的地理位置和其他元信息向他推荐类似的用户如果任何其他解
为推荐引擎生成测试集

我正在研究基于隐式反馈的推荐引擎我正在使用这个链接 http insightdatascience com blog explicit matrix factorization html movielens http insightdat
使用 XMLInputFormat 在 hadoop 中解析 xml 时不执行我的 hadoop 映射器类

我是 hadoop 新手使用 Hadoop 2 6 0 版本并尝试解析复杂的 XML 经过一段时间的搜索我了解到对于 XML 解析我们需要编写自定义的 InputFormat 即 mahout 的 XMLInputFormat 我也
为什么 Maven 尝试将我的代码编译为 -source 1.3？

我收到这个错误mvn e package在 Ubuntu 12 04 中 ERROR Failed to execute goal org apache maven plugins maven compiler plugin 2 0 2 c
网页推荐系统

我正在尝试构建一个推荐系统该系统会根据用户的操作谷歌搜索点击他还可以明确地对网页进行评分向用户推荐网页为了了解谷歌新闻的做法它会显示来自网络的有关特定主题的新闻文章用技术术语来说就是集群但我的目标是相似的它将是基于用户操
应用 pyspark ALS 的“recommendProductsForUsers”时出现 StackOverflow 错误（尽管可用 >300GB RAM 的集群）

寻找专业知识来指导我解决以下问题背景我正在尝试使用受启发的基本 PySpark 脚本这例子 https github com GoogleCloudPlatform spark recommendation engine blob m
如何实现推荐引擎？

请耐心等待我的写作因为我的英语不熟练作为一名程序员我想了解在推荐系统或相关系统下实现的算法或机器学习智能例如最明显的例子来自亚马逊他们有一个非常好的推荐系统他们会知道如果你愿意this 你可能还喜欢that 或者其他类似的东
了解皮尔逊相关系数

作为生成计算的一部分皮尔逊相关系数 http devlicio us blogs billy mccafferty archive 2006 11 07 netflix memoirs using the pearson correlati
针对 Mahout 推荐器使用多个加权数据模型

我有一个基于用户相似性的布尔偏好推荐器我的数据集本质上包含关系其中 ItemId 是用户决定阅读的文章我想添加第二个数据模型其中 ItemId 是对特定主题的订阅我能想到的唯一方法是将两者合并在一起偏移订阅 ID 这样它们就不会
在 mahout-0.6 上运行“Mahout in Action”中的示例代码时出现 IOException

我正在学习 Mahout 并阅读 Mahout in Action 当我尝试运行第 7 章 Simple KMeans Clustering java 中的示例代码时弹出了一个异常线程 main 中的异常 java io IOExcep
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h

随机推荐

Bazel远程缓存分析数据

我正在 jenkins 上的 docker 容器内运行 bazel 通过 bazelisk 此外我使用远程缓存在不进行任何更改的后续运行中我获得 100 的缓存命中但每次创建新容器时都会运行分析阶段约 60 秒有没有办法远程缓存
为什么我的音频不倒带？

我在 Javascript 中倒带音频时遇到了一些问题我基本上有一个倒计时当倒计时接近结束时每秒都会发出蜂鸣声我尝试使用 var bip new Audio http www soundjay com button beep 7 w
PL/SQL 打印存储过程返回的引用游标

如何从存储过程 OUT 变量返回的引用游标中获取数据并将结果行打印到 SQL PLUS 中的 STDOUT ORACLE存储过程 PROCEDURE GetGrantListByPI p firstname IN VARCHAR2 p l
为什么我的 sed 命令在使用变量时失败？

使用 bash 我尝试插入日期变量并搜索该日期的日志文件然后将输出发送到文件如果我像这样对日期进行硬编码它会起作用 sed n Nov 22 2010 p file gt log file 但如果我这样做就会失败 date Nov 2
MVC 在视图之间传输数据

我刚刚开始学习 MVC 并试图了解它是如何工作的我不想将用户发送到所有编辑插入和列表操作的不同视图在我的示例应用程序中视图包含项目列表列表下方有一个带有操作 Controller Create 的表单用于插入新项目但没有创建视
在cocos2d中添加UIViewController

我想在 cocos2d 项目中显示 UIViewController 所以我在我的 CCLayer 类中执行此操作 void displayMainMenu CGSize screenSize CCDirector sharedDirect
RuntimeException 以外的异常

Java中除了RuntimeException之外还有其他可能发生的异常吗谢谢是的有Three kinds 检查异常编译器会让您知道何时可能会抛出它们最有可能是由于环境中的故障如果程序可以用它们做某事则应该捕获它们否则最好让
Oracle：SQL 选择带时间戳的日期

我有以下数据 SQL gt select from booking session BK ID BK DATE 1 18 MAR 12 10 00 00 000000 2 18 MAR 12 10 25 00 000000 3 18 MAR
在哪里可以找到 Python 的 win32api 模块？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我需要下载 Python 2 7 的它但似乎找不到它还有一个新选项通过 pip 获取有一个包p
如何将灰度图像转换为像素值列表？

我正在尝试创建一个 python 程序它采用灰度 24 24 像素图像文件我尚未决定类型因此欢迎提出建议并将其转换为从 0 白色到 255 的像素值列表黑色的我计划使用这个数组来创建一个MNIST http yann lecu
如何在 Java (NetBeans) 中将禁用按钮的文本颜色更改为黑色？

我正在使用 NetBeans 用 Ja va 开发 GUI 我喜欢将禁用按钮的文本颜色更改为黑色以下命令在组合框上运行良好 UIManager getDefaults put ComboBox disabledForeground Col
为什么View Source会发出新的HTTP请求？

我注意到 Firefox 和 Chrome 都发布了一个新的HTTP请求当你view the source对于您已经加载的网页当页面本身加载缓慢或根本无法加载时这尤其令人烦恼这是为什么他们不会已经缓存了最初接收的页面的现有源吗是否
Windows Phone 7 可以实现 ping 吗？

为了了解 WP7 中的网络功能我将构建一个简单的 ping 应用程序该应用程序将显示对某个主机的 ICMP ping 请求的结果然而不仅System Net NetworkInformation Ping班级不见了 System N
Golang导入包错误

go 5 2 在以下任一位置找不到包 github com googollee go socket io usr local go src github com googollee go socket io 来自 GOROOT Users
Python - 使用“astype”进行 pandas 列类型转换不起作用

这是 DataFrame 的前 5 行格式很差但您可以看到其中大多数值都可以转换为数字 df head ID Overall Acceleration Aggression Agility Balance Ball control Co
以多列显示数据

您好我需要从 mySQL 表构建一个包含四列的表这是我现在拥有的
最后执行一定的规则

我目前正在编写一个 Snakefile 它进行了大量的对齐后质量控制 CollectInsertSizeMetics CollectAlignmentSummaryMetrics CollectGcBiasMetrics 在 Snakefi
html 文件中的脚本标记中的 VSCode 中缺少建议

使用时 stylevscode 中的 javascript 方法
Apache 下的子域代理到 Tomcat

在使用 AJP 代理 Tomcat 时我在为 Windows 计算机创建子域时遇到问题这是我的 httpd conf 文件中的内容
针对 Mahout 推荐器使用多个加权数据模型

我有一个基于用户相似性的布尔偏好推荐器我的数据集本质上包含关系其中 ItemId 是用户决定阅读的文章我想添加第二个数据模型其中 ItemId 是对特定主题的订阅我能想到的唯一方法是将两者合并在一起偏移订阅 ID 这样它们就不会

针对 Mahout 推荐器使用多个加权数据模型

针对 Mahout 推荐器使用多个加权数据模型 的相关文章

随机推荐

热门标签

针对 Mahout 推荐器使用多个加权数据模型的相关文章