网页推荐系统

2024-02-25

我正在尝试构建一个推荐系统，该系统会根据用户的操作（谷歌搜索、点击，他还可以明确地对网页进行评分）向用户推荐网页。为了了解谷歌新闻的做法，它会显示来自网络的有关特定主题的新闻文章。用技术术语来说就是集群，但我的目标是相似的。它将是基于用户操作的基于内容的推荐。

所以我的问题是：

我怎样才能在互联网上搜寻相关网页？
我应该使用什么算法从网页中提取数据？文本分析和词频是唯一的方法吗？
最后，什么平台最适合解决这个问题。我听说过 Apache mahout，它附带了一些可重用的算法，听起来很合适吗？

正如 Thomas Jungblut 所说，一个人可以就你的问题写出几本书；-) 我将尝试为您提供一系列简短的指示 - 但请注意，不会有现成的解决方案......

抓取互联网：有很多工具包可以完成此任务，例如用于 Python 的 Scrapy、用于 Java 的crawler4j 和 Heritrix，或用于 Perl 的 WWW::Robot。要从网页中提取实际内容，请查看boilerpipe。

http://scrapy.org/ http://scrapy.org/

http://crawler.archive.org/ http://crawler.archive.org/

http://code.google.com/p/crawler4j/ http://code.google.com/p/crawler4j/

https://metacpan.org/module/WWW::Robot https://metacpan.org/module/WWW::Robot

http://code.google.com/p/boilerpipe/ http://code.google.com/p/boilerpipe/
首先，通常您可以使用协作过滤而不是基于内容的方法。但如果你想获得良好的覆盖率，尤其是长尾的覆盖率，就没有办法绕过分析文本。需要注意的一件事是主题建模，例如LDA。 Mallet、Apache Mahout 和 Vowpal Wabbit 中实现了多种 LDA 方法。对于索引、搜索和文本处理，请查看 Lucene。这是一个很棒的、成熟的软件。

http://mallet.cs.umass.edu/ http://mallet.cs.umass.edu/

http://mahout.apache.org/ http://mahout.apache.org/

http://hunch.net/~vw/ http://hunch.net/~vw/

http://lucene.apache.org/ http://lucene.apache.org/
除了还包含 LDA（见上文）、集群和文本处理等内容的 Apache Mahout 之外，如果您想专注于协作过滤，还可以使用其他工具包：LensKit（也是用 Java 实现）和 MyMediaLite（免责声明：我我是主要作者），它是用 C# 实现的，但也有一个 Java 端口。

http://lenskit.grouplens.org/ http://lenskit.grouplens.org/

http://ismll.de/mymedialite http://ismll.de/mymedialite

https://github.com/jcnewell/MyMediaLiteJava https://github.com/jcnewell/MyMediaLiteJava

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

machinelearning

mahout

recommendationengine

网页推荐系统的相关文章

如何使用SVM求精确率、召回率、准确率？

重复计算 Precision Recall 和 F Score https stackoverflow com questions 16927964 how to calculate precision recall and f score
Tensorflow 中的平衡准确度分数

我正在为高度不平衡的分类问题实现 CNN 并且我想在张量流中实现自定义指标以使用选择最佳模型回调具体来说我想实现平衡的准确度分数这是每个类别的召回率的平均值请参阅 sklearn 实现here https scikit lear
SpaCy 的相似度是如何计算的？

初学者 NLP 问题在这里 similarity 方法如何运作哇 spaCy 太棒了它的tfidf模型可以更容易预处理但w2v只有一行代码 token vector 惊人的 In his spaCy 上的 10 行教程 https g
在集群上运行时插入符号中发生错误

我正在运行train函数于caret http cran r project org web packages caret index html在集群上通过doRedis http cran r project org web packag
R 错误：“check.data 中的错误：参数应该是数字”

我正在学习 R 编程语言的 kohonen 库我创建了一些人工数据来尝试一些功能我尝试仅对连续即 type as numeric 数据使用 supersom 函数一切正常然而当我尝试在连续和分类 type as factor 上
如何更新反卷积层的权重？

我正在尝试开发一个反卷积层或者准确地说是转置卷积层在前向传递中我进行了完全卷积零填充卷积在向后传递中我进行有效的卷积没有填充的卷积以将错误传递到前一层偏差的梯度很容易计算只需对多余维度进行平均即可问题是我不知道如何更新
没有循环匹配指定的签名和转换错误

我是 python 和机器学习的初学者当我尝试将数据放入 statsmodels formula api OLS fit 时出现以下错误回溯最近一次调用最后一次文件第 47 行位于 regressor OLS sm OLS y
在 Databricks 中的 pyspark 数据帧上下载 punkt 时出现 NLTK 查找错误

我试图通过对 Databricks 中的 pyspark 数据框应用余弦相似度来查找文本列标题标题的相似性我的函数称为 cosine sim udf 为了能够使用它我必须进行第一次 udf 转换将函数应用于 df 后出现查找错误
Q-learning 和价值迭代有什么区别？

Q learning 与强化学习中的值迭代有何不同我知道 Q learning 是无模型的训练样本是过渡 s a s r 但是既然我们知道 Q 学习中的转换和每个转换的奖励那么它与基于模型的学习不一样吗在基于模型的学习中我们知道
caret::train：为 mlpWeightDecay（RSNNS 包）指定更多非调整参数

我在使用插入符号包和 RSNNS 包中的 mlpWeightDecay 方法指定学习率时遇到问题 mlpWeightDecay 的调整参数是大小和衰减将大小保持为 4 并在 c 0 0 0001 0 001 0 002 上调整衰减的示例
SpaCy 模型“en_core_web_sm”的词汇量大小

我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词我也在同
从 keras 模型中将特征提取到数据集中

我使用以下代码由here https github com keras team keras blob master examples mnist cnn py 运行 CNN 来训练 MNIST 图像 from future import
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
Caffe，在层中设置自定义权重

I have a network In one place I want to use concat As on this picture 不幸的是该网络无法训练为了理解为什么我想连续改变权重这意味着 FC4096 中的所有值一开始都
R 中 svm 特征选择的示例

我正在尝试使用 R 包在 SVM 中应用特征选择例如递归特征选择我已经安装了 Weka 它支持 LibSVM 中的特征选择但我还没有找到任何 SVM 语法的示例或类似的东西一个简短的例子会有很大的帮助功能rfe in the ca
在提供给 sklearn 管道中的分类器之前获取所选特征的名称和数量

我在用sel SelectFromModel ExtraTreesClassifier 10 threshold mean 选择我的数据集中最重要的特征然后我想将这些选定的特征提供给我的 keras 分类器但是我的基于 keras 的神
具有多个输入的 Keras TimeDistributed 层

我正在尝试使以下代码行正常工作 low encoder out TimeDistributed AutoregressiveDecoder X tf embeddings Where AutoregressiveDecoder是一个需要两个
我的 R 平方分数为负，但使用 k 倍交叉验证的准确度分数约为 92%

对于下面的代码我的 r 平方分数为负但使用 k 折交叉验证的准确度分数为 92 这怎么可能我使用随机森林回归算法来预测一些数据数据集的链接在下面的链接中给出 https www kaggle com ludobenistant hr
如何在 Keras 中使用部分输入进行训练，其余部分用于损失函数

我是 Keras 新手正在尝试实现神经网络机器学习模型输入张量看起来像 X1 X2 和输出 Y 注意 X1 和 X2 是相关的在模型中只有 X1 将用于训练但 X1 和 X2 都将传递给损失函数该损失函数是 X1 X2 y pr
为什么 cross_val_predict 比 KNeighborsClassifier 的拟合慢得多？

在 Jupyter 笔记本上本地运行并使用 MNIST 数据集 28k 条目每个图像 28x28 像素以下内容为27秒 from sklearn neighbors import KNeighborsClassifier knn clf

随机推荐

未知的指令类型“toctree”。 Pycharm 出错，但 index.html 有效

在 PyCharm 中工作时我在 Sphinx 中创建的文档的预览模式显示 System Message ERROR 3
“Where like”子句使用 2 列的串联值与雄辩

我有一个查询在多个列中搜索一个术语其中之一必须是全名我已将姓名和姓氏分开因此在搜索时必须连接这两个值我现在只有搜索名字我如何将连接添加到姓氏我正在调查突变体但我不知道这是否是正确的方法 public function sea
初学者的 C 套接字编程

我刚刚开始学习套接字编程发现它非常有趣目前我正在制作服务器和客户端在同一台计算机上因此我可以拥有IP地址作为环回地址 127 0 0 1一切似乎都运行良好但现在我正在考虑拥有两台计算机并做这件事我有以下问题假设一台计算机是服务器
Android SQLiteConstraintException：错误代码19：约束失败

我已经看到了有关此异常的其他问题但所有这些问题似乎都通过解决方案解决了即已存在指定主键的行对我来说似乎并非如此我尝试用双引号替换字符串中的所有单引号但出现了同样的问题我正在尝试通过执行以下操作将一行插入到我创建的 SQLite
使用 T & F 代替 TRUE & FALSE 有什么问题吗？

我注意到使用T and F代替TRUE and FALSER 中的函数给了我相同的结果当然 T and F更简洁但是我明白了TRUE and FALSE被更频繁地使用我想知道两者之间有什么区别吗使用有什么问题吗T and F T
oracle sqlplus中获取sql脚本的执行时间

我有一个脚本用于将数据加载到 Oracle 中的表中通过插入语句列表如何获取整个加载过程的执行时间我尝试过set timing on 但这给了我每个插入语句的持续时间而不是整个过程的持续时间脚本如下所示 spo load log
是否可以将 supertest 与 hapi 一起使用？

我用的是hapi 不是express 超级测试还应该有效吗如果是这样有没有一种快速方法可以更改我的代码以使其运行我的测试看起来像这样基于文档 https github com visionmedia supertest import
如何在 Mockito 中模拟 CompletableFuture 的完成

我想模拟当某个代码被调用时CompletableFuture已成功完成我有这门课 public class MyClassImplementRunner implements Runnable private final String p
通过参数对函数调用进行反跳

David Walsh 拥有出色的去抖动实现here https davidwalsh name javascript debounce function Returns a function that as long as it cont
Firebase：观察 childAdded 返回现有/旧记录？

我有一个查询用 swift 编写 FIRDatabase database reference withPath ORDERS PATH lId child orders observe childAdded with firebaseS
Bash sqlite3 行 |如何转换为JSON格式

我想将数据库中的 sqlite 数据转换为 JSON 格式我想使用这个语法 sqlite3 linemembers db 从成员LIMIT 3中选择 gt members txt OUTPUT id 1 fname Leif gname
TensorFlow 图像分类

我对 TensorFlow 很陌生我正在做图像分类使用我自己的训练数据库然而在我训练了自己的数据集之后我不知道如何对输入图像进行分类这是我的代码准备我自己的数据集 filenames 01 jpg 02 jpg 03 jpg 04
下载极大文件时连接关闭

我们有一个提供文件的网络服务最近我们遇到一个非常大的文件超过 2 GB 无法复制到缓冲区中我修改了代码以使用HttpCompletionOptions ResponseHeadersRead不使用缓冲区并直接复制到流然而大多数时
如何防止部分视图中的脚本多次加载并在同一页面中多次使用部分时导致错误

在 ASP NET MVC 中我创建了一个局部视图该视图在同一页面上呈现两次我的问题是JavaScript 被包含的次数与分部视图的次数一样多JavaScript 不喜欢重新定义类我的问题是如何将 JavaScript 包含在部分
Page_ClientValidate() 问题

function Subscribe if typeof Page ClientValidate function Page ClientValidate if Page IsValid do something CheckUser 该脚本
django 管理操作而不选择对象

是否可以为 django 管理员创建一个自定义管理操作而不需要选择某些对象来运行它如果您尝试在不选择对象的情况下运行操作您会收到以下消息 Items must be selected in order to perform actio
tsc 未被识别为内部或外部命令

我从 VSCode 0 10 6 更新到 0 10 8 并第一次尝试使用 Typescript 不幸的是当我告诉 VSCode 构建时我收到错误 tsc 不被识别为内部或外部命令以下是相关详情 I created a fresh He
如何采用按单独列排序的 DISTINCT ON 子查询并使其快速？

又名查询和数据与问题非常相似选择按某列排序且在另一列上不同的行 https stackoverflow com questions 9796078 selecting rows ordered by some column and di
如何在 Angular 8 或 9 中发出同步 HTTP 请求（发出请求并等待）

有三个按钮单击第一个Request HTTP Data As Promise按钮获取其 HTTP 响应作为Promise 第二Request HTTP Data As Observable按钮的响应为Observable 这两个按钮都使用
网页推荐系统

我正在尝试构建一个推荐系统该系统会根据用户的操作谷歌搜索点击他还可以明确地对网页进行评分向用户推荐网页为了了解谷歌新闻的做法它会显示来自网络的有关特定主题的新闻文章用技术术语来说就是集群但我的目标是相似的它将是基于用户操

网页推荐系统

网页推荐系统 的相关文章

随机推荐

热门标签

网页推荐系统的相关文章