User CF、Item CF需要多少数据才能给出推荐?
我手动创建了一个小数据集,因此我可以很好地理解该算法是如何工作的。
我发现对于我创建的小数据集,Slope-One可以给出推荐,User CF或Item CF不能给出推荐。
其背后的原因是什么?
数据量的阈值是多少?
在基于用户和项目的 CF 中,数据集的大小可能非常小。重要的部分是数据集中项目和用户之间映射的频率。如果用户仅在数据集中存在一次,则基于用户的 cf 很可能不会给出推荐。因为一个共同的项目不会提供两个用户成为邻居的相似度阈值。
上述解释只是一个示例案例。对于像 1000 个数据这样的小数据集,两个推荐器都会给出最相似的项目的答案并推荐方法。然而,对于较小的数据集,手动控制数据是否有足够的有关查询的用户/项目 ID 的信息是有用的。
在this http://blog.jteam.nl/2009/12/09/mahout-taste-part-one-introduction/链接您可以找到一个非常小的受控数据集来创建基于项目的 CF 及其工作原理。我希望这个答案有帮助。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)