我正在关注这个博客http://www.quuxlabs.com/blog/2010/09/matrix-factorization-a-simple-tutorial-and-implementation-in-python/ http://www.quuxlabs.com/blog/2010/09/matrix-factorization-a-simple-tutorial-and-implementation-in-python/(此处还附加了矩阵)用于使用矩阵分解进行评分预测。最初我们有一个稀疏的用户电影矩阵 R 。
然后,我们应用 MF 算法来创建一个新矩阵 R',它是 2 个矩阵 P(UxK) 和 Q(DxK) 的乘积。然后我们“最小化” R 和 R' 中给出的值的误差。到目前为止一切顺利。但在最后一步,当矩阵填满时,我不太确信这些是用户将给出的预测值。这是最终的矩阵:
证明这些实际上是“预测”收视率的依据是什么?另外,我计划使用 P 矩阵(UxK)作为用户的潜在特征。我们能否以某种方式“证明”这些实际上是用户的潜在特征?
使用每个用户获得的向量作为潜在特征向量的理由是,使用这些潜在特征值将minimize预测评级与实际已知评级之间的误差。
如果您查看您发布的两个图表中的预测评分和已知评分,您会发现两个矩阵中共同的单元格之间的差异非常小。示例:U1D4 在第一个图中为 1,在第二个图中为 0.98。
由于特征或用户潜在特征向量在已知评级上产生了良好的结果,我们认为它在预测未知评级方面会做得很好。当然,我们使用正则化来避免过度拟合训练数据,但这是总体思路。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)