假设我对两个句子中的每对单词都有一个单词相似度得分,那么根据这些分数确定整体句子相似度的好方法是什么?
单词分数是使用表示每个单词的向量的余弦相似度来计算的。
现在我有了单独的单词分数,将单独的单词分数相加并除以两个句子的总字数来获得两个句子的分数是不是太天真了?
我读过有关进一步构建向量来表示句子、使用单词分数,然后再次使用余弦相似度来比较句子的内容。但我不熟悉如何从现有的单词分数构建句子向量。我也不知道与上述简单方法相比有何权衡,至少我可以轻松理解。 :)。
任何见解都将不胜感激。
谢谢。
我最终做的是取每组向量的平均值,然后对这两个平均值应用余弦相似度,从而得出句子的分数。
我不确定这种方法在数学上有多合理,但我在其他地方看到过它(比如 python 的 gensim)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)