SpaCy 的相似度是如何计算的?

2024-04-23

初学者 NLP 问题在这里:

.similarity 方法如何运作?

哇 spaCy 太棒了!它的tfidf模型可以更容易预处理,但w2v只有一行代码(token.vector)?! - 惊人的!

In his spaCy 上的 10 行教程 https://github.com/cytora/pycon-nlp-in-10-lines/blob/master/00_spacy_intro.ipynbandrazhribernik 向我们展示了可以在令牌、发送、单词块和文档上运行的 .similarity 方法。

After nlp = spacy.load('en') and doc = nlp(raw_text)我们可以在标记和块之间进行相似性查询。 然而,这背后到底在计算什么.similarity method?

SpaCy 已经非常简单了.vector,它计算从 GloVe 模型训练得到的 w2v 向量(如果.tfidf or .fasttext方法是?)。

模型相似度模型是简单地计算这两个 w2v-GloVe-向量之间的余弦相似度还是做其他事情?具体内容在文中并没有明确文档 https://spacy.io/docs/usage/word-vectors-similarities;任何帮助表示赞赏!


假设您引用的方法是令牌相似度方法,您可以在源代码中找到该函数here https://github.com/explosion/spaCy/blob/9003fd25e5e966bd8d1b67a18f3ebd6010d6f718/spacy/tokens/token.pyx#L106。正如您所看到的,它计算向量之间的余弦相似度。

正如教程中所说:

词嵌入是以向量或其他形式的数字映射的形式表示单词,并扩展为整个语言语料库。这允许对单词进行数字处理,并将单词相似度表示为单词嵌入映射维度的空间差异。

所以向量距离可以与单词相似度相关。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

SpaCy 的相似度是如何计算的? 的相关文章

随机推荐