我正在尝试找到使用人工智能和机器学习方法来比较两个文本文档的最佳方法。我使用了 TF-IDF-Cosine 相似度和其他相似度度量,但这会在单词(或 n-gram)级别上比较文档。
我正在寻找一种方法来比较meaning的文件。最好的方法是什么?
您应该开始阅读有关 word2vec 模型的内容。
使用gensim https://radimrehurek.com/gensim/models/word2vec.html,得到预训练模型 https://github.com/mmihaltz/word2vec-GoogleNews-vectors谷歌的。
要矢量化文档,请使用Doc2vec() https://radimrehurek.com/gensim/models/doc2vec.html功能。
获取所有文档的向量后,使用一些距离度量(例如余弦距离或欧几里得距离)进行比较。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)