我有一个问题:
我有很多文档,每一行都是由某种模式构建的。
当然,我有这一系列的图案。
我想创建一些向量空间,然后通过某种规则来向量这个模式(我还不知道这个规则是什么......) - 即使这个模式像我的向量空间的“质心”。
然后向量当前文档的每一行(再次按照此规则)并计算该行的最近质心(即两个向量之间的距离的最小值)。
我不知道我该怎么做?
我了解 sklearn 库和 CountVectorizer/TfidfVectorizer/HashingVectorizer - 但这取决于词汇量大小。但是,同样,我有很多文档,这就是为什么词汇表中的单词太多(如果这样做,但在下一个新文档中,它可能是该词汇表中没有的新单词。就是这样解决我的问题的错误方法)
Keras 库及其文本预处理也无法解决我的问题二。前任。 “one hot” 将文本编码为大小为 的单词索引列表。但每个文档可能有不同的大小,当然还有顺序。这样比较两个向量可能会给出很大的距离,但实际上这个向量(由这个向量编码的单词)非常相似。
None
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)