Word2Vec

加权词嵌入是什么意思？

In the paper http www aclweb org anthology S17 2100我正在努力实施它说在这项工作中使用三种类型的文本对推文进行建模表示第一个是词袋模型权重为 tf idf 词频逆文档频率部分

machinelearning NLP Word2Vec tfidf wordembedding

在lstm语言模型中使用预训练的word2vec？

我用tensorflow来训练LSTM语言模型代码来自here https github com tensorflow models blob master tutorials rnn ptb ptb word lm py 根据文章her

tensorflow LSTM Word2Vec

如何使用word2vec获取给定单词的单词嵌入向量和上下文向量？

from gensim models import word2vec sentences word2vec Text8Corpus TextFile model word2vec Word2Vec sentences size 200 mi

python vector Word2Vec wordembedding

生成器不是迭代器吗？

我有一个生成器一个产生东西的函数但是当试图将它传递给gensim Word2Vec我收到以下错误类型错误您不能将生成器作为句子参数传递尝试迭代器生成器不是迭代器的一种吗如果没有我如何从中创建一个迭代器查看库代码它似乎只是

python gensim Word2Vec

如何使用单词的向量表示（从 Word2Vec 等获得）作为分类器的特征？

我熟悉使用 BOW 特征进行文本分类其中我们首先找到语料库的词汇量这将成为我们特征向量的大小对于每个句子文档及其所有组成词我们根据该句子文档中该词的不存在存在来放置 0 1 但是现在我尝试使用每个单词的向量表示创建全局词汇

Text vector NLP textclassification Word2Vec

为什么gensim.word2vec中两个词袋之间的相似度要这样计算？

def n similarity self ws1 ws2 v1 self word for word in ws1 v2 self word for word in ws2 return dot matutils unitvec arra

NLP gensim Word2Vec

将 word2vec bin 文件转换为文本

来自word2vec https code google com p word2vec 网站我可以下载 GoogleNews vectors male300 bin gz bin 文件大约 3 4GB 是一种对我来说没有用的二进制格式托

python c gensim Word2Vec

使用大型 txt 文件训练 Gensim word2vec

我有一个像这样的大txt文件 150MG intrepid bumbling duo deliver good one better offering considerable cv freshly qualified private 我想

python3x gensim Word2Vec

为什么 Spark 的 Word2Vec 返回向量？

运行Spark 的 Word2Vec 示例我意识到它接受一个字符串数组并给出一个向量我的问题是它不应该返回矩阵而不是向量吗我期望每个输入单词有一个向量但它返回一个向量周期或者也许它应该接受字符串而不是字符串数组一个单词作为

Java apachespark machinelearning Word2Vec apachesparkml

如何使用word2vec？

我必须用语料库中的单词制作词汇图为此我需要使用 word2vec 编写一个程序问题是我对此很陌生我已经尝试了 4 天来找到使用 word2vec 的方法但我迷失了我的大问题是我什至不知道在哪里可以找到Java代码我听说过深度

Java Word2Vec

所有文档中的成对推土机距离（word2vec 表示）

是否有一个库可以获取文档列表并集体计算 nxn 距离矩阵其中提供了 word2vec 模型我可以看到 genism 允许您在两个文档之间执行此操作但我需要对所有文档进行快速比较就像 sklearns cosine similarit

python scikitlearn Distance Word2Vec

使用 Gensim 提取短语时出错

我正在尝试使用 Gensim 中的短语来获取句子中的二元组如下所示 from gensim models import Phrases from gensim models phrases import Phraser documents

python datamining textmining Word2Vec gensim

跨多种语言的语义相似度

我正在使用词嵌入来查找两个句子之间的相似性使用 word2vec 如果一个句子是英语另一个句子是荷兰语我还可以获得相似性度量尽管不是很好所以我开始想知道是否可以计算两种不同语言的两个句子之间的相似度没有明确的翻译特别是如果这些

NLP NLTK gensim Word2Vec

如何在Spacy中为OOV术语指定词向量？

我有一个预训练的 word2vec 模型我将其加载到spacy对新单词进行矢量化给定我执行的新文本nlp hi vector获取单词 hi 的向量最终需要对一个新单词进行向量化该新单词不存在于我的预训练模型的词汇表中在这种情况下

python Word2Vec spacy

使用 Word2Vec.load() 时出现 Unpickling 错误

我正在尝试使用加载二进制文件gensim Word2Vec load fname 但我收到错误文件 file py 第 24 行位于模型 gensim models Word2Vec load ammendment vectors m

python gensim Word2Vec

如何通过python使用gensim的word2vec模型计算句子相似度

根据Gensim Word2Vec 我可以使用gensim包中的word2vec模型来计算2个单词之间的相似度 e g trained model similarity woman man 0 73723527 然而 word2vec 模型

python gensim Word2Vec

微调预训练的 word2vec Google 新闻

我目前正在使用在 Google 新闻语料库上训练的 Word2Vec 模型来自here 由于仅在 2013 年之前对新闻进行训练因此我需要更新向量并根据 2013 年之后的新闻在词汇表中添加新单词假设我在 2013 年之后有一个新的

python gensim Word2Vec googlenews fasttext

“文件”对象没有属性“rfind”[关闭]

Closed 这个问题是无法重现或由拼写错误引起目前不接受答案我正在尝试将 word2vec 保存到文件中 model Word2Vec sentences size vector size window 5 min count 5 w

python Word2Vec

如何比较三个预训练模型的余弦相似度？

我有两个语料库一个包含所有女性领导人的演讲另一个包含男性领导人的演讲我想测试这样一个假设一个语料库中两个单词之间的余弦相似度与另一个语料库中相同两个单词之间的余弦相似度显着不同这样的 t 检验或等效的合乎逻辑并且可能吗此外

NLP gensim Word2Vec wordembedding GloVe

gensim Word2vec 迁移学习（来自非 gensim 模型）

我有一组用神经网络训练的嵌入与 gensim 的 word2vec 无关我想使用这些嵌入作为初始权重gensim Word2vec 现在我看到的是我可以model load SOME MODEL 然后继续训练但是需要gensim模型作

python Word2Vec gensim