gensim

跨多种语言的语义相似度

我正在使用词嵌入来查找两个句子之间的相似性使用 word2vec 如果一个句子是英语另一个句子是荷兰语我还可以获得相似性度量尽管不是很好所以我开始想知道是否可以计算两种不同语言的两个句子之间的相似度没有明确的翻译特别是如果这些

NLP NLTK gensim Word2Vec

使用 Word2Vec.load() 时出现 Unpickling 错误

我正在尝试使用加载二进制文件gensim Word2Vec load fname 但我收到错误文件 file py 第 24 行位于模型 gensim models Word2Vec load ammendment vectors m

python gensim Word2Vec

如何通过python使用gensim的word2vec模型计算句子相似度

根据Gensim Word2Vec 我可以使用gensim包中的word2vec模型来计算2个单词之间的相似度 e g trained model similarity woman man 0 73723527 然而 word2vec 模型

python gensim Word2Vec

微调预训练的 word2vec Google 新闻

我目前正在使用在 Google 新闻语料库上训练的 Word2Vec 模型来自here 由于仅在 2013 年之前对新闻进行训练因此我需要更新向量并根据 2013 年之后的新闻在词汇表中添加新单词假设我在 2013 年之后有一个新的

python gensim Word2Vec googlenews fasttext

gensim - Doc2Vec：在英语维基百科上训练时出现 MemoryError

我从英语维基百科转储中提取了 145 185 965 个句子 14GB 我想根据这些句子训练 Doc2Vec 模型不幸的是我只有 32GB RAM 并且得到了内存错误当尝试训练时即使我将 min count 设置为 50 gensim

python OutOfMemory gensim doc2vec

如何比较三个预训练模型的余弦相似度？

我有两个语料库一个包含所有女性领导人的演讲另一个包含男性领导人的演讲我想测试这样一个假设一个语料库中两个单词之间的余弦相似度与另一个语料库中相同两个单词之间的余弦相似度显着不同这样的 t 检验或等效的合乎逻辑并且可能吗此外

NLP gensim Word2Vec wordembedding GloVe

gensim Word2vec 迁移学习（来自非 gensim 模型）

我有一组用神经网络训练的嵌入与 gensim 的 word2vec 无关我想使用这些嵌入作为初始权重gensim Word2vec 现在我看到的是我可以model load SOME MODEL 然后继续训练但是需要gensim模型作

python Word2Vec gensim

训练期间损失没有减少（Word2Vec、Gensim）

哪些情况会造成损失model get latest training loss 每个时期都会增加用于训练的代码 class EpochSaver CallbackAny2Vec Callback to save model after e

python gensim Word2Vec loss

如何在 gensim 创建的 word2vec 上运行 tsne？

我想可视化从 gensim 库创建的 word2vec 我尝试了 sklearn 但似乎我需要安装开发人员版本才能获得它我尝试安装开发人员版本但这在我的机器上不起作用是否可以修改此代码以可视化 word2vec 模型 tsne pyt

scikitlearn gensim Word2Vec

Python tf-idf：更新 tf-idf 矩阵的快速方法

我有一个包含数千行文本的数据集我的目标是计算 tfidf 分数然后计算文档之间的余弦相似度这就是我按照教程在 Python 中使用 gensim 所做的事情 dictionary corpora Dictionary dat corp

python NLP tfidf gensim cosinesimilarity

如何加快 Gensim Word2vec 模型加载时间？

我正在构建一个聊天机器人因此需要使用 Word2Vec 对用户的输入进行矢量化我正在使用 Google 提供的包含 300 万个单词的预训练模型 GoogleNews vectors male300 所以我使用 Gensim 加载模型

python NLP gensim Word2Vec

如何修复“C 扩展未加载，训练速度会很慢”的问题。安装 C 编译器并重新安装 gensim 以进行快速训练。

我正在使用库 node2vec 它基于 gensim word2vec 模型来对嵌入空间中的节点进行编码但是当我想要适应 word2vec 对象时我收到此警告 C Users lenovo Anaconda3 lib site pack

python3x jupyternotebook Anaconda gensim Word2Vec

使用多核 CPU 与 gensim 训练 Doc2vec 时效率不高

我使用24核虚拟CPU和100G内存用Gensim训练Doc2Vec 但无论修改核心数量 CPU使用率始终在200 左右 top htop 上面两张图显示了cpu使用率这表明cpu没有得到有效利用 cores multiprocessin

gensim

如何使用gensim wikicorpus获取带有标点符号的维基百科语料库文本？

我正在尝试获取带有标点符号的文本因为在我的 doc2vec 模型中考虑后者很重要然而维基语料库仅检索文本在搜索网络后我发现了这些页面来自 gensim github 问题部分的页面这是某人提出的问题答案是对 WikiCorp

python NLP gensim doc2vec

gensim.models.word2vec 参数说明

使用gensim训练词向量的实例 Initialize and train a Word2Vec model gt gt gt from gensim models import Word2Vec gt gt gt sentences ca

人工智能 机器学习 Word2Vec 词向量 gensim

gensim中word2vec API参数说明

在gensim中 word2vec相关的API都在gensim models word2vec中与算法相关的参数在 gensim models word2vec Word2Vec中其具体参数说明如下个人翻译如有出入欢迎指正 clas

NLP Word2Vec gensim 参数说明

Gensim word2vec计算多个词之间的相似度

使用most similar 函数即可代码如下 from gensim models import Word2Vec word model Word2Vec load wiki word2vec model 导入模型 word model

自然语言处理 gensim

Doc2vec计算文本相似度

1 Doc2vec模型介绍 Doc2Vec模型基于Word2vec模型并在其基础上增加了一个段落向量以Doc2Vec的C BOW方法为例算法的主要思想在以下两个方面训练过程中新增了paragraph id 即训练语料中每个句子都有一

NLP doc2vec 文本相似度 向量空间模型 gensim

解决gensim fasttext官方案例报错TypeError: Either one of corpus_file or corpus_iterable value must be provide

完整报错为 TypeError Either one of corpus file or corpus iterable value must be provided 解决方法将官方案例中传递参数时指定的sentences 删除即可比如

自然语言处理 fasttext gensim

gensim similarity计算文档相似度

向量空间模型计算文档集合相似性 0 将原始输入的词转换为ID xff0c 词的id表示法简单易用 xff0c 但是无法预测未登记词 xff0c 难以挖掘词关系 xff1b 词汇鸿沟 1 任意两个词之间是独立的 xff0c 无法通过词的ID来

gensim similarity 计算文档相似度