Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
跨多种语言的语义相似度
我正在使用词嵌入来查找两个句子之间的相似性 使用 word2vec 如果一个句子是英语 另一个句子是荷兰语 我还可以获得相似性度量 尽管不是很好 所以我开始想知道是否可以计算两种不同语言的两个句子之间的相似度 没有明确的翻译 特别是如果这些
NLP
NLTK
gensim
Word2Vec
使用 Word2Vec.load() 时出现 Unpickling 错误
我正在尝试使用加载二进制文件gensim Word2Vec load fname 但我收到错误 文件 file py 第 24 行 位于 模型 gensim models Word2Vec load ammendment vectors m
python
gensim
Word2Vec
如何通过python使用gensim的word2vec模型计算句子相似度
根据Gensim Word2Vec 我可以使用gensim包中的word2vec模型来计算2个单词之间的相似度 e g trained model similarity woman man 0 73723527 然而 word2vec 模型
python
gensim
Word2Vec
微调预训练的 word2vec Google 新闻
我目前正在使用在 Google 新闻语料库上训练的 Word2Vec 模型 来自here 由于仅在 2013 年之前对新闻进行训练 因此我需要更新向量 并根据 2013 年之后的新闻在词汇表中添加新单词 假设我在 2013 年之后有一个新的
python
gensim
Word2Vec
googlenews
fasttext
gensim - Doc2Vec:在英语维基百科上训练时出现 MemoryError
我从英语维基百科转储中提取了 145 185 965 个句子 14GB 我想根据这些句子训练 Doc2Vec 模型 不幸的是我 只有 32GB RAM 并且得到了内存错误当尝试训练时 即使我将 min count 设置为 50 gensim
python
OutOfMemory
gensim
doc2vec
如何比较三个预训练模型的余弦相似度?
我有两个语料库 一个包含所有女性领导人的演讲 另一个包含男性领导人的演讲 我想测试这样一个假设 一个语料库中两个单词之间的余弦相似度与另一个语料库中相同两个单词之间的余弦相似度显着不同 这样的 t 检验 或等效的 合乎逻辑并且可能吗 此外
NLP
gensim
Word2Vec
wordembedding
GloVe
gensim Word2vec 迁移学习(来自非 gensim 模型)
我有一组用神经网络训练的嵌入 与 gensim 的 word2vec 无关 我想使用这些嵌入作为初始权重gensim Word2vec 现在我看到的是我可以model load SOME MODEL 然后继续训练 但是需要gensim模型作
python
Word2Vec
gensim
训练期间损失没有减少(Word2Vec、Gensim)
哪些情况会造成损失model get latest training loss 每个时期都会增加 用于训练的代码 class EpochSaver CallbackAny2Vec Callback to save model after e
python
gensim
Word2Vec
loss
如何在 gensim 创建的 word2vec 上运行 tsne?
我想可视化从 gensim 库创建的 word2vec 我尝试了 sklearn 但似乎我需要安装开发人员版本才能获得它 我尝试安装开发人员版本 但这在我的机器上不起作用 是否可以修改此代码以可视化 word2vec 模型 tsne pyt
scikitlearn
gensim
Word2Vec
Python tf-idf:更新 tf-idf 矩阵的快速方法
我有一个包含数千行文本的数据集 我的目标是计算 tfidf 分数 然后计算文档之间的余弦相似度 这就是我按照教程在 Python 中使用 gensim 所做的事情 dictionary corpora Dictionary dat corp
python
NLP
tfidf
gensim
cosinesimilarity
如何加快 Gensim Word2vec 模型加载时间?
我正在构建一个聊天机器人 因此需要使用 Word2Vec 对用户的输入进行矢量化 我正在使用 Google 提供的包含 300 万个单词的预训练模型 GoogleNews vectors male300 所以我使用 Gensim 加载模型
python
NLP
gensim
Word2Vec
如何修复“C 扩展未加载,训练速度会很慢”的问题。安装 C 编译器并重新安装 gensim 以进行快速训练。
我正在使用库 node2vec 它基于 gensim word2vec 模型来对嵌入空间中的节点进行编码 但是当我想要适应 word2vec 对象时 我收到此警告 C Users lenovo Anaconda3 lib site pack
python3x
jupyternotebook
Anaconda
gensim
Word2Vec
使用多核 CPU 与 gensim 训练 Doc2vec 时效率不高
我使用24核虚拟CPU和100G内存用Gensim训练Doc2Vec 但无论修改核心数量 CPU使用率始终在200 左右 top htop 上面两张图显示了cpu使用率 这表明cpu没有得到有效利用 cores multiprocessin
gensim
如何使用gensim wikicorpus获取带有标点符号的维基百科语料库文本?
我正在尝试获取带有标点符号的文本 因为在我的 doc2vec 模型中考虑后者很重要 然而 维基语料库仅检索文本 在搜索网络后 我发现了这些页面 来自 gensim github 问题部分的页面 这是某人提出的问题 答案是对 WikiCorp
python
NLP
gensim
doc2vec
gensim.models.word2vec 参数说明
使用gensim训练词向量的实例 Initialize and train a Word2Vec model gt gt gt from gensim models import Word2Vec gt gt gt sentences ca
人工智能
机器学习
Word2Vec
词向量
gensim
gensim中word2vec API参数说明
在gensim中 word2vec相关的API都在gensim models word2vec中 与算法相关的参数在 gensim models word2vec Word2Vec中 其具体参数说明如下 个人翻译 如有出入欢迎指正 clas
NLP
Word2Vec
gensim
参数说明
Gensim word2vec计算多个词之间的相似度
使用most similar 函数即可 代码如下 from gensim models import Word2Vec word model Word2Vec load wiki word2vec model 导入模型 word model
自然语言处理
gensim
Doc2vec计算文本相似度
1 Doc2vec模型介绍 Doc2Vec模型基于Word2vec模型 并在其基础上增加了一个段落向量 以Doc2Vec的C BOW方法为例 算法的主要思想在以下两个方面 训练过程中新增了paragraph id 即训练语料中每个句子都有一
NLP
doc2vec
文本相似度
向量空间模型
gensim
解决gensim fasttext官方案例报错TypeError: Either one of corpus_file or corpus_iterable value must be provide
完整报错为 TypeError Either one of corpus file or corpus iterable value must be provided 解决方法 将官方案例中传递参数时指定的sentences 删除即可 比如
自然语言处理
fasttext
gensim
gensim similarity计算文档相似度
向量空间模型计算文档集合相似性 0 将原始输入的词转换为ID xff0c 词的id表示法简单易用 xff0c 但是无法预测未登记词 xff0c 难以挖掘词关系 xff1b 词汇鸿沟 1 任意两个词之间是独立的 xff0c 无法通过词的ID来
gensim
similarity
计算文档相似度
«
1
2
3
4
5
»