word2vec 模型由字符而不是单词组成

2024-03-17

我正在尝试使用 Gensim 在波斯语上制作一个 word2vec 模型，其中以“空格”作为字符分隔符，我使用 python 3.5。我遇到的问题是我给出了一个文本文件作为输入，它返回一个模型，该模型仅包含每个字符而不是单词。我还以推荐的单词列表的形式给出了输入：

Python Gensim word2vec 词汇键 https://stackoverflow.com/questions/43065843/python-gensim-word2vec-vocabulary-key%5D

它对我不起作用，我认为它没有考虑句子中的单词顺序，所以它是不正确的。

我对输入进行了一些预处理，其中包括：

将多个空白折叠成一个
通过空格分割进行标记
删除长度小于 3 个字符的单词删除停用词

我将文本交给了 word2vec，它给了我正确的结果，但我需要在 python 上使用它，所以我的选择仅限于使用 Gensim。

我还尝试在 gensim 上加载由 word2vec 源创建的模型，但出现错误，因此我需要通过 Gensim 创建 word2vec 模型。

我的代码是：

  wfile = open('aggregate.txt','r')    
  wfileRead = wfile.read()    
  model = word2vec.Word2Vec(wfileRead , size=100)   
  model.save('Word2Vec.txt')

gensim Word2Vec 模型不期望strings作为其文本示例（句子），但是令牌列表。因此，在将文本传递给 Word2Vec 之前，由您的代码对文本进行标记。

如图所示，您的代码只是将原始数据从“aggregate.txt”文件传递到 Word2Vec 中，如下所示wFileRead.

查看 gensim 文档中的示例，包括LineSentencegensim 包含的课程，用于获取想法

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

gensim

Word2Vec

word2vec 模型由字符而不是单词组成的相关文章

生成器不是迭代器吗？

我有一个生成器一个产生东西的函数但是当试图将它传递给gensim Word2Vec我收到以下错误类型错误您不能将生成器作为句子参数传递尝试迭代器生成器不是迭代器的一种吗如果没有我如何从中创建一个迭代器查看库代码它似乎只是
如何使用word2vec获取给定单词的单词嵌入向量和上下文向量？

from gensim models import word2vec sentences word2vec Text8Corpus TextFile model word2vec Word2Vec sentences size 200 mi
在lstm语言模型中使用预训练的word2vec？

我用tensorflow来训练LSTM语言模型代码来自here https github com tensorflow models blob master tutorials rnn ptb ptb word lm py 根据文章her
TensorFlow 嵌入查找

我正在尝试学习如何使用 TensorFlow 构建用于语音识别的 RNN 首先我想尝试 TensorFlow 页面上提供的一些示例模型TF RNN https www tensorflow org versions master tuto
Gensim：KeyError：“单词不在词汇表中”

我有一个使用 Python 的 Gensim 库训练过的 Word2vec 模型我有一个标记化列表如下所示词汇量为 34 但我只给出 34 中的几个 b let know buy someth featur mashabl might
如何从回调函数中中断Word2vec训练？

我正在使用 gensim word2vec 训练 Skipgram 模型我想在达到基于不同数据集的特定准确性测试的参数中传递的时期数之前退出训练以避免模型过度拟合 gensim 有没有办法从回调函数中断 word2vec 的训练如果事
word2vec - 什么是最好的？添加、连接或平均词向量？

我正在研究循环语言模型为了学习可用于初始化语言模型的词嵌入我使用 gensim 的 word2vec 模型训练后 word2vec 模型为词汇表中的每个单词保存两个向量单词嵌入输入隐藏矩阵的行和上下文嵌入隐藏输出矩阵的列
如何从句子中标记的 word2vec 中获取句子的向量

我已经使用 word2vec 从大型文档中生成了标记列表的向量给定一个句子是否可以从句子中标记的向量得到该句子的向量有不同的方法来获取句子向量 Doc2Vec 您可以使用 Doc2Vec 训练数据集然后使用句子向量 Word2Vec
给定单词向量（而不是单词本身），获取最相似的单词

使用gensim models Word2Vec库您可以提供一个模型和一个单词您希望找到最相似单词的列表 model gensim models Word2Vec load word2vec format model file bin
在 Word2Vec 中合并预训练模型？

我已经下载了 1000 亿字的 Google 新闻预训练矢量文件除此之外我还在训练自己的 3GB 数据生成另一个预训练的矢量文件两者都有 300 个特征维度和超过 1GB 的大小我如何合并这两个巨大的预训练向量或者我如何训练一个
使用 word2vec 的二元组向量表示

我想使用 word2vec 工具构建文档的词嵌入我知道如何找到与单个单词一元组相对应的向量嵌入现在我想找到二元组的向量是否可以使用 word2vec 构建二元词嵌入如果是怎么办以下代码片段将为您提供二元组的向量表示请注意
手动将搭配添加到 gensim 短语器

我正在对语言学论文进行主题建模并使用 Gensim 短语来识别频繁的搭配我希望能够将术语 do support 和 it clefts 标记为一个单词因为它们是特定的语言术语但是如果我在取出停用词后制作 Gensim 模型则不会
比较 NumPy 数组的相似性

我有一个形状为 300 的目标 NumPy 数组和一组形状也为 300 的候选数组这些数组是单词的 Word2Vec 表示我试图使用向量表示找到与目标单词最相似的候选单词找到与目标词最相似的候选词的最佳方法是什么一种方法是将目标词与
gensim 错误：导入错误：没有名为“gensim”的模块

我尝试导入 gensim import gensim 但出现以下错误 ImportError Traceback most recent call last
使用 t-sne 可视化从 gensim 生成的 word2vec

我使用 gensim 在我自己的语料库上训练了 doc2vec 和相应的 word2vec 我想使用 t sne 和单词来可视化 word2vec 如图所示图中的每个点也带有单词我在这里看了一个类似的问题 word2vec 上的 t
在 Tensorboard 投影仪中可视化 Gensim Word2vec 嵌入

我只看到了几个提出这个问题的问题但没有一个有答案所以我想我不妨尝试一下我一直在使用 gensim 的 word2vec 模型来创建一些向量我将它们导出为文本并尝试将其导入到嵌入投影仪的张量流实时模型中一个问题没用它告诉我张量
给定单词相似度推断句子相似度

假设我对两个句子中的每对单词都有一个单词相似度得分那么根据这些分数确定整体句子相似度的好方法是什么单词分数是使用表示每个单词的向量的余弦相似度来计算的现在我有了单独的单词分数将单独的单词分数相加并除以两个句子的总字数来获得两个句子的
gensim 的 get_document_topics 方法返回的概率加起来不等于 1

有时它返回所有主题的概率并且一切都很好但有时它只返回几个主题的概率并且它们加起来不等于一似乎这取决于文档一般来说当它返回很少的主题时概率加起来大约为 80 那么它只返回最相关的主题吗有没有办法强制它返回所有概率也许我遗漏了一些
为什么 Gensim doc2vec 给出 AttributeError: 'list' object has no attribute 'words'？

我正在尝试使用以下代码来实验 gensim doc2vec 据我从教程中了解到它应该有效然而它给出了属性错误列表对象没有属性单词 from gensim models doc2vec import LabeledSentence
如何使用 word2vec 找到与向量最接近的单词

我刚刚开始使用 Word2vec 我想知道如何找到最接近向量的单词我有这个向量它是一组向量的平均向量 array 0 00449447 0 00310097 0 02421786 dtype float32 有没有一种直接的方法可以在我

随机推荐

gcc 中的线程安全原子操作

在我编写的一个程序中我有很多代码如下 pthread mutex lock frame gt mutex frame gt variable variable pthread mutex unlock frame gt mutex 如果中
我怎样才能简化或清理这个字谜方法？

我这里有一个方法它接受一个字符串数组并将彼此不同的字符串分组在一起每个组形成主数组的子数组anagram groups array 输出很好但我觉得我的代码可能过于复杂如果不将事物重构为更多方法如何简化我的逻辑和或语法 def
为什么 Grails 建议将操作作为方法的控制器使用单例作用域？

我知道 Grails 的早期版本使用控制器的原型范围因为当时的操作都是闭包我知道当前版本文档建议使用单例作用域控制器作为使用方法作为操作的控制器从下面的文章来看方法和单例作用域似乎更可取或更推荐但尚不清楚原因 ttp grails
部署站点后，我无权访问 navigator.mediaDevices。我该如何解决？

我目前正在尝试使用 WebRTC api 并让一切在本地运行当我部署到surge sh我无法访问navigator mediaDevices目的我该如何解决这个问题以下代码行是我遇到问题的地方 const stream await n
如何获取卫星资源DLL的模块句柄？ (c++ Visual Studio)

我们已将所有字符串移至 MFC 应用程序的资源和附属 DLL 现在主要语言已合并到 EXE 本身中因此当我调用 LoadString 时我只需传入 exe 的模块句柄即可但是我需要使其通用如何以通用方式获取模块句柄并确保在适
document.addEventListener("touchmove", PreventBehavior, false); - 阻止我使用溢出：滚动； - 解决办法吗？

我使用phonegap构建一个ios应用程序这样你就无法移动phonegap使用的窗口document addEventListener touchmove preventBehavior false 这很好但它也阻止我使用 cssov
iOS - Facebook Open Graph API - 让标题显示在用户生成的图像旁边

我无法在用户生成的照片上显示标题如下所示相反这是一张非用户生成的照片带有标题和描述启用用户生成的照片后通过iOS Facebook Open Graph Api 确保照片是用户生成的 https stackoverflow co
SQL 主键：整数与 varchar

我正在合作的团队决定创建一个带有 varchar 主键的表该表被该主键上的另一个表引用我有按照我在大学学到的知识创建整数主键的习惯我读到使用整数主键可以提高性能问题是我不知道创建整数主键的任何其他原因你有什么建议吗主键应该代表行
我的程序不会根据条件停止

所以我的程序不会在条件 str2 o 下停止因此如果有人知道原因以及如何解决它它将帮助我这是我的代码 include
log4j2 未检测到自定义附加程序插件

我正在尝试为 log4j 2 0 创建自定义附加程序但在让我的 log4j 配置识别附加程序时遇到问题我知道 log4j 2 0 不支持配置属性中的包所以我按照建议尝试了here https stackoverflow com que
在事件操作中突出显示 SVG 中的多个路径元素

我有一个 SVG 它在一个组中包含多个路径元素它是一个包含多个岛屿的地图我希望当用户启动 onclick 等操作时突出显示所有岛屿每个岛屿由组内的路径表示我可以通过这样做来突出显示每个元素
创建过程 MySQL

我试图将一个过程从使用 sql plus 转换为 mysql 但在第三行出现语法错误其中显示 W IN IN NUMBER 并且 IN 突出显示为语法错误 SQL Plus CREATE OR REPLACE PROCEDURE PRC
移动表格使 IE9 崩溃

因此我对导致浏览器崩溃的 IE9 错误感到抓狂我有一个表正在使用媒体查询为小屏幕设备重新格式化这是一些非常巧妙的编码但是在 IE9 中当我将浏览器窗口重新调整为大于媒体查询时它会使 IE9 崩溃似乎当你尝试从 CSS 中删除
新的 C++11 range-for (foreach) 语法：哪些编译器支持它？

我在中看到了这个 c 11 代码片段Jeremy Siek 在 BoostCon 上的演讲 http ecee colorado edu siek boostcon2010bgl pdf deque
将数据保存和加载到文件 C++（初学者）

我有一个包含许多不同变量的类例如其中有一些多维向量我听说您可以将数据直接存储和加载到文件中但是可以到什么程度呢例如如果我创建此类的实例填充它然后将其保存到文件中我可以以相同的方式加载它吗就像那是如何运作的我是一次性保存所
如何在Android Studio上创建Renderscript脚本并运行它们？

背景我想研究如何在 Android 上创建 Renderscript 脚本以及一般的 Renderscript 在过去的一年里 Android Studio 成为 Google 支持 Android 应用程序开发的唯一 IDE 问题为此
SQL vs MySQL：关于聚合操作和 GROUP BY 的规则

In 这本书 https rads stackoverflow com amzn click com 0072465638我目前正在阅读有关数据库的课程给出了以下使用聚合运算符的非法查询的示例找出最年长水手的姓名和年龄考虑以下尝试回答
使用 readdir() 读取目录时删除文件

我的代码是这样的 DIR pDir opendir path to my dir struct dirent pFile NULL while pFile readdir Check if it is a zip file if subrs
** IE11 不支持运算符。如何使用代码将其替换为Math.pow？

我有这个示例公式 97000 5 50 100 12 1 1 5 50 100 12 1 120 问题是此代码在 IE11 中无法正常工作我尝试过这种方法来替换每个 with Math pow 但我无法让它正常工作 function de
word2vec 模型由字符而不是单词组成

我正在尝试使用 Gensim 在波斯语上制作一个 word2vec 模型其中以空格作为字符分隔符我使用 python 3 5 我遇到的问题是我给出了一个文本文件作为输入它返回一个模型该模型仅包含每个字符而不是单词我还以推荐的单

word2vec 模型由字符而不是单词组成

word2vec 模型由字符而不是单词组成 的相关文章

随机推荐

热门标签

word2vec 模型由字符而不是单词组成的相关文章