word2vec 模型由字符而不是单词组成

2024-03-17

我正在尝试使用 Gensim 在波斯语上制作一个 word2vec 模型,其中以“空格”作为字符分隔符,我使用 python 3.5。我遇到的问题是我给出了一个文本文件作为输入,它返回一个模型,该模型仅包含每个字符而不是单词。我还以推荐的单词列表的形式给出了输入:

Python Gensim word2vec 词汇键 https://stackoverflow.com/questions/43065843/python-gensim-word2vec-vocabulary-key%5D

它对我不起作用,我认为它没有考虑句子中的单词顺序,所以它是不正确的。

我对输入进行了一些预处理,其中包括:

将多个空白折叠成一个
通过空格分割进行标记
删除长度小于 3 个字符的单词 删除停用词

我将文本交给了 word2vec,它给了我正确的结果,但我需要在 python 上使用它,所以我的选择仅限于使用 Gensim。

我还尝试在 gensim 上加载由 word2vec 源创建的模型,但出现错误,因此我需要通过 Gensim 创建 word2vec 模型。

我的代码是:

  wfile = open('aggregate.txt','r')    
  wfileRead = wfile.read()    
  model = word2vec.Word2Vec(wfileRead , size=100)   
  model.save('Word2Vec.txt')

gensim Word2Vec 模型不期望strings作为其文本示例(句子),但是令牌列表。因此,在将文本传递给 Word2Vec 之前,由您的代码对文本进行标记。

如图所示,您的代码只是将原始数据从“aggregate.txt”文件传递到 Word2Vec 中,如下所示wFileRead.

查看 gensim 文档中的示例,包括LineSentencegensim 包含的课程,用于获取想法

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

word2vec 模型由字符而不是单词组成 的相关文章

  • 生成器不是迭代器吗?

    我有一个生成器 一个产生东西的函数 但是当试图将它传递给gensim Word2Vec我收到以下错误 类型错误 您不能将生成器作为句子参数传递 尝试迭代器 生成器不是迭代器的一种吗 如果没有 我如何从中创建一个迭代器 查看库代码 它似乎只是
  • 如何使用word2vec获取给定单词的单词嵌入向量和上下文向量?

    from gensim models import word2vec sentences word2vec Text8Corpus TextFile model word2vec Word2Vec sentences size 200 mi
  • 在lstm语言模型中使用预训练的word2vec?

    我用tensorflow来训练LSTM语言模型 代码来自here https github com tensorflow models blob master tutorials rnn ptb ptb word lm py 根据文章her
  • TensorFlow 嵌入查找

    我正在尝试学习如何使用 TensorFlow 构建用于语音识别的 RNN 首先 我想尝试 TensorFlow 页面上提供的一些示例模型TF RNN https www tensorflow org versions master tuto
  • Gensim:KeyError:“单词不在词汇表中”

    我有一个使用 Python 的 Gensim 库训练过的 Word2vec 模型 我有一个标记化列表 如下所示 词汇量为 34 但我只给出 34 中的几个 b let know buy someth featur mashabl might
  • 如何从回调函数中中断Word2vec训练?

    我正在使用 gensim word2vec 训练 Skipgram 模型 我想在达到基于不同数据集的特定准确性测试的参数中传递的时期数之前退出训练 以避免模型过度拟合 gensim 有没有办法从回调函数中断 word2vec 的训练 如果事
  • word2vec - 什么是最好的?添加、连接或平均词向量?

    我正在研究循环语言模型 为了学习可用于初始化语言模型的词嵌入 我使用 gensim 的 word2vec 模型 训练后 word2vec 模型为词汇表中的每个单词保存两个向量 单词嵌入 输入 隐藏矩阵的行 和上下文嵌入 隐藏 输出矩阵的列
  • 如何从句子中标记的 word2vec 中获取句子的向量

    我已经使用 word2vec 从大型文档中生成了标记列表的向量 给定一个句子 是否可以从句子中标记的向量得到该句子的向量 有不同的方法来获取句子向量 Doc2Vec 您可以使用 Doc2Vec 训练数据集 然后使用句子向量 Word2Vec
  • 给定单词向量(而不是单词本身),获取最相似的单词

    使用gensim models Word2Vec库 您可以提供一个模型和一个 单词 您希望找到最相似单词的列表 model gensim models Word2Vec load word2vec format model file bin
  • 在 Word2Vec 中合并预训练模型?

    我已经下载了 1000 亿字的 Google 新闻预训练矢量文件 除此之外 我还在训练自己的 3GB 数据 生成另一个预训练的矢量文件 两者都有 300 个特征维度和超过 1GB 的大小 我如何合并这两个巨大的预训练向量 或者我如何训练一个
  • 使用 word2vec 的二元组向量表示

    我想使用 word2vec 工具构建文档的词嵌入 我知道如何找到与单个单词 一元组 相对应的向量嵌入 现在 我想找到二元组的向量 是否可以使用 word2vec 构建二元词嵌入 如果是 怎么办 以下代码片段将为您提供二元组的向量表示 请注意
  • 手动将搭配添加到 gensim 短语器

    我正在对语言学论文进行主题建模 并使用 Gensim 短语来识别频繁的搭配 我希望能够将术语 do support 和 it clefts 标记为一个单词 因为它们是特定的语言术语 但是 如果我在取出停用词后制作 Gensim 模型 则不会
  • 比较 NumPy 数组的相似性

    我有一个形状为 300 的目标 NumPy 数组和一组形状也为 300 的候选数组 这些数组是单词的 Word2Vec 表示 我试图使用向量表示找到与目标单词最相似的候选单词 找到与目标词最相似的候选词的最佳方法是什么 一种方法是将目标词与
  • gensim 错误:导入错误:没有名为“gensim”的模块

    我尝试导入 gensim import gensim 但出现以下错误 ImportError Traceback most recent call last
  • 使用 t-sne 可视化从 gensim 生成的 word2vec

    我使用 gensim 在我自己的语料库上训练了 doc2vec 和相应的 word2vec 我想使用 t sne 和单词来可视化 word2vec 如图所示 图中的每个点也带有 单词 我在这里看了一个类似的问题 word2vec 上的 t
  • 在 Tensorboard 投影仪中可视化 Gensim Word2vec 嵌入

    我只看到了几个提出这个问题的问题 但没有一个有答案 所以我想我不妨尝试一下 我一直在使用 gensim 的 word2vec 模型来创建一些向量 我将它们导出为文本 并尝试将其导入到嵌入投影仪的张量流实时模型中 一个问题 没用 它告诉我张量
  • 给定单词相似度推断句子相似度

    假设我对两个句子中的每对单词都有一个单词相似度得分 那么根据这些分数确定整体句子相似度的好方法是什么 单词分数是使用表示每个单词的向量的余弦相似度来计算的 现在我有了单独的单词分数 将单独的单词分数相加并除以两个句子的总字数来获得两个句子的
  • gensim 的 get_document_topics 方法返回的概率加起来不等于 1

    有时它返回所有主题的概率并且一切都很好 但有时它只返回几个主题的概率并且它们加起来不等于一 似乎这取决于文档 一般来说 当它返回很少的主题时 概率加起来大约为 80 那么它只返回最相关的主题吗 有没有办法强制它返回所有概率 也许我遗漏了一些
  • 为什么 Gensim doc2vec 给出 AttributeError: 'list' object has no attribute 'words'?

    我正在尝试使用以下代码来实验 gensim doc2vec 据我从教程中了解到 它应该有效 然而它给出了属性错误 列表 对象没有属性 单词 from gensim models doc2vec import LabeledSentence
  • 如何使用 word2vec 找到与向量最接近的单词

    我刚刚开始使用 Word2vec 我想知道如何找到最接近向量的单词 我有这个向量 它是一组向量的平均向量 array 0 00449447 0 00310097 0 02421786 dtype float32 有没有一种直接的方法可以在我

随机推荐

  • gcc 中的线程安全原子操作

    在我编写的一个程序中 我有很多代码如下 pthread mutex lock frame gt mutex frame gt variable variable pthread mutex unlock frame gt mutex 如果中
  • 我怎样才能简化或清理这个字谜方法?

    我这里有一个方法 它接受一个字符串数组 并将彼此不同的字符串分组在一起 每个组形成主数组的子数组anagram groups array 输出很好 但我觉得我的代码可能过于复杂 如果不将事物重构为更多方法 如何简化我的逻辑和 或语法 def
  • 为什么 Grails 建议将操作作为方法的控制器使用单例作用域?

    我知道 Grails 的早期版本使用控制器的原型范围 因为当时的操作都是闭包 我知道当前版本文档建议使用单例作用域控制器作为使用方法作为操作的控制器 从下面的文章来看 方法和单例作用域似乎更可取或更推荐 但尚不清楚原因 ttp grails
  • 部署站点后,我无权访问 navigator.mediaDevices。我该如何解决?

    我目前正在尝试使用 WebRTC api 并让一切在本地运行 当我部署到surge sh我无法访问navigator mediaDevices目的 我该如何解决这个问题 以下代码行是我遇到问题的地方 const stream await n
  • 如何获取卫星资源DLL的模块句柄? (c++ Visual Studio)

    我们已将所有字符串移至 MFC 应用程序的资源 和附属 DLL 现在 主要语言已合并到 EXE 本身中 因此当我调用 LoadString 时 我只需传入 exe 的模块句柄即可 但是 我需要使其通用 如何以通用方式获取模块句柄 并确保在适
  • document.addEventListener("touchmove", PreventBehavior, false); - 阻止我使用溢出:滚动; - 解决办法吗?

    我使用phonegap构建一个ios应用程序 这样你就无法移动phonegap使用的窗口document addEventListener touchmove preventBehavior false 这很好 但它也阻止我使用 cssov
  • iOS - Facebook Open Graph API - 让标题显示在用户生成的图像旁边

    我无法在用户生成的照片上显示标题 如下所示 相反 这是一张非用户生成的照片 带有标题和描述 启用用户生成的照片后 通过iOS Facebook Open Graph Api 确保照片是用户生成的 https stackoverflow co
  • SQL 主键:整数与 varchar

    我正在合作的团队决定创建一个带有 varchar 主键的表 该表被该主键上的另一个表引用 我有按照我在大学学到的知识创建整数主键的习惯 我读到使用整数主键可以提高性能 问题是我不知道创建整数主键的任何其他原因 你有什么建议吗 主键应该代表行
  • 我的程序不会根据条件停止

    所以 我的程序不会在条件 str2 o 下停止 因此 如果有人知道原因以及如何解决它 它将帮助我 这是我的代码 include
  • log4j2 未检测到自定义附加程序插件

    我正在尝试为 log4j 2 0 创建自定义附加程序 但在让我的 log4j 配置识别附加程序时遇到问题 我知道 log4j 2 0 不支持配置属性中的包 所以我按照建议尝试了here https stackoverflow com que
  • 在事件操作中突出显示 SVG 中的多个路径元素

    我有一个 SVG 它在一个组中包含多个路径元素 它是一个包含多个岛屿的地图 我希望当用户启动 onclick 等操作时突出显示所有岛屿 每个岛屿由组内的路径表示 我可以通过这样做来突出显示每个元素
  • 创建过程 MySQL

    我试图将一个过程从使用 sql plus 转换为 mysql 但在第三行出现语法错误 其中显示 W IN IN NUMBER 并且 IN 突出显示为语法错误 SQL Plus CREATE OR REPLACE PROCEDURE PRC
  • 移动表格使 IE9 崩溃

    因此 我对导致浏览器崩溃的 IE9 错误感到抓狂 我有一个表 正在使用媒体查询为小屏幕设备重新格式化 这是一些非常巧妙的编码 但是在 IE9 中 当我将浏览器窗口重新调整为大于媒体查询时 它会使 IE9 崩溃 似乎当你尝试从 CSS 中删除
  • 新的 C++11 range-for (foreach) 语法:哪些编译器支持它?

    我在中看到了这个 c 11 代码片段Jeremy Siek 在 BoostCon 上的演讲 http ecee colorado edu siek boostcon2010bgl pdf deque
  • 将数据保存和加载到文件 C++(初学者)

    我有一个包含许多不同变量的类 例如其中有一些多维向量 我听说您可以将数据直接存储和加载到文件中 但是可以到什么程度呢 例如 如果我创建此类的实例 填充它 然后将其保存到文件中 我可以以相同的方式加载它吗 就像那是如何运作的 我是一次性保存所
  • 如何在Android Studio上创建Renderscript脚本并运行它们?

    背景 我想研究如何在 Android 上创建 Renderscript 脚本以及一般的 Renderscript 在过去的一年里 Android Studio 成为 Google 支持 Android 应用程序开发的唯一 IDE 问题 为此
  • SQL vs MySQL:关于聚合操作和 GROUP BY 的规则

    In 这本书 https rads stackoverflow com amzn click com 0072465638我目前正在阅读有关数据库的课程 给出了以下使用聚合运算符的非法查询的示例 找出最年长水手的姓名和年龄 考虑以下尝试回答
  • 使用 readdir() 读取目录时删除文件

    我的代码是这样的 DIR pDir opendir path to my dir struct dirent pFile NULL while pFile readdir Check if it is a zip file if subrs
  • ** IE11 不支持运算符。如何使用代码将其替换为Math.pow?

    我有这个示例公式 97000 5 50 100 12 1 1 5 50 100 12 1 120 问题是此代码在 IE11 中无法正常工作 我尝试过这种方法来替换每个 with Math pow 但我无法让它正常工作 function de
  • word2vec 模型由字符而不是单词组成

    我正在尝试使用 Gensim 在波斯语上制作一个 word2vec 模型 其中以 空格 作为字符分隔符 我使用 python 3 5 我遇到的问题是我给出了一个文本文件作为输入 它返回一个模型 该模型仅包含每个字符而不是单词 我还以推荐的单