torchtext建立词表build_vocab()时使用自己的word2vec模型

2023-11-09

代码如下：

如果对于torchtext本身不太了解，可以参考：torchtext处理文本数据——构造dataset读取文本（学习一）:torchtext处理文本数据——构造dataset读取文本（学习一）

from torchtext import data

COMMENT = data.Field()
fields = [('name', None), ('comment', COMMENT)]

train = data.TabularDataset.splits(
    path='./',
    train='my_data.csv',
    format='csv',
    skip_header=True,
    fields=fields)
train = train[0]
# =========================上面都是torchtext的模板，下面开始自定义一个word2vec模型=========================
from gensim.models import Word2Vec

word2vec_model = Word2Vec([
    ['i', 'am', 'a', 'train', 'sentence', 'one'],
    ['i', 'am', 'a', 'love', 'sentence', 'two'],
    ['i', 'love', 'you'],
    ['you', 'love', 'me'],
], vector_size=256, min_count=1, window=5, sg=0)  # 这里训练了一个超级差劲的模型，但是意思就是这个意思
word2vec_model.wv.save_word2vec_format('my_word2vec_format.txt')  # 关键步骤，一定要写入到文件中
# =========================训练好后构建全部词表=========================
from torchtext.vocab import Vectors

vectors = Vectors(name='my_word2vec_format.txt')  # 关键步骤，一定要从文件中读取到Vectors中
COMMENT.build_vocab(train, vectors=vectors)
love_index = COMMENT.vocab.stoi['love']
print(love_index)  # love这个单词的下标
print("love的词向量：", COMMENT.vocab.vectors[love_index])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

自然语言处理

Word2Vec

深度学习

torchtext建立词表build_vocab()时使用自己的word2vec模型的相关文章

Spring Roo 实站（一）部署安装 & 第一个示例程序

一安装注可以参与官网spring roo static springsource org spring roo reference html intro html intro exploring sampleROO OPTS http
【Linux 驱动篇（二）】LED 驱动开发

文章目录一 Linux 下 LED 灯驱动原理 1 地址映射 1 1 ioremap 函数 1 2 iounmap 函数 2 I O 内存访问函数 2 1 读操作函数 2 2 写操作函数二实验程序编写 1 LED 灯驱动程序编写 2
电脑不能开热点的一种可以尝试的解决方法

1 说明方法不一定万能个人情况 win10 以前可以开热点不知何时起不能再开会显示我们无法设置移动热点 2 解决办法 1 管理员方式打开cmd 2 运行命令 netsh int ip reset netsh winsock res

随机推荐

【金融系列】【statsmodels】如何用Python做实证研究？介绍一个功能和STATA很像的Python包，最小二乘，虚拟变量

博主本科接触的研究主要是公司金融方向的研究在公司金融的实证研究中我们的终极目标是建立变量间的因果关系我们需要识别因果关系来检验理论评价政策效果或作出预测目前该领域的研究大部分是使用了STATA和R这两种工具来开展研究的其实作
亲测可用：opencv图片序列转视频

亲测可用 glob函数可以遍历文件夹下文件完毕后可在项目目录下生成output avi视频可以稍作改进转换的时候显示当前转换图像 include
网络安全专业毕业设计最新最全选题精华汇总-持续更新中

前言大家好这里是海浪学长毕设专题大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的升学就业做准备一边要为毕业设计耗费大量精力学长给大家整理了网络安全专业最新精选选题如遇选题困难或选题有任何疑问
将语雀文档迁移到飞书

前言我爬虫课程的文字版内容沉淀在语雀的知识库中一开始感觉很不错随着课程一直在卖很快就超过了200人的限制我已经是个人版中最高级的会员了但语雀知识库的协作人数依旧限制在200人即花钱无法解决问题先说一下我的需求我需要一个可以
深度学习之实现图像数据增强

深度学习之实现图像数据增强前言数据增强的意思就是让数据量增多对于深度学习来说大的数据量可以训练出更好的深度学习模型在图像增强方面我们常用的手段如下旋转翻转缩放平移尺度变换对比度变换噪声扰动颜色变换 1 使用ten
What the f*ck Python!(中文翻译版)

What the f ck Python From https github com leisurelicht wtfpython cn 一些有趣且鲜为人知的 Python 特性 Python 是一个设计优美的解释型高级语言它提供了很多能
SPFA 算法模板

SPFA 代替 Dijkstra 计算最短路题目题目链接题解 SPFA 一般时间复杂度为 O m O m O m 最坏情况下为 O
CNN人脸识别项目（dlib+opencv）

CNN人脸识别获取数据集读取数据集数据预处理建立模型进行预训练对图片进行人脸进行检测并进行可视化总结思路一个CNN人脸识别项目首先必不可少的是数据集获取的方式有网站数据库 PubFig Public Figures Fac
ORACLE查询删除重复记录三种方法

比如现在有一人员表表名 peosons 若想将姓名身份证号住址这三个字段完全相同的记录查询出来复制代码代码如下 select p1 from persons p1 persons p2 where p1 id lt gt p2 id
如何实现Java的JDBC编程（基本概念，驱动包安装）

Java的JDBC编程这里写目录标题 Java的JDBC编程 1 概念 2 安装驱动包 3 实现JDBC编程 1 概念何为 JDBC编程就是通过Java代码来操作数据库咱们学数据库无论是命令行还是图形化界面都不是开发中的主流使
测试工作中一定要学会做业务总结

前言在日常的测试工作中不知道大家是否会有梳理自己测试业务的习惯我个人觉得这个事情是值得做的最好培养成一个习惯另外一定要依托于业务价值来实现自己的变现梳理被测业务就是一种很好的自我提升方式测试工作中一定要学会业务总结一为什
JavaWeb之xml学习笔记一（约束初步使用）

html和xml的不同点元素和属性 html中的元素和属性都是预先设定的而xml中没有预想设定的元素和属性 xml是可扩张的标记语言标记可以用户自定义元素和属性使用目的 html使用来显示界面的注重的是外观和功能而xml是用来传
Feign远程调用请求头丢失问题及解决方案

问题描述在微服务项目中通过Feign远程调用另一个模块的接口由于请求头没传过去导致接口调用失败解决办法 feign调用远程接口时会扫描所有的拦截器执行apply方法我们可以创建一个拦截器放到spring容器中在拦截器里把原来
module ‘scipy.misc‘ has no attribute ‘imresize‘

报错 AttributeError module scipy misc has no attribute imresize 解决方法使用skimage库 conda install scikit image 注意 scipy misc i
第十六章PHY -基于Linux3.10

下载地址 http download csdn net detail shichaog 8620701 16 1 PHY 本章和OSI模型中的物理层和数据链路层关系密切在嵌入式SOC上通常集成有ARM核和MAC控制器以及增加数据传输带
信噪比和信干噪比

1 信噪比即香农公式信道容量公式中的S N C B log 2
java和javascript区别_java和javascript之间有什么区别

java和javascript之间有什么区别本篇文章就给大家介绍java和javascript之间的区别让大家了解java和javascript是什么它们之间的差异有哪些有一定的参考价值有需要的朋友可以参考一下希望对你们有所帮助
数据库实验——数据表的导入导出

管理数据表创建表的目在于利用表进行数据的存储和管理对数据进行管理的前提是数据的存储向表中添加数据没有数据的表是没有任何实际意义的添加完成后用户也可以根据自己的需要对表中数据进行修改和删除在SQL Server 2008中对于
PowerDesigner显示汉字表名和英文表名

菜单 gt Tool gt Model Options gt Name Convention gt 右侧display中选择显示name还是code 不支持同时显示但可以选择显示code 然后将name填入stereotype中变相同时
torchtext建立词表build_vocab()时使用自己的word2vec模型

代码如下如果对于torchtext本身不太了解可以参考 torchtext处理文本数据构造dataset读取文本学习一 torchtext处理文本数据构造dataset读取文本学习一 from torchtext import

torchtext建立词表build_vocab()时使用自己的word2vec模型

torchtext建立词表build_vocab()时使用自己的word2vec模型 的相关文章

随机推荐

热门标签

torchtext建立词表build_vocab()时使用自己的word2vec模型的相关文章