Wor2vec 微调

2023-11-23

我需要微调我的 word2vec 模型。我有两个数据集，data1 and data2.

到目前为止我所做的是：

model = gensim.models.Word2Vec(
        data1,
        size=size_v,
        window=size_w,
        min_count=min_c,
        workers=work)
model.train(data1, total_examples=len(data1), epochs=epochs)

model.train(data2, total_examples=len(data2), epochs=epochs)

它是否正确？我需要将学习到的权重存储在某处吗？

我检查了这个答案 and this one但我不明白它是怎么做到的。

有人可以向我解释要遵循的步骤吗？

注意你don't需要打电话train() with data1如果你已经提供了data1在模型实例化时。该模型已经完成了自己的内部工作build_vocab() and train()在提供的语料库上，使用默认数量epochs(5) 如果您没有在实例化中指定。

“微调”并不是一个简单的过程，需要确保改进模型的可靠步骤。这是非常容易出错的。

特别是，如果单词data2模型尚不知道它们，它们将被忽略。（有一个选项可以调用build_vocab()与参数update=True扩大已知的词汇量，但这些单词并不真正与早期的单词完全平等。）

If data2包括一些单词，但不包括其他单词，仅包含data2通过额外的培训获得更新——这可能基本上会拉动这些词out与仅出现在中的其他单词具有可比较的对齐方式data1。（只有在交错的共享训练课程中一起训练的单词才会经历“推拉”，最终使它们处于有用的排列中。）

增量训练最安全的做法是洗牌data1 and data2一起，并对所有数据进行持续训练：使所有单词一起得到新的交错训练。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Wor2vec 微调的相关文章

如何编写嵌套的 __init__.py 文件

我正在努力解决嵌套问题 init py在我正在编写的Python包中该包具有以下架构 module init py submodule1 init py source py submodule2 init py source py sub
python sys.path 故障排除

python 文档位于http docs python org library sys html http docs python org library sys html比如说sys path is 从环境变量 PYTHONPATH 以及
蟒蛇 | MySQL | AttributeError：模块“mysql.connector”没有属性“connect”

我正在学习 python 中的一个新库 mysql 我尝试执行以下命令 import mysql connector mydb mysql connector connect host localhost user root passwd
从文本文件中删除特定字符

我对 Python 和编码都很陌生我当时正在做一个小项目但遇到了一个问题 44 1 6 23 2 7 49 2 3 53 2 1 68 1 6 71 2 7 我只需要从每行中删除第三个和第六个字符或者更具体地说从整个文件中删除字符
将 numpy 数组合并为单个 int

numpy 数组怎么可以这样 10 22 37 45 转换为单个 int32 数字如下所示 10223745 这可以工作 gt gt gt int join map str 10 22 37 45 10223745 基本上你使用map s
如何返回 cost, grad 作为 scipy 的 fmin_cg 函数的元组

我怎样才能使 scipy 的fmin cg使用一个返回的函数cost and gradient作为元组问题是有f对于成本和fprime对于梯度我可能必须执行两次操作非常昂贵 grad and cost被计算此外在它们之间共享变量可
反编译Python 3.9.2的PYC文件[重复]

这个问题在这里已经有答案了目前我有一个 3 9 2 版本的 python 的 PYC 文件 P S 这适用于所有 3 9 及更高版本我正在尝试反编译 PYC 文件但它显示错误因为 uncompyle6 或者更确切地说新版本 de
Mypy 无法从文字列表推断项目的类型

我有一个变量x和一个文字列表例如 0 1 2 我想转换x这些文字之一如果x在列表中我将其退回否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
是否可以从 Julia 调用 Python 函数并返回其结果？

我正在使用 Python 从网络上抓取数据我想使用这些数据在 Julia 中运行计算是否可以在 Julia 中调用该函数并返回其结果或者我最好直接导出到 CSV 并以这种方式加载数据绝对地看PyCall jl https gith
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
Arcpy 模数在 Pycharm 中不显示

如何将 Arcpy 集成到 Pycharm 中我尝试通过导入模块但它没有显示我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引上不可用因此无法通过 pip 安装要使用 arcpy 您需要
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
minizinc python 安装

我通过 anaconda 提示符在 python 上安装了 minizinc 就像其他软件包一样 pip install minizinc 该软件包表示已成功安装我可以导入该模块但是我正在遵循基本示例https minizinc py
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar

随机推荐

Hive解释计划理解

是否有任何适当的资源可以让我们完全理解 hive 生成的解释计划我尝试在 wiki 中搜索它但找不到完整的指南来理解它这是 wiki 它简要解释了解释计划的工作原理但我需要有关如何推断解释计划的更多信息 https cwiki a
如何将日期作为 URL 参数传递

我正在使用钛通过网络服务为特定的网络应用程序创建一些应用程序这里我将日期作为 URL 参数传递来调用 java 中的特定 webservice 方法日期格式如下 2015 02 04T05 10 58 05 30 在java服务方法中
PHP从具有关系数据的数组创建多维数组[重复]

这个问题在这里已经有答案了可能的重复根据父 ID 值将数组从一维转换为多维我正在 PHP 工作我有以下包含关系数据父子关系的数组 Array 5273 gt Array id gt 5273 name gt John Doe p
如何像在浏览器中一样在vscode中打开HTML文件？

vscode 或任何扩展更新完成后 vscode 中将显示发行说明我可以在我的电脑中找到releasenote 它是HTML文件我通过vscode打开它 vscode显示HTML代码不喜欢通过浏览器打开一般来说我想在vscode而
OpenGL 顶点缓冲区绑定点可以在不同的 VAO 之间重用吗？

假设我使用新的从 OpenGL 4 3 开始 glBindVertexBuffer 机制设置了两个 VAO glGenVertexArrays 1 vaoIndex0 glGenVertexArrays 1 vaoIndex1 glBin
如何在 PHP 中获取浮点数的二进制表示？

有没有办法在 PHP 中获取浮点数的二进制表示形式类似于 Java 的东西Double doubleToRawLongBits 给定一个正浮点数我想获得小于该数字的最大可表示浮点数在Java中我可以这样做 double x Doub
我应该如何将文件加载到我的 Java 应用程序中？

我应该如何将文件加载到我的 Java 应用程序中简短的回答使用以下两种方法之一 Class getResource String Class getResourceAsStream String 例如 InputStream input
在 Snap.svg 图形上设置 ID 属性

我在用着Snap svgAPI 和我需要在 CSS 中选择三个图形以用于样式设计因此为了区分它们我需要给它们一个 ID 或类名这就是我创建元素的方式 var draw Snap 100 75 c draw polyline 0 0
Java Nio绝对路径到相对路径

我有一个指向磁盘上文件的路径例如 C folder dir dir2 file txt 在代码中如果在使用该文件时抛出异常它将输出整个路径理想情况下最好不要打印整个目录而是像这样 dir2 file txt 看来我应该能够做到这
如何监控ActiveMQ Artemis

我正在 Windows NET 环境中使用 RabbitMQ ActiveMQ Classic 和 ActiveMQ Artemis 进行一些测试 RabbitMQ 和 ActiveMQ 经典附带一个 Web 界面您可以在其中查看有关代
除 na.rm= TRUE 外，mean 还返回 NaN

样本数据 date coins 2013 10 01 NA 2013 10 01 NA 2013 10 01 NA 2013 11 01 10 2013 11 01 NA 2013 11 01 20 2013 11 01 30 2013 1
jQuery UI 使用 .droppable 放入 div 时删除元素

我正在尝试找出如何做到这一点的逻辑我有很多只有 CSS 类名的图像它们是动态创建的这些图像可以使用 jQuery UI 进行拖动 draggable 我需要一个垃圾桶当将元素拖入时它会被删除 Example http jsfi
如何在 AngularJS 中设置动态模型名称？

我想用一些动态问题填充表单小提琴here div ul li div question Text div li ul div
CodeIgniter 中的联接查询[重复]

这个问题在这里已经有答案了我在 CodeIgniter 中使用联接查询但无法使其工作它只显示一个表数据而不显示另一表数据我是 CodeIgniter 的新手无法弄清楚这一点请有人帮助我提前Tnanks view br br
保证复制省略的行为是否取决于用户定义的复制构造函数的存在？

无论有或没有用户定义的复制构造函数以下代码的行为都不同在 GCC 8 0 1 下 include
django [Errno 2] 没有这样的文件或目录：

我已经构建了一个脚本来读取 Excel 文件并将内容保存到我的数据库中注意文件和脚本位于不同的目录中然而当我尝试从views py中执行脚本作为简单导入时 django会抛出一个错误指出它找不到文件或目录 Errno 2 No s
积分推广

在整数提升方面什么时候有符号整数无法表示原始类型的所有值来自文本 K R C 编程语言第二版 p 174 A 6 1 积分推广字符短整数或整数位域无论是否有符号或枚举类型的对象都可以在凡是可以使用整数的表达式如果一个int
进行网络通话的最佳地点

网络通话 static func getProfile parameters String AnyObject onComplete String AnyObject gt var requiredData String AnyObject
Namenode HA（UnknownHostException：nameservice1）

我们通过 Cloudera Manager 启用 Namenode 高可用性使用 Cloudera Manager gt gt HDFS gt gt 操作 gt 启用高可用性 gt gt 选定的备用名称节点和日志节点然后名称服务1 整个
Wor2vec 微调

我需要微调我的 word2vec 模型我有两个数据集 data1 and data2 到目前为止我所做的是 model gensim models Word2Vec data1 size size v window size w min

Wor2vec 微调

Wor2vec 微调 的相关文章

随机推荐

热门标签

Wor2vec 微调的相关文章