Wor2vec 微调

2023-11-23

我需要微调我的 word2vec 模型。我有两个数据集,data1 and data2.

到目前为止我所做的是:

model = gensim.models.Word2Vec(
        data1,
        size=size_v,
        window=size_w,
        min_count=min_c,
        workers=work)
model.train(data1, total_examples=len(data1), epochs=epochs)

model.train(data2, total_examples=len(data2), epochs=epochs)

它是否正确?我需要将学习到的权重存储在某处吗?

我检查了这个答案 and this one但我不明白它是怎么做到的。

有人可以向我解释要遵循的步骤吗?


注意你don't需要打电话train() with data1如果你已经提供了data1在模型实例化时。该模型已经完成了自己的内部工作build_vocab() and train()在提供的语料库上,使用默认数量epochs(5) 如果您没有在实例化中指定。

“微调”并不是一个简单的过程,需要确保改进模型的可靠步骤。这是非常容易出错的。

特别是,如果单词data2模型尚不知道它们,它们将被忽略。 (有一个选项可以调用build_vocab()与参数update=True扩大已知的词汇量,但这些单词并不真正与早期的单词完全平等。)

If data2包括一些单词,但不包括其他单词,仅包含data2通过额外的培训获得更新——这可能基本上会拉动这些词out与仅出现在中的其他单词具有可比较的对齐方式data1。 (只有在交错的共享训练课程中一起训练的单词才会经历“推拉”,最终使它们处于有用的排列中。)

增量训练最安全的做法是洗牌data1 and data2一起,并对所有数据进行持续训练:使所有单词一起得到新的交错训练。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Wor2vec 微调 的相关文章

  • 如何编写嵌套的 __init__.py 文件

    我正在努力解决嵌套问题 init py在我正在编写的Python包中 该包具有以下架构 module init py submodule1 init py source py submodule2 init py source py sub
  • python sys.path 故障排除

    python 文档位于http docs python org library sys html http docs python org library sys html比如说sys path is 从环境变量 PYTHONPATH 以及
  • 蟒蛇 | MySQL | AttributeError:模块“mysql.connector”没有属性“connect”

    我正在学习 python 中的一个新库 mysql 我尝试执行以下命令 import mysql connector mydb mysql connector connect host localhost user root passwd
  • 从文本文件中删除特定字符

    我对 Python 和编码都很陌生 我当时正在做一个小项目 但遇到了一个问题 44 1 6 23 2 7 49 2 3 53 2 1 68 1 6 71 2 7 我只需要从每行中删除第三个和第六个字符 或者更具体地说 从整个文件中删除 字符
  • 将 numpy 数组合并为单个 int

    numpy 数组怎么可以这样 10 22 37 45 转换为单个 int32 数字 如下所示 10223745 这可以工作 gt gt gt int join map str 10 22 37 45 10223745 基本上你使用map s
  • 如何返回 cost, grad 作为 scipy 的 fmin_cg 函数的元组

    我怎样才能使 scipy 的fmin cg使用一个返回的函数cost and gradient作为元组 问题是有f对于成本和fprime对于梯度 我可能必须执行两次操作 非常昂贵 grad and cost被计算 此外 在它们之间共享变量可
  • 反编译Python 3.9.2的PYC文件[重复]

    这个问题在这里已经有答案了 目前 我有一个 3 9 2 版本的 python 的 PYC 文件 P S 这适用于所有 3 9 及更高版本 我正在尝试反编译 PYC 文件 但它显示错误 因为 uncompyle6 或者更确切地说 新版本 de
  • Mypy 无法从文字列表推断项目的类型

    我有一个变量x和一个文字列表 例如 0 1 2 我想转换x这些文字之一 如果x在列表中 我将其退回 否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
  • 是否可以从 Julia 调用 Python 函数并返回其结果?

    我正在使用 Python 从网络上抓取数据 我想使用这些数据在 Julia 中运行计算 是否可以在 Julia 中调用该函数并返回其结果 或者我最好直接导出到 CSV 并以这种方式加载数据 绝对地 看PyCall jl https gith
  • 在Python中从大文件中搜索单词列表

    我是新蟒蛇 我有一个单词列表和一个非常大的文件 我想删除文件中包含单词列表中的单词的行 单词列表按排序给出 并且可以在初始化期间输入 我正在努力寻找解决这个问题的最佳方法 我现在正在进行线性搜索 这花费了太多时间 有什么建议么 您可以使用i
  • Arcpy 模数在 Pycharm 中不显示

    如何将 Arcpy 集成到 Pycharm 中 我尝试通过导入模块但它没有显示 我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引 上不可用 因此无法通过 pip 安装 要使用 arcpy 您需要
  • 如何使用scrapy检查网站是否支持http、htts和www前缀

    我正在使用 scrapy 来检查某些网站是否工作正常 当我使用http example com https example com or http www example com 当我创建 scrapy 请求时 它工作正常 例如 在我的pa
  • Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度;使用 httperf 和 ab 进行测试

    我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器 当我使用 httperf 进行性能测量时 如果每次使用 num conn 启动一个新请求 我每秒可以执行超过 1 000 个请求 如果我使
  • 查找 Pandas DF 行中的最短日期并创建新列

    我有一个包含多个日期的表 有些日期将为 NaN 我需要找到最旧的日期 所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等 因此 对于每一行 一个或多个字段中都会有一个日期
  • Ubuntu systemd 自定义服务因 python 脚本而失败

    希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助 我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏 这更像是一个问题 而不是一个有用的功能 该脚本可以工作 但我不想一直启动它 这就是为什么我想到编写
  • Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

    我想获得维基百科与搜索词相关的可能且可接受的名称列表 在这种情况下是 电晕 当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
  • 可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

    Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
  • 检测是否从psycopg2游标获取?

    假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
  • minizinc python 安装

    我通过 anaconda 提示符在 python 上安装了 minizinc 就像其他软件包一样 pip install minizinc 该软件包表示已成功安装 我可以导入该模块 但是 我正在遵循基本示例https minizinc py
  • 用于插入或替换 URL 参数的 Django 模板标签

    有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗 例如向 some custom path q how now brown cow page 3 filter person 发出请求 电话 urlpar

随机推荐

  • Hive解释计划理解

    是否有任何适当的资源可以让我们完全理解 hive 生成 的解释计划 我尝试在 wiki 中搜索它 但找不到完整的指南来理解它 这是 wiki 它简要解释了解释计划的工作原理 但我需要有关如何推断解释计划的更多信息 https cwiki a
  • 如何将日期作为 URL 参数传递

    我正在使用钛通过网络服务为特定的网络应用程序创建一些应用程序 这里我将日期作为 URL 参数传递来调用 java 中的特定 webservice 方法 日期格式如下 2015 02 04T05 10 58 05 30 在java服务方法中
  • PHP从具有关系数据的数组创建多维数组[重复]

    这个问题在这里已经有答案了 可能的重复 根据父 ID 值将数组从一维转换为多维 我正在 PHP 工作 我有以下包含关系数据 父子关系 的数组 Array 5273 gt Array id gt 5273 name gt John Doe p
  • 如何像在浏览器中一样在vscode中打开HTML文件?

    vscode 或任何扩展更新完成后 vscode 中将显示发行说明 我可以在我的电脑中找到releasenote 它是HTML文件 我通过vscode打开它 vscode显示HTML代码 不喜欢通过浏览器打开 一般来说 我想在vscode而
  • OpenGL 顶点缓冲区绑定点可以在不同的 VAO 之间重用吗?

    假设我使用新的 从 OpenGL 4 3 开始 glBindVertexBuffer 机制设置了两个 VAO glGenVertexArrays 1 vaoIndex0 glGenVertexArrays 1 vaoIndex1 glBin
  • 如何在 PHP 中获取浮点数的二进制表示?

    有没有办法在 PHP 中获取浮点数的二进制表示形式 类似于 Java 的东西Double doubleToRawLongBits 给定一个正浮点数 我想获得小于该数字的最大可表示浮点数 在Java中 我可以这样做 double x Doub
  • 我应该如何将文件加载到我的 Java 应用程序中?

    我应该如何将文件加载到我的 Java 应用程序中 简短的回答 使用以下两种方法之一 Class getResource String Class getResourceAsStream String 例如 InputStream input
  • 在 Snap.svg 图形上设置 ID 属性

    我在用着Snap svgAPI 和我需要在 CSS 中选择三个图形以用于样式设计 因此 为了区分它们 我需要给它们一个 ID 或类名 这就是我创建元素的方式 var draw Snap 100 75 c draw polyline 0 0
  • Java Nio绝对路径到相对路径

    我有一个指向磁盘上文件的路径 例如 C folder dir dir2 file txt 在代码中 如果在使用该文件时抛出异常 它将输出整个路径 理想情况下 最好不要打印整个目录 而是像这样 dir2 file txt 看来我应该能够做到这
  • 如何监控ActiveMQ Artemis

    我正在 Windows NET 环境中使用 RabbitMQ ActiveMQ Classic 和 ActiveMQ Artemis 进行一些测试 RabbitMQ 和 ActiveMQ 经典 附带一个 Web 界面 您可以在其中查看有关代
  • 除 na.rm= TRUE 外,mean 还返回 NaN

    样本数据 date coins 2013 10 01 NA 2013 10 01 NA 2013 10 01 NA 2013 11 01 10 2013 11 01 NA 2013 11 01 20 2013 11 01 30 2013 1
  • jQuery UI 使用 .droppable 放入 div 时删除元素

    我正在尝试找出如何做到这一点的逻辑 我有很多只有 CSS 类名的图像 它们是动态创建的 这些图像可以使用 jQuery UI 进行拖动 draggable 我需要一个 垃圾桶 当将元素拖入 时 它会被删除 Example http jsfi
  • 如何在 AngularJS 中设置动态模型名称?

    我想用一些动态问题填充表单 小提琴here div ul li div question Text div li ul div
  • CodeIgniter 中的联接查询[重复]

    这个问题在这里已经有答案了 我在 CodeIgniter 中使用联接查询 但无法使其工作 它只显示一个表数据 而不显示另一表数据 我是 CodeIgniter 的新手 无法弄清楚这一点 请有人帮助我 提前Tnanks view br br
  • 保证复制省略的行为是否取决于用户定义的复制构造函数的存在?

    无论有或没有用户定义的复制构造函数 以下代码的行为都不同在 GCC 8 0 1 下 include
  • django [Errno 2] 没有这样的文件或目录:

    我已经构建了一个脚本来读取 Excel 文件并将内容保存到我的数据库中 注意 文件和脚本位于不同的目录中 然而 当我尝试从views py中执行脚本作为简单导入时 django会抛出一个错误 指出它找不到文件或目录 Errno 2 No s
  • 积分推广

    在整数提升方面 什么时候有符号整数无法表示原始类型的所有值 来自文本 K R C 编程语言 第二版 p 174 A 6 1 积分推广 字符 短整数或整数位域 无论是否有符号 或枚举类型的对象都可以在 凡是可以使用整数的表达式 如果一个int
  • 进行网络通话的最佳地点

    网络通话 static func getProfile parameters String AnyObject onComplete String AnyObject gt var requiredData String AnyObject
  • Namenode HA(UnknownHostException:nameservice1)

    我们通过 Cloudera Manager 启用 Namenode 高可用性 使用 Cloudera Manager gt gt HDFS gt gt 操作 gt 启用高可用性 gt gt 选定的备用名称节点和日志节点 然后名称服务1 整个
  • Wor2vec 微调

    我需要微调我的 word2vec 模型 我有两个数据集 data1 and data2 到目前为止我所做的是 model gensim models Word2Vec data1 size size v window size w min