如何将fasttext模型保存为vec格式？

2024-04-14

我使用以下方法训练了我的无监督模型fasttext.train_unsupervised()python 中的函数。我想将其保存为 vec 文件，因为我将使用该文件pretrainedVectors参数输入fasttext.train_supervised()功能。pretrainedVectors只接受 vec 文件，但我在创建此 vec 文件时遇到麻烦。有人能帮我吗？

诗。我可以将其保存为 bin 格式。如果您建议我一种将 bin 文件转换为 vec 文件的方法，也会很有帮助。

为了获得仅包含所有单词向量的 VEC 文件，我的灵感来自bin_to_vec 官方示例 https://github.com/facebookresearch/fastText/blob/master/python/doc/examples/bin_to_vec.py.

from fasttext import load_model

# original BIN model loading
f = load_model(YOUR-BIN-MODEL-PATH)
    lines=[]

# get all words from model
words = f.get_words()

with open(YOUR-VEC-FILE-PATH,'w') as file_out:
    
    # the first line must contain number of total words and vector dimension
    file_out.write(str(len(words)) + " " + str(f.get_dimension()) + "\n")

    # line by line, you append vectors to VEC file
    for w in words:
        v = f.get_word_vector(w)
        vstr = ""
        for vi in v:
            vstr += " " + str(vi)
        try:
            file_out.write(w + vstr+'\n')
        except:
            pass

获得的VEC文件可能很大。要减小文件大小，您可以调整矢量分量的格式。

如果你只想保留4位小数，你可以替换vstr += " " + str(vi) with
vstr += " " + "{:.4f}".format(vi)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何将fasttext模型保存为vec格式？的相关文章

Mac OS 上的诗歌安装失败，显示“should_use_symlinks”

我正在尝试使用以下命令安装诗歌 curl sSL https install python poetry org python3 但它失败了但有以下例外例外此版本的 python 无法在不使用符号链接的情况下创建 venvs 下面是详
Twisted 的 Deferred 和 JavaScript 中的 Promise 一样吗？

我开始在一个需要异步编程的项目中使用 Twisted 并且文档非常好所以我的问题是 Twisted 中的 Deferred 与 Javascript 中的 Promise 相同吗如果不是有什么区别你的问题的答案是Yes and No
如何在python 3.7中生成条形码

我正在使用 python 3 7 为了生成条形码我尝试使用安装 pyBarcode 库pip install pyBarcode 但它显示以下错误找不到满足 pyBarcode 要求的版本来自版本找不到 pyBarcode 的匹配分
Sublime Text 插件开发中的全局 Python 包

一总结我不知道 Sublime Text 插件开发人员如何使用 Sublime Text 查找全局 Python 包而不是 Sublime Text 目录的 Python 包 Sublime Text使用自己的Python环境而不是
opencv水印周围的轮廓

我想在图像中的水印周围画一个框我已经提取了水印并找到了轮廓但是不会在水印周围绘制轮廓轮廓是在我的整个图像上绘制的请帮我提供正确的代码轮廓坐标的输出为 array 0 0 0 634 450 634 450 0 dtype int
如何检查python xlrd库中的excel文件是否有效

有什么办法与xlrd库来检查您使用的文件是否是有效的 Excel 文件我知道还有其他库可以检查文件头我可以使用文件扩展名检查但为了多平台性我想知道是否有任何我可以使用的功能xlrd库本身在尝试打开文件时可能会返回类似 false 的内
Python 2.7 中的断言对我来说不起作用示例assertIn

我的 Mac 上安装了 python 2 7 通过在终端中运行 python v 进行验证当我尝试使用任何新的 2 7 断言方法时我收到 AtributeError 我看过http docs python org 2 library u
在没有模型的情况下将自定义页面添加到 django admin

我正在尝试在没有模型关联的情况下向管理员添加自定义页面这就是我迄今为止所取得的成就 class MyCustomAdmin AdminSite def get urls self from django conf urls import
在 Django OAuth Toolkit 中安全创建新应用程序

如何将 IsAdminUser 权限添加到 Django OAuth Toolkit 中的 o applications 视图 REST FRAMEWORK DEFAULT PERMISSION CLASSES rest framework
Emacs 24.x 上的 IPython 支持

我对 IPython 与 Emacs 的集成感到困惑从 Emacs 24 开始 Emacs 附带了自己的python el 该文件是否支持 IPython 还是仅支持 Python 另外维基百科 http emacswiki org e
用 python 编写的数学语法检查器

我需要的只是使用 python 检查字符串是否是有效的数学表达式为了简单起见假设我只需要运算符也作为一元带有数字和嵌套括号为了完整性我还添加了简单的变量名称所以我可以这样测试 test 3 2 1 valid test 3
使用“默认”环境变量启动新的子进程

我正在编写一个构建脚本来解析依赖的共享库及其共享库等这些共享库在正常情况下是不存在的PATH环境变量为了使构建过程正常工作让编译器找到这些库 PATH已更改为包含这些库的目录构建过程是这样的加载器脚本更改 PATH gt 基于
在 keras 中保存和加载权重

我试图从我训练过的模型中保存和加载权重我用来保存模型的代码是 TensorBoard log dir output model fit generator image a b gen batch size steps per epoch
Mac OSX 10.6 上的 Python mysqldb 不工作

我正在使用 Python 2 7 并尝试让 Django 项目在 MySQL 后端运行我已经下载了 mysqldb 并按照此处的指南进行操作 http cd34 com blog programming python mysql pyth
在 Django 查询中使用 .extra(select={...}) 引入的值上使用 .aggregate() ？

我正在尝试计算玩家每周玩游戏的次数如下所示 player game objects extra select week WEEK games game date aggregate count Count week 但姜戈抱怨说 Fiel
Django Admin 中的反向内联

我有以下 2 个型号现在我需要将模型 A 内联到模型 B 的页面上模型 py class A models Model name models CharField max length 50 class B models Model n
如何与其他用户一起使用 pyenv？

如何与其他用户一起使用 pyenv 例如如果我在用户 test 的环境中安装了 pyenv 则当我以 test 身份登录时可以使用 pyenv 但是当我以其他用户例如 root 身份登录时如何使用 pyenv 即使你这么做了我也会s
如何根据第一列创建新列，同时考虑Python Pandas中字母和列表的大小？ [复制]

这个问题在这里已经有答案了我在 Python Pandas 中有 DataFrame 如下所示 col1 John Simon prd agc Ann White BeN and Ann bad list Ben Wayne 我需要这样做
TKinter 中的禁用/启用按钮

我正在尝试制作一个像开关一样的按钮所以如果我单击禁用按钮它将禁用按钮有效如果我再次按下它它将再次启用它我尝试了 if else 之类的东西但没有成功这是一个例子 from tkinter import fenster Tk
从 pandas DataFrame 中删除少于 K 个连续 NaN

我正在处理时间序列数据我在从数据帧列中删除小于或等于阈值的连续 NaN 时遇到问题我尝试查看一些链接例如标识连续 NaN 出现的位置以及计数 Pandas NaN 孔的游程长度 https stackoverflow com que

随机推荐

创建自定义注释作为框架注释的别名？

是否可以创建一个自定义的别名注释来代替 SuppressWarnings unused EventBus public void onEvent SomeMessage msg like EventBusListener public vo
是否应该重用 SqlConnection、SqlDataAdapter 和 SqlCommand 对象？

我正在使用一个 DAL 对象该对象的布局类似于以下代码我简化了很多代码只是为了展示设置 public class UserDatabase IDisposable private SqlDataAdapter UserDbAdapter
从字符串中删除包含特定字符的行

我正在开发一个 Java 项目来读取 java 类并将所有 DOC 注释提取到 HTML 文件中我无法清理一串我不需要的线路假设我有一个字符串例如 Bla bla bla bla bla bla CODE CODE CODE Bla
检查客户端是否可以访问资源的 RESTful 方法是什么？

我正在尝试确定 REST API 中用于确定客户端是否可以访问特定资源的最佳实践两个简单的示例场景电话簿查找服务客户端通过访问例如查找电话号码 GET http host directoryEntries numbers 12345
抛出自定义异常并显示来自自定义 AuthenticationProvider 的错误消息

这是后续这个问题 https stackoverflow com questions 6412591 hooking into pre authentication with spring security core 我有一个扩展 Abst
统计foreach循环中当前迭代次数的百分比

我正在尝试构建一个脚本来获取循环迭代的当前百分比 I have
正则表达式与 antMatcher URL 模式不匹配

我试图忽略身份验证中的 url 我尝试了多种不同的模式但 java 似乎无法识别它们我的配置如下所示 Override public void configure WebSecurity web throws Exception sup
如果可能的话，如何在 C 中定义 2 位数字？

对于我的大学过程我正在模拟一个称为随机顺序吸附的过程我必须做的一件事是随机地将正方形不能重叠放置到格子上直到没有更多空间为止重复该过程几次以找到平均干扰覆盖率基本上我正在对一个大的整数数组执行操作其中存在 3 个可能的值
Swift 相当于 @encode

是否有与 Objective C 相当的 Swift encode 例如 encode void gt v 搜索一无所获不不存在因为在底层 Swift 类不使用 Objective C 内省来完成它们的工作不需要计算这个像 Obj
使用 Response.Redirect() 时出现线程中止异常

我在更新面板下的页面中编写了以下代码 protected void myGrid RowCommand object sender GridViewCommandEventArgs e try if e CommandName EditNa
从 SQL 中的存储过程获取 RETURN 值

我有一个存储过程它以 RETURN 值 0 或 1 结尾我想在另一个存储过程的 IF 语句中使用该值如何获取前一个存储过程的返回值并将其保存在后一个存储过程的变量中我找不到任何相关的东西所有问题都与在 C 中获取 RETURN 值
NLTK 感知器标记器的标记集是什么？

NLTK 感知器标记器的标记集是什么预训练模型使用的语料是什么我尝试从NLTK网站上找到官方信息但他们没有那个 From https github com nltk nltk pull 1143 https github com nl
修改根组件之外的 DOM 元素

我的 Angular 2 应用程序的结构如下
如果没有可用的指定分区路径，SPARK SQL 会失败

我在 EMR 中使用 Hive Metastore 我可以通过 HiveSQL 手动查询表但是当我在 Spark Job 中使用同一个表时它说输入路径不存在 s3 导致 org apache hadoop mapred InvalidI
在rails3中创建新记录之前如何检查记录是否存在？

这就是我想要实现的目标我有一个标签系统创建帖子时会创建标签帖子 has many tags through gt tag joins 当使用标签创建帖子时会自动创建标签连接我想检查该标签是否已经存在如果是这样我想使用 tag
在 textView 中，当我单击“完成”按钮时，键盘不会退出

单击完成按钮后我在退出键盘时遇到问题我正在使用文本视图 BOOL textViewShouldReturn UITextView textView if textView addressView if isNotif self se
根据步行速度在 2 个 GPS 位置之间进行插值

Problem 给定两个位置 L1 latitude1 longitude1 timestamp1 L2 latitude2 longitude2 timestamp2 以及可配置但恒定的移动速度 v 1 39 米每秒例如 How can
Android，traceview 的独立版本已弃用

我想看到我的踪迹 1 在代码中我添加了以下代码行 Start trace recording android os Debug startMethodTracing hc traceview and Stop trace recordin
如何将 inproc 传输与 pyzmq 一起使用？

我已经设置了两个小脚本来模仿 pyzmq 的发布和订阅过程但是我无法使用inproc运输我能够使用tcp 127 0 0 1 8080好吧只是不是 inproc pub server py import zmq import ran
如何将fasttext模型保存为vec格式？

我使用以下方法训练了我的无监督模型fasttext train unsupervised python 中的函数我想将其保存为 vec 文件因为我将使用该文件pretrainedVectors参数输入fasttext train sup

如何将fasttext模型保存为vec格式？

如何将fasttext模型保存为vec格式？ 的相关文章

随机推荐

热门标签

如何将fasttext模型保存为vec格式？的相关文章