如何在FastText中使用预训练的词向量？

2024-06-23

我刚刚开始使用 FastText。我正在通过使用作为输入对一个小数据集进行交叉验证.csv我的数据集的文件。为了处理数据集，我使用以下参数：

 model = fasttext.train_supervised(input=train_file,
                                   lr=1.0,
                                   epoch=100,
                                   wordNgrams=2,
                                   bucket=200000,
                                   dim=50,
                                   loss='hs')

但是我想使用维基百科中提供的预先训练的嵌入在 FastText 网站上 https://fasttext.cc/docs/en/crawl-vectors.html。可行吗？如果是这样，我必须将特定参数添加到参数列表中吗？

动机

如果您的训练数据集很小，您可以从 FastText 预训练向量开始，使分类器从一些预先存在的知识开始。为了提高分类器的性能，它可能是有益的，也可能是无用的：你应该做一些测试。

从预训练向量开始训练 fastText 分类器

您可以从以下位置下载预训练向量（.vec 文件）这一页 https://fasttext.cc/docs/en/crawl-vectors.html.

这些向量的维度为 300。您可以通过执行以下操作来训练模型：

model = fasttext.train_supervised(input=TRAIN_FILEPATH, lr=1.0, epoch=100,
                             wordNgrams=2, bucket=200000, dim=300, loss='hs',
                             pretrainedVectors=VECTORS_FILEPATH)

更改向量维度

您可能不需要更改向量维度。但如果必须的话，您可以考虑分三个步骤进行此更改：

下载.bin模型（来自here https://fasttext.cc/docs/en/crawl-vectors.html)
减少 .bin 模型维度（参见this https://fasttext.cc/docs/en/crawl-vectors.html#adapt-the-dimension)
将 .bin 模型转换为 .vec 文件（请参阅这个答案 https://stackoverflow.com/questions/58337469/how-to-save-fasttext-model-in-vec-format)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

fasttext

如何在FastText中使用预训练的词向量？的相关文章

Django - form_valid() 与 save()

在 django 表单中为了保存我通常使用的其他数据form valid 但因为我也可以使用save 表单类的方法今天我重写了save 代替form valid 我的多对多领域出现了问题使用时 manytomanyfield 的值不会
我可以使用类属性作为实例方法的默认值吗？

我想使用类属性作为我的类的参数之一的默认值 init 方法这个构造提出了一个NameError不过例外我不明白为什么 class MyClass DefaultName DefaultName def init self name M
为什么 Sequence 是 mypy 中 + 不支持的操作数类型？

mypy给出一个错误Sequence str 不是受支持的操作数类型操作员 test py from typing import Sequence def test x Sequence str y Sequence str gt Seq
Python，针对频繁模式的网络日志数据挖掘

我需要开发一个用于网络日志数据挖掘的工具由于在特定用户会话中请求了许多 url 序列从 Web 应用程序日志中检索我需要找出网站用户的使用模式和组集群我是数据挖掘的新手现在经常检查谷歌发现一些有用的信息即查询似乎指向几乎完全
如何使用 scipy.spatial.Delaunay 查找 delaunay 三角剖分中给定点的所有邻居？

我一直在寻找这个问题的答案但找不到任何有用的东西我正在使用 python 科学计算堆栈 scipy numpy matplotlib 并且我有一组二维点我为其计算 Delaunay 训练 wiki https en wikipedia
Python 文件打开并立即关闭

尝试首先通过 powershell 然后通过 cmd 运行此代码甚至简单地单击它我正在输入 start python myfile py 来运行它在每种情况下文件都会在屏幕上闪烁并立即关闭我查看它的唯一方法是将文件直接拖到cmd中
如何获取 Tkinter 标签文本？

我正在制作一个用户将从中选择的地址列表并且将返回地址文本我需要使用Tkinter Label因为Tkinter Listbox不允许换行关键是没有 get Label 类中的类似方法我知道我可以做类似的事情 v StringVar
在 scipy 中按稀疏矩阵分组并返回一个矩阵

关于使用 SO 处理有几个问题groupby与稀疏矩阵然而输出似乎是列表字典 https stackoverflow com questions 35410839 group by on scipy sparse matrix 数据框
以编程方式使用的免费单词列表？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
使用 Matplotlib 和 TeX 实现均匀间距

我正在为数学课绘制一些图表但我无法在绘图图例中正确地获得和平定义的间距我目前正在使用对于 TeX 中的单个空间但会遇到一种情况其中一个空间比另一个空间稍远这可能是由于左边的方程占用了多少空间这是我的代码 import matp
使用 pip freeze 安装 numpy

I need to install Numpy version 1 17 1 but every time it just freezes I have now tried multiple times and I have been wa
贝塞尔曲线python的递归函数

我被要求设计一个名为 Bezier 的递归函数其参数是给定点的列表以及必须评估的点它返回贝塞尔曲线中由点列表的控制点定义的点这是我所做的算法 def Bezier point list t if len point list 1 r
命令错误，退出状态 1： python setup.py Egg_info 检查日志以获取完整的命令输出 - 通过 pip 安装 auto-py-to-exe 时

我正在尝试在与我通常通过 pip 使用不同的 Windows 设备上下载 auto py to exe 但是当运行时我收到错误抱歉它太长了 ERROR Command errored out with exit status 1 c
py.test 日志控制

我们最近切换到 py test 进行 python 测试顺便说一句这非常棒但是我试图弄清楚如何控制日志输出即内置的 python 日志记录模块我们安装了 pytest capturelog 并且它按预期工作当我们想查看日志时
pandas.algos._return_false 在 CentOS 上使用 dill.dump_session 导致 PicklingError

我有一个代码框架其中涉及使用 dill 转储会话这曾经工作得很好直到我开始使用 pandas 以下代码在 CentOS 6 5 版本上引发 PicklingError import pandas import dill dill du
传递到 Flask 的可能路线列表？

我正在学习 Flask 有一个关于动态路由的问题是否可以传入接受的路由列表我注意到any转换器具有潜力但很难找到使用中的示例基本上我有不同的端点组它们应该在它们之间触发相同的操作这就是我的意思 cities New York L
如何使用 TfIdfVectorizer 通过 SciKitLearn 对文档进行分类？

以下示例展示了如何使用 Sklearn 20 新闻组数据训练分类器 gt gt gt from sklearn feature extraction text import TfidfVectorizer gt gt gt categori
Scrapy在使用crawlerprocess运行时抛出错误

我用 python 编写了一个脚本使用 scrapy 来收集网站上不同帖子的名称及其链接当我从命令行执行脚本时它可以完美地工作现在我的意图是使用运行脚本CrawlerProcess 我在不同的地方寻找类似的问题但我找不到任何直接
调用exe中定义的函数

我需要知道一种从 python 脚本调用 exe 中定义的函数的方法我知道如何从 py 文件调用整个 exe 除非您的 EXE 是 COM 对象或者像 dll 那样专门导出某些函数否则这是不可能的对于 COM 方法请查看以下资源
Python 内存使用情况

因此我有一些代码接收一组文件将其可以缝合在一起然后绘制它们我发布了大部分代码试图使其更具可读性如果需要可以添加更多代码 for paths dirs files in os walk start path for d in d

随机推荐

如何使用bigquery运算符将查询参数传递到sql文件

我需要访问 SQL 文件中 BigqueryOperator 传递的参数但出现错误ERROR queryParameters argument must have a type
从 ASP.NET 应用程序使用 Active Directory 时出现 DirectoryServicesCOMException (0x80072020)

介绍我正在维护一个查询 Active Directory 的旧版 ASP NET 3 5 应用程序该应用程序使用集成 Windows 身份验证旨在使用其自己的安全上下文而不是专用用户名和密码连接到 Active Directory
防止基准代码中的代码被 GCC 移动

我正在尝试微调我们正在使用的一些基准代码并且想知道是否有一种方法可以明确地与 GCC 通信如何排序某些代码位例如给定以下代码块 Pre 启动定时器 Body 停止定时器 Post 我想告诉GCC 每个块必须保持上述顺序没有任何指令泄
在 ActivePerl 上安装 Padre (IDE)？

当我访问 Padre 的官方下载网站时 http padre perlide org download html http padre perlide org download html 我看到 Windows 中唯一的选项是下载 DWIM
Python 中聚类相似字符串的算法？

我正在编写一个脚本该脚本当前包含多个 DNA 序列列表每个列表都有不同数量的 DNA 序列并且我需要根据汉明距离相似性对每个列表中的序列进行聚类我当前的实现目前非常粗糙提取列表中的第一个序列并计算每个后续序列的汉明距离如果它在
如何使从 docker linux 容器内部创建的符号链接可以从 Windows 主机看到（如果需要，可能涉及 samba）

Question 如何从 Windows 主机查看 docker linux containers 的符号链接即使我必须放置一台中间 Linux 机器通过 NFS 或 Samba 公开文件系统 Context 在 DEVEL 环境中我在
使用主要项目资源的 Android 库

我正在为 Android 项目创建一个库该活动在库项目中声明因为它将在不同的项目中重用此活动使用特定于项目的图像我已将这些图像添加到主项目中如何从库中的主项目访问资源将所有相关资源的副本放入图书馆这是完全合法的如果您想在实际
从 C++ .dll 到 Delphi Forms 应用程序的 PostMessage 问题

我有用 Delphi 7 编写的 Windows 窗体应用程序和使用 MFC 编写的 C dll 目前我正在尝试实现从 dll 到主可执行文件的基本消息发布以在进度条上显示用户计算过程但遇到了几个问题让我先描述一下我的方法我在 D
WPF RichTextBox TextChanged 事件 - 如何查找已删除或插入的文本？

在使用 RichTextBox 创建自定义编辑器时我遇到了使用 TextChanged 事件提供的信息查找已删除插入文本的问题的实例文本更改事件参数 http msdn microsoft com en us library syst
如何使用张量流比较两个数组？

我需要比较两个数组并得到 true 或 false 而不是元素结果我的代码是 X tf constant 0 05 0 10 dtype tf float32 shape 1 2 y tf constant 0 01 0 99 dtype
使用具有多个子句的 where 子句删除 SQLite 行

我一直在四处寻找但没有找到解决方案或工作示例所以这里是我已经建立了一个 SQLite 数据库其中有五个具有不同字段的列可以有效地为用户构建一个列表列表中将有多个相同的值除了设置为自动递增的 ROWID 之外一旦将值输入数据库
使用 Apache CXF 对 SOAP 消息进行签名和加密

我正在尝试使用 Apache CXF 编写一个 Secure Hello World Web 服务我应该指出我对 Java 和 WS 的东西有点陌生基本上我想做的是一个 hello world Web 服务其中包含往返于该 Web
从 NSURL 检索文件名

我有一个网址 http www hdwallpapers in walls honda v4 concept widescreen bike wide jpg http www hdwallpapers in walls honda v4
创建 ServletContext 资源中定义的名为“entityManagerFactory”的 bean 时出错 [/WEB-INF/hibernateContext.xml]

我在上下文初始化方面遇到问题每次启动服务器时都会出现 EntityManagerFactory 问题我用相关标签和关键字检查了之前提出的大部分问题但对我的问题没有任何作用这是日志 SEVERE Context initializat
如何使用 Qt/C++ 创建/读取/写入文件并将设置存储在程序本地

我是一个不幸的 C 初学者使用 Qt GUI 设计器程序似乎非常适合我的需求但我在尝试编写所需的代码时遇到了问题我可以使用 QSettings 字符串在硬盘驱动器上存储本地设置但我个人讨厌程序执行某些程序所做的 HOME LOCAL
iOS 应用程序 xcode 构建错误

我是 iOS 开发新手正在为一些构建错误而苦苦挣扎我在网上查找了如何修复这些错误但找不到提示使用内置 Swift 的 Xcode 9 4 LaunchOptionsKey 不是 UIApplication 的成员类型实例成员 st
鼠标悬停时在折线图上画一条线？

我正在使用 D3 js 构建折线图当用户将鼠标悬停在图表上时我想在图表上绘制一条垂直线突出显示其与图表线的交点并显示工具提示如以下屏幕截图所示我已经在这条路上走了一部分了这是我在 JSFiddle 上的代码 http jsfi
TTS默认的音频流是什么？

据我所知目前有 7 个音频流Android http developer android com reference android media AudioManager html STREAM ALARM for alarms STRE
在 VBA 中加速嵌套循环宏所需的指针

我需要帮助来加速我的简单的 8 变量嵌套循环宏每个循环仍然需要大约 1 秒并且有几十万个循环需要完成因此需要 3 到 4 天才能完成从我在这里的阅读和实验中我确实已经尽可能地简化了流程但现在遇到了困难我的宏基本上有 3 个部分
如何在FastText中使用预训练的词向量？

我刚刚开始使用 FastText 我正在通过使用作为输入对一个小数据集进行交叉验证 csv我的数据集的文件为了处理数据集我使用以下参数 model fasttext train supervised input train file l