FastText 使用预先训练的词向量进行文本分类

2024-02-03

我正在研究文本分类问题，也就是说，给定一些文本，我需要为其分配某些给定的标签。

我尝试过使用 Facebook 的快速文本库，它有两个我感兴趣的实用程序：

A）带有预训练模型的词向量

B) 文本分类实用程序

然而，这些似乎是完全独立的工具，因为我无法找到任何合并这两个实用程序的教程。

我想要的是能够通过利用词向量的预训练模型对一些文本进行分类。有什么办法可以做到这一点吗？

FastText 监督训练有-pretrainedVectors参数可以这样使用：

$ ./fasttext supervised -input train.txt -output model -epoch 25 \
       -wordNgrams 2 -dim 300 -loss hs -thread 7 -minCount 1 \
       -lr 1.0 -verbose 2 -pretrainedVectors wiki.ru.vec

需要考虑的几件事：

选择的嵌入维度必须适合预训练向量中使用的维度。例如。为了维基词向量 https://fasttext.cc/docs/en/pretrained-vectors.html必须是 300。它是由-dim 300争论。
截至2018年2月中旬，Python API（v0.8.22）不支持使用预训练向量进行训练（忽略相应参数）。所以必须使用CLI（命令行界面）版本进行训练。但是，通过 CLI 使用预训练向量训练的模型可以通过 Python API 加载并用于预测。
对于大量类（在我的例子中有 340 个），即使 CLI 也可能会出现异常，因此您需要使用分层 softmax 损失函数（-loss hs)
分层 Softmax 的性能比普通 SoftMax 差，因此它可能会放弃从预训练嵌入中获得的所有增益。
使用预训练向量训练的模型可能比未训练的模型大几倍。
根据我的观察，使用预训练向量训练的模型比不使用预训练向量训练的模型过拟合的速度更快

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

Word2Vec

textclassification

fasttext

FastText 使用预先训练的词向量进行文本分类的相关文章

AttributeError：使用 CRF 时“Tensor”对象没有属性“_keras_history”

我知道关于这个问题有很多问题我已经阅读了其中的一些问题但没有一个对我有用 I am trying to build a model with the following architecture 代码如下 token inputs In
在哪里可以找到英语短语列表？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我的任务是搜索文本中陈词滥调和常见短语的用法这些短语与您在财富之轮的短语谜题中可能看到的短语类似这
doc2vec 获得良好性能所需的最小数据集大小是多少？

在不同大小的数据集上进行训练时 doc2vec 的表现如何原始语料库中没有提到数据集大小所以我想知道从 doc2vec 中获得良好性能所需的最小大小是多少有很多东西被称为 doc2vec 但它似乎最常指的是 Le 和 Mikolov
如何将地名词典或词典表示为 crf++ 中的特征？

如何使用地名词典或词典作为功能CRF https taku910 github io crfpp 详细说明假设我想对人名进行 NER 并且我有一个包含常见人名的地名词典或字典我想使用这个地名词典作为 crf 的输入我该怎么做我正在
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
下载变压器模型以供离线使用

我有一个训练有素的 Transformer NER 模型我想在未连接到互联网的机器上使用它加载此类模型时当前会将缓存文件下载到 cache 文件夹要离线加载并运行模型需要将 cache 文件夹中的文件复制到离线机器上然而这些文
在Python或Sklearn中用整数值对具有字符串值的列变量进行编码

如何用整数值对数据表中字符串类型的列值进行编码例如我有两个特征变量颜色可能的字符串值 R G 和 B 和技能可能的字符串值 C Java SQL 和 Python 给定数据表有两列 Color gt R G B B G R B G
python 中单词的动名词形式

我想获得字符串的动名词形式我还没有找到调用库来获取动名词的直接方法我应用了以 ing 结尾的单词的规则但是因为异常导致我收到了一些错误然后我检查 cmu 单词以确保生成的动名词单词正确代码如下 import cmudict im
SpaCy 的相似度是如何计算的？

初学者 NLP 问题在这里 similarity 方法如何运作哇 spaCy 太棒了它的tfidf模型可以更容易预处理但w2v只有一行代码 token vector 惊人的 In his spaCy 上的 10 行教程 https g
比较文本文档含义的最佳方法？

我正在尝试找到使用人工智能和机器学习方法来比较两个文本文档的最佳方法我使用了 TF IDF Cosine 相似度和其他相似度度量但这会在单词或 n gram 级别上比较文档我正在寻找一种方法来比较meaning的文件最好的方法是什
这个 NLP 问题层次结构描述中的最大池化是什么类型

我正在尝试实现这个描述以及我所做的我生成了形状的 uni gram bi gram tri gram 15 512 使用填充然后对于每个单词我连接三个特征向量 3 512 然后我向他们申请 Globalmaxpooling1D 我不知
target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么？

根据这个链接 https www tensorflow org datasets api docs python tfds features text SubwordTextEncoder build from corpus target
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
如何确保用户只提交英文文本

我正在构建一个涉及自然语言处理的项目由于nlp模块目前只处理英文文本所以我必须确保用户提交的内容不长只有几个单词是英文的是否有既定的方法来实现这一目标首选 Python 或 Javascript 方式如果内容足够长我会推荐一
用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
快速 shell 命令删除文本文件中的停用词

我有一个 2GB 的文本文件我正在尝试从此文件中删除经常出现的英语停用词我有 stopwords txt 包含这样的 a an the for and I 使用 shell 命令例如 tr sed 或 awk 执行此操作的快速方法是什
使用正则表达式标记化进行 NLP 词干提取和词形还原

定义一个函数名为performStemAndLemma 它需要一个参数第一个参数 textcontent 是一个字符串编辑器中给出了函数定义代码存根执行以下指定任务 1 对给出的所有单词进行分词textcontent 该单词应包含字
除非 POS 显式，否则 WordNetLemmatizer 不会返回正确的引理 - Python NLTK

我正在对 Ted 数据集成绩单进行词形还原我注意到一些奇怪的事情并非所有单词都被词形还原要说的是 selected gt select 哪个是对的然而 involved gt involve and horsing gt horse
如何从 Pandas DataFrame 转换为 Tensorflow BatchDataset 以进行 NLP？

老实说我想弄清楚如何转换数据集格式 pandasDataFrame或 numpy 数组转换为简单文本分类张量流模型可以训练用于情感分析的形式我使用的数据集类似于 IMDB 包含文本和标签正面或负面我看过的每个教程要么以不同的方式
从 Penn Treebank 格式的文本中提取子句

说我有一句话 After he had eaten the cheese Bill went to the grocery 在我的程序中我得到以下输出 PARSE TREE ROOT S SBAR IN After S NP PRP he

随机推荐

获取初始实体框架迁移脚本

我刚刚安装了 Entity Framework Migrations 向类添加了一个属性并尝试了 EF Migrations 我的开发数据库得到了及时更新到目前为止一切都很好现在我想为此创建一个更改脚本initial使用生产数据库
更改 Google 工作表上特定单元格的背景颜色

我正在处理这个绑定到 Google Sheets 电子表格的脚本我在其中从时间驱动的触发器运行这个函数我希望能够定位工作表上的特定单元格如果单元格值打开以便我可以更改单元格的背景颜色我想知道我该如何去做这项工作我能够定位单元格
在 Meteor.js 中查找当前会话 ID

如何找到客户端当前的Session Id 我能够获得看起来像是最后一个会话 ID 而不是当前会话 ID console log Meteor default connection lastSessionId 这个措辞有点令人困惑但是 la
无法在 p:media 中显示从 Primefaces 中的流内容生成的 PDF

我正在尝试显示在新浏览器窗口中打开的内联 PDF 我有以下场景在由ajax调用的一些ActionListen中我生成PDF内容将数据放入会话中并发送要执行的Javascript window open打开新页面以显示 PDF 在打开
如果日期带有前导零，则 getDay() 返回错误的日期[重复]

这个问题在这里已经有答案了我在使用 javascript 时遇到了这个问题我从数据库中获取 yyyy mm dd 日期但是当我想使用 getDay 获取星期几时如果这一天带有前导零我会得到错误的数字我写了一个可能的解决方案来将
在 LinkedIn 上分享描述字段未显示在新用户界面中

用户在新用户界面上通过 LinkedIn API 上的共享发布的帖子最多会显示在其帐户上用户消息评论图像标题和链接域但是有关在 LinkedIn API 上共享的文档 https developer linkedin com d
搜索视图未显示在工具栏中

我实际上在支持 AppCompat v7 lib 24 0 0 上的 Searchview 有问题 SearchView 不显示任何文本和输入文本看屏幕截图搜索查询工作完美这是我的菜单 menu menu
无法以 null 启动服务 [服务名称]

我最近编写了一个 Android Widget 并在模拟器和我的 Galaxy S 上进行了测试它在两者上都运行良好在我将其发布到 Android 市场后现在我收到了一些错误报告我在 Widget 类的 onUpdate 中声明一个
Azure 函数无法启动 - “未响应端口 X 上的 HTTP ping”(Docker/VNet)

我真的很难弄清楚如何设置使用 Docker 容器映像并连接到 VNet 的 Azure Function 我在任何地方都找不到此设置的任何示例我遇到的主要问题是在我的容器启动并运行后它似乎没有响应底层框架用于确定该功能是否启动并运行的
codechef 和 spoj 问题中使用的 modulo 10^9+7 有何意义？

我正在研究一个问题 http www codechef com SEPT14 problems CHEFLR它需要输出为对于每行输出答案模 10 9 7 为什么是模 10 9 7包含在问题中吗其意义何在我不是在寻找问题的解决方案仅该
进度条与文件解压

我正在尝试更新progress bar将文件解压缩到 SD 卡中我的解压工作正常但是progress bar没有出现这是我在 mainactivity 中的代码 private ProgressBar bar Override pub
ORM 解决方案（JPA；Hibernate）与 JDBC

我需要能够以每 5 秒至少 8000 个对象的一致速率在内存 HSQL 数据库中插入更新对象我在 Spring Hibernate JPA 和纯 JDBC 之间做了一些性能对比测试我发现使用 HSQL 的性能有显着差异使用 Spri
Silverlight：FrameworkElement.FindName() 在浏览器窗口中不“可见”时找不到控件

我遇到一个问题我使用 FrameworkElement 对象的 FindName 方法来搜索该元素的子控件我注意到了一些有趣的行为但似乎无法弄清楚如果用户滚动浏览器窗口使得控件本身在窗口框架的上下文中不再明显显示则 FindNa
“let”类陷入无限循环

请原谅代码中的任何愚蠢错误因为这是我第一次尝试使用类而且我在网上找不到任何真正将其放入其中的教程 really对于像我这样的傻瓜来说简单的术语我尽力遵循 MS 指南 https msdn microsoft com en us li
c:forEach 在 tomcat 7 中不起作用

我使用创建了简单的页面c forEach标签它在 tomcat 6 中工作但是not working tomcat 7 使用 JSF 2 0 开发简单的 Web 应用程序我在 tomcat 6 中运行我的代码它可以工作我部署在 t
为什么 Array.Copy 支持长参数

来自MSDN http msdn microsoft com en us library btfeahds VS 80 aspx 参数源数组包含数据的数组复制目的地数组接收数据的数组长度一个 64 位整数表示要复制的元素数
使用数据源将文本添加到组合框

我有一个 vaadin 组合框里面装有容器数据源 setContainerDataSource container 我现在想在结果列表中的某处插入静态文本例如一个组合框充满了一个容器结果列表中弹出的第一个条目是某种标题 Person
从 python 字典列表中选择单个字段

假设我有一个字典列表如下所示 dictionList 1 Type Cat Legs 4 2 Type Dog Legs 4 3 Type Bird Legs 2 使用 for 循环我想迭代列表直到捕获带有 a 的字典Type场等于
CSS：增加上边距

我正在尝试以楼梯类型的方式错开 div 类所以它看起来像这样 1 2 3 4 编辑我想更改上边距以便 process div 的每个位置都低于之前的位置我让它们浮动这样它们就可以并排坐着但我也希望每个 div 都比上一个更低我
FastText 使用预先训练的词向量进行文本分类

我正在研究文本分类问题也就是说给定一些文本我需要为其分配某些给定的标签我尝试过使用 Facebook 的快速文本库它有两个我感兴趣的实用程序 A 带有预训练模型的词向量 B 文本分类实用程序然而这些似乎是完全独立的工具因为我

FastText 使用预先训练的词向量进行文本分类

FastText 使用预先训练的词向量进行文本分类 的相关文章

随机推荐

热门标签

FastText 使用预先训练的词向量进行文本分类的相关文章