将预训练的手套词嵌入与 scikit-learn 结合使用

2024-05-11

我已经使用 keras 来使用预先训练的词嵌入，但我不太确定如何在 scikit-learn 模型上执行此操作。

我也需要在 sklearn 中执行此操作，因为我正在使用vecstack集成 keras 序列模型和 sklearn 模型。

这就是我为 keras 模型所做的：

glove_dir = '/home/Documents/Glove'
embeddings_index = {}
f = open(os.path.join(glove_dir, 'glove.6B.200d.txt'), 'r', encoding='utf-8')
for line in f:
    values = line.split()
    word = values[0]
    coefs = np.asarray(values[1:], dtype='float32')
    embeddings_index[word] = coefs
f.close()

embedding_dim = 200


embedding_matrix = np.zeros((max_words, embedding_dim))
for word, i in word_index.items():
    if i < max_words:
        embedding_vector = embeddings_index.get(word)
        if embedding_vector is not None:
            embedding_matrix[i] = embedding_vector

model = Sequential()
model.add(Embedding(max_words, embedding_dim, input_length=maxlen))
.
.
model.layers[0].set_weights([embedding_matrix])
model.layers[0].trainable = False
model.compile(----)
model.fit(-----)

我对 scikit-learn 很陌生，从我所看到的在 sklearn 中制作模型的情况来看，你会这样做：

lr = LogisticRegression()
lr.fit(X_train, y_train)
lr.predict(x_test)

所以，我的问题是如何在这个模型中使用预先训练的手套？我应该把经过训练的手套交给哪里embedding_matrix

非常感谢你，我真的很感谢你的帮助。

您可以简单地使用Zeugma https://github.com/nkthiebaut/zeugma图书馆。

你可以安装它pip install zeugma，然后使用以下代码行创建并训练您的模型（假设corpus_train and corpus_test是字符串列表）：

from sklearn.linear_model import LogisticRegresion
from zeugma.embeddings import EmbeddingTransformer

glove = EmbeddingTransformer('glove')
x_train = glove.transform(corpus_train)

model = LogisticRegression()
model.fit(x_train, y_train)

x_test = glove.transform(corpus_test)
model.predict(x_test)

您还可以使用不同的预训练嵌入（完整列表here https://github.com/RaRe-Technologies/gensim-data#models）或训练你自己的（参见Zeugma 的文档 https://readthedocs.org/projects/zeugma/了解如何执行此操作）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Keras

scikitlearn

wordembedding

GloVe

将预训练的手套词嵌入与 scikit-learn 结合使用的相关文章

使用 matplotlib 在图像数据之上对线网格进行像素精确定位

我试图在 python 库 matplotlib 显示的图像网格顶部精确地覆盖 1 像素宽线的网格不幸的是我似乎无法对结果进行足够精细的控制以实现线网格与数据网格的正确对齐如下面的代码所示结果似乎总是很接近但并不完全正确我尝试
BeautifulSoup 不适用于某些网站

我有这个脚本 import urrlib2 from bs4 import BeautifulSoup url http www shoptop ru page urllib2 urlopen url read soup Beautiful
django/whitenoise 存储后端导致错误

我在调试关闭时在 heroku 上运行 django 应用程序时遇到了 500 错误使用 rollbar 了解发生错误的原因后它报告了以下内容 ValueError The file media img 1 jpg could not
在python中浏览ftp目录

我正在尝试使用 ftplib 使用 Python 3 从 ftp 服务器下载多个文件夹我有一个文件夹名称列表它们都位于文件夹 root 中问题是我不知道如何浏览它们当我使用cwd我可以进入更深的目录但是如何再次起来呢我正在尝试得
使用 selenium 在 python 中切换到弹出窗口

如何在下面的 selenium 程序中切换到弹出窗口我已经查找了所有可能的解决方案但无法解决它们请帮忙 from selenium import webdriver from splinter import Browser from
python请求：重试直到收到有效响应

我想知道是否存在重试请求一定次数的常见模式可能由于服务器错误或网络不良而失败我想出了这个并且我愿意在那里找到更好的实现 cnt 0 while cnt lt 3 try response requests get uri if res
类型错误：无法连接“str”和“instance”对象（python urllib）

写一个python程序我在使用时遇到了这个错误urllib urlopen功能 Traceback most recent call last File ChurchScraper py line 58 in
ctypes.ArgumentError：不知道如何转换参数

我在C库中定义了一个函数如下所示 int Test char str1 int id1 char str2 float val float ls 我想在Python中使用它所以我编写了以下Python代码 str1 a str2 b i
如何在 python 中连接到 GObject 信号，而不保留对连接器的引用？

问题基本上是这样的在 python 的 gobject 和 gtk 绑定中假设我们有一个在构造时绑定到信号的类 class ClipboardMonitor object def init self clip gtk clipboard
如何将文本文件中的十六进制行转换为数组（Python）？

我有一个文本文件每行包含一个十六进制明文我的文件如下所示 7a8e5dc390781eab8df2c090bf4bebca dbac0fba55d3d4fc177161bfe24dc7fb 82e5a7a021197f6fbe94a86
如何在 PySide/PyQt 中制作一个位于屏幕中央的小部件？

这段代码有效但我想知道是否有更简单的方法 def center self qr self frameGeometry cp gui QDesktopWidget availableGeometry center qr moveCenter
Python 对象初始化错误。或者我误解了对象的工作原理？ [复制]

这个问题在这里已经有答案了 1 import sys 2 3 class dummy object 4 def init self val 5 self val val 6 7 class myobj object 8 def init s
仅打印字符串中的元音

我是Python新手我正在尝试打印字符串中的所有元音因此如果有人输入嘿一切都好吗所有元音都需要打印但我不知道怎么做所以这不是计算元音而是打印元音现在我已经得到了这个 sentence input Enter your s
VS Code Pylance 不突出显示变量和模块

我正在使用带有 Python 和 Pylance 扩展的 VS Code 我遇到的问题是 Pylance 扩展没有对模块和数据框等内容进行语法突出显示我希望顶部的模块为绿色 df 变量为蓝色我正在使用默认的深色颜色主题这是我的 VS
将 Python 3 的“范围”“向后移植”到 Python 2 是一个坏主意吗？

我的一门课程要求用 Python 完成作业作为练习我一直使用如下脚本确保我的程序可以在 Python 2 和 Python 3 中运行 bin bash Run some PyUnit tests python2 test py pyt
Django 1.6：如何在视图中访问静态文件

我已经尝试过解决方案here https stackoverflow com questions 11721818 django get the static files url in view这对我不起作用我正在为 Python 创建一
python 中的优化标准化

在优化过程中对输入参数进行归一化使它们处于同一数量级通常会很有帮助这样收敛效果会更好例如如果我们想要最小化 f x 而合理的近似值是 x0 1e3 1e 4 则将 x0 0 和 x0 1 归一化到大约相同的数量级可能会有所帮助
Mac 上的 PythonXY？

如何在 Mac OS X Lion 上安装 Python 我开始了它应该能够通过 macports 但无论如何我找不到 mac ports 网站上所述的端口 pythonXY 我对 MAC 和 pythonXY 都不太了解但在 pyth
vtkPythonAlgorithm 控制管道执行

我正在尝试用 python 编写一个 vtk 过滤器ProjectDepthImage进行投影不是问题它控制 vtk 管道的执行基本上我对 UserEvent 有一个回调当用户在渲染窗口处于活动状态时按下 u 键时会触发该回调这将
媒体文件上的 404 - Django

昨晚我将项目上传到 pythonanywhere com 我想在那里测试我的项目生产设置在我允许的模型之一中用户上传JPG 团队徽标上传过程运行良好文件位于我的 MEDIA ROOT 中问题是当我尝试在模板中访问它以将其显示在页

随机推荐

CSS 选择器在哪个方向进行验证？

我记得不久前在网上看过一个视频是雅虎工程师的演讲他在视频中提到浏览器从右到左读取 CSS 选择器而不是从左到右意义 body header links a实际上会拉出页面上的所有锚点过滤那些具有类父级的锚点links有一个班级的家
我可以将这个 XAML 块变成可重用的“控件”吗？

我有一个Grid 在那个网格中我有这个
R Shiny UI 子选项复选框？

我有一个基本的 RShiny 应用程序它有一个反应式复选框它根据复选框中选择的数据 df 列绘制时间序列数据我当前的代码生成一个带有复选框输入的 UI 如下所示 Load R packages library shiny libra
在tomcat中显示Spring-security的SQL错误

我使用 spring security 框架创建了一个 Web 应用程序我设置了一个数据库来存储用户及其角色但 tomcat 给出以下错误 17 sep 2010 11 56 14 org springframework beans f
如何为 asp.net MVC 5 配置 StructureMap

我遇到以下错误我的设置与 asp net mvc 4 类似没有为此对象定义无参数构造函数描述安当前网页执行期间发生未处理的异常要求请查看堆栈跟踪以获取有关的更多信息错误及其在代码中的起源异常详细信息 System Miss
如何在视图中调用 Grails 服务？

简单的问题我有一个服务类比方说helpersService 和一个方法def constructURI params 如何从模板视图调用此方法我尝试了以下代码但没有成功 img src 但我得到以下结果 No signature of
Java Swing透明JPanel问题

我有一个 JLayeredPane 其中添加了 3 个 JPanel 我将 JPanel 设为透明未设置背景并 setOpaque false 我在 JPanel 上绘制线条只有最后添加的 JPanel 上的线条可见其他 JPanel
如何从 SQL Azure V11 升级到 V12？

我正在使用 V11 SQL Azure 在此阶段我不想升级包含我当前所有 QA 和生产数据库的现有 SQL 服务器从逻辑上讲为 V12 创建新的 SQL Server 设置似乎更安全然后以某种方式将 V11 数据库实例从我的 V11
使用 Java 的 OpenId 提供者/服务器

我正在尝试使用 OpenId 服务增强现有的 Java Web 应用程序以便登录用户可以使用我的 Web 应用程序作为 OpenId 提供程序登录另一个启用 OpenId 的应用程序 My first attempt was to use
如何为新的 eclipse (neon) java 项目初始化 git

我安装了 eclipse Neon 的新副本并在一个新的闪亮工作区中创建了一个新的 gradle java 项目将 git 添加到聚会中的最佳实践是什么我读到在项目目录中初始化 git 是真是个坏主意 https stackoverf
使用使析构函数私有化[重复]

这个问题在这里已经有答案了在下面的代码中我没有得到将 MyClass MyClass 析构函数设为私有的用途原因好处由于析构函数是私有的所以最后如何调用析构函数 myclass h include
复杂类型：一个模型中有多个实例？

有没有办法使用 Fluent api 模型构建器在同一模型中拥有复杂类型的多个实例 public class Contact public int Id get set public string FirstName get set pub
Python 的“platform.mac_ver()”报告不正确的 MacOS 版本

我正在使用Pythonplatform module https docs python org 3 library platform html要识别 MacOS 版本如下所示 import platform print platform
如何制作wpf倒计时器？

我想创建 wpf 倒数计时器将结果显示为hh mm ss进入文本框我将感谢任何人的帮助您可以使用DispatcherTimer class msdn http msdn microsoft com en US library syst
是否可以使 Spring Security 会话失效？

我正在使用 Tomcat 6 0 32 Spring Security 3 0 5 在我的网络应用程序中某些用户可以更改其他用户的权限发生这种情况时我想使权限已更改的用户的任何会话无效这可能吗如果可能的话怎么办通常您无法在更改
org.apache.tomcat.jdbc.pool.DataSource 不再位于 tomcat 7 dbcp jar 中？

我正在尝试使用 tomcat dbcp jar 版本 7 0 30 为 tomcat dbcp 创建一个 spring 管理的独立池然而 Tomcat的文档中提到的似乎是org apache tomcat jdbc DataSource类
导致聚集索引扫描的日期参数

我有以下查询 DECLARE StartDate DATE 2017 09 22 DECLARE EndDate DATE 2017 09 23 SELECT a col1 a col2 b col1 b col2 b col3 a col
按 A 列删除重复项，保留 B 列中具有最高值的行

我有一个数据框 A 列中有重复值我想删除重复项保留 B 列中具有最高值的行 So this A B 1 10 1 20 2 30 2 40 3 10 应该变成这样 A B 1 20 2 40 3 10 我猜想可能有一种简单的方法可以做到
如何在 Java 9 中使用新的 BeanInfo 注解

JEP 256 BeanInfo 注释 http openjdk java net jeps 256为JavaBean http download java net java jdk9 docs api java beans JavaBea
将预训练的手套词嵌入与 scikit-learn 结合使用

我已经使用 keras 来使用预先训练的词嵌入但我不太确定如何在 scikit learn 模型上执行此操作我也需要在 sklearn 中执行此操作因为我正在使用vecstack集成 keras 序列模型和 sklearn 模型这就

将预训练的手套词嵌入与 scikit-learn 结合使用

将预训练的手套词嵌入与 scikit-learn 结合使用 的相关文章

随机推荐

热门标签

将预训练的手套词嵌入与 scikit-learn 结合使用的相关文章