如何将 Pandas DataFrame 中加载的嵌入转换为 Gensim 模型？

2024-05-01

我有一个 DataFrame，其中索引是单词，并且有 100 个带有浮点数的列，这样对于每个单词，我将其嵌入为 100d 向量。我想将我的 DataFrame 对象转换为gensim 模型对象 https://radimrehurek.com/gensim/models/keyedvectors.html这样我就可以使用它的方法；特别gensim.models.keyedvectors.most_similar()这样我就可以在我的子集中搜索相似的单词。

哪种方法是首选？

Thanks

不确定执行此操作的“首选”方式是什么，但 gensim 期望的格式非常容易复制：

data = pd.DataFrame([[0.15941701, 0.84058299],
                     [0.12190033, 0.87809967],
                     [0.06293788, 0.93706212]],
                    index=["these", "be", "words"])

np.savetxt('test.txt', data.reset_index().values, 
           delimiter=" ", 
           header="{} {}".format(len(data), len(data.columns)),
           comments="",
           fmt=["%s"] + ["%.18e"]*len(data.columns))

标题是 2 个空格分隔的整数，词汇表中的单词数和单词向量的长度。每行的第一列是单词本身。其余列是词向量的元素。 fmt 的奇怪之处在于将第一个元素格式化为字符串，其余元素格式化为浮点数。

然后可以将其加载到 gensim 中并执行以下操作：

import gensim

from gensim.models.keyedvectors import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('test.txt', binary=False)

word_vectors.similarity('these', 'words')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

gensim

如何将 Pandas DataFrame 中加载的嵌入转换为 Gensim 模型？的相关文章

python 中的并行处理

在 python 2 7 中进行并行处理的简单代码是什么我在网上找到的所有示例都很复杂并且包含不必要的代码我该如何做一个简单的强力整数分解程序在每个核心 4 上分解 1 个整数我真正的程序可能只需要2个核心并且需要共享信息我知
opencv水印周围的轮廓

我想在图像中的水印周围画一个框我已经提取了水印并找到了轮廓但是不会在水印周围绘制轮廓轮廓是在我的整个图像上绘制的请帮我提供正确的代码轮廓坐标的输出为 array 0 0 0 634 450 634 450 0 dtype int
用缺失的日期填充其他列 Nan Pandas DataFrame

我实际上是从几个 Excel 文件中提取数据来监控我的每日卡路里摄入量我设法使用列表理解来生成日期我尝试使用合并或连接但它不起作用 ValueError 您正在尝试合并对象和 float64 列 date list 2021 05 2
补丁 - 为什么相对补丁目标名称不起作用？

我已经从模块导入了一个类但是当我尝试修补类名而不使用模块作为前缀时出现类型错误 TypeError Need a valid target to patch You supplied MyClass 例如以下代码给出了上述错误 imp
Kivy - 有所有颜色名称的列表吗？

在 Kivy 中小部件 color属性允许输入其值作为字符串颜色名称也例如在 kv file Label color red 是否有所有可能的颜色名称的列表就在这里来自Kivy 的文档 https kivy org doc sta
Pandas：如果单元格包含特定文本则删除行

pandas 中的这段代码不起作用如果该列包含提供的任何文本数字我希望它删除该行目前我只能在单元格与我的代码中传递的确切文本匹配时才能使其工作因为它只删除显示 Fin 的单元格不是金融或金融 df2 df df Team Fin
搜索多个字段

我想我没有正确理解 django haystack 我有一个包含多个字段的数据模型我希望搜索其中两个字段 class UserProfile models Model user models ForeignKey User unique
没有名为 StringIO 的模块

我有Python 3 6 我想从另一个名为 run py 的 python 文件执行名为 operation py 的 python 文件 In operation py I do from cStringIO import StringI
Keras：如何保存模型或权重？

如果这个问题看起来很简单我很抱歉但是阅读 Keras 保存和恢复帮助页面 https www tensorflow org beta tutorials keras save and restore models https www t
在 Django OAuth Toolkit 中安全创建新应用程序

如何将 IsAdminUser 权限添加到 Django OAuth Toolkit 中的 o applications 视图 REST FRAMEWORK DEFAULT PERMISSION CLASSES rest framework
如果在等待“read -s”时中断，在子进程中运行 bash 会破坏 tty 的标准输出吗？

正如 Bakuriu 在评论中指出的那样这基本上与BASH 输入期间按 Ctrl C 会中断当前终端 https stackoverflow com questions 31808863 bash ctrlc during input b
从扫描文档中提取行表 opencv python

我想从扫描的表中提取信息并将其存储为 csv 现在我的表提取算法执行以下步骤应用倾斜校正应用高斯滤波器进行去噪使用 Otsu 阈值进行二值化进行形态学开局 Canny 边缘检测进行霍夫变换以获得表格行去除重复行 10像素范围内相
Matplotlib 中 x 轴标签的频率和旋转

我在下面编写了一个简单的脚本来使用 matplotlib 生成图形我想将 x tick 频率从每月增加到每周并轮换标签我不知道从哪里开始 x 轴频率我的旋转线产生错误 TypeError set xticks got an unexp
用 python 编写的数学语法检查器

我需要的只是使用 python 检查字符串是否是有效的数学表达式为了简单起见假设我只需要运算符也作为一元带有数字和嵌套括号为了完整性我还添加了简单的变量名称所以我可以这样测试 test 3 2 1 valid test 3
Jython 和 SAX 解析器：允许的实体不超过 64000 个？

我做了一个简单的测试xml saxJython 中的解析器在处理大型 XML 文件 800 MB 时遇到以下错误 Traceback most recent call last File src project xmltools py li
Mac OSX 10.6 上的 Python mysqldb 不工作

我正在使用 Python 2 7 并尝试让 Django 项目在 MySQL 后端运行我已经下载了 mysqldb 并按照此处的指南进行操作 http cd34 com blog programming python mysql pyth
当数据库不是 Django 模型时，是否可以使用数据库中的表？

是否可以从应用程序数据库中的表获取查询集该表不是应用程序中的模型如果我有一个不是名为 cartable 的模型的表从概念上讲我想这样做 myqueryset cartable objects all 有没有相对简单的方法来做到这一点
混淆矩阵不支持多标签指示符

multilabel indicator is not supported是我在尝试运行时收到的错误消息 confusion matrix y test predictions y test is a DataFrame其形状为 Horse
如何根据第一列创建新列，同时考虑Python Pandas中字母和列表的大小？ [复制]

这个问题在这里已经有答案了我在 Python Pandas 中有 DataFrame 如下所示 col1 John Simon prd agc Ann White BeN and Ann bad list Ben Wayne 我需要这样做
python 线程安全可变对象复制

Is 蟒蛇的copy http docs python org 2 library copy html模块线程安全吗如果不是我应该如何在 python 中以线程安全的方式复制 deepcopy 可变对象蟒蛇的GIL http en w

随机推荐

尝试在 C# 中的字符串中的字符之间添加空格

我正在尝试在 c 中的字符串中的字符之间添加空格任何建议将非常感激谢谢 using System namespace nameReverser class Program public static void Main string a
Hibernate OneToMany 列表中的重复结果

我已将 1 N 关系与 OneToMany 列表映射但当我访问该列表时由于 OUTER JOIN 结果会重复映射如下所示 Entity public class Programmer ElementCollection fetch F
如何在安全帽上模拟 Chainlink/oracle API 响应

在安全帽入门套件上单元测试会检查您是否可以发出 API 请求但实际上并不能满足要求在任务中它请求卷数据但未显示如何满足请求通过查看mockOracle的代码我发现了这个函数 const r await mockOracle f
React 未捕获的不变违规：在 ApolloConsumer 的上下文中找不到“客户端”。将根组件包装在中

我有一个使用 React 应用程序react apollo 2 5 8以及我通过 NPM 安装并在应用程序中使用的自定义组件库图书馆有react apollo 2 5 8列在对等和开发依赖项中自从我将 React apollo 升级到
如何解决：使用 .csv Dictreader 导入文件的 Python 因未定义字符而失败

首先我发现下列 https stackoverflow com questions 38019379 python unicodedecodeerror utf8 codec cant decode byte 0x91这与我的问题基本相同
如何链接到 WordPress 管理插件上的自定义 php 页面？

我对 WordPress 开发很陌生我正在编写一个管理插件来处理证书创建我实现了创建插件并通过 add menu page 将其放在管理菜单中这是插件的概念我使用 WP List Table 来显示用户列表我添加了带有一些用户元
如何将 .h 文件中的常量导入到 python 模块中

将 c 风格不是 c 只是普通的旧 c h 文件中定义的一堆常量导入到 python 模块中的推荐方法是什么以便它可以在项目的 python 部分中使用在项目中我们使用混合语言在 Perl 中我可以通过使用 h2xs 实用程序生
JavaScript 中的整数

MDN https developer mozilla org en JavaScript A re introduction to JavaScript Numbers states JavaScript 中的数字是双精度 64 位格式
如何在eclipse中更改genymotion安装目录路径？

当Genymotion提示选择安装目录时我不小心选择了错误的文件夹我该如何改变它查看窗口 gt 首选项 gt Genymobile gt Genymotion 然后您将能够修改之前的条目
C# Dns.GetHostEntry() - 异常：没有这样的主机已知

From 文档 https learn microsoft com en us dotnet api system net dns gethostentry view netframework 4 8 Dns GetHostEntry 将主
找出分区号/id

Spark中有没有一种方法方法可以找出分区ID 编号在这里举这个例子 val input1 sc parallelize List 8 9 10 3 val res input1 reduce x y gt println Insid
Mercurial Eclipse 插件

在哪里可以找到好的 Eclipse Mercurial 插件 MercurialEclipse https bitbucket org mercurialeclipse main 更新站点 https bitbucket org mercu
Python导入Django管理命令的问题

不管出于什么原因当我刚接触 Python 和 Django 时我在 models py 文件的顶部编写了一些像这样的导入语句 from django contrib import auth 我会这样使用它 class MyModel m
使用 hg 存储库作为网站

这与我的安全问题有些相关here https stackoverflow com questions 2361626 security deny access to hg via mod rewrite 对实时网站使用 hg Mercuri
Json.Net 根据值选择对象

我有一个 Json 对象如下所示 wvw matches wvw match id 1 4 red world id 1011 blue world id 1003 green world id 1002 start time 2013
在 Dart 中打印不带括号的列表

我想在打印时从列表中删除括号 Dart Code void main var lst new List 3 for int i 0 i lt 3 i lst i i print lst 电流输出 0 1 2 预期输出 0 1 2 您可以使用
多个 aiohttp Application() 在同一进程中运行？

Can two aiohttp web Application 对象在同一进程中运行例如在不同的端口上我看到了一堆 aiohttp 代码的示例例如 from aiohttp import web app web Application
如何在画布的右上角绘制位图

我正在尝试绘制位图top right hand corner of the Canvas 到目前为止我已经做了以下事情 100x40 dimensions for the bitmap bitmap BitmapFactory decode
当参数具有相同名称时如何恢复内置函数？ [复制]

这个问题在这里已经有答案了我知道你是不应该 https stackoverflow com questions 2417979 can i use variable name type as function argument in p
如何将 Pandas DataFrame 中加载的嵌入转换为 Gensim 模型？

我有一个 DataFrame 其中索引是单词并且有 100 个带有浮点数的列这样对于每个单词我将其嵌入为 100d 向量我想将我的 DataFrame 对象转换为gensim 模型对象 https radimrehurek com

如何将 Pandas DataFrame 中加载的嵌入转换为 Gensim 模型？

如何将 Pandas DataFrame 中加载的嵌入转换为 Gensim 模型？ 的相关文章

随机推荐

热门标签

如何将 Pandas DataFrame 中加载的嵌入转换为 Gensim 模型？的相关文章