将 word2vec 模型查询的结果保存在 csv 文件中？

2024-05-07

我正在语料库上训练 word2vec 模型，然后查询该模型。

这工作正常，但我正在运行一个实验，需要针对不同的条件调用模型，保存每个条件的模型，查询每个条件的模型，然后将查询的输出保存到 csv 文件中，例如进一步分析所有条件。

我研究了 gensim 文档并四处搜索，但不知道该怎么做。

我问了 gensim 的人，他们说由于“most_similar”的结果是一个 python 对象，我可以用 pickle 保存它或保存为 txt、csv，无论我想要什么格式。

听起来不错，但我不知道如何开始。这是我的代码 - 你能帮我“填补空白”，即使是一些简单的事情，我可以进一步研究并自己扩展吗？

#train the model
trained_model = gensim.models.Word2Vec(some hyperparamters)

#save the model in the format that is appropriate for querying by writing it to disk and call it stored_model
trained_model.save(some_filename)

#read in the stored model from disk and call it retrieved_model
retrieved_model = gensim.models.Word2Vec.load(some_filename)

#query the retrieved model
#each of these queries produces a tuple of 10 'word', cosine similarity pairs
retrieved_model.wv.most_similar(positive=['smartthings', 'amazon'], negative=['samsung'])
retrieved_model.wv.most_similar(positive=['light', 'nest'], negative=['hue'])
retrieved_model.wv.most_similar(positive=['shopping', 'new_york_times'], negative=['ebay'])
.
.
.
#store the results of all these queries in a csv so they can be analyzed.
?

正如我的评论中所述，您可以像这样保存和加载模型对象：

# Save model
filename = 'stored_model.wv' # Can be any arbitrary filename
trained_model.save(filename) 

# Reload model
retrieved_model = gensim.models.Word2Vec.load(filename)

为了检索多个查询，我建议定义一个查询列表并迭代它以检索所有结果。

# Define queries (this is the only user input required!)
my_queries = [{'positive' : ['smartthings','amazon'],
               'negative' : ['samsung']},
              {'positive' : ['light','nest'],
               'negative' : ['hue']},
               #<and so forth...>
              ]

# Initialize empty result list
query_results = []

# Collect query results
for query in my_queries:
    result = retrieved_model.wv.most_similar(**query)
    query_results.append(result)

最后，您可以使用结果列表以您想要的格式写入 csv 文件。可以构造文件的标头来表示查询。

# Open the file
with open("my_results.csv", "w") as outfile:

    # Construct the header
    header = []
    for query in my_queries:
        head = 'pos:'+'+'.join(query['positive'])+'__neg:'+'+'.join(query['negative']) 
        # First resulting head: 'pos:smartthings+amazon__neg:samsung'
        header.append(head)

    # Write the header
    # Note the additional empty fields (,_,) because each head needs two columns
    outfile.write(",_,".join(header)+",_\n")

    # Write the second row to label the columns
    outfile.write(",".join(["word,cos_sim" for i in range(len(header))])+'\n')

    # Write the data
    for i in range(len(query_results[0])):
        row_results = [r[0]+','+str(r[1]) for r in query_results[i]]
        outfile.write(",".join(row_results)+'\n')

请注意，这仅在每个查询检索相同数量的项目时才有效（默认情况下是这种情况，但可以使用topn关键字参数most_similar).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

Word2Vec

gensim

将 word2vec 模型查询的结果保存在 csv 文件中？的相关文章

如果 Excel 文件是由程序创建的，Pandas read_excel 对于具有简单公式的单元格返回 nan [重复]

这个问题在这里已经有答案了 I use pd read excel读取由以下命令创建的 excel 文件openpyxl并从一个网址下载解析后的数据框将给出nan如果单元格值是公式 which formula is simply 100
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
使用 NumPy 编写一个函数来计算具有特定公差的积分

我想编写一个自定义函数来以特定容差对表达式 python 或 lambda 函数进行数字积分我知道与scipy integrate quad人们可以简单地改变epsabs但我想使用 numpy 自己编写该函数 From 这篇博文 htt
App Engine NDB：如何访问属性的 verbose_name

假设我有这个代码 class A ndb Model prop ndb StringProperty verbose name Something m A m prop a string value 当然现在如果我打印 m prop 它会
用 Python 绘制直方图

我有两个列表 x 和 y x 包含字母表 A Z Y 包含它们在文件中的频率我尝试研究如何在直方图中绘制这些值但在理解如何绘制它方面没有成功 n bins patches plt hist x 26 normed 1 facecolor
设置高亮大括号的 vim 颜色主题

如何更改突出显示大括号的 vim 配色方案我希望实际编辑 vim 主题文件以使更改永久生效问候克雷格匹配括号的自动高亮颜色称为MatchParen 您可以通过执行以下操作来更改 vimrc 中的颜色 highlight MatchP
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
是否可以在Python中将日+月（不是年）与当前日+月进行比较？

我正在获取 5 月 10 日格式的数据我试图弄清楚它是今年还是明年该日期仅一年因此 5 月 10 日表示 2015 年 5 月 10 日而 5 月 20 日表示 2014 年 5 月 20 日为此我想将字符串转换为日期格式并进
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
从 wxPython 事件处理程序中调用函数

我正在努力寻找一种在 wxPython 事件处理函数中使用函数的方法假设我有一个按钮单击该按钮时它会使用事件处理程序运行一个名为 OnRun 的函数但是用户忘记单击 OnRun 按钮之前的 RadionButton 我想弹出一个
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
如何使用 Python/Django 在 Facebook 中获取（和使用）扩展权限

我正在尝试编写一个简单的应用程序让用户授予我的代码写入其页面的 Facebook 流的权限据我了解它应该很简单让用户单击一个按钮启动一个弹出窗口其中包含我的 Facebook 应用程序中的页面在该页面中他们单击授予的内容流发
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error
Biopython 可以执行 Seq.find() 来解释歧义代码吗

我希望能够在 Seq 对象中搜索考虑歧义代码的子序列 Seq 对象例如以下内容应该是正确的 from Bio Seq import Seq from Bio Alphabet IUPAC import IUPACAmbiguousDNA

随机推荐

无法将 Laravel 应用程序部署到 EC2

我的 Laravel 项目全部在我的本地主机上运行我将其部署到 EC2 但没有任何反应我在开发控制台中看到的只是内部错误 500 我缺少什么在部署到 AWS 之前我需要更改哪些内容这是网址 http ec2 52 88 99 75
构建一个“简单”的 php url 代理

我需要在我正在构建的 Web 应用程序中实现一个简单的 PHP 代理它基于 Flash 并且目标服务提供商不允许编辑其 crossdomain xml 文件任何 php 专家都可以就以下 2 个选项提供建议吗另外我认为但不确定我
重命名 PDF 文件中的指定目标

我一直在 PDF 文件中使用命名目标来在文件中的特定位置打开 PDF 文件负责生成 PDF 文档的团队使用工具从书签自动生成命名目的地因此命名目的地往往具有诸如 9 Glossary 或 Additional Information 之
如何将通用自定义对象保存到 UserDefaults？

这是我的通用类 open class SMState
将 dtype 对象的 numpy 数组转换为 dtype 复数

我有一个 numpy 数组我想将其从对象转换为复杂的如果我将该数组作为 dtype 字符串并转换它就没有问题 In 22 bane Out 22 array 1 000027337501943 7 331085223659654E 6
将 bytearray 转换为 array.array('B')

我有一个图像数据主要如下所示 array B 255 216 255 它属于类型array array B 由于该数据要通过通信通道发送因此有必要将该数据转换为类型 bytearray 我将数据转换为字节数组 data1 bytearr
如何使用 jquery 将文本设置为粗体、斜体和下划线

我现在有三个复选框和一个文本框如果我在文本框中写一些内容并选中粗体复选框则文本应以粗体效果显示并以类似的斜体和下划线显示而无需回发即它应立即反映所选效果这是我的代码 Bold
如何在 MVC 3 Razor 中显示解码后的编码 HTML？

我在 MVC 3 和 Asp net C 中使用 Razor 我有一个带有以下代码的视图 model ContentBody有一些 HTML 标签我需要将此 HTML 内容显示为DECODED 我该如何更改视图中的代码 div class
除了连接之外还有其他方法可以提高性能吗？

除了连接之外还有其他方法可以提高性能吗编辑 gbn 相关连接或相关子查询与存在子句哪个更好 https stackoverflow com questions 3305891 为什么没有人提到嵌套循环连接这不是 JOIN 的替代方式
使用 GMail 和 phpMailer 发送时出现“服务器未接受密码：535 身份验证数据不正确”

我在本地主机上运行相同的 php 脚本我的带有 XAMPP 的 PC 和托管服务器上它可以在我的电脑上运行但不能在托管服务器上运行当我从托管服务器发送它时我得到以下输出 SMTP gt ERROR Password not acc
Codeigniter 如何清理输入？

我正在构建一个 Codeigniter 应用程序并且正在尽最大努力防止 SQL 注入我正在使用 Active Record 方法来构建我的所有查询我知道 Active Record 会自动清理输入但我想知道到底清理到什么程度它只是
Haskell/GHC：使用相同模式匹配多个一元构造函数

所以我正在尝试定义 TrieSet 数据类型尽管我知道我不需要 http hackage haskell org package TrieMap module Temp where import Data Map data TrieSet
如何比较2个字符串数组并找到所有连续匹配并保存索引？

例如如果我有以下 2 个数组 string userSelect new string the quick brown dog jumps over string original new string the quick brown f
Xcode：PDF 中的矢量图像质量较差

对于我的 iOS Swift 项目我使用矢量化 pdf 文件 Xcode 从中渲染 1x 2x 3x 图像当我将 PDF 生成的图像的质量与相同大小的普通 PNG 图像进行比较时我发现它们之间的质量存在很大差异理论上下图中第一行和
使用 Google Cloud 任务调用 Firestore 函数时出现“PERMISSION_DENIED：权限缺失或不足”

我创建了一个函数该函数向 Firestore 数据库添加一个条目 const functions require firebase functions const admin require firebase admin admin in
Maven无法编译java 1.8

我正在尝试使用 maven 构建 jar 但我不断收到错误 ERROR Failed to execute goal org apache maven plugins maven compiler plugin 3 1 compile de
Twitter REST API：可以热链接 Twitter 图像吗？为什么 Firefox 中不显示图像？

我正在尝试从 Twitter REST API 中提取图像并显示这些图像因此我陷入了逻辑僵局因为我的 PHP HTML 代码未在本地主机 PHP 内置开发服务器的浏览器中显示图像我更喜欢 Firefox 因为它是更安全私密的浏览
如何根据多对多相关模型的属性查找记录？

楷模 InternalUser has many internal user roles has many roles through gt internal user roles InternalUserRole belongs to i
如何在 TList 中存储动态数组？

我需要存储未知数量的组每个组都有未知数量的元素项目这是我的小组 TGroup array of Integer lt dynamic array as you can see 我想使用 TList 来保存我的组我的想法是我可能想
将 word2vec 模型查询的结果保存在 csv 文件中？

我正在语料库上训练 word2vec 模型然后查询该模型这工作正常但我正在运行一个实验需要针对不同的条件调用模型保存每个条件的模型查询每个条件的模型然后将查询的输出保存到 csv 文件中例如进一步分析所有条件我研究了 ge

将 word2vec 模型查询的结果保存在 csv 文件中？

将 word2vec 模型查询的结果保存在 csv 文件中？ 的相关文章

随机推荐

热门标签

将 word2vec 模型查询的结果保存在 csv 文件中？的相关文章