如何加快 Gensim Word2vec 模型加载时间？

2023-11-21

我正在构建一个聊天机器人，因此需要使用 Word2Vec 对用户的输入进行矢量化。

我正在使用 Google 提供的包含 300 万个单词的预训练模型 (GoogleNews-vectors-male300)。

所以我使用 Gensim 加载模型：

import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)

问题是加载模型大约需要 2 分钟。我不能让用户等那么久。

那么我该怎么做才能加快加载时间呢？

我想过将这 300 万个单词及其对应的向量分别放入 MongoDB 数据库中。这肯定会加快速度，但直觉告诉我这不是一个好主意。

在最近的 gensim 版本中，您可以使用可选的从文件前面开始加载子集limit参数为load_word2vec_format()。（GoogleNews 向量似乎大致按最频繁到最不频繁的顺序排列，因此前 N 个通常是您想要的 N 大小的子集。因此使用limit=500000获得最常见的 500,000 个单词向量——仍然是一个相当大的词汇量——节省了 5/6 的内存/加载时间。）

所以这可能会有所帮助。但是，如果您为每个 Web 请求重新加载，您仍然会受到加载 IO 限制速度以及存储每个重新加载的冗余内存开销的影响。

您可以结合使用一些技巧来提供帮助。

请注意，以原始 word2vec.c 格式加载此类向量后，您可以使用 gensim 的本机重新保存它们save()。如果您以未压缩的方式保存它们，并且后备数组足够大（并且 GoogleNews 集绝对足够大），则后备数组将以原始二进制格式转储到单独的文件中。该文件稍后可以使用 gensim 的本机从磁盘进行内存映射[load(filename, mmap='r')][1] option.

最初，这将使负载看起来很快——操作系统不会从磁盘读取所有数组，而是仅将虚拟地址区域映射到磁盘数据，以便一段时间后，当代码访问这些内存位置时，将读取必要的范围-来自磁盘。到目前为止，一切都很好！

但是，如果您正在执行类似的典型操作most_similar()，您仍然会面临很大的滞后，只是稍后而已。这是因为此操作需要对所有向量进行初始扫描和计算（在第一次调用时，为每个单词创建单位长度标准化向量），然后对所有标准化向量进行另一次扫描和计算（在每次调用，找到 N 个最相似的向量）。这些全扫描访问会将整个阵列分页到 RAM 中，这又会耗费几分钟的磁盘 IO。

您想要的是避免冗余地进行单位标准化，并且只需支付一次 IO 成本。这需要将向量保留在内存中，以便所有后续 Web 请求（甚至多个并行 Web 请求）重复使用。幸运的是，内存映射在这里也可以提供帮助，尽管需要一些额外的准备步骤。

首先，加载 word2vec.c 格式的向量，load_word2vec_format()。然后，使用model.init_sims(replace=True)强制单位标准化，破坏性地就地（破坏非标准化向量）。

然后，将模型保存到新的文件名前缀： model.save('GoogleNews-vectors-gensim-normed.bin'`。（请注意，这实际上会在磁盘上创建多个文件，需要将这些文件保存在一起才能保存模型）重新加载。）

现在，我们将制作一个简短的 Python 程序，用于内存映射加载向量，and将整个数组强制放入内存。我们还希望该程序挂起直到外部终止（保持映射处于活动状态），and注意不要重新计算已经标准化的向量。这需要另一个技巧，因为加载的 KeyedVectors 实际上不知道向量是规范的。（通常只保存原始向量，并在需要时重新计算标准化版本。）

大致如下应该有效：

from gensim.models import KeyedVectors
from threading import Semaphore
model = KeyedVectors.load('GoogleNews-vectors-gensim-normed.bin', mmap='r')
model.syn0norm = model.syn0  # prevent recalc of normed vectors
model.most_similar('stuff')  # any word will do: just to page all in
Semaphore(0).acquire()  # just hang until process killed

这仍然需要一段时间，但只需要在任何网络请求之前/之外完成一次。当进程处于活动状态时，向量保持映射到内存中。此外，除非/直到存在其他虚拟内存压力，否则向量应保持加载在内存中。这对于接下来的事情很重要。

最后，在您的 Web 请求处理代码中，您现在可以执行以下操作：

model = KeyedVectors.load('GoogleNews-vectors-gensim-normed.bin', mmap='r')
model.syn0norm = model.syn0  # prevent recalc of normed vectors
# … plus whatever else you wanted to do with the model

多个进程可以共享只读内存映射文件。（也就是说，一旦操作系统知道文件 X 位于 RAM 中的某个位置，所有其他也需要 X 的只读映射版本的进程将被引导在该位置重新使用该数据。）。

所以这个网络请求load(), 以及任何后续访问，都可以重用先前进程已经带入地址空间和活动内存的数据。需要对每个向量进行相似性计算的操作仍然需要花费时间来访问多个 GB 的 RAM，并进行计算/排序，但不再需要额外的磁盘 IO 和冗余的重新标准化。

如果系统面临其他内存压力，数组的范围可能会超出内存范围，直到下一次读取将它们分页回来。如果机器缺乏 RAM 来完全加载向量，则每次扫描都需要混合分页-进进出出，无论如何，性能都会令人沮丧地糟糕。（在这种情况下：获取更多 RAM 或使用较小的向量集。）

但是，如果您确实有足够的 RAM，这最终会使原始/自然加载和直接使用的代码以相当快的方式“正常工作”，而无需额外的 Web 服务接口，因为机器的共享文件映射内存功能作为服务接口。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何加快 Gensim Word2vec 模型加载时间？的相关文章

Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
如何在 AWS CDK 创建的 Python Lambda 函数中安装外部模块？

我在 Cloud9 中使用 Python AWS CDK 并且我部署简单的 Lambda 函数那应该是发送 API 请求到 Atlassian 的 API当对象上传到 S3 存储桶时也是由 CDK 创建的这是我的 CDK 堆栈代码 fr
我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

如果我正在对将用作查询字符串参数的 URI 进行编码：encodeURI 或encodeURIComponent

来自旧帖子我应该使用encodeURI 还是encodeURIComponent 来编码URL 它说 encodeURI assumes that the input is a complete URI that might have s
nvd3 piechart.js - 如何编辑工具提示？

我正在使用 nvd3 的 piechart js 组件在我的网站上生成饼图提供的 js 文件包含几个 var 如下所示 var margin top 30 right 20 bottom 20 left 20 width null hei
在大查询中从宽到长重塑（标准 SQL）

不幸的是在 BQ 中进行重塑并不像在 R 中那么容易而且我无法导出该项目的数据这里是输入 date country A B C D 20170928 CH 3000 3 121 13 3200 20170929 CH 2800 31
%ENV 不起作用，我无法使用共享库

我无法使用 ENV在我的 Perl 脚本上使用 var 来使用 Oracle 库 BEGIN ORACLE HOME usr lib oracle 10 2 0 3 client64 LD LIBRARY PATH ORACLE HOME
如何在 Angular 4 中将对象转换为数组？

我想转换我的Object数组这是我的对象 5 0 10 28 0 14 3 0 6 我想要像下面这样的数组 type 5 0 value 10 type 28 0 value 14 type 3 0 value 6 or 5 0 10 2
Android杀死进程[重复]

这个问题在这里已经有答案了如何通过一次单击杀死整个应用程序 finish 不起作用它重定向到之前的活动请指导我 public void onClick View arg0 TODO Auto generated method stub
在 iframe 中创建可排序的 jQuery UI

在页面上我有一个 iframe 在这个 iframe 中是我需要进行排序的项目的集合所有 Javascript 都在父页面上运行我可以访问 iframe 文档中的列表并使用上下文创建可排序 var ifrDoc iframe conte
为什么 postgres 对相同的间隔值显示两种不同的格式？

我正在帮忙做这件事question尝试更改间隔的格式 from 01 day 22 10 37 to 46 10 37 我给出了一个字符串操作的解决方案但后来我发现 postgres 可以在两种不同的格式上显示相同的间隔 SELECT 2
如何从 Javascript 启动两个或多个自定义 URL 协议

我有一个旧的 html 页面它创建一个脚本文件并使用以下命令执行它 fsoObject new ActiveXObject Scripting FileSystemObject wshObject new ActiveXObject WS
linux下C++中socket监听没有解除绑定

我有一个监听某个端口的套接字我将 SIGSTOP 信号发送到在端口上等待的线程使用accept 并终止它然后我关闭我等待的套接字的 fd 但对于我的项目的下一次运行它不允许我再次监听该端口我的程序是linux下的C 我应该怎么办
使用 .prototype 和 __proto__ 创建子类

我最近通过编写一些 gnome shell 扩展来学习 javascript 因此我对 Javascript 的理解是由我在 gnome shell javascript 源代码中观察到的示例塑造的我有一种感觉我对课程的理解是错误的只
Gson TypeToken 是如何工作的？

据我了解在 Java 中与 C 中的泛型相反泛型是编译时功能并通过类型擦除来删除那么 Gson 的TypeToken真的有效吗它如何获得对象的泛型类型来自 JLS 4 6 强调我的类型擦除是从类型可能包括参数化类型和类型变
Select2 取消/阻止默认 select2：在特定条件下选择 (v.4.0.x)

我需要向每个 select2 项目添加一个按钮并阻止默认事件以便只有按钮被触发我有以下代码但正常onSelect事件仍然被触发 select on select2 select test2 function test2 e if e
没有给出与所需的形式参数“选项”相对应的参数

我正在 Net Core 中开发我的第一个应用程序由于某种原因我收到此构建错误错误CS7036没有给出与 LakeViewContext LakeViewContext DbContextOptions LakeView所需的形式参数
SQL Server 奇怪的多列分组场景和 OR

我有一个奇怪的分组场景并且在找出 SQL 中分组的最佳方法时遇到了一些麻烦假设我们有下面一张表 CREATE TABLE Item KeyId VARCHAR 1 NOT NULL Col1 INT NULL Col2 INT NULL
java.lang.OutOfMemoryError：位图大小超出 VM 预算 - Android

我在 Android 上开发了一个使用大量图像的应用程序该应用程序运行一次填充屏幕上的信息 Layouts Listviews Textviews ImageViews等用户读取信息没有动画没有特效或者任何可以填满记忆的东西有时
TabBarItems 并设置它们的图像大小？

我目前正在向我的每个选项卡栏项目添加图像我喜欢的一张图像的尺寸比条形项目的面积大得多当我在故事板中设置栏项目的图像并运行模拟器时带有该图像的栏按钮覆盖整个屏幕现在我认为有一些自动方法可以让图像为每个栏按钮调整大小遗憾的是事实并非如
如何从航路 3 直接升级到航路 5

开发由许多客户在许多生产环境中部署的产品它至少包含一个 Spring Boot 应用程序我们使用 Flyway 进行数据库模式迁移从 Spring Boot 1 5 x 升级到 2 0 x 使我们的 Flyway 版本从 3 x 升级
InflateException 与来自官方设计库的 FloatingActionButton

我在使用官方的时候遇到了一个bugFloatingActionButton来自 Google 的支持设计库这是我的 LogCat android view InflateException Binary XML file line 34
如何加快 Gensim Word2vec 模型加载时间？

我正在构建一个聊天机器人因此需要使用 Word2Vec 对用户的输入进行矢量化我正在使用 Google 提供的包含 300 万个单词的预训练模型 GoogleNews vectors male300 所以我使用 Gensim 加载模型

如何加快 Gensim Word2vec 模型加载时间？

如何加快 Gensim Word2vec 模型加载时间？ 的相关文章

随机推荐

热门标签

如何加快 Gensim Word2vec 模型加载时间？的相关文章