比较 NumPy 数组的相似性

2024-01-24

我有一个形状为 (300,) 的目标 NumPy 数组和一组形状也为 (300,) 的候选数组。这些数组是单词的 Word2Vec 表示；我试图使用向量表示找到与目标单词最相似的候选单词。找到与目标词最相似的候选词的最佳方法是什么？

一种方法是将目标词与候选词之间的元素差异的绝对值相加，然后选择总体绝对差值最低的候选词。例如：

candidate_1_difference = np.subtract(target_vector, candidate_vector)
candidate_1_abs_difference = np.absolute(candidate_1_difference)
candidate_1_total_difference = np.sum(candidate_1_abs_difference)

然而，这似乎很笨拙，而且可能是错误的。有什么更好的方法来做到这一点？

编辑以包含示例向量：

import numpy as np
import gensim

path = 'https://s3.amazonaws.com/dl4j-distribution/GoogleNews-vectors-negative300.bin.gz'


def func1(path):
    #Limited to 50K words to reduce load time
    model = gensim.models.KeyedVectors.load_word2vec_format(path, binary=True, limit=50000)
    context =  ['computer','mouse','keyboard']
    candidates = ['office','house','winter']
    vectors_to_sum = []
    for word in context:
        vectors_to_sum.append(model.wv[word])
    target_vector = np.sum(vectors_to_sum)

    candidate_vector = candidates[0]
    candidate_1_difference = np.subtract(target_vector, candidate_vector)
    candidate_1_abs_difference = np.absolute(candidate_1_difference)
    candidate_1_total_difference = np.sum(candidate_1_abs_difference)
    return candidate_1_total_difference

你所拥有的基本上是正确的。您正在计算 L1 范数，它是绝对差值之和。另一个更常见的选择是计算欧几里德范数或 L2 范数，这是熟悉的平方和平方根的距离度量。

您可以使用numpy.linalg.norm计算不同的范数，默认情况下计算向量的 L-2 范数。

distance = np.linalg.norm(target_vector - candidate_vector)

如果你有一个目标向量和多个候选向量存储在一个列表中，上面的方法仍然有效，但是你需要指定范数的轴，然后你得到一个范数向量，每个候选向量一个。

对于候选向量列表：

distance = np.linalg.norm(target_vector - np.array(candidate_vector), axis=1)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

gensim

比较 NumPy 数组的相似性的相关文章

在命令提示符中识别“Pip”，但在 PyCharm 终端中无法识别

当我尝试在 Windows 命令提示符中运行 pip 时 pip V工作正常但是当我尝试在 PyCharm 终端中运行它时我得到 pip is not recognized as an internal or external comm
在 while 循环中更改 tkinter 画布中的图像

我的完整代码是here https gist github com ItsBerry de245ba70376cb07f4dbe2d25c223f5f 我正在尝试使用 tkinter 的画布创建一个小游戏让人们练习学习高音谱号上的音符最
scikit-learn LinearRegression 的意外交叉验证分数

我正在尝试学习使用 scikit learn 来完成一些基本的统计学习任务我认为我已经成功创建了适合我的数据的线性回归模型 X train X test y train y test cross validation train test
PySerial 和多个 Python 安装出现问题

我的 Windows 7 计算机上有 Python 2 4 4 和 3 1 3 我想使用 PySerial 听说是内置的所以我尝试了一下import serial在两个版本中两者都造成了Import Error 然后我从以下位置下载了w
如何在 python 中连接到 GObject 信号，而不保留对连接器的引用？

问题基本上是这样的在 python 的 gobject 和 gtk 绑定中假设我们有一个在构造时绑定到信号的类 class ClipboardMonitor object def init self clip gtk clipboard
seaborn 未在定义的子图中绘制

我正在尝试用这段代码并排绘制两个图表 fig ax1 ax2 plt subplots 1 2 sns displot x X train Age hue y train ax ax1 sns displot x X train Fare
Altair 条形图具有可变宽度的条形？

我正在尝试在 Python 中使用 Altair 制作条形图其中条形的宽度根据源数据帧列中的数据而变化最终目标是获得如下所示的图表条形的高度对应于每种能源技术的边际成本在源数据框中以列形式给出条形宽度对应于每种能源技术的容量也以
如何将文本文件中的十六进制行转换为数组（Python）？

我有一个文本文件每行包含一个十六进制明文我的文件如下所示 7a8e5dc390781eab8df2c090bf4bebca dbac0fba55d3d4fc177161bfe24dc7fb 82e5a7a021197f6fbe94a86
如何使用 Tkinter 创建等宽网格列？

如何强制 Tkinter 应用程序窗口中的列宽度相等 tkdocs网站声明如下每列的宽度或每行的高度取决于列或行中包含的小部件的宽度或高度这意味着当绘制用户界面并将其划分为行和列时您无需担心每列或行的宽度相等或高度大概 TkD
如何在 PySide/PyQt 中制作一个位于屏幕中央的小部件？

这段代码有效但我想知道是否有更简单的方法 def center self qr self frameGeometry cp gui QDesktopWidget availableGeometry center qr moveCenter
python 中使用 scipy 截断正态分布

我正在尝试使用截断正态分布scipy在Python3 我想做一些简单的事情绘制以 0 5 为中心范围从 0 到 1 的截断法线的 pdf 我有以下代码行 from scipy import truncnorm import matplo
如何使用 Python Flask-Security 使用 bcrypt 加密密码？

我正在尝试使用 Flask Security 文档中的标准基本示例并使其正常工作除了密码以明文形式存储之外我知道这一行 user datastore create user email email protected cdn cgi
Django：上传前调整图像大小

我想调整图像大小 Pillow 在上传之前我在下面编写了代码但不起作用并得到错误 myapp list 处的属性错误坚定的请求方式 POST 请求网址 http 127 0 0 1 8000 myapp list http 127
SQL查询中的Python列表作为参数[重复]

这个问题在这里已经有答案了我有一个 Python 列表比如说 l 1 5 8 我想编写一个 SQL 查询来获取列表中所有元素的数据例如 select name from students where id IN THE LIST l
Anaconda (Python) - Windows 10 上的 Cmder 集成

我在 Windows 10 64 位上通过 Anaconda 让 Cmder 使用 Python 时遇到了一些麻烦我让 Anaconda 工作得很好测试过用 matplotlib 绘制一些东西它与 Anaconda Prompt 一起
使用 pyinstaller 制作的可执行文件出现运行时错误

所以我使用 Pygame 制作了一个游戏现在我想用它制作一个可执行文件首选独立可执行文件所以我用它来制作可执行文件 pyinstaller onefile main py 编译顺利但运行时出现错误这是错误 Traceback mo
是否有比 .apply() 更慢或更受控制的替代方案？

所以这似乎是一个奇怪的问题但我有一只熊猫DataFrame其中包含地址我想对其进行地理编码以便获得纬度和经度我有可以使用的代码 apply 感谢这个非常有帮助的线程使用 geopy pandas 的新列坐标 https stack
从另一个列表的元素创建一个新列表，引用后者的元素

我想从前一个元素创建一个新列表但不复制它们这就是发生的事情 In 23 list range 10 In 24 list2 list 0 4 In 25 list Out 25 0 1 2 3 4 5 6 7 8 9 In 26 lis
Mac 上的 PythonXY？

如何在 Mac OS X Lion 上安装 Python 我开始了它应该能够通过 macports 但无论如何我找不到 mac ports 网站上所述的端口 pythonXY 我对 MAC 和 pythonXY 都不太了解但在 pyth
从 s3 获取 ogg 轨道的长度而不下载整个文件

如何在不下载整个文件的情况下获取 ogg 文件的播放长度我知道这是可能的因为 HTML5 标签和 VLC 都可以在加载 URL 后立即显示整个播放长度而无需下载整个文件有标题或我可以阅读的内容吗也许甚至是比特率我可以将其除以文件

随机推荐

如何使用 Google Apps 脚本跳过 Google 幻灯片中的幻灯片？

在 Google 幻灯片中可以通过右键单击幻灯片并选择跳过幻灯片来手动跳过幻灯片在这种情况下幻灯片在演示时将不会显示我似乎无法使用 Google Apps 脚本以编程方式重新创建此内容这个功能是否存在或者有什么解决方法吗目
环境/*.rb 中的配置符号是如何解析的

这就是一个典型的config environments rb文件开始 MyApp Application configure do config cache classes false end 该块传递给configure取消引用该符号co
ANTLR 4 树注入/重写运算符

在 ANTLR 3 中您可以执行以下操作 andExpression andnotExpression gt andnotExpression AND a andnotExpression gt AndNode andExpression
PubNub最佳实践：如何管理私人房间？

我正在学习 pubnub 并阅读了他们的文档但我只是找不到如何管理多房间聊天框默认情况下任何人都可以收听某个频道订阅和发布都很容易我想要的是拥有一个主要的公共房间到目前为止一切都很好但任何人都应该能够与其他人私下交谈而不会有
如何使用java从ftp服务器删除文件？

如何使用 java 程序从 ftp 服务器上删除文件我可以使用以下代码成功地在 ftp 上上传文件 public static void main String args throws IOException TODO Auto gene
经典 ASP Request.Form 删除空格？

我正在尝试解决这个奇怪的问题在经典 ASP 中我似乎在 Request Form 值中丢失了空格即 Request Form json 是 project administrator AlexGorbatchev anonymousV
如何将 CHATBOT 未回答的问题存储在文本文件中

我是新手python并使用构建聊天机器人聊天机器人库我想将用户提出的聊天机器人无法回答的问题我的意思是存储未回答的问题存储在text文件或database以便我们稍后可以给出他们的答案这是代码聊天机器人构造函数 self chatb
按主题搜索 PyPI

对于每个 python 包你可以指定一个分类器列表 https pypi python org pypi 3aaction list classifiers 其中有一个Topic分类器将包放入指定的类别中可以浏览过PyPI https
厨师服务器 WebUI 不工作

我已经下载并安装了chef server core 12 xDPKG 封装已开启ubuntu 13 x chef server ctl reconfigure运行成功但是当我尝试 URL 时http chef example com我收到
仅将部分先决条件与 ClickOnce 捆绑在一起

是否可以配置 ClickOnce 安装使其需要 Net Framework 和 VSTO 但仅包含 VSTO 二进制文件并在必要时下载 Net Framework 在包中包含 VSTO 并不是什么大问题但如果可能的话我会放弃 350M
如果验证错误，如何不提交表单

如果其中一项验证为假如何确保表单不会提交 form submit function validateForm1 validateForm document forms dpart2 validateForm document forms
使用 vscode 和 mamp 在 Mac 上执行 php 可执行文件的路径

vscode 需要为此参数设置 php 路径 php validate executablePath 所以我指定了这个 Applications MAMP bin php php7 0 12 bin php 但它不被识别正确的道路是什么
How2：将 JPanel 添加到文档然后导出为 PDF

在任何论坛上关于编程的第一篇文章我通常只是搜索直到找到答案但这次我真的陷入困境问题是这样的我有一个 JPanel 最近发现 itext 为您提供了一种将 Java GUI 导出为 PDF 的方法我似乎无法理解 itext 的语言
返回指向 const 对象的 const 共享指针的 const 向量

给出以下基于共享指针容器的类 class Foo class Bar public const std vector
Ransack：使用年龄而不是出生日期

我想使用 ransack 为页面构建高级搜索功能Users 我有一个小方法可以从出生日期计算年龄 def age dob now Time now utc to date now year dob year now month gt dob
NLTK 找不到 Java 可执行文件

我使用的是NLTK的nltk tag stanford 它需要调用java可执行文件我将 JAVA HOME 设置为安装 jdk 的 C Program Files Java jdk1 6 0 25 但是当运行该程序时出现错误 NLTK
正则表达式：为什么这种消极的前瞻不起作用？

我有这样的文字 real a real b real c 现在我想匹配那些真实的没有接下来在这种情况下我只想匹配第三个实数所以我尝试了正则表达式和前瞻 real s 但这匹配 real b real c For s 意味着零个或多个
Spring RestTemplate：如何达到状态来检查 #is4xxClientError，而不是第一个 RestClientException？

根据我的经验在致电 Spring 之后RestTemplate exchange随后收到 404 Not Found 响应 RestClientException被抛出而不是返回ResponseEntity可以检查其状态即 Respon
NetworkInterface.GetIPv4Statistics().BytesReceived - 它返回什么？

该特定字段返回什么我想要每秒接收的字节数我应该依赖这个吗我认为你可以这样使用它 long beginValue NetworkInterface GetIPv4Statistics BytesReceived DateTime beg
比较 NumPy 数组的相似性

我有一个形状为 300 的目标 NumPy 数组和一组形状也为 300 的候选数组这些数组是单词的 Word2Vec 表示我试图使用向量表示找到与目标单词最相似的候选单词找到与目标词最相似的候选词的最佳方法是什么一种方法是将目标词与

比较 NumPy 数组的相似性

比较 NumPy 数组的相似性 的相关文章

随机推荐

热门标签

比较 NumPy 数组的相似性的相关文章