Spark 中的广播 Annoy 对象（对于最近邻居）？

2024-05-07

由于 Spark 的 mllib 没有最近邻居功能，我正在尝试使用Annoy https://github.com/spotify/annoy为近似最近邻。我尝试广播 Annoy 对象并将其传递给工人；然而，它并没有按预期运行。

下面是可重复性的代码（在 PySpark 中运行）。使用带有 Spark 的 Annoy 与不带有 Spark 的 Annoy 时的差异突出显示了该问题。

from annoy import AnnoyIndex
import random
random.seed(42)

f = 40
t = AnnoyIndex(f)  # Length of item vector that will be indexed
allvectors = []
for i in xrange(20):
    v = [random.gauss(0, 1) for z in xrange(f)]
    t.add_item(i, v)
    allvectors.append((i, v))
t.build(10) # 10 trees

# Use Annoy with Spark
sparkvectors = sc.parallelize(allvectors)
bct = sc.broadcast(t)
x = sparkvectors.map(lambda x: bct.value.get_nns_by_vector(vector=x[1], n=5))
print "Five closest neighbors for first vector with Spark:",
print x.first()

# Use Annoy without Spark
print "Five closest neighbors for first vector without Spark:",
print(t.get_nns_by_vector(vector=allvectors[0][1], n=5))

看到的输出：

Spark 第一个向量的五个最近邻居：无

没有 Spark 的第一个向量的五个最近邻：[0, 13, 12, 6, 4]

我从未使用过 Annoy，但我很确定包描述解释了这里发生的情况：

它还创建基于文件的大型只读数据结构，这些数据结构被映射到内存中，以便许多进程可以共享相同的数据。

由于当您序列化它并将其传递给工作人员时它使用内存映射索引，因此所有数据都会丢失。

尝试这样的事情：

from pyspark import SparkFiles

t.save("index.ann")
sc.addPyFile("index.ann")

def find_neighbors(iter):
    t = AnnoyIndex(f)
    t.load(SparkFiles.get("index.ann"))
    return (t.get_nns_by_vector(vector=x[1], n=5) for x in iter)

sparkvectors.mapPartitions(find_neighbors).first()
## [0, 13, 12, 6, 4]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

apachespark

PySpark

nearestneighbor

KNN

Spark 中的广播 Annoy 对象（对于最近邻居）？的相关文章

如何在 Heroku 中安装 NLTK 模块

嘿我想在我的 Heroku 服务器上安装 NLTK pos tag 我该怎么办呢请给我一些步骤因为我是 Heroku 服务器系统的新手我刚刚添加了官方nltk支持构建包只需添加一个nltk txt文件包含要安装的语料库列表一切都
Python子进程：cmd退出时的回调

我目前正在使用启动一个程序subprocess Popen cmd shell TRUE 我对 Python 相当陌生但感觉应该有一些 api 可以让我做类似的事情 subprocess Popen cmd shell TRUE po
如何使用 eval dataframe 方法在自定义函数中返回 numpy 数组或列表？

我正在使用 python 3 X 我正在尝试使用eval https pandas pydata org pandas docs stable generated pandas eval html pandas eval数据框方法包括这样
Python：并行修改数组的简单方法

这个问题可能听起来很简单但作为 Python 并行化的新手我肯定会遇到困难我处理了 OpenMP for C 中的并行化问题这要容易得多我需要做的是并行修改矩阵的条目就是这样问题是我无法使用简单的 joblib 库来做到这一
具有动态特性的 Python 嵌套作用域

需要帮助理解以下句子PEP 227 http www python org dev peps pep 0227 和Python 语言参考 http docs python org reference executionmodel html
类型错误：不支持的操作数类型 -：“int”和“list”

我正在尝试用 python 创建一个程序它会使用 Zeller 算法告诉你你出生在星期几http en wikipedia org wiki Zeller 27s congruence http en wikipedia org wiki
Scikit-learn：如何获得 True Positive、True Negative、False Positive 和 False Negative

我的问题我有一个数据集它是一个很大的 JSON 文件我读取它并将其存储在trainList多变的接下来我对其进行预处理以便能够使用它完成后我开始分类我用kfold交叉验证方法以获得平均值准确性并训练分类器我做出预测并获
如何将返回列表的 Celery 任务链接到一个组中？

我想从 Celery 任务返回的列表创建一个组以便对于任务结果集中的每一项一个任务将添加到该组中这是一个简单的代码示例来解释用例这应该是上一个任务的结果 celery task def get list amount In rea
这个 Python 字符串切片语句中的两个冒号的用途是什么？

例如 str hello str 1 3 我在 Python 文档中哪里可以找到它 in 序列描述 http docs python org library stdtypes html index 510 s i j k slice of
如何定期向数组添加新元素，使其出现在每 500 个元素之后？

如果我有一个包含 500k 个元素仅限数字的数组列我如何能够在每 500 个元素之后添加一个新元素新的数字应该是相邻元素的平均值例如在元素 499 和 500 之间有一个值为 499 的值 500 的值 2 的新元素依此类推
MAMP Python-MySQLdb 问题：调用 Python 文件后 libssl.1.0.0.dylib 的路径发生变化

我正在尝试使用 python MySQLdb 访问 MAMP 服务器上的 MySQL 数据库当我最初尝试使用 python sql 调用 Python 文件来访问 MAMP 上的数据库时我得到了image not found关于错误li
在循环中动态添加方法时的范围问题

我有一个 API 用于分析我的锻炼数据我抓取的数据跑卫 http runkeeper com 的网站我的主类是一个子类pandas DataFrame 它基本上是表格数据的容器它支持按列名索引返回列值的数组我想根据数据中存在的
替换 Python 列表/字典中的值？

好的我正在尝试过滤传递给我的列表字典并稍微清理它因为其中有某些值我需要删除所以如果它看起来像这样 records key1 AAA key2 BBB key3 CCC key4 AAA 我如何快速轻松地运行所有内容并将 AAA
如何在lxml，Python中将<转换为<？

有一个xml文件
TypeError: 'module' 对象不可调用错误 driver=webdriver("C:\\Python34\\Lib\\site-packages\\selenium\\webdriver\\chromedriver.exe")

我在 Pycharm 中遇到类似错误 Traceback most recent call last File C PycharmProjects DemoPyth PythonPack1 Prg1 py line 3 in
Python Pandas 系列失败日期时间

我认为这一定是 pandas 的失败有一个 pandas 系列 v 18 1 和 19 如果我为该系列分配一个日期第一次将其添加为 int 错误第二次将其添加为 int 错误添加为日期时间正确我无法理解原因例如使用以下代码 i
需要帮助编写扭曲的代理

我想编写一个简单的代理可以对请求页面正文中的文本进行打乱我已经阅读了 stackoverflow 上的部分扭曲文档和其他一些类似的问题但我有点菜鸟所以我仍然不明白我现在就是这样不知道如何访问和修改页面 from twisted
Scapy TCP 校验和重新计算奇怪的行为

我正在尝试进行 TCP ACK 欺骗我从 pcap 文件中嗅探一个 ACK 数据包并在循环中发送它增加其 ACK 编号以及另一个选项字段嗅探部分预欺骗 from scapy all import from struct impor
在 jupyter 笔记本中运行 pytest 测试函数

我正在制作有关 python 测试选项的演示我想要演示的技术之一是 pytest 我计划使用 jupyter ipython 笔记本进行演示理想情况下我希望能够在单元格中定义一个测试函数然后使用 pytest 运行该函数这样我就可
使用和不使用 SciPy 计算 k 组合的数量

我对这个函数感到困惑combSciPy 的 http docs scipy org doc scipy 0 14 0 reference generated scipy misc comb html看起来比简单的 Python 实现要慢这

随机推荐

更新行时获取电子邮件用户值

我和我的团队有电子表格当他们更新行基于他们使用的帐户时如何自动获取电子邮件用户值因此每次他们更新任务列时电子邮件列都会自动更新就像下表一样电子表格 https i stack imgur com lgDhF png
如何在 Docker for Windows 中设置共享驱动器？

如何在 Docker for Windows 中设置共享驱动器我正在使用最新版本 18 Stable 和 Edge 我的设置屏幕如下所示它缺少一些选项如共享驱动器高级和网络如第二张图片所示为什么我缺少这些选项 My settin
如何在 ReactJs 中使用 Hooks useState 编写多行状态

React 16 9 我知道这class component state class JustAnotherCounter extends Component state count 0 相当于使用Hooks useState functi
在 dart 中，集合如何确定两个对象相等？

我不明白集合如何确定两个对象何时相等更具体一点什么时候add集合的方法确实添加了一个新对象并且什么时候它不作用一个新对象因为该对象已经在集合中例如我有以下类的对象 class Action final Function fun
iOS 安全性将带有密码的数据发送至服务器或从服务器发送数据

我正在构建一个应用程序需要在服务器执行任何操作之前从用户设备发送密码以在服务器上进行身份验证事情是这样的用户的手机上有一个纯文本密码该密码也在服务器中以 bcrypt 二进制文件的形式存在用户想要从数据库中获取某些内容因此用户通
使用 linux perf 工具测量应用程序的 FLOP

我想使用 perf Linux 性能计数器子系统的新命令行接口命令来测量某些应用程序执行的浮点和算术运算的数量出于测试目的我使用了我创建的一个简单的虚拟应用程序请参见下文因为我找不到任何为测量 FP 和整数运算而定义的 perf
GLSL 棋盘图案

我想用跳棋来遮蔽四边形 f P 下限 Px 下限 Py mod2 我的四边形是 glBegin GL QUADS glVertex3f 0 0 0 0 glVertex3f 4 0 0 0 glVertex3f 4 4 0 0 glVert
x % 2 == 0 是什么意思？ [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我确信这是
Python：数百万个小文件的读写速度缓慢

结论看来 HDF5 是适合我的目的的方法基本上 HDF5 是一种用于存储和管理数据的数据模型库和文件格式并且旨在处理令人难以置信的大量数据它有一个名为 python tables 的 Python 模块链接在下面的答案中 HDF
第 n 个孩子没有响应课程 [重复]

这个问题在这里已经有答案了是否可以让 nth child 伪选择器与特定的类一起使用看这个例子 http jsfiddle net fZGvH http jsfiddle net fZGvH 我想让第二个 DIV red 变成红色但它
HttpServletRequest.getRemotePort() 在同一台机器上收到的每个 http 请求返回不同的端口？

我需要识别注册到我的服务的客户端的远程 IP 和端口此外当客户端 Web 应用程序出现故障时它会从我的 Web 服务中取消注册我在用HttpServletRequest getRemoteAddress and HttpServle
如何在C#中确定现有的oracle数据库连接？

假设我使用正确的凭据调用以下方法 private bool Connect string username string password string CONNSTRING Provider MSDAORA Data Source ISD
Single.zip - 如何捕获失败的呼叫并继续其余的网络呼叫？

我正在进行 5 个并行网络调用模拟其中 4 个成功其中 1 个失败失败的调用使整个Single zip 失败即使其他 4 个网络调用成功我也无法获得它们的结果如何处理单个失败的网络调用的错误Single zip 并获得成功者的结
标头搜索路径给 Grabkit 带来麻烦

我正在为 iPad 开发一个 iOS 6 应用程序我使用一个名为 Grabkit 的存储库我必须将其作为嵌套子项目添加到我的项目中为了使其工作我必须在标题搜索路径中添加以下代码 TARGET BUILD DIR include G
按行中的值选择 pandas 数据框中的列

我有一个pandas DataFrame列太多我想选择行中的值等于的所有列0 and 1 所有列的类型是int64我无法通过以下方式选择它们object或其他类型我怎样才能做到这一点 IIUC 然后你可以使用isin http pand
Javascript：使用箭头键导航表格输入

我正在为客户制作 HTML 成绩册我使用 PHP 生成成绩册然后输出一个 HTML 表如下例所示每个 td 包含一个带有 td
Spring 3 JSR-286（portlet）文档

我知道Spring 3支持JSR 286 portlet 版本 2 0 但是我找不到很多这方面的文档任何人都可以分享一些关于此的链接吗谢谢找到几个教程使用 Spring 3 MVC Portlet 的 Hello World htt
配置解析器和带 % 的字符串

愚蠢的问题当然简单的答案我正在使用 configparser 从文件中读取一些字符串当字符串具有符号例如时它会抱怨 ConfigParser InterpolationSyntaxError 后必须跟或找到有人熟悉这个
防止打开 VB 应用程序的多个实例

我的 VB6 应用程序由 MS Access 数据库支持允许用户打开应用程序的多个实例会产生冲突并更改连接的数据库理想的解决方案是如果用户尝试打开新实例则关注现有实例我怎样才能达到这个目的 Use App PrevInstance
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的

Spark 中的广播 Annoy 对象（对于最近邻居）？

Spark 中的广播 Annoy 对象（对于最近邻居）？ 的相关文章

随机推荐

热门标签

Spark 中的广播 Annoy 对象（对于最近邻居）？的相关文章