在pyspark lambda映射函数中使用keras模型

2024-04-23

我想使用该模型来预测 PySpark 中的映射 lambda 函数的分数。

def inference(user_embed, item_embed):
    feats = user_embed + item_embed
    dnn_model =  load_model("best_model.h5")
    infer = dnn_model.predict(np.array([feats]), verbose=0, steps=1)
    return infer
iu_score = iu.map(lambda x: Row(userid=x.userid, entryid=x.entryid, score = inference(x.user_embed, x.item_embed)))

运行速度极慢，代码运行后很快就卡在了最后阶段。

[Stage 119:==================================================>(4048 + 2) / 4050]

在 HTOP 监视器中，80 个核心中只有 2 个处于满负荷工作状态，其他核心似乎不工作。那么我应该怎么做才能使模型并行预测呢？ iu 是 3 亿，所以效率对我来说很重要。谢谢。

我已经转verbose=1，并且出现预测日志，但似乎预测只是一一预测，而不是并行预测。

在回答过程中我做了一些研究，发现这个问题很有趣。首先，如果效率真的很重要，请花一点时间在没有 Keres 的情况下重新编码整个事情。您仍然可以使用张量流（模型）的高级 API，并且只需付出一点努力即可提取参数并将其分配给新模型。尽管包装器框架中的大量实现还不清楚（TensorFlow是一个不够丰富的框架吗？），但在升级时很可能会遇到向后兼容性的问题。确实不建议用于生产。

话虽如此，您能否检查一下到底是什么问题，例如，您是否使用 GPU？也许他们超载了？您能否将整个事情包装起来不超过某些容量并使用优先级系统？如果没有优先级，您可以使用简单的队列。您还可以检查是否确实终止了tensorflow的会话，或者同一台机器运行了许多干扰其他模型的模型。造成这种现象的原因有很多，如果能提供更多详细信息就太好了。

关于并行计算 - 您没有实现任何真正为该模型打开线程或进程的东西，所以我怀疑 pyspark 无法自行处理整个事情。也许实现（老实说我没有阅读整个 pyspark 文档）假设分派的函数运行得足够快并且没有按应有的方式分发。PySpark 只是映射缩减原理的复杂实现。分派的函数在单个步骤中扮演映射函数的角色，这对于您的情况可能会出现问题。尽管它是作为 lambda 表达式传递的，但您应该更仔细地检查哪些实例速度较慢，以及它们在哪些计算机上运行。

我强烈建议您执行以下操作：
Go to Tensorflow deplot 官方文档 https://www.tensorflow.org/deploy/并阅读如何真正部署模型。有一个用于与已部署模型进行通信的协议，称为RPC还有一个restful API。然后，使用 pyspark，您可以包装调用并与所提供的模型连接。你可以创建一个你想要的模型池，在 pyspark 中管理它，通过网络分配计算，从这里开始，天空和 cpus/gpus/tpus 是限制（我仍然对天空持怀疑态度）。

很高兴能从您那里得到有关结果的最新信息:)您让我很好奇。

我希望你能很好地解决这个问题，这是一个很好的问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在pyspark lambda映射函数中使用keras模型的相关文章

OutOfRangeError（请参阅上面的回溯）：FIFOQueue '_1_batch/fifo_queue' 已关闭并且元素不足（请求 32，当前大小 0）

我在使用队列中张量流读取图像时遇到问题请让我知道我犯了什么错误下面是代码 import tensorflow as tf slim tf contrib slim from tensorflow python framework imp
';'预期但发现“导入” - Scala 和 Spark

我正在尝试使用 Spark 和 Scala 来编译一个独立的应用程序我不知道为什么会收到此错误 topicModel scala 2 expected but import found error import org apache sp
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
TensorFlow：有没有办法将冻结图转换为检查点模型？

可以将检查点模型转换为冻结图 ckpt 文件转换为 pb 文件但是是否有反向方法将 pb 文件再次转换为检查点文件我想它需要将常量转换回变量有没有办法将正确的常量识别为变量并将它们恢复回检查点模型目前支持将变量转换为常量 http
PySpark：如何将带逗号的列指定为小数

我正在使用 PySpark 并加载csv文件我有一列包含欧洲格式的数字这意味着逗号替换点反之亦然例如我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven
如何在anaconda python 3.6上安装tensorflow

我使用 anaconda 包安装了新版本的 python 3 6 但是我无法安装张量流总是收到这样的错误 tensorflow gpu 1 0 0rc2 cp35 cp35m win amd64 whl 在此平台上不受支持如何在 ana
在 TensorFlow 中，tf.identity 有何用途？

我见过tf identity在一些地方使用过例如官方 CIFAR 10 教程和 stackoverflow 上的批量规范化实现但我不明白为什么有必要它是用来做什么的谁能给出一两个用例吗一种建议的答案是它可以用于 CPU 和 GPU
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
Tensorflow Hub - 获取模型的输入形状和问题域？

我正在使用最新版本的tensorflow hub 想知道如何获取有关模型的预期输入形状以及模型属于什么类型的集合的信息例如有没有办法以这种方式在 Python 中加载模型后获取有关预期图像形状的信息 model hub load htt
预训练 inception v3 模型的层名称（tensorflow）[重复]

这个问题在这里已经有答案了任务是获取a的每层输出预训练的 cnn inceptionv3 https www tensorflow org versions master tutorials image recognition index
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
在 keras 中集成采样的 softmax 失败

基于如何在 Keras 模型中使用 TensorFlow 的采样 softmax 损失函数 https stackoverflow com questions 47892380 how can i use tensorflows sampl
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
安装tensorflow的正确命令

当尝试在 Anaconda 上安装 Tensorflow 时我尝试了两种类型的命令 conda install tensorflow gpu工作得很好然而当尝试conda install c anaconda tensorflow g
如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

更多源数据来自我需要定期轮询的 Web 服务端点获得数据后我可以使用 pyspark 执行传统的 ETL 并最终将数据写入 S3 和 Redshift 我不确定如何进行初始提取甚至不确定我应该在 AWS Glue 文档中查找什么内容
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
如何在 Databricks 中使用 OPTIMIZE ZORDER BY

我有两个数据框来自三角洲湖表它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我

随机推荐

如何“安装”Action Bar Sherlock？

我正在尝试使用 Action Bar Sherlock 构建示例项目 Action Bar Styled 我在这里下载包含 ABS 的 zip 文件http actionbarsherlock com http actionbarsherl
ReactJS onclick 添加或删除类到另一个元素

我正在努力将我的普通 jQuery 代码转换为 React JS 我是 React 新手我有以下代码 add click function nav addClass show remove click function nav remov
如何将单个部分中的 Sphinx 章节分成不同的文件？

我正在使用出色的 Sphinx 工具来创建一些文档并且我试图通过将同一部分的章节分成单独的文件来保持代码库的模块化形式请参阅此处了解章节和部分的定义 http www sphinx doc org en stable rest
Homestead 给出 404 Not Found

我正在尝试启动并运行 Homestead 2 0 以用于 Laravel 的本地开发我跟着Laracast https laracasts com lessons say hello to laravel homestead two 但我
画布已被跨源数据本地图像污染

这个问题已经被问了很多次但我只是不明白为什么这种情况会发生在我身上基本上我有一个画布和一个图像当我尝试这样做时 var canvas document getElementById somecanvas var ctx canvas
使用 NodeJS 和 Restify 重定向客户端

我正在使用 NodeJS Restify 和 PassportJS 为 SPA 构建 REST 后端以进行身份验证除了最后一步之外一切正常即将客户端从后端 login facebook callback 重定向到应用程序的主页我在
Ninject + ASP.NET MVC + InRequestScope

我的 Ninject 有问题我的绑定规则 this Bind
从搜索中排除文件夹，但不从项目列表中排除

我有几个不同的项目具有相同的core 我需要的只是将所有非当前项目标记为excluded以避免搜索它们简单搜索 shift cmd n 等换句话说我想获得以下搜索结果core current project 有什么办法吗close一些
Angular：如何以法语格式显示日期

我是 Angular 初学者我阅读了 Angular 的文档对于这样一个基本的事情来说很难我希望我的应用程序中的日期和其他内容具有法语区域设置而不是默认的 en US 我开始阅读这篇 Angular文档 https angular
在 showModalBottomSheet 外部单击时，如何控制传递给 Navigator.pop() 的内容？

我启动一个模态底部工作表然后使用返回的数据作为其未来 var modalFuture showModalBottomSheet modalFuture then data Use data 我通过以下方式从模态小部件返回数据 Naviga
为什么不允许 constexpr 局部变量作为默认函数参数？

我想我明白为什么 C 不允许local变量作为默认函数参数 int main auto local 1024 auto lambda auto arg1 local illegal use of local variable as defa
如何获取通知下拉背景颜色，并在启用夜间模式时确定最佳文本颜色？

最近我的用户向我发送了以下屏幕截图当时启用了 Android 9 0 Pie 与 Android 操作系统夜间模式正如您所看到的股票名称不可见因为股票名称采用了黑色在正常的白色主题中它应该如下所示这是我用来突出显示文本颜色的
架构问题：GWT 还是 Vaadin 创建桌面应用程序？

我们计划创建一个提要阅读器 as a Windows 桌面和 iPad 应用程序正如我们希望能够显示网站 AND 运行我们自己的 JavaScript在此应用程序中我们考虑将应用程序作为 HTML CSS JavaScript 交付
我应该将 FLV 文件放在哪里才能在本地 Red5 服务器上进行流式传输？

我安装了最新的 Red5 服务器但我不确定将 flv 文件放在哪里来进行流式传输没有像我在网上找到的一些教程那样的 streams 或 ofla 目录我应该将 flv 文件放在哪里来进行流式传输 Red5 附带了一些演示但默认情况下
对 FINTEK F81866A 芯片组上的 GPIO 引脚进行编程

我有一个德承DE 1000 http www cincoze com goods info php id 10工业 PC 具有芬泰克 F81866A http www fintek com tw index php i o controll
避免 Mac 应用程序在未处理的异常后崩溃

我想防止我的应用程序在引发未处理的异常后关闭我正在使用 Xamarin 和 MonoMac 执行此操作但我认为我可以将 Objective C 答案转换为 C 当异常发生并且没有在任何地方捕获时我注册未处理异常的事件 AppDomai
从任务栏最大化 java 进程

如果我的任务栏中有一个最小化的进程有什么方法可以从java中最大化它吗我知道该过程的名称但这可能吗您最好的选择可能是使用 Windows API 我用过Java 本机访问 https github com java native a
来自 Chrome 扩展后台脚本的 AngularJS

鉴于 Angular 与视图绑定并在主扩展视图中引导我认为简单的答案是不不可能但想确认一下因为我在任何地方都找不到明确的答案我的用例是扩展程序将从 API 轮询更新内容并在找到时更新扩展程序的徽章我希望能够从扩展的 Ang
是否可以通过 QNetworkAccessManager 检测可恢复链接

假设我想暂停下载然后重新开始我们能否事先知道链接是否可恢复我的意思是这些信息可以通过标题获得如果您想知道在开始下载之前您可以发送 HEAD 请求并检查标头中是否存在 Accept Ranges bytes 字段 QNetworkA
在pyspark lambda映射函数中使用keras模型

我想使用该模型来预测 PySpark 中的映射 lambda 函数的分数 def inference user embed item embed feats user embed item embed dnn model load mode

在pyspark lambda映射函数中使用keras模型

在pyspark lambda映射函数中使用keras模型 的相关文章

随机推荐

热门标签

在pyspark lambda映射函数中使用keras模型的相关文章