以数据帧作为输入的模型上的多重处理

2024-03-31

我想在模型上使用多重处理，以使用数据帧作为输入来获得预测。我有以下代码：

def perform_model_predictions(model, dataFrame, cores=4): 
    try:
        with Pool(processes=cores) as pool:
            result = pool.map(model.predict, dataFrame)
            return result
        # return model.predict(dataFrame)
    except AttributeError:
        logging.error("AttributeError occurred", exc_info=True)

我收到的错误是：

raise TypeError("sparse matrix length is ambiguous; use getnnz()"
TypeError: sparse matrix length is ambiguous; use getnnz() or shape[0]

我认为问题在于我将数据帧作为第二个参数传递给pool.map功能。任何建议或帮助将不胜感激。

诀窍是将数据帧分割成块。map期望将要处理的对象列表model.predict。这是一个完整的工作示例，模型明显被嘲笑：

import numpy as np
import pandas as pd
from multiprocessing import Pool

no_cores = 4

large_df = pd.concat([pd.Series(np.random.rand(1111)), pd.Series(np.random.rand(1111))], axis = 1)
chunk_size = len(large_df) // no_cores + no_cores
chunks = [df_chunk for g, df_chunk in large_df.groupby(np.arange(len(large_df)) // chunk_size)]

class model(object):
    @staticmethod
    def predict(df):
        return np.random.randint(0,2)

def perform_model_predictions(model, dataFrame, cores): 
    try:
        with Pool(processes=cores) as pool:
            result = pool.map(model.predict, dataFrame)
            return result
        # return model.predict(dataFrame)
    except AttributeError:
        logging.error("AttributeError occurred", exc_info=True)

perform_model_predictions(model, chunks, no_cores)

请注意，此处选择的块数量应与核心数量（或您想要分配的任何数量）相匹配。这样每个核心都能获得公平的份额multiprocessing不会在对象序列化上花费太多时间。

如果您想处理每一行（pd.Series）单独而言，序列化所花费的时间可能是一个问题。在这种情况下我建议使用joblib并阅读其各种后端的文档。我没有写它，因为你似乎想调用预测pd.Dataframe.

额外警告

有可能发生这样的情况multiprocessing，不但不会让你有更好的表现，反而会让你的表现变得更糟。它发生在相当罕见的情况下，当你model.predict调用本身产生线程的外部模块。我写了关于这个问题的文章here https://stackoverflow.com/questions/54731815/multiprocessing-pool-slow-when-calling-external-module/54756707#54756707。长话短说，joblib再次可能是一个答案。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

以数据帧作为输入的模型上的多重处理的相关文章

是否有解决方法可以通过 CoinGecko API 安全检查？

我在工作中运行我的代码一切都很顺利但在不同的网络家庭 WiFi 上我不断收到403访问时出错CoinGecko V3 API https www coingecko com api documentations v3 可以观察到在
使用 python requests 模块时出现 HTTP 503 错误

我正在尝试发出 HTTP 请求但当前可以从 Firefox 浏览器访问的网站响应 503 错误代码本身非常简单在网上搜索一番后我添加了user Agent请求参数但也没有帮助有人能解释一下如何消除这个 503 错误吗顺便说一句
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
用枢轴点拟合曲线 Python

我有下面的图我想用 2 条线来拟合它使用 python 我设法适应上半部分 def func x a b x np array x return a x b popt pcov curve fit func up x up y 我想用另
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
javascript 是否有等效的 __repr__ ？

我最接近Python的东西repr这是 function User name password this name name this password password User prototype toString function r
Python3 在 DirectX 游戏中移动鼠标

我正在尝试构建一个在 DirectX 游戏中执行一些操作的脚本除了移动鼠标之外我一切都正常是否有任何可用的模块可以移动鼠标适用于 Windows python 3 Thanks I used pynput https pypi or
Pandas 将多行列数据帧转换为单行多列数据帧

我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
为什么 Pickle 协议 4 中的 Pickle 文件是协议 3 中的两倍，而速度却没有任何提升？

我正在测试 Python 3 4 我注意到 pickle 模块有一个新协议因此我对 2 个协议进行了基准测试 def test1 pickle3 open pickle3 wb for i in range 1000000 pickle
Python ImportError：无法导入名称 __init__.py

我收到此错误 ImportError cannot import name life table from cdc life tables C Users tony OneDrive Documents Retirement retirem
模拟pytest中的异常终止

我的多线程应用程序遇到了一个错误主线程的任何异常终止例如未捕获的异常或某些信号都会导致其他线程之一死锁并阻止进程干净退出我解决了这个问题但我想添加一个测试来防止回归但是我不知道如何在 pytest 中模拟异常终止如果我只
Scipy Sparse：SciPy/NumPy 更新后出现奇异矩阵警告

我的问题是由大型电阻器系统的节点分析产生的我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点我正在使用scipy sparse linalg spsolve method 直到最近一切都
Django-tables2 列总计

我正在尝试使用此总结列中的所有值文档 https github com bradleyayers django tables2 blob master docs pages column headers and footers rst 但页
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重
Keras：多类 NLP 任务中 model.evaluate 与 model.predict 的准确性差异

我正在使用以下代码在 keras 中为 NLP 任务训练一个简单模型训练集测试集和验证集的变量名称是不言自明的该数据集有 19 个类因此网络的最后一层有 19 个输出标签也是 one hot 编码的 nb classes 19 m

随机推荐

如何将 2d 图像分配到 3d OpenCV Mat 的平面，然后沿不同的轴提取 2D Mats？

我想用堆叠的 2D 垫子制作 3D 垫子然后沿着 3D 垫子的不同轴拉出 2D 垫子我知道我可以手动构建它访问每个图像的每一行或每一列但是有更好的方法吗 vector
Django 日期时间字段 - 转换为视图中的时区

我有一个 Django 模型datetime场地保存时日期时间字段存储在我的DB丢失时区信息因此将其另存为naive约会时间一般来说这不是问题因为 Django 在模板中渲染日期时间字段时会自动将其转换回来但景色又如何呢假设
如何处理浮动溢出？

如果某个值发生浮点溢出我想将其设置为零就像这样 m speed val if m speed gt numeric limits
any/interface{} 作为约束与参数类型之间的区别？

由于泛型最近在 Go 1 18 中发布我已经开始学习它们我一般都明白这个概念因为我过去有一些 Java 经验但我没有得到一些实施细节例如什么时候更适合使用any代替interface 这是一个例子 func printInter
Symfony 3.0.1 CSRF 令牌存在但无效

我在安装新的 Symfony 3 0 1 时遇到了这个奇怪的问题我生成了一个新的 CRUD 控制器其中包含一个包含 url 和标题的 Form PostType 没有什么花哨表单按预期呈现它包含我的 url 字段和标题字段在表单内
Delphi - 如何从 Delphi 创建的其他应用程序的控件中获取提示

我有一个项目需要从 delphi 创建的另一个应用程序的控件例如 TButton 中获取提示我使用Hook WH CBT 使用 exe和 dll使其成为全局的当鼠标指向控件并提示显示和隐藏时我得到提示的HCBT CREATEWND和
正确使用Java“assert”关键字

我一直不明白什么是assert用于尽管我已经阅读了很多示例但它们并没有真正让我知道我应该使用它做什么或为什么因此我不会问一个例子而是提供一个例子让我知道这是否是正确的用法assert The idea is that the m
如何在 ASP.NET MVC 中使用部分视图？

我正在构建一个 ASP NET MVC 应用程序并希望使用部分视图来显示我的产品类别它将是一个网上商店在每个页面上的菜单栏下方我想显示另一个包含所有产品类别的栏我想为此使用部分视图目前在 Views Categories我创建了
用字母递增字符串？

我需要从增加一个字符串aaa to zzz并在控制台中写下每个增量增量是一个词吗事情会是这样的 aaa aab aac aaz aba abb abc abz aca acb 等等到目前为止我已经通过这样做增加了一个字母 Stri
在 Websphere Application Server 上运行基于 Filenet 的 Web 应用程序时出现凭证异常

我开发了一个 REST 服务可以从内容引擎存储中检索数据为简单起见我创建了具有只读权限的用户帐户并将其用于 CE 授权使用以下代码 UserContext context UserContext get Connection co
如何将协程直接分派到 JVM 上的主线程？

我正在为 jvm 设置一个基于 kotlin 协程的网络框架 Client 和 Server 类实现 CoroutineScope 并且 coroutinecontext 的重写是 Dispatchers IO 因为我非常确定这是用于这种情
C 中的递归深度是否有任何硬连线限制

正在讨论的程序尝试计算sum of first n natural numbers using recursion 我知道这可以使用一个简单的公式来完成n n 1 2但这里的想法是使用recursion 程序如下 include
C/C++ 创建一个具有负值的枚举，无需对其进行编号

例如在 C C 中我会有以下代码 typedef enum fruits apple banana lemon orange fruit t 这相当于 typedef enum fruits apple 0 banana 1 lemon
如何跨应用程序整合 ASP.NET 母版页？

第一次在这些板上提出问题希望我能得到一些帮助这里是我正在努力在我的客户处启动 NET 实践目前我们有 5 个小型 NET 应用程序其中一些已投入生产它们大多是带有一些数据输入业务逻辑功能的小型报告这些应用程序中的每一个当前
TypeScript 在类型构造函数中推断回调返回类型

我想为接收类型的函数编写一个类型构造函数S和一个函数S到另一种类型然后将该函数应用于S并返回结果 This works but it s tied to the implementation function dig
如何将 REST 请求转发到另一个资源？

在我当前的架构中我有一个位于后面的 JAX RS 资源 categories categories catId 是这样实现的 Path categories Produces application json public class C
jquery Mobile Tap 和冒泡/传播

在 android 2 x 浏览器中查看此示例它是在我的应用程序中复制场景的示例 http johnchako net samples tap html http johnchacko net samples tap html 它是关于监
Ionic 3：安装 cordova-plugin-camera 和 Native Web-intent 后 Android 添加平台失败

首先感谢您抽出时间来帮助我 Summary 尝试将 cordova plugin camera 添加到我的 ionic 3 项目中经过多次失败并最终成功后现在我的应用程序不再在我的 Android 上构建开始编辑经过多次测试当我
Polymer 中动态生成的 HTML 的数据绑定？

当我在我的里面写下以下内容时
以数据帧作为输入的模型上的多重处理

我想在模型上使用多重处理以使用数据帧作为输入来获得预测我有以下代码 def perform model predictions model dataFrame cores 4 try with Pool processes cores

以数据帧作为输入的模型上的多重处理

以数据帧作为输入的模型上的多重处理 的相关文章

随机推荐

热门标签

以数据帧作为输入的模型上的多重处理的相关文章