在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

2024-05-05

我已经使用 scikit learn 构建了一个分类器，现在我想使用 Spark 在大型数据集上运行 Predict_proba。我目前使用以下方法对分类器进行腌制：

import pickle
pickle.dump(clf, open('classifier.pickle', 'wb'))

然后在我的 Spark 代码中，我使用 sc.broadcast 广播这个 pickle，以便在我的 Spark 代码中使用，该代码必须在每个集群节点上加载它。

这可行，但是 pickle 很大（大约 0.5GB），而且看起来效率很低。

有一个更好的方法吗？

这可行，但是 pickle 很大（大约 0.5GB）

注意森林的大小将是O(M*N*Log(N))，其中 M 是树的数量，N 是样本的数量。(source) https://github.com/scikit-learn/scikit-learn/issues/6276#issuecomment-179681036

有一个更好的方法吗？

您可以尝试使用多种选项来减小 RandomForestClassifier 模型或序列化文件的大小：

将模型的尺寸减小优化超参数 http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn-ensemble-randomforestclassifier，尤其max_depth, max_leaf_nodes, min_samples_split因为这些参数会影响集成中使用的树的大小
压缩泡菜，例如如下。注意有几种选择 https://stackoverflow.com/a/18475192/890242其中一种可能更适合您，因此您需要尝试：
```
with gzip.open('classifier.pickle', 'wb') as f:
    pickle.dump(clf, f)
```
使用 joblib 代替 pickle，它压缩得更好，也是推荐方法 http://scikit-learn.org/stable/modules/model_persistence.html#persistence-example.
```
 from sklearn.externals import joblib
    joblib.dump(clf, 'filename.pkl') 
```
这里需要注意的是，joblib 将在一个目录中创建多个文件，因此您必须将这些文件压缩以进行传输。
最后但并非最不重要的一点是，在使用 RandomTreeClassifier 进行拟合/预测之前，您还可以尝试通过降维来减小输入的大小，如实用技巧 http://scikit-learn.org/stable/modules/tree.html#tips-on-practical-use在决策树上。

YMMV

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

scikitlearn

PySpark

在 Spark 中分发 scikit learn 分类器的推荐方法是什么？的相关文章

InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
PySpark - 系统找不到指定的路径

Hy 我已经多次运行 Spark Spyder IDE 今天我收到这个错误代码是相同的 from py4j java gateway import JavaGateway gateway JavaGateway os environ SP
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
具有定制损失函数的随机森林

我是机器学习领域的初学者对于一个项目我必须在随机森林分类中使用自定义损失函数到目前为止我一直使用 scikit 通过 scikit 实现这一点的建议会更有帮助损失函数分类树中的基尼杂质和熵在 scikit 的 tree pyx
pyspark通过特定键加入rdd

我有两个 rdd 需要将它们连接在一起它们看起来像下面这样 RDD1 u 2 u 100 2 u 1 u 300 1 u 1 u 200 1 RDD2 u 1 u 2 u 1 u 3 我想要的输出是 u 1 u 2 u 100 2 所以我
DataFrame 分区到单个 Parquet 文件（每个分区）

我想重新分区合并我的数据以便将其保存到每个分区的一个 Parquet 文件中我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity
GridSearchCV.best_score 与 cross_val_score 不同（GridSearchCV.best_estimator_）

考虑以下网格搜索 grid GridSearchCV clf parameters n jobs 1 iid True cv 5 grid fit grid fit X train1 y train1 根据 Sklearn 的资源 grid
使用 SciKit-learn 和大型数据集进行文本分类

首先我昨天开始学习Python 我正在尝试使用 SciKit 和大型数据集 250 000 条推文进行文本分类对于该算法每条推文都将表示为 4000 x 1 向量因此这意味着输入为 250 000 行和 4000 列当我尝试在
如何删除spark输出中的compactbuffer

下面是我在spark shell中运行的程序但是当我将输出保存在HDFS中时我得到带有compactbuffer的输出如何删除spark输出中的compactbuffer Program val a sc textFile datag
从apache Spark中的文本文件查找rdd中存储的数据大小

我是 Apache Spark 版本 1 4 1 的新手我编写了一段小代码来读取文本文件并将其数据存储在 Rdd 中有没有一种方法可以获取 rdd 中数据的大小这是我的代码 import org apache spark SparkC
运行pyspark时没有这样的文件或目录错误

我安装了 Spark 但是当我运行时pyspark在终端上我得到 usr local Cellar apache spark 2 4 5 1 libexec bin pyspark line 24 Users miguel spark 2
在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
由于 UTFDataFormatException 导致 Spark 中的任务无法序列化：编码字符串太长

我在 Yarn 上运行 Spark 应用程序时遇到一些问题我有非常广泛的集成测试运行时没有任何问题但是当我在 YARN 上运行应用程序时它将抛出以下错误 17 01 06 11 22 23 ERROR yarn Applicatio
Spark Shuffle 写入超慢

为什么对于 1 6MB shuffle 写入和 2 4MB 输入 spark shuffle 阶段如此缓慢为什么 shuffle 写入仅发生在一个执行器上我正在运行一个 3 节点集群每个集群有 8 个核心火花用户界面 Code Ja
使用什么工具来可视化逻辑和物理查询计划？

我很熟悉explain 还有 WebUI 我很好奇是否有任何工具可以生成优化前后逻辑物理计划的树结构图像也就是返回的信息explain 作为图像 PNG 或 JPG 之类的图片我自己从未听说过但您可以使用 Web UI 查看物理计划
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
Spark SQL中如何按列降序排序？

I tried df orderBy col1 show 10 但它是按升序排列的 df sort col1 show 10 也按升序排序我查看了 stackoverflow 发现的答案都已过时或称为 RDD https stackove

随机推荐

cytoscape.js。对于边缘线段，将坐标转换为线段距离和线段权重

我想与社区分享一个有用的函数该函数从坐标 PointX PointY 返回线段距离和线段权重我从工具例如draw io 创建图表并且在使用多个路点制作边缘线段样式时该免费软件通过其坐标提供路点不幸的是最新版本的 cytos
如何检测文本文件中大于 n 的一系列“空洞”（孔、与模式不匹配的线）？

Case scenario cat Status txt 1 connected 2 connected 3 connected 4 connected 5 connected 6 connected 7 disconnected 8 di
类型错误： jasmine.getEnv().currentSpec 为 null

当我尝试运行我的茉莉花规格时我得到 TypeError jasmine getEnv currentSpec is null in http localhost 8888 JASMINE ROOT jasmine js line 498
我在 wamp for PHP 路径中遇到错误

我的 wamp 服务器图标当前为橙色这意味着 3 个服务器中只有 2 个正在运行我无法打开 phpmyadmin 页面因为它给出 404 未找到错误如果我右键单击底部的 wamp 图标则会收到一条错误消息 Error C wamp
学院/大学数据 API [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在尝试构建一个应用程序允许用户查找特定大学并查看有关该大学的数据录取率 SAT 分数规模等但
Python 用 lambda 函数封闭作用域变量

我写了这个简单的代码 def makelist L for i in range 5 L append lambda x i x return L 好的现在我打电话 mylist makelist 因为稍后调用嵌套函数时会查找封闭范围变量
如何找到我的 typescript/react 模块的声明？

我对前端技术非常非常陌生特别是 React 和 TypeScript 当尝试做一件简单的事情即使用反应组件时我的问题出现了https github com ckeditor ckeditor5 https github com c
Yacc/Bison：伪变量（$$、$1、$2、..）以及如何使用 printf 打印它们

我有一个用 flex 编写的词法分析器它将标记传递给用 bison 编写的解析器以下是我的词法分析器的一小部分 ID a z a z0 9 rule printf A rule s n yytext return RULE ID pri
使用 neo4j 建模有序树

我刚刚开始使用 neo4j 并且了解图形和关系的原理但是我在想要建模的某些结构方面遇到了一些麻烦我想在编程语言项目中使用它并存储已解析源文件的 AST 从那里我计划向节点添加大量额外的数据和关系以帮助分析和工具但基本的 AST
将箱线图与 Wilcoxon 检验进行比较

我正在使用 R 中的 ggplot2 包比较两组长度不同的个体和箱线图我想比较这两个分布但到目前为止我发现使用 wilcoxon 测试的唯一方法是 ggpubr 包中的 stat compare means 这是比较分布的正确方法吗
汇编基础知识：输出寄存器值

我刚刚开始学习汇编语言我已经陷入了在屏幕上显示存储在寄存器中的十进制值的部分我使用 emu8086 任何帮助将不胜感激 model small Specifies the memory model used for program
Python：从 apache authnz_ldap 获取用户

我正在通过 Apache2 的 authnz ldap 模块成功验证 ldap 用户我不清楚如何在他们登录后获取他们的用户名以便我可以通过任何以下表单网页与他们交互我尝试过典型的方法 os getenv os environ get
Rvest 从 select 中提取选项值和文本

Rvest 选择选项我认为用可重现的示例来解释是最简单的网站 http www verema com vinos portada http www verema com vinos portada我想获取葡萄酒的类型 Tipos de
Mac OS X 上的 Python 框架和非框架构建之间的差异

Question Mac OS X 上的 Python 框架构建和非框架构建即标准 UNIX 构建之间有什么区别另外各自的优点和缺点是什么初步研究以下是我在发布此问题之前找到的信息 Pythonmac SIG Why is Fr
Typescript / Angular 2：类型中缺少属性

我对 Typescript 还很陌生并且很难理解界面据我了解接口是类型描述或类的契约它允许我定义类可以具有哪些属性以及它们的类型我尝试实现这一点但总是收到此错误 error TS2420 Class ResultPage inc
XPath 节点到字符串

如何选择以下节点的字符串内容 span class url word b class test b span span class url word b class test2 b more words span 我尝试过一些事情 span
独立 Symfony2 包内的功能测试

我需要直接在独立包中进行一些功能测试我不想测试控制器只是测试真实服务之间的一些交互我想知道是否有标准最佳方法可以做到这一点我用一种方法做到了但想知道是否有更好的方法这是我自己的解决方案我总结了在独立包中测试的所有过程 1 首
一个文件夹中的多个 htaccess 文件，还是条件 AuthType Basic？

我在本地服务器和实时服务器上使用相同的 htaccess 文件并希望在测试服务器上使用相同的文件以使代码管理更容易目前虽然我必须有一个不同的文件因为我的测试服务器具有 htaccess 密码访问权限 AuthType Basic
Android 6.0.1 无法以编程方式启用 wifi 热点

当我尝试通过以下代码启用 wifi 网络共享时它会抛出异常 com java lang reflect Method invoke Native Method 处的 java lang reflect InitationTargetExc
在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

我已经使用 scikit learn 构建了一个分类器现在我想使用 Spark 在大型数据集上运行 Predict proba 我目前使用以下方法对分类器进行腌制 import pickle pickle dump clf open cl

在 Spark 中分发 scikit learn 分类器的推荐方法是什么？

在 Spark 中分发 scikit learn 分类器的推荐方法是什么？ 的相关文章

随机推荐

热门标签

在 Spark 中分发 scikit learn 分类器的推荐方法是什么？的相关文章