Sklearn Pipeline：自动错过一项功能

2023-11-30

我创建了一个自定义分类器（虚拟分类器）。下面是定义。我还添加了一些打印语句和全局变量来捕获值

class FeaturePassThroughClassifier(ClassifierMixin):
    def __init__(self):
        pass
    def fit(self, X, y):
        global test_arr1
        self.classes_ = np.unique(y)
        test_arr1 = X
        print("1:", X.shape)
        return self
    def predict(self, X):
        global test_arr2
        test_arr2 = X
        print("2:", X.shape)
        return X   
    def predict_proba(self, X):
        global test_arr3
        test_arr3 = X
        print("3:", X.shape)
        return X

下面是堆叠分类器定义，其中上面定义的 CustomClassifier 是基分类器之一。还有 3 个基分类器（这些是拟合估计器）。目标是按原样获取输入训练集变量（将从 CustomClassifier 中得出）+来自 base_classifier2、base_classifier3、base_classifier4 的预测。这些特征将作为元分类器的输入。

model = StackingClassifier(estimators=[
    ('select_features', Pipeline(steps = [("model_feature_selector", ColumnTransformer([('feature_list', 'passthrough', X_train.columns)])),
                                             ('base(dummy)_classifier1', FeaturePassThroughClassifier())])),
                                    ('base_classifier2', base_classifier2),
                                    ('base_classifier3', base_classifier3),
                                    ('base_classifier4', base_classifier4)
],
                                     final_estimator = Pipeline(memory=None,
    steps=[
        ('save_base_estimator_output_data', FunctionTransformer(save_base_estimator_output_data, validate=False)),  ('final_model', RandomForestClassifier())
    ], verbose=True), passthrough = False, **stack_method = 'predict_proba'**)

Below is o/p on fitting the model. There are 230 variables:

问题是这样的：有 230 个变量，但 CustomClassifier o/p 仅显示 229 个，这很奇怪。从上面的 print 语句中我们可以清楚地看到，有 230 个变量通过 CustomClassifier 传递。

我需要使用 stack_method =“predict_proba”。我不确定这里出了什么问题。当 stack_method = "predict" 时，代码可以正常工作。

由于这是一个二元分类器，分类器类希望您在输出矩阵中添加两个概率列 - 一个用于类标签“1”的概率，另一个用于“0”的概率。在输出中，它删除了其中之一，因为两者都不是必需的，因此，230 列减少到 229。添加一个虚拟列来解决您的问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scikitlearn

pipeline

Sklearn Pipeline：自动错过一项功能的相关文章

Python 中的隔离森林

我目前正在使用以下方法检测数据集中的异常值隔离森林 https scikit learn org stable modules generated sklearn ensemble IsolationForest html在 Python
如何使用 joblib.dump 在 s3 上保存 sklearn 模型？

我有一个 sklearn 模型我想使用 joblib dump 将 pickle 文件保存在我的 s3 存储桶上 I used joblib dump model model pkl 将模型保存到本地但我不知道如何将其保存到 s3 存储
scikit-learn 中的“详细”参数

许多 scikit learn 函数都有verbose根据他们的文档 c 控制冗长越高消息越多例如网格搜索简历 https scikit learn org stable modules generated sklearn mode
如何创建包含特征选择和 KerasClassifier 的 sklearn Pipeline？ GridSearchCV 期间 input_dim 更改的问题

我创建了一个 sklearn Pipeline 它使用 SelectPercentile f classif 进行通过管道传输到 KerasClassifier 的特征选择 SelectPercentile 使用的百分位是网格搜索中的超参数
如何加速sklearn SVR？

我正在实施SVR http en wikipedia org wiki Support vector machine Regression using sklearn http scikit learn org stable python
使用逻辑回归时sklearn重要特征错误

以下代码使用随机森林模型为我提供一个显示特征重要性的图表 from sklearn feature selection import SelectFromModel import matplotlib clf RandomForestCla
Scorer函数：make_scorer/score_func和的区别

在 scikit 0 18 1 文档中我发现接下来的内容有点令人困惑似乎可以通过多种方式编写自己的评分函数但有什么区别呢网格搜索简历 http scikit learn org stable modules generated sk
MiniBatchKMeans OverflowError：无法将浮点无穷大转换为整数？

我正在尝试找到正确数量的簇 k 根据轮廓分数使用sklearn cluster MiniBatchKMeans from sklearn cluster import MiniBatchKMeans from sklearn feature
在Python或Sklearn中用整数值对具有字符串值的列变量进行编码

如何用整数值对数据表中字符串类型的列值进行编码例如我有两个特征变量颜色可能的字符串值 R G 和 B 和技能可能的字符串值 C Java SQL 和 Python 给定数据表有两列 Color gt R G B B G R B G
没有预测器的 Sklearn 回归

是否可以在 sklearn 中使用或不使用即仅使用截距预测器来运行回归例如逻辑回归这似乎是一个相当标准的类型分析也许这些信息已经在输出中可用我发现的唯一相关的事情是sklearn svm l1 min c但这会返回一个非空模型
scikit加权f1分数计算及使用

我有一个关于weightedsklearn metrics f1 score 中的平均值 sklearn metrics f1 score y true y pred labels None pos label 1 average weig
将 OneClassSVM 与 GridSearchCV 结合使用

我正在尝试在 OneClassSVM 上执行 GridSearchCV 函数但我似乎无法找到 OCSVM 的正确评分方法根据我收集的信息像 OneClassSVM score 这样的东西不存在因此 GridSearchCV 中没有所
SciKit-Learn 的分解模块中未安装 LatentDirichletAllocation

我在 SciKit Learn 包中遇到了一些奇怪的问题 SciKit Learn 包内有分解模块其中应包含 LatentDirichletAllocation 函数请参阅此处的文档 https scikit learn org s
将 python scikit learn 模型导出到 pmml

我想将 python scikit learn 模型导出到 PMML 中什么 python 包最适合我读到Augustus https github com opendatagroup augustus 但我找不到任何使用 scikit
混淆矩阵错误“分类指标无法处理多标签指标和多类目标的混合”

我得到了 Classification metrics can t handle a mix of multilabel indicator and multiclass targets 当我尝试使用混淆矩阵时出错我正在做我的第一个深度学
如何将node.js管道传输到redis？

我有很多数据要插入 SET INCR 到redis DB 所以我正在寻找pipeline http redis io topics pipelining 质量插入 http redis io topics mass insert通过node
无法在 OS X 上安装 scikit-learn

我无法安装scikit学习 http scikit learn org stable 我可以通过从源代码构建或通过 pip 来安装其他软件包没有任何问题对于 scikit learn 我尝试在 GitHub 上克隆项目并通过 pip 安
部分拟合是否在 sklearn.decomposition.IncrementalPCA 中并行运行？

我已经关注了伊马诺卢恩戈 https stackoverflow com users 764322 imanol luengo s answer https stackoverflow com a 44335148 10183880建立部
如何使用sklearn Pipeline和FeatureUnion选择多个（数字和文本）列进行文本分类？

我开发了一个用于多标签分类的文本模型这OneVsRest分类器 http scikit learn org stable modules generated sklearn multiclass OneVsRestClassifier h
scikit-learn RandomForestClassifier 中的子样本大小

如何控制用于训练森林中每棵树的子样本的大小根据 scikit learn 的文档随机森林是一种适合许多决策的元估计器数据集的各个子样本上的树分类器并使用平均以提高预测准确性并控制过度拟合子样本大小始终与原始输入样本相同大小但如

随机推荐

当 ISP 阻止端口 80 和 443 时，如何为我的私人服务器使用 Let's Encrypt？

我正在使用 docker compose 在 traefik 后面设置一个 WebDAV 服务器另外我想为其添加 HTTPS 支持以便保持我的数据的私密性我购买了域名并更喜欢使用 Let s Encrypt 因为它是免费的但据我所
使用 next/image 从 Firebase 存储中获取图像会导致 400 状态代码

我正在使用 NextJS Image 组件如下所示
在 C# 中使用 .jar java 库 API？

我是一名入门级程序员因此请在您的回复中进行描述我正在尝试在我的 C net 应用程序中使用作为 jar 文件给出的 Java API 我不太了解 Java 但是当我尝试运行这个 jar 文件时它说没有主类清单属性所以这意味着它是一
为什么“fopen”返回 NULL 指针？

我正在用 C 编程语言开发一个简单的文件拆分合并程序问题是由于某种原因fopen返回 NULL 正因为如此我的程序崩溃了fwrite陈述我该如何解决这是 C 文件 int SplitFile char filename char
scikit-learn 是否在我的 GPU 上运行？

这个问题与scikit learn 会使用 GPU 吗但我认为没有提供相同的答案我正在针对 Nvidia GPU 执行 scikit learn 算法没有错误因此假设 scikit 正在底层硬件上运行由于 scikit learn
嵌套li - 单击子级时，触发父级单击事件[重复]

这个问题在这里已经有答案了我有一个嵌套的李 li class innerMenuLi a href span MainLi span a ul class mainMenu li a href class active span main
使用 WCF 生成 JSON 数组

我正在开发一个 WCF Web 服务它返回以下内容 allFormsResult FormId 1 FormName Formulario 1 FormId 2 FormName Formulario 2 FormId 3 FormNam
检查 wifi 连接的质量？

我遇到这样的情况当我关闭 4G 并连接到某些 WiFi 接入点但无法发送或接收数据时用于检查网络连接的标志被设置为 true 如下所示 NetworkInfo ni context getActiveNetworkInfo boolea
如何在 SQL Server 2014 中启用/安装全文搜索

这个问题可能有一个非常简单的答案但我不知道如何在 SQL Server 2014 中启用全文搜索过去几个小时我一直在网上搜索一些关于 SQL Server 2012 的帖子说它在安装过程中的功能中但我去了那里但没有启用它的选项自
从文本区域读取时不保留换行符

我的 java web 应用程序从文本区域获取内容并通过电子邮件发送相同的内容我面临的问题是使用以下命令读取相同内容时文本区域消息中的换行符不会保留 request getParameter message 有什么线索可以解决吗 T
如何以非交互式方式为 gcloud CLI 传递数据库密码？

我正在尝试以非交互式方式将密码传递给 gcloud sql connect 命令我想要实现的不是要求输入密码而是以某种方式将其传递到命令中不确定是否可能基于文档但另一方面它对于自动化任务非常有用我坚信有一种方法可以做到这一点
无法创建 externalDataReference 临时文件

我在我的 iOS 项目中使用 Core Data 我通过以下方式使用多个上下文我有一个persisent store context它在私有队列上运行并将更改存储到持久存储中我有一个main queue context那是的孩子pers
Android：Eclipse MAT 似乎没有显示我的应用程序的所有对象

我通过插入语句创建了一个 hprof 文件Debug dumpHprofData sdcard myapp hprof 在我的应用程序的代码中然后我通过 hprof conv 运行 hprof 文件并在 Eclipse 中打开转换后的
子类中的狭义属性类型

今天我遇到了一个奇怪的行为我没想到 Objective C 编译器会允许在 UITableViewCell 中有一个名为 imageView 的 UIImageView 类型的属性我对 UITableViewCell 进行了子类化
iDangero.us Swiper 多个实例

我正在尝试添加多个刷卡器 http www idangero us swiper 在我的网站上我想添加滑动器动态因此我为每个滑动器使用相同的类每个滑动器看起来像这样 div class swiper container div cla
JavaFX 任务一旦取消或完成一次就不会重新运行

我正在做一个基本的 Java FX 任务练习线程上的计数范围为 1 到 150 当前值显示在标签上并更新进度条有一个按钮可以启动任务取消任务以及查看任务的取消状态让我困惑的是为什么我在取消线程一次后无法重新运行任务如果我让任务完成
对调用另一个方法的方法进行单元测试

对调用多个方法的方法进行单元测试的最佳方法是什么例如 modify string value if value Length gt 5 replaceit value else changeit value 该伪代码有一个修改方法当前
Solr 4 中可以更新 uniqueKey 吗？

我的 uniqueKey 定义为
使用 Gradle - 在 META-INF/spring.factories 中找不到自动配置类

尝试在 Spring Boot 上使用 IntelliJ 中的 gradle 中的 jar 函数部署我构建的 jar 它使用 bootrun 从我的 IDE 本地运行良好但没有将 jar 放在 Linux 服务器上服务器上的完整错误是
Sklearn Pipeline：自动错过一项功能

我创建了一个自定义分类器虚拟分类器下面是定义我还添加了一些打印语句和全局变量来捕获值 class FeaturePassThroughClassifier ClassifierMixin def init self pass def

Sklearn Pipeline：自动错过一项功能

Sklearn Pipeline：自动错过一项功能 的相关文章

随机推荐

热门标签

Sklearn Pipeline：自动错过一项功能的相关文章