您可以使用 Sklearn 的 Transformer API 持续跟踪列标签吗？

2024-02-23

对于这个库来说，这似乎是一个非常重要的问题，到目前为止，我还没有看到决定性的答案，尽管在大多数情况下，答案似乎是“不”。

现在，任何使用transformer api in sklearn返回一个numpy数组作为其结果。通常这很好，但如果您将扩展或减少列数的多步骤过程链接在一起，则没有一种干净的方法来跟踪它们与原始列标签的关系，因此很难使用该部分充分发挥图书馆的作用。

作为一个例子，这是我最近使用的一个片段，其中无法将新列映射到数据集中最初的列是一个很大的缺点：

numeric_columns = train.select_dtypes(include=np.number).columns.tolist()
cat_columns     = train.select_dtypes(include=np.object).columns.tolist()

numeric_pipeline = make_pipeline(SimpleImputer(strategy='median'), StandardScaler())
cat_pipeline     = make_pipeline(SimpleImputer(strategy='most_frequent'), OneHotEncoder())

transformers = [
('num', numeric_pipeline, numeric_columns),
('cat', cat_pipeline, cat_columns)
]

combined_pipe = ColumnTransformer(transformers)

train_clean = combined_pipe.fit_transform(train)

test_clean  = combined_pipe.transform(test)

在此示例中，我使用以下方法分割数据集ColumnTransformer然后使用添加额外的列OneHotEncoder，所以我的列排列与我开始时的排列不同。

如果我使用使用相同 API 的不同模块，我可以轻松地进行不同的安排。OrdinalEncoer, select_k_best, etc.

如果您正在进行多步转换，是否有办法一致地查看新列与原始数据集的关系？

对此有广泛的讨论here https://github.com/scikit-learn/scikit-learn/issues/5523，但我认为一切还没有最终确定。

是的，你是对的，没有完全支持跟踪 feature_namessklearn截至目前。最初，决定将其保留为通用级别numpy大批。可以跟踪 sklearn 估计器中添加功能名称的最新进展here https://github.com/scikit-learn/scikit-learn/pull/13307/files.

无论如何，我们可以创建包装器来获取特征名称ColumnTransformer。我不确定它是否可以捕获所有可能的类型ColumnTransformers。但至少，它可以解决你的问题。

From Documentation of ColumnTransformer https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html#sklearn.compose.ColumnTransformer.get_feature_names:

Notes

转换后的特征矩阵中的列顺序遵循转换器列表中指定列的顺序。除非在 passthrough 关键字中指定，否则原始特征矩阵中未指定的列将从生成的转换特征矩阵中删除。使用 passthrough 指定的那些列将添加到变压器输出的右侧。

尝试这个！

import pandas as pd
import numpy as np
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import make_pipeline, Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder, MinMaxScaler
from sklearn.feature_extraction.text import _VectorizerMixin
from sklearn.feature_selection._base import SelectorMixin
from sklearn.feature_selection import SelectKBest
from sklearn.feature_extraction.text import CountVectorizer

train = pd.DataFrame({'age': [23,12, 12, np.nan],
                      'Gender': ['M','F', np.nan, 'F'],
                      'income': ['high','low','low','medium'],
                      'sales': [10000, 100020, 110000, 100],
                      'foo' : [1,0,0,1],
                      'text': ['I will test this',
                               'need to write more sentence',
                               'want to keep it simple',
                               'hope you got that these sentences are junk'],
                      'y': [0,1,1,1]})
numeric_columns = ['age']
cat_columns     = ['Gender','income']

numeric_pipeline = make_pipeline(SimpleImputer(strategy='median'), StandardScaler())
cat_pipeline     = make_pipeline(SimpleImputer(strategy='most_frequent'), OneHotEncoder())
text_pipeline = make_pipeline(CountVectorizer(), SelectKBest(k=5))

transformers = [
    ('num', numeric_pipeline, numeric_columns),
    ('cat', cat_pipeline, cat_columns),
    ('text', text_pipeline, 'text'),
    ('simple_transformer', MinMaxScaler(), ['sales']),
]

combined_pipe = ColumnTransformer(
    transformers, remainder='passthrough')

transformed_data = combined_pipe.fit_transform(
    train.drop('y',1), train['y'])

def get_feature_out(estimator, feature_in):
    if hasattr(estimator,'get_feature_names'):
        if isinstance(estimator, _VectorizerMixin):
            # handling all vectorizers
            return [f'vec_{f}' \
                for f in estimator.get_feature_names()]
        else:
            return estimator.get_feature_names(feature_in)
    elif isinstance(estimator, SelectorMixin):
        return np.array(feature_in)[estimator.get_support()]
    else:
        return feature_in


def get_ct_feature_names(ct):
    # handles all estimators, pipelines inside ColumnTransfomer
    # doesn't work when remainder =='passthrough'
    # which requires the input column names.
    output_features = []

    for name, estimator, features in ct.transformers_:
        if name!='remainder':
            if isinstance(estimator, Pipeline):
                current_features = features
                for step in estimator:
                    current_features = get_feature_out(step, current_features)
                features_out = current_features
            else:
                features_out = get_feature_out(estimator, features)
            output_features.extend(features_out)
        elif estimator=='passthrough':
            output_features.extend(ct._feature_names_in[features])
                
    return output_features

pd.DataFrame(transformed_data, 
             columns=get_ct_feature_names(combined_pipe))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

您可以使用 Sklearn 的 Transformer API 持续跟踪列标签吗？的相关文章

行未从树视图复制

该行未在树视图中复制我在按行并复制并粘贴到未粘贴的任何地方后制作了弹出复制 The code popup tk Menu tree opportunity tearoff 0 def row copy item tree opportun
在Python3.6中调用C#代码

由于完全不了解 C 编码我希望在我的 python 代码中调用 C 函数我知道有很多关于同一问题的问答但由于一些奇怪的原因我无法从示例 python 模块导入简单的 c 类库以下是我所做的事情 C 类库设置我使用的是 VS 20
一次将Python dict的内容分配给多个变量？

我想做这样的事情 def f return a 1 b 2 c 3 a b f or a b f IE 这样 a 被分配为 1 b 被分配为 2 并且 c 是未定义的这与此类似 def f return 1 2 a b f 依赖于变量名称
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
如何确定非阻塞套接字是否真正连接？

这个问题不仅限于Python 这是一个一般的套接字问题我有一个非阻塞套接字想要连接到一台可访问的机器在另一端该端口不存在为什么 select 仍然成功我预计会超时 sock send 因管道损坏而失败 select 之后如何确定
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
Python igraph：从图中删除顶点

我正在使用安然电子邮件数据集并尝试删除没有 enron com 的电子邮件地址即我只想拥有安然电子邮件当我尝试删除那些没有 enron com 的地址时一些电子邮件由于某些原因被跳过下面显示了一个小图其中顶点是电子邮件地址这是
在径向（树）网络x图中查找末端节点（叶节点）

给定下图是否有一种方便的方法来仅获取末端节点我所说的端节点是指那些具有一个连接边的到节点我认为这些有时被称为叶节点 G nx DiGraph fromnodes 0 1 1 1 1 1 2 3 4 5 5 5 7 8 9 10 ton
如何使用Python的super()来更新父值？

我对继承很陌生之前所有关于继承和 Python 的 super 函数的讨论都有点超出我的理解我当前使用以下代码来更新父对象的值 usr bin env python test py class Master object mydata
Python：计算数据帧列中所有行中特定字符的实例数

我有一个包含列 toaddress ccaddress body 的数据框 df 我想迭代数据帧的索引以获取 toaddress 和 ccaddress 字段中电子邮件地址的最小最大和平均数量这是通过计算这两列中每个字段中的和的实
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
导入错误：没有名为 google.auth 的模块

当我尝试导入时firebase admin in python 2 7我收到错误导入错误没有名为 google auth 的模块这是Docker文件 https github com ammaratef45 Attendance bl
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
为什么我们应该在 def __init__(self, n) -> None: 中使用 -> ？

我们为什么要使用 gt in def init self n gt None 我读了以下摘录来自 PEP 484 https www python org dev peps pep 0484 the meaning of annotatio

随机推荐

Codeigniter csrf 令牌与 ajax 请求（500 内部服务器错误）

我很难尝试通过启用了 csrf 令牌的 CI 表单发出 ajax 请求我做了很长时间的研究并在与此相关的每个问题中发布了相同的解决方案即将令牌 val 添加到 ajax 请求中的序列化数据中我在 ajaxSetup 中执行了此操作
更新排序索引列以移动项目

如果我有下表和数据允许我们使用sort index用于排序 CREATE TABLE foo id INT 11 NOT NULL AUTO INCREMENT bar id INT 11 DEFAULT NULL sort index I
无法通过MacPorts安装Git-core+svn

我试图通过 svn 将 Git core 安装到我的 Mac 上但未成功 sudo port install git core svn gt Verifying checksum s for db46 Error Checksum md5
为什么PHP没有默认构造函数？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何将一个 RDD 拆分为两个或多个 RDD？

我正在寻找一种将 RDD 拆分为两个或多个 RDD 的方法我见过的最接近的是Scala Spark 将集合拆分为多个RDD https stackoverflow com questions 27231524 scala spark sp
我什么时候应该使用排序字典而不是字典[重复]

这个问题在这里已经有答案了正如我在上一篇文章中所写的那样我对 C 世界还很陌生因此我编写了一个小基准来相互比较 Dictionary Hashtable SortedList 和 SortedDictionary 该测试运行 8000
Vert.x java List 参数化

前几天我遇到了 Vert x futures 的一个奇怪问题虽然没有破坏代码但仍然困扰着我不带参数的 Future 会导致以下警告 Future 是一种原始类型对泛型类型 Future 的引用应该参数化添加参数问题解决 Futu
IntelliJ - IntelliJ 运行配置忽略 maven.config 和 jvm.config 文件

在我的 Maven 项目中我有一个 mvn我的文件夹maven config and jvm config文件位于特定于项目的参数我使用 IntelliJ 进行开发当我运行 Maven 配置使用捆绑的 Maven 或自定义 Mave
垂直折叠动画

我正在尝试为我的 UIView 垂直创建折叠动画经过长时间搜索我找到了以下链接使用 CATransform3D 透视的折纸过渡 https stackoverflow com questions 5456642 origami tra
定位空

我知道对于这里的 jQuery 专家来说这一定是一个简单的问题但老实说我不知道如何实现它我有以下 HTML div class panel contents ul li a href A a li li a href B a li l
delphi中有一个UIntToStr可以让你显示UINT64值，但是StrToUInt在哪里允许用户输入64位无符号值呢？

我想将大的 64 位值从十进制或十六进制字符串转换为 64 位 UINT64 数据类型有一个 UIntToStr 可以帮助将 UINT64 转换为字符串但无法将 64 位整数转换为无符号值作为字符串这意味着大于 2 63 的整数值不
如何使 WinForms 应用程序全屏显示

我有一个 WinForms 应用程序我正在尝试使其全屏显示有点像 VS 在全屏模式下所做的那样目前我正在设置FormBorderStyle to None and WindowState to Maximized这给了我更多的空间但
如何使用 Ruby on Rails 从电子邮件中提取所有 URL/链接？

我正在建立一个书签网站我想从电子邮件中提取所有 URI 链接我的站点正在使用 Ruby on Rails 如何提取收到的电子邮件内容的所有 URL Ruby 的内置 URI 模块已经做到了这一点来自extract http rubyd
在 R 中使用 :: 来使用管道运算符“%>%”

我正在构建一个 R 包并且正在大量使用管道运算符 gt 我想知道如何使用运算符从 purrr 包中调用它我努力了purrr gt 但出现错误我很欣赏这方面的任何指导 P D 我应该从 magrittr 调用管道操作符而不是 purr
是的，验证是字符串或字符串数组

我想验证一个字段是字符串还是字符串数组这里有一个最小失败示例 https codesandbox io s formik example jmph7 fontsize 14它碰巧使用了 formik 但实际上我正在使用 yup 进行服务器
WKWebview iOS（swift）：应用程序关闭后保持会话连接

我想使用简单的方法在 iOS 上通过 PWA 制作一个应用程序WKWebView 我已经成功地以简单的方式实现了它ViewController并且工作正常 Problem 当我登录然后退出应用程序时会话丢失我必须再次登录 Questio
错误“无法在字段初始值设定项中访问此内容”是什么意思？

我想在 flutter 中创建一个类来显示警报框它可以将标题和内容作为输入来显示错误框但是当我使用它来访问 AlertDialog 中同一类的变量时调试控制台显示无法在字段初始值设定项中访问它 import package flut
将文件复制到我无权访问的网络共享

这是一个扩展this https stackoverflow com questions 295538 how to provide user name and password when connecting to a network s
在 YUI 数据表中最后单击的行上调用单击事件

我有一个 YUI 数据表并且有一个在单击一行时调用的函数 YAHOO keycoes myDatatable myDatatable myDatatable subscribe rowClickEvent oneventclickrow
您可以使用 Sklearn 的 Transformer API 持续跟踪列标签吗？

对于这个库来说这似乎是一个非常重要的问题到目前为止我还没有看到决定性的答案尽管在大多数情况下答案似乎是不现在任何使用transformer api in sklearn返回一个numpy数组作为其结果通常这很好但如果您将

您可以使用 Sklearn 的 Transformer API 持续跟踪列标签吗？

From Documentation of ColumnTransformer https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html#sklearn.compose.ColumnTransformer.get_feature_names:

您可以使用 Sklearn 的 Transformer API 持续跟踪列标签吗？ 的相关文章

随机推荐

热门标签

您可以使用 Sklearn 的 Transformer API 持续跟踪列标签吗？的相关文章