如何使用 sklearn Pipeline 转换项目？

2024-03-02

我有一个简单的 scikit-learnPipeline共两个步骤：aTfIdfVectorizer随后是一个LinearSVC.

我已经使用我的数据拟合了管道。都好。

现在我想使用我的拟合来转换（而不是预测！）一个项目pipeline.

I tried pipeline.transform([item])，但与以下相比，它给出了不同的结果pipeline.named_steps['tfidf'].transform([item])。甚至结果的形状和类型也不同：第一个是 1x3000 CSR 矩阵，第二个是 1x15000 CSC 矩阵。哪一个是正确的？为什么它们不同？

使用 scikit-learn 时，如何转换项目，即在最终估计器之前获取项目的向量表示Pipeline?

您无法在最后一步包含非转换器的管道上调用转换方法。如果您不想在此类管道上调用 transfrom，则最后一个估计器必须是变压器。

Even transform方法文档 https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline.transform这么说：

对数据应用变换，以及变换方法最终估计器。仅当最终估计器实现时才有效转换.

此外，没有方法可以使用除最后一个估计器之外的所有估计器。您可以创建自己的 Pipeline，并继承 scikit-learn Pipeline 中的所有内容，但添加一种方法，例如：

def just_transforms(self, X):
    """Applies all transforms to the data, without applying last 
       estimator.

    Parameters
    ----------
    X : iterable
        Data to predict on. Must fulfill input requirements of first step of
        the pipeline.
    """
    Xt = X
    for name, transform in self.steps[:-1]:
        Xt = transform.transform(Xt)
    return Xt

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

scikitlearn

如何使用 sklearn Pipeline 转换项目？的相关文章

蟒蛇 | MySQL | AttributeError：模块“mysql.connector”没有属性“connect”

我正在学习 python 中的一个新库 mysql 我尝试执行以下命令 import mysql connector mydb mysql connector connect host localhost user root passwd
如何在多进程系统中实现锁定？

我们正在并行运行许多詹金斯项目我们使用 python 并且选择使用 pyenv 管理虚拟环境不幸的是 pyenv 有一个众所周知的竞争条件 https github com yyuu pyenv issues 174 为了解决这个问题
获取 .wav 文件长度或持续时间

我正在寻找一种方法来找出 python 中音频文件 wav 的持续时间到目前为止我已经了解了 pythonwave图书馆 mutagen pymedia pymad我无法获取 wav 文件的持续时间 Pymad给了我持续时间但它不一致
从文本文件中删除特定字符

我对 Python 和编码都很陌生我当时正在做一个小项目但遇到了一个问题 44 1 6 23 2 7 49 2 3 53 2 1 68 1 6 71 2 7 我只需要从每行中删除第三个和第六个字符或者更具体地说从整个文件中删除字符
使用 django-rest-framework 设置对象级权限

尝试使用 django rest framework 最干净最规范地管理 django guardian 对象级权限我想将对象的读取权限 module view object 分配给在执行 POST 时发出请求的用户我的基于阶级的观点
按边距（“全部”）值列对 Pandas 数据透视表进行排序

我试图根据 pandas 数据透视表中的行总和对最后一列边距 aggrfunc 进行降序排序我知道我在这里错过了一些简单的东西但我无法弄清楚数据框数据透视表 WIDGETS DATE 2 1 16 2 2 16 2 3 16 Al
是否可以从 Julia 调用 Python 函数并返回其结果？

我正在使用 Python 从网络上抓取数据我想使用这些数据在 Julia 中运行计算是否可以在 Julia 中调用该函数并返回其结果或者我最好直接导出到 CSV 并以这种方式加载数据绝对地看PyCall jl https gith
Series.sort() 和 Series.order() 有什么区别？

s pd Series nr randint 0 10 5 index nr randint 0 10 5 s Output 1 3 7 6 2 0 9 7 1 6 order 按值排序并返回一个新系列 s order Output 2 0
协程从未被等待

我正在使用一个简单的上下文管理器其中包含一个异步循环 class Runner def init self self loop asyncio get event loop def enter self return self def e
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa
Arcpy 模数在 Pycharm 中不显示

如何将 Arcpy 集成到 Pycharm 中我尝试通过导入模块但它没有显示我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引上不可用因此无法通过 pip 安装要使用 arcpy 您需要
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
AWS Lambda 不读取环境变量

我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据我在 AWS 中将其作为 lambda 函数执行我已经在控制台中设置了环境变量但是当我执行函数时出现以下错误 module initialization
如何编写一个接受 int 或 float 的 C 函数？

我想用 C 语言创建一个扩展 Python 的函数该函数可以接受 float 或 int 类型的输入所以基本上我想要f 5 and f 5 5 成为可接受的输入我认为我不能使用if PyArg ParseTuple args i v
如何从namedtuple实例列表创建pandas DataFrame（带有索引或多索引）？

简单的例子 from collections import namedtuple import pandas Price namedtuple Price ticker date price a Price GE 2010 01 01 30
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发
定义在文本小部件中双击时选择哪些字符

在 Windows 上双击文本小部件中的单词也将选择连接的标点符号有什么方法可以定义您想要选择的角色吗 tcl wordchars该变量的值是一个正则表达式可以设置它来控制什么被视为单词字符例如通过双击 Tk 中的文本来选择单

随机推荐

模块“PDO”已加载到未知行 0

我将 nginx 与 php5 fpm 一起使用由于某种原因我的 php5 fpm 一直说模块 PDO 已经加载到未知的第 0 行老实说我不知道为什么该扩展不会加载到 php ini 内部而是从 with config fil
溢出隐藏隐藏下拉菜单，但将溢出隐藏隐藏在隐藏导航背景中

首先这是一个 js 小提琴 http jsfiddle net B6DSv http jsfiddle net B6DSv 我遇到的问题是我的 css nav overflow hidden THIS LINE background co
ASP.NET WebApi DateTimeOffset 序列化为 Json/JavaScript (angular2)

我没有找到一个很好的方法来获取 JavaScript Angular2 的 DateTimeOffset 值我正在使用 WebApi 5 2 3 和 angular2 在网上我看到日期如下 RecordModifiedAt 2016 03
OpenGL ES 2.0 中的光线拾取

我正在尝试在 OpenGL ES 2 0 中实现光线拾取以确定是否已单击对象到目前为止我只是想检查是否已按下特定的三角形我使用这个网站作为动力http android raypick blogspot ca 2012 04 first
CodeIgniter 仅允许在登录时访问某些控制器

我有一些 CodeIgniter 控制器只能由已登录的用户访问即 this gt session gt userdata username 不为空如果未经身份验证的人尝试访问所述控制器他们应该收到 header location a
chromedriver：ubuntu 14.04 64 位上缺少各种 lib 依赖项

所以我尝试运行从下载的 chromedriver 2 20 wget http chromedriver storage googleapis com 2 20 chromedriver linux64 zip 在我的 ubuntu 14
如何向 UILabel 添加填充？ [复制]

这个问题在这里已经有答案了 UILabel 内的文本与左边框和右边框相冲突有没有办法向 UILabel 添加一些内部填充以便文本不会如此紧密地接触内部边框只需调整标签的位置我不知道任何其他方法尽管其他人可能会如果您对背景颜色有疑
OpenXML：Excel 中自动调整列宽

我已经编写了使用 OpenXML 生成 Excel 文件的代码下面是在 Excel 中生成列的代码 Worksheet worksheet new Worksheet Columns columns new Columns int num
HistoryRecord 的活动空闲超时？

W ActivityManager 81 Launch timeout has expired giving up wake lock W ActivityManager 81 Activity idle timeout for Histo
log4j：记录包，但不包括其子包

您好我想排除某些子包被我的一个记录器记录因为它们正在被另一个记录器记录例如 com mysite app logger1 com mysite app news logger2 com mysite app events logger
如何使用 ASP.NET MVC 将字典绑定到一组复选框？

我的需要是绑定 Dictionary
Maven 的 Jersey 问题 - Shade 插件

我的问题非常类似于仅当依赖项组装到单个 jar 中时才会抛出 Jersey 异常 https stackoverflow com questions 12611213 jersey exception only thrown when d
过滤R中所有列包含相同数据的行

我有一个数据集要求每个参与者回答一系列问题有些人对每个问题都给出了相同的回答我想丢弃这些参与者的数据但不知道如何去做我的意思是我可以尝试过滤区分但我遇到的问题是大约有 100 个问题所以 100 列我不确定使 R 过滤所有
使用PHP 5.5的password_hash和password_verify函数

假设我想存储用户的密码这是否是使用 PHP 5 5 的正确方法password hash 函数或 PHP 5 3 7 的此版本 https github com ircmaxell password compat https githu
我在 Visual Studio 2010 中找不到从工具菜单生成本地资源

我在网页的设计视图标记中我在工具菜单中找不到生成本地资源谁能告诉我如何启用这个工具查看 aspx 或 ascx 文件时确保您正在查看设计或拆分选项卡而不是源选项卡此外这篇文章可能会有所帮助其中部分指出如果
C# 中的 'volatile' 关键字仍然被破坏吗？

乔阿尔巴哈里有一个很棒的系列 http www albahari com threading 关于多线程这是必读的内容对于任何从事 C 多线程处理的人来说都应该牢记于心然而在第 4 部分中他提到了 volatile 的问题请注
获取用户信息 Google-PHP-Client 问题？

首先我只想说我需要从用户那里获取哪些信息全名名字姓氏电子邮件地址主帐户而不是 google plus com 位置国家州城市地址 Youtube 用户名为了获取所有这些信息我继续下载安装位于以下位置的 PHP 客
如何创建静态链接共享库

在我的硕士论文中我尝试为 ARM Cortex M3 嵌入式系统采用共享库方法由于我们的目标板没有 MMU 我认为使用普通动态共享库是没有意义的因为 text 是直接从闪存执行的而 data 在启动时被复制到 RAM 所以我无法
MinGW 调试模式下 Qt 应用程序启动缓慢

我在 Win 7 上使用 Qt Creator 3 1 1 和 Qt 5 3 如果设置了 2 个套件 VC2013 和 MinGW 4 8 1 我的应用程序可以编译并且可以与两个编译器一起使用但是当我以 MinGW gdb 调试模式启动
如何使用 sklearn Pipeline 转换项目？

我有一个简单的 scikit learnPipeline共两个步骤 aTfIdfVectorizer随后是一个LinearSVC 我已经使用我的数据拟合了管道都好现在我想使用我的拟合来转换而不是预测一个项目pipeline I tr

如何使用 sklearn Pipeline 转换项目？

如何使用 sklearn Pipeline 转换项目？ 的相关文章

随机推荐

热门标签

如何使用 sklearn Pipeline 转换项目？的相关文章