如何在 python sklearn 中正确地将数字和文本特征结合起来

2023-12-23

我尝试在 sklearn 管道中第一次使用 featureunion 来组合数字特征（2 列）和文本特征（1 列）以进行多类分类。

from sklearn.preprocessing import FunctionTransformer
from sklearn.pipeline import Pipeline
from sklearn.multiclass import OneVsRestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import FeatureUnion

get_text_data = FunctionTransformer(lambda x: x['text'], validate=False)
get_numeric_data = FunctionTransformer(lambda x: x[['num1','num2']], validate=False)

process_and_join_features = FeatureUnion(
         [
            ('numeric_features', Pipeline([
                ('selector', get_numeric_data),
                ('clf', OneVsRestClassifier(LogisticRegression()))
            ])),
             ('text_features', Pipeline([
                ('selector', get_text_data),
                ('vec', CountVectorizer()),
                ('clf', OneVsRestClassifier(LogisticRegression()))
            ]))
         ]
    )

在此代码中，“text”是文本列，“num1”、“num2”是 2 个数字列。

错误信息是

TypeError: All estimators should implement fit and transform. 'Pipeline(memory=None,
 steps=[('selector', FunctionTransformer(accept_sparse=False,
      func=<function <lambda> at 0x7fefa8efd840>, inv_kw_args=None,
      inverse_func=None, kw_args=None, pass_y='deprecated',
      validate=False)), ('clf', OneVsRestClassifier(estimator=LogisticRegression(C=1.0, class_weigh...=None, solver='liblinear', tol=0.0001,
      verbose=0, warm_start=False),
      n_jobs=1))])' (type <class 'sklearn.pipeline.Pipeline'>) doesn't

我错过了什么步骤吗？

A FeatureUnion应该用作管道中的步骤，而不是管道周围。您收到的错误是因为您有一个分类器而不是最后一步 - 联合尝试调用fit and transform在所有变压器上并且分类器没有transform method.

只需重新设计一个带有分类器的外部管道作为最后一步：

process_and_join_features = Pipeline([
    ('features', FeatureUnion([
            ('numeric_features', Pipeline([
                ('selector', get_numeric_data)
            ])),
             ('text_features', Pipeline([
                ('selector', get_text_data),
                ('vec', CountVectorizer())
            ]))
         ])),
    ('clf', OneVsRestClassifier(LogisticRegression()))
])

另请参阅here http://scikit-learn.org/stable/auto_examples/hetero_feature_union.html在 scikit-learn 网站上有一个很好的例子来做这类事情。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

如何在 python sklearn 中正确地将数字和文本特征结合起来的相关文章

使用 OpenCV 和/或 Numpy 对两个图像进行 Alpha 混合 [重复]

这个问题在这里已经有答案了我想将一个填充纯色的半透明矩形添加到已加载的半透明 PNG 中这是我正在使用的输入图像示例该图像加载了标准cv2 IMREAD UNCHANGED标志以便完美保留 alpha 通道该输入图像存储在imag
如何使用 conda 在一行中安装多个包？

我需要使用 conda 安装以下多个软件包我不确定 conda forge 是什么有些使用 conda forge 有些不使用它是否可以将它们安装成一行而不需要一一安装谢谢 conda install c conda forge d
ca 证书 Mac OS X

我需要在emacs 上安装offlineimap 和mu4e 问题是配置当我运行 Offlineimap 时我得到 OfflineIMAP 6 5 5 Licensed under the GNU GPL v2 v2 or any la
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
Tipfy：如何在模板中显示blob？

鉴于在 gae 上使用tipfy http www tipfy org python 以下模型 greeting avatar db Blob avatar 显示 blob 此处为图像的模板标签是什么在这种情况下斑点是一个图像这很棒
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
Django 模型字段默认基于另一个模型字段

我使用 Django Admin 构建一个管理站点有两张表一张是ModelA其中有数据另一个是ModelB里面什么也没有如果一个模型字段b b in ModelB为None 可以显示在网页上值为ModelA的场a b 我不知道该怎
如何使用 PyMongo 在重复键错误后继续插入

如果我需要在 MongoDB 中插入尚不存在的文档 db stock update one document set document upsert True 将完成这项工作如果我错了请随时纠正我但是如果我有一个文档列表并想将它们全
返回上个月的日期时间对象

如果 timedelta 在它的构造函数中有一个月份参数就好了那么最简单的方法是什么 EDIT 正如下面指出的那样我并没有认真考虑这一点我真正想要的是上个月的任何一天因为最终我只会获取年份和月份因此给定一个日期时间对象返回的最
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
在 Windows 中更新/安装 Python scikit learn 最新开发版本

我正在尝试在 Windows 中使用 0 18 dev0 最新开发版本替换安装我的 Python scikit learn 0 17 0 以便我可以尝试sklearn neural network MLPClassifier 阅读并尝试此
根据列索引重命名 Dataframe 列

是否有内置函数可以按索引重命名 pandas 数据框我以为我知道列标题的名称但事实证明第二列中有一些十六进制字符根据我接收数据的方式我将来可能会在第 2 列中遇到这个问题因此我无法将这些特定的十六进制字符硬编码到 datafram
如何使用 os.chdir 转到减去最后一步的路径？

例如一个方法传递了一个路径作为参数这个路径可能是 C a b c d 如果我想使用 os chdir 更改为 C a b 怎么办 c 没有最后一个文件夹 os chdir 可以接受命令吗 os chdir 可以采取作为论点是的然
Python：无法使用 os.system() 打开文件

我正在编写一个使用该应用程序的 Python 脚本pdftk http www pdflabs com tools pdftk the pdf toolkit 几次来执行某些操作例如我可以在 Windows 命令行 shell 中使用
Pip 无法在 Windows 上安装 Twisted

我正在尝试在 Windows 8 计算机上安装 Twisted 在 Twisted 官方网站上只有一个 Windows 版的 Wheel 文件 https twistedmatrix com trac wiki Downloads htt
如何从 nltk 下载器中删除数据/模型？

我在 python3 NLTK 中安装了一些 NLTK 包通过nltk download 尝试过它们但不需要它们现在想删除它们我怎样才能删除例如包large grammars来自我的 NLTK 安装我不想删除完整的 NLTK 安装

随机推荐

在 ASP.Net 中为不同的会话变量设置不同的超时

是否可以为 ASP Net 中的不同会话设置不同的超时 Edited我的意思是在同一页面中我有 2 个会话变量 Session ss1 和 Session ss2 是否可以为每个会话设置超时或者是否有做同样的事情比如将会话保存到 co
将int所有字节设置为(unsigned char)0，保证代表零？

This is not a matter of recommended practise nor undefined behavior but about what the c standard actually guarantees in
如何添加一个范围内的数字

嘿所以我想做一个挑战将 1000 以内 3 或 5 的倍数的每个数字相加当我输入以下代码时 for x in xrange 1000 if x 3 0 or x 5 0 place list x sum place 它只是列出了所有
是否可以解析整个字符串？

如你所知 JavaScript 的parseFloat函数仅在遇到无效字符之前起作用例如 parseFloat 10 123 10 123 parseFloat 12 zzzz 12 parseFloat z12 NaN 有没有一种方法或
ngx-bootstrap typeahead 不显示下拉菜单

我正在将一个应用程序从 AngularJS 迁移到 Angular 但我在新的 typeahead 实现上遇到了障碍已经过去一天了我尝试了几个 API 最后决定采用最相似的 API我在 AngularJS 版本中使用的是什么 this
英特尔处理器：“如果 CPUID.06H:EAX.[7] = 1”是什么意思？

英特尔处理器数据表中的以下注释是什么意思如何在 Linux 中的驱动程序代码中检查这一点如果CPUID 06H EAX 7 1 我在英特尔处理器的软件开发人员手册的寄存器描述表的注释栏中遇到了这种类型的语句 Ref https soft
如何在 Go 中管理 Windows 用户帐户？

我需要能够从 Go 应用程序管理 Windows 本地用户帐户并且似乎如果不使用 CGo 就没有本机绑定我最初的搜索让我发现人们说最好使用 exec Command 来运行 net user 命令但在解析响应代码时这似乎很混乱且不可靠
实体框架 - MySQL - 日期时间格式问题

我有一个简单的表格其中有几个日期字段每当我运行以下查询时 var docs from d in base EntityDataContext document reviews select d ToList 我收到以下异常 Unable
带有 UIImage 或远程 URL 的 UNNotificationAttachment

In my Notification Service Extension我正在从 URL 下载图像以显示为UNNotificationAttachment在通知中因此我将此图像作为 UIImage 并且不需要将其写入光盘上的应用程序目录
使用 Google UMP SDK 时 Admob TCF 错误

我最近根据以下要求集成了 UMP SKD文档 https developers google com admob ump android quick start 现在我从 Adbmob 收到错误报告其中指出许多广告请求由于错误 1 1 而
Swift 3 中的 SCNGeometryElement 设置

我硬着头皮开始将我的应用程序转换为 Swift 3 一如既往该转换器还有很多不足之处在这种情况下我不确定如何正确编码新版本这是原文 let indexes CInt 0 1 2 3 let dat NSData bytes inde
为什么 dir 不显示所有 Python 对象属性？

为什么当我调用时某些对象方法属性不显示dir在物体上 Example from scipy import sparse e sparse eye 2 H in dir e returns False 但打电话e H工作得很好返回另一个稀
更改绑定属性的值时如何为文本块的背景设置动画？

我有一个非常简单的 wpftoolkit da tagrid 来显示股票市场的出价和要价我的网格绑定到ObservableCollection
android.util.Log#println_native() 中有什么？

Here https android googlesource com platform frameworks base master core java android util Log java is the android util
带有按键侦听器的 Java swing gui 程序在 Linux 中不起作用

我用java编写了一个基本的控制板GUI 当按下箭头键时文本将显示按下键盘上的哪个按钮并且按钮将改变颜色问题是这个程序在 Windows 中运行良好但是当我在运行名为 raspbian 的 Linux 版本的树莓派上尝试它时这似乎
计算包含任何文本的单元格的数量

我想计算包含某个范围内任何内容的单元格任何包含文本数字或其他内容的单元格都应该在我的结果单元格中加一我发现这个功能 countif range criteria 但这对我不起作用因为我不知道在标准中输入什么我怎样才能做到这一点你
尝试解释 Node-Neo4j API

我对编码还很陌生所以如果我的代码不可读或者我的问题过于简单请原谅我我正在尝试创建一个小型服务器应用程序除其他外显示 neo4j 节点的属性我正在使用 node js Express 和 Aseem Kishore 的 Node
将字符串传递到 SQL WHERE IN

我正在开发一个查询页面用户在其中选择代表不同类型的值每个类型都由 ID 标识问题是使用 WHERE IN 方法从数据库中选择这些 ID 这是我的SQL语句 SELECT M REG NO T TYPE ID FROM MAIN AS
C++17：仍然使用枚举作为常量？ [复制]

这个问题在这里已经有答案了我习惯使用enum作为常量它们编写起来很快可以放在 h 文件中并且工作得很好 enum BOX LEFT 10 BOX TOP 50 BOX WIDTH 100 BOX HEIGHT 50 enum REA
如何在 python sklearn 中正确地将数字和文本特征结合起来

我尝试在 sklearn 管道中第一次使用 featureunion 来组合数字特征 2 列和文本特征 1 列以进行多类分类 from sklearn preprocessing import FunctionTransformer f

如何在 python sklearn 中正确地将数字和文本特征结合起来

如何在 python sklearn 中正确地将数字和文本特征结合起来 的相关文章

随机推荐

热门标签

如何在 python sklearn 中正确地将数字和文本特征结合起来的相关文章