如何使用sklearn Pipeline和FeatureUnion选择多个（数字和文本）列进行文本分类？

2024-05-08

我开发了一个用于多标签分类的文本模型。这OneVsRest分类器 http://scikit-learn.org/stable/modules/generated/sklearn.multiclass.OneVsRestClassifier.htmlLinearSVC模型使用sklearnsPipeline and FeatureUnion用于模型准备。

主要输入功能由一个名为的文本列组成response还有 5 个主题概率（从之前的 LDA 主题模型生成），称为t1_prob - t5_prob预测 5 个可能的标签。管道中还有其他特征创建步骤用于生成TfidfVectorizer.

我最终用以下方式调用每一列项目选择器 http://scikit-learn.org/stable/auto_examples/hetero_feature_union.html并对这些主题概率列分别执行 ArrayCaster（函数定义请参阅下面的代码）5 次。有没有更好的使用方法特征联盟 http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.FeatureUnion.html#sklearn.pipeline.FeatureUnion选择管道中的多个列？（所以我不必做5次）

我想知道是否有必要复制topic1_feature -topic5_feature代码或者是否可以以更简洁的方式选择多列？

我输入的数据是 Pandas 数据帧：

id response label_1 label_2 label3  label_4 label_5     t1_prob t2_prob t3_prob t4_prob t5_prob
1   Text from response...   0.0 0.0 0.0 0.0 0.0 0.0     0.0625  0.0625  0.1875  0.0625  0.1250
2   Text to model with...   0.0 0.0 0.0 0.0 0.0 0.0     0.1333  0.1333  0.0667  0.0667  0.0667  
3   Text to work with ...   0.0 0.0 0.0 0.0 0.0 0.0     0.1111  0.0938  0.0393  0.0198  0.2759  
4   Free text comments ...  0.0 0.0 1.0 1.0 0.0 0.0     0.2162  0.1104  0.0341  0.0847  0.0559

x_train 是response以及 5 个主题概率列（t1_prob、t2_prob、t3_prob、t4_prob、t5_prob）。

y_train 是 5label我称之为的专栏.values返回 DataFrame 的 numpy 表示。（标签_1、标签_2、标签3、标签_4、标签_5）

示例数据框：

import pandas as pd
column_headers = ["id", "response", 
                  "label_1", "label_2", "label3", "label_4", "label_5",
                  "t1_prob", "t2_prob", "t3_prob", "t4_prob", "t5_prob"]

input_data = [
    [1, "Text from response",0.0,0.0,1.0,0.0,0.0,0.0625,0.0625,0.1875,0.0625,0.1250],
    [2, "Text to model with",0.0,0.0,0.0,0.0,0.0,0.1333,0.1333,0.0667,0.0667,0.0667],
    [3, "Text to work with",0.0,0.0,0.0,0.0,0.0,0.1111,0.0938,0.0393,0.0198,0.2759],
    [4, "Free text comments",0.0,0.0,1.0,1.0,1.0,0.2162,0.1104,0.0341,0.0847,0.0559]
    ]

df = pd.DataFrame(input_data, columns = column_headers)
df = df.set_index('id')
df

我认为我的实现有点绕，因为 FeatureUnion 在组合二维数组时只会处理它们，所以像 DataFrame 这样的任何其他类型对我来说都是有问题的。然而，这个例子是有效的——我只是在寻找改进它并使其更加干燥的方法。

from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.base import BaseEstimator, TransformerMixin

class ItemSelector(BaseEstimator, TransformerMixin):
    def __init__(self, column):
        self.column = column

    def fit(self, X, y=None):
        return self

    def transform(self, X, y=None):
        return X[self.column]

class ArrayCaster(BaseEstimator, TransformerMixin):
    def fit(self, x, y=None):
        return self

    def transform(self, data):
        return np.transpose(np.matrix(data))


def basic_text_model(trainX, testX, trainY, testY, classLabels, plotPath):
    '''OneVsRestClassifier for multi-label prediction''' 
pipeline = Pipeline([
    ('features', FeatureUnion([
            ('topic1_feature', Pipeline([
                ('selector', ItemSelector(column='t1_prob')),
                ('caster', ArrayCaster())
            ])),
            ('topic2_feature', Pipeline([
                ('selector', ItemSelector(column='t2_prob')),
                ('caster', ArrayCaster())
            ])),
            ('topic3_feature', Pipeline([
                ('selector', ItemSelector(column='t3_prob')),
                ('caster', ArrayCaster())
            ])),
            ('topic4_feature', Pipeline([
                ('selector', ItemSelector(column='t4_prob')),
                ('caster', ArrayCaster())
            ])),
            ('topic5_feature', Pipeline([
                ('selector', ItemSelector(column='t5_prob')),
                ('caster', ArrayCaster())
            ])),
           ('word_features', Pipeline([
                    ('vect', CountVectorizer(analyzer="word", stop_words='english')), 
                    ('tfidf', TfidfTransformer(use_idf = True)),
            ])),
     ])),
    ('clf', OneVsRestClassifier(svm.LinearSVC(random_state=random_state))) 
])

# Fit the model
pipeline.fit(trainX, trainY)
predicted = pipeline.predict(testX)

我将 ArrayCaster 合并到这个过程中就是源于此answer https://stackoverflow.com/questions/25795511/unable-to-use-featureunion-in-scikit-learn-due-to-different-dimensions.

我使用以下方法找到了这个问题的答案函数转换器 http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.FunctionTransformer.html受到@Marcus V 解决方案的启发question https://stackoverflow.com/questions/47745288/how-to-featureunion-numerical-and-text-features-in-python-sklearn-properly。修改后的管道更加简洁。

from sklearn.preprocessing import FunctionTransformer

get_numeric_data = FunctionTransformer(lambda x: x[['t1_prob', 't2_prob', 't3_prob', 't4_prob', 't5_prob']], validate=False)

pipeline = Pipeline(
    [
        (
            "features",
            FeatureUnion(
                [
                    ("numeric_features", Pipeline([("selector", get_numeric_data)])),
                    (
                        "word_features",
                        Pipeline(
                            [
                                ("vect", CountVectorizer(analyzer="word", stop_words="english")),
                                ("tfidf", TfidfTransformer(use_idf=True)),
                            ]
                        ),
                    ),
                ]
            ),
        ),
        ("clf", OneVsRestClassifier(svm.LinearSVC(random_state=10))),
    ]
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用sklearn Pipeline和FeatureUnion选择多个（数字和文本）列进行文本分类？的相关文章

如何在 Python 2.4 CSV 阅读器中禁用引用？

我正在编写一个 Python 实用程序需要解析一个我无法控制的大型且定期更新的 CSV 文件该实用程序必须在仅提供 Python 2 4 的服务器上运行 CSV 文件根本不引用字段值但Python 2 4版本的csv库 http ww
将文件标记为从 Python 中删除？

在我的一个脚本中我需要删除当时可能正在使用的文件我知道我无法删除正在使用的文件直到它不再使用为止但我也知道我可以将该文件标记为由操作系统 Windows XP 删除我将如何在 Python 中做到这一点以及另一个不依赖于 pyw
TCP打孔问题

我尝试使用 Python 3 中概述的原则为防火墙编写一个基本的 TCP 打孔器本文 http www bford info pub net p2pnat index html 不过我无法连接任何东西这是代码 usr bin pytho
为什么我会得到“ufunc 'multiply' did not contains a loop with Signature Matching types dtype('S32') dtype('S32') dtype('S32')”，其值来自 raw_

我正在尝试创建一个非常简单的程序它将绘制一个抛物线其中v是速度 a是加速度和x是时间用户将输入值v and a then v and a and x将决定y 我试图用这个来做到这一点 x np linspace 0 9 10 a ra
将 2D Panda 的 DataFrame 列表转换为 3D DataFrame

我正在尝试创建一个将标签值保存到 2D DataFrame 的 Pandas DataFrame 这是我到目前为止所做的我正在使用读取 csv 文件pd read csv并将它们附加到列表中出于这个问题的目的让我们考虑以下代码 imp
Tensorflow 训练期间 GPU 使用率非常低

我正在尝试为 10 类图像分类任务训练一个简单的多层感知器这是 Udacity 深度学习课程作业的一部分更准确地说任务是对各种字体呈现的字母进行分类数据集称为 notMNIST 我最终得到的代码看起来相当简单但无论如何我在训练期间
使用 NumPy 的 Mittag-Leffler 函数的不稳定性

在尝试重现时Wolfram MathWorld 上的情节 http mathworld wolfram com Mittag LefflerFunction html 并试图帮助这个问题 https stackoverflow com qu
self.__dict__.update(**kwargs) 的风格是好是坏？

在 Python 中假设我有一些类 Circle 它继承自 Shape Shape 需要 x 和 y 坐标此外 Circle 需要半径我希望能够通过执行类似的操作来初始化 Circle c Circle x 1 y 5 r 3 Cir
获取 pandas 数据框中每列的前 k 个元素的索引的快速方法

我有一个非常大的 pandas 数据框大约有 500 000 列每列大约有 500 个元素长对于每一列我需要检索该列中前 k 个元素的索引列位置所以如果 k 等于 2 这是我的数据框 A B C D w 4 8 10 2
如何使直方图列的宽度都相同

我在操作直方图时遇到了一些麻烦我有一个包含两列的 df 我将它们绘制为堆叠直方图我将它们放入特定的垃圾箱中请参阅下面的代码但我想在最后制作一个大垃圾箱 4000 10000 但是默认情况下大垃圾箱的列宽很大有没有办法让这个大垃
从网站上抓取数字和详细信息的数据

我想从网站上抓取联系电话以及快递服务的相应详细信息我无法从所有快递服务中获取联系电话和其他详细信息例如姓名地址和评级我分析的数据位于脚本标签中请提出修复此问题的建议 import requests import pandas as
t /= d 是什么意思？ Python 和错误

t current time b begInnIng value c change In value d duration def easeOutQuad swing function x t b c d alert jQuery easi
进行异步调用时，“yield”在龙卷风中如何工作？

最近我在学习龙卷风简介我遇到了以下代码 class IndexHandler tornado web RequestHandler tornado web asynchronous tornado gen engine def get s
使用 matplotlib 设置或固定二元分布值

I ve animated a bivariate gaussian distribution using matplotlib 我已经计算过这个distribution通过调整COV matrix来考虑特定的变量我可以提供有关此过程的更
尝试将 cuda 与 pytorch 一起使用时出现运行时错误 999

我为我的 Geforce 2080 ti 安装了 Cuda 10 1 和最新的 Nvidia 驱动程序我尝试运行一个基本脚本来测试 pytorch 是否正常工作但出现以下错误 RuntimeError cuda runtime erro
枚举上的 random.choice

我想用random choice on an Enum I tried class Foo Enum a 0 b 1 c 2 bar random choice Foo 但是这段代码失败了KeyError 我怎样才能随机选择一个成员Enum
设置字符串中单词或字符数的限制

假设我有一个字符串元素列表 wordlist hi what s up home diddle mc doo Oh wise master kakarot hello have a da 我希望列表中的每个元素最多包含 3 个单词或 20
将同一 numpy 数组的两个视图组合成单个视图而不复制数组？

我有一个大型 2d numpy 数组我想删除它的子集并处理函数剩下的内容我需要对许多子集执行此操作因此理想情况下我不想每次都创建数组的副本该函数不会更改数组中的任何值 mat np load filename mat 1 mat i
如何继承并重写 django 模型类来创建 listOfStringsField？

我想为 django 模型创建一个新类型的字段它基本上是一个 ListOfStrings 因此在您的模型代码中您将具有以下内容模型 py from django db import models class ListOfString
使用 TkInter 绑定设置不可交互（点击）覆盖

我已经浏览了其他几篇关于类似问题的帖子所有这些似乎都指向this https stackoverflow com questions 29458775 tkinter see through window not affected by

随机推荐

打印 sqlalchemy 行

我想做的就是打印 sqlalchemy 表行的一行假设我有 from sqlalchemy import Column Integer String from sqlalchemy ext declarative import decla
根据多个值过滤字典列表

我有一个字典列表我想根据多个条件进行过滤该列表的简化版本如下所示 orders name v price 123 location Mars name x price 223 location Mars name x price 124
PostgreSQL 触发器不返回任何内容

我在创建时有一个 PostgreSQL 触发器它基本上将插入重定向到子表中插入记录后我想中止请求以避免重复数据据我所知执行此操作的唯一方法是返回NULL在触发器中问题是我需要返回记录才能获取 ID 如果我回来NULL 我得到 N
DataGridView：如何让回车键添加新行而不是更改当前单元格？

如何让 Enter 键在 Winforms 中起作用DataGridViewTextBoxCell就像在普通 Winform 中一样TextBox 向文本添加新行而不是更改当前单元格嗯我知道如何解决这个问题了首先创建一个类名为C
Node Js：Redis 作业在完成其任务后未完成

希望你们做得很好我在我的 Nodejs 项目中实现了 BullMQ Bull 的下一个主要版本来安排发送电子邮件的作业例如发送忘记密码请求的电子邮件所以我编写了如下所示的代码用户服务 await resetPasswordJo
login_required 装饰器不起作用，flask-Login 允许匿名用户

我装饰了一个方法login required 但令我惊讶的是它不是执行完全允许匿名用户进入打印current user方法内返回
随机打乱列表[重复]

这个问题在这里已经有答案了可能的重复在 C 中随机化 List https stackoverflow com questions 273313 randomize a listt in c sharp 随机播放随机重新排列 List
在 servlet 中的 URL 中使用变量的最简单方法

在 servlet 中的 URL 中使用变量的最简单方法是什么 Eg http somesite com MyServlet ID 这就是所谓的路径信息您可以使用HttpServletRequest getPathInfo http ja
如何在没有 WSGI 的情况下为 Gunicorn 配置 ExecStart？

Systemd 和 Gunicorn 需要某种 wsgi 文件作为最后一个参数ExecStart http docs gunicorn org en latest deploy html highlight ExecStart system
React i18next Backend-Path 在本地和生产环境中不同

我正在使用一个反应应用程序react i18next并加载翻译i18next xhr backend i18n use Backend use initReactI18next passes i18n down to react i18ne
Bash 中的 Shellshock 漏洞背后的行为是有记录的还是有意为之？

最近的一个漏洞 CVE 2014 6271 http web nvd nist gov view vuln detail vulnId CVE 2014 6271 如何Bash http en wikipedia org wiki Bash
leaflet.js 符合 GDPR 的集成

是否有可能以符合 gdpr 的方式使用 leaflet js 原因是 leaflet js 对地图服务器的所有大多数 api 调用都会创建第 3 方 cookie 在访问者决定使用地图 API osm gmaps 等之前 GDPR 法律
如何对 Laravel Mailable 进行断言

在测试中我想使用以下方法对 Mailable 做出一些断言Mail assertSent 像这样 Mail assertSent MyMailable class function mail use user return mail gt
用于预乘 ARGB 的 SSE alpha 混合

我正在尝试编写一个支持 SSE 的 alpha 合成器这就是我想出的首先混合两个 4 像素向量的代码 alpha blend two 128 bit 16 byte SSE vectors containing 4 pre multi
当我通过 shell 脚本创建 .txt 文件时，为什么文件名末尾出现问号？ [复制]

这个问题在这里已经有答案了我正在编写一个 shell 脚本我应该在其中创建 1 个文本文件当我这样做时文件名末尾出现一个问号是什么原因我正在 bash 脚本中尝试以下方法 1 grep ERROR a1 gt text txt
WebView 是否需要 WebViewClient 才能工作？

我正在浏览 android 教程并尝试了WebView例子这就是我最终得到的结果 Web应用程序活动 public class WebAppActivity extends Activity Called when the activit
Play async/await 中会话/上下文丢失

看来await 方法失去上下文 public static action session put key value await someAsyncCall Now for some reason the session doesn t h
scipy.stats....rvs 和 numpy.random 随机抽取之间的区别

看起来是否是相同的分布从中抽取随机样本numpy random比这样做更快scipy stats rvs 我想知道是什么原因导致两者之间的速度差异 scipy stats uniform实际上使用了numpy 这里是stats中对应的函数
共享类与 swagger 生成的类

我有一个包含三个项目的 asp net Blazor VS 解决方案 Shared ASP NET核心API Blazor 网络组件我创建了一堆课程Shared项目和其他两个项目参考了Shared项目到目前为止一切都很好然后我用了S
如何使用sklearn Pipeline和FeatureUnion选择多个（数字和文本）列进行文本分类？

我开发了一个用于多标签分类的文本模型这OneVsRest分类器 http scikit learn org stable modules generated sklearn multiclass OneVsRestClassifier h

如何使用sklearn Pipeline和FeatureUnion选择多个（数字和文本）列进行文本分类？

如何使用sklearn Pipeline和FeatureUnion选择多个（数字和文本）列进行文本分类？ 的相关文章

随机推荐

热门标签

如何使用sklearn Pipeline和FeatureUnion选择多个（数字和文本）列进行文本分类？的相关文章