如何将不同的输入放入 sklearn Pipeline 中？

2023-12-24

我正在使用 sklearn 的 Pipeline 对文本进行分类。

在此示例管道中，我有一个 TfIDF 矢量器和一些用 FeatureUnion 包装的自定义功能和分类器作为管道步骤，然后我拟合训练数据并进行预测：

from sklearn.pipeline import FeatureUnion, Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC

X = ['I am a sentence', 'an example']
Y = [1, 2]
X_dev = ['another sentence']

# load custom features and FeatureUnion with Vectorizer
features = []
measure_features = MeasureFeatures() # this class includes my custom features
features.append(('measure_features', measure_features))

countVecWord = TfidfVectorizer(ngram_range=(1, 3), max_features= 4000)
features.append(('ngram', countVecWord))

all_features = FeatureUnion(features)

# classifier
LinearSVC1 = LinearSVC(tol=1e-4,  C = 0.10000000000000001)

pipeline = Pipeline(
    [('all', all_features ),
    ('clf', LinearSVC1),
    ])

pipeline.fit(X, Y)
y_pred = pipeline.predict(X_dev)

# etc.

上面的代码工作得很好，但有一个问题。我想对文本进行词性标记，并在标记文本上使用不同的矢量化器。

X = ['I am a sentence', 'an example']
X_tagged = do_tagging(X) 
# X_tagged = ['PP AUX DET NN', 'DET NN']
Y = [1, 2]
X_dev = ['another sentence']
X_dev_tagged = do_tagging(X_dev)

# load custom featues and FeatureUnion with Vectorizer
features = []
measure_features = MeasureFeatures() # this class includes my custom features
features.append(('measure_features', measure_features))

countVecWord = TfidfVectorizer(ngram_range=(1, 3), max_features= 4000)
# new POS Vectorizer
countVecPOS = TfidfVectorizer(ngram_range=(1, 4), max_features= 2000)

features.append(('ngram', countVecWord))
features.append(('pos_ngram', countVecWord))

all_features = FeatureUnion(features)

# classifier
LinearSVC1 = LinearSVC(tol=1e-4,  C = 0.10000000000000001)

pipeline = Pipeline(
    [('all', all_features ),
    ('clf', LinearSVC1),
    ])

# how do I fit both X and X_tagged here
# how can the different vectorizers get either X or X_tagged?
pipeline.fit(X, Y)
y_pred = pipeline.predict(X_dev)

# etc.

如何正确拟合此类数据？两个向量化器如何区分原始文本和 pos 文本？我有什么选择？

我也有自定义功能，其中一些会采用原始文本，另一些则采用 POS 文本。

编辑：添加了 MeasureFeatures()

from sklearn.base import BaseEstimator
import numpy as np

class MeasureFeatures(BaseEstimator):

    def __init__(self):
        pass

    def get_feature_names(self):
        return np.array(['type_token', 'count_nouns'])

    def fit(self, documents, y=None):
        return self

    def transform(self, x_dataset):


        X_type_token = list()
        X_count_nouns = list()

        for sentence in x_dataset:

            # takes raw text and calculates type token ratio
            X_type_token.append(type_token_ratio(sentence))

            # takes pos tag text and counts number of noun pos tags (NN, NNS etc.)
            X_count_nouns.append(count_nouns(sentence))

        X = np.array([X_type_token, X_count_nouns]).T

        print X
        print X.shape

        if not hasattr(self, 'scalar'):
            self.scalar = StandardScaler().fit(X)
        return self.scalar.transform(X)

然后，该特征转换器需要为 count_nouns() 函数获取标记文本或为 type_token_ratio() 获取原始文本

我认为你必须做一个特征联盟2 个 Transformer（TfidfTransformer 和POS变压器）。当然，您需要定义 POSTransformer。
也许这个article http://zacstewart.com/2014/08/05/pipelines-of-featureunions-of-pipelines.html会帮助你。

也许你的管道会是这样的。

pipeline = Pipeline([
  ('features', FeatureUnion([
    ('ngram_tf_idf', Pipeline([
      ('counts_ngram', CountVectorizer()),
      ('tf_idf_ngram', TfidfTransformer())
    ])),
    ('pos_tf_idf', Pipeline([
      ('pos', POSTransformer()),          
      ('counts_pos', CountVectorizer()),
      ('tf_idf_pos', TfidfTransformer())
    ])),
    ('measure_features', MeasureFeatures())
  ])),
  ('classifier', LinearSVC())
])

这假设测量特征 and POS变压器Transformer 是否符合 sklearn API。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

scikitlearn

Classification

pipeline

如何将不同的输入放入 sklearn Pipeline 中？的相关文章

使用Python的工业视觉相机[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
在 python 2 和 3 的spyder之间切换

根据我在文档中了解到的内容它指出您只需使用命令提示符创建一个新变量即可轻松在 2 个 python 环境之间切换如果我已经安装了 python 2 7 则 conda create n python34 python 3 4 anaco
如何 json_normalize() df 中的特定字段并保留其他列？ [复制]

这个问题在这里已经有答案了这是我的简单示例我的实际数据集中的 json 字段非常嵌套因此我一次解压一层我需要在 json normalize 之后保留数据集上的某些列 https pandas pydata org docs ref
如何有条件地组合两个相同形状的 numpy 数组

这听起来很简单但我想我把它想得太复杂了我想创建一个数组其元素是从两个形状相同的源数组生成的具体取决于源数组中哪个元素更大为了显示 import numpy as np array1 np array 2 3 0 array2 np
如何用spaCy获取依赖树？

我一直在尝试寻找如何使用 spaCy 获取依赖树但我找不到任何有关如何获取树的信息只能在如何导航树 https spacy io usage examples subtrees 如果有人想轻松查看 spacy 生成的依赖关系树一种解决
无法将较大的 blob 上传到 Azure：azure.core.exceptions.ServiceRequestError：操作未完成（写入）(_ssl.c:2317)

我正在尝试使用 Python SDK 将一些较大的 blob gt 50MB 上传到我的 Azure 存储容器 connect str os environ AZURE STORAGE CONNECTION STRING blob serv
如何在 openpyxl 中设置或更改表格的默认高度

我想通过openpyxl更改表格高度并且我希望首先默认一个更大的高度值然后我可以设置自动换行以使我的表格更漂亮但我不知道如何更改默认高度唯一的到目前为止我知道更改表格高度的方法是设置 row dimension idx heigh
基于 True/False 值的 Python 优雅赋值

我想根据三个布尔值中的值设置一个变量最直接的方法是 if 语句后跟一系列 elif if a and b and c name first elif a and b and not c name second elif a and not
pandas 两个数据框交叉连接[重复]

这个问题在这里已经有答案了我找不到有关交叉联接的任何内容包括合并联接或其他一些内容我需要使用 my function 作为 myfunc 处理两个数据帧相当于 for itemA in df1 iterrows for itemB
在python中调用subprocess.Popen时“系统找不到指定的文件”

我正在尝试使用svnmerge py合并一些文件它在底层使用 python 当我使用它时我收到一个错误系统找不到指定的文件工作中的同事正在运行相同版本的svnmerge py 以及 python 2 5 2 特别是 r252 609
熊猫记忆

我有冗长的计算我重复了很多次因此我想使用记忆诸如jug http packages python org Jug and joblib http packages python org joblib memory html 与Pan
这可能是因为 cuDNN 初始化失败，因此请尝试查看上面是否打印了警告日志消息。 [操作：Conv2D]

我在 anaconda 中安装了 TensorFlow GPU 2 0 当我安装它并导入包然后运行我的 CNN 模型时它工作正常但当我尝试运行训练模型时出现错误这是我的错误报告 Epoch 1 50 UnknownError Tr
Python time.sleep - 永不醒来

我认为这将是那些简单的问题之一但它让我感到困惑停止媒体我是对的找到了解决方案查看答案我正在使用 Python 的单元测试框架来测试多线程应用程序很好而且很直接我有 5 个左右的工作线程监视一个公共队列以及一个为它们制作工作
与函数复合 UniqueConstraint

一个快速的 SQLAlchemy 问题我有一个文档类其属性为数字和日期我需要确保没有重复的号码同年是有没有办法对数字年份日期进行UniqueConstraint 我应该使用唯一索引吗我如何声明功能部分 SQLA
向伪 shell (pty) 发出命令

我尝试使用 subprocess popen os spawn 来运行进程但似乎需要伪终端 import pty master slave pty openpty os write master ls l 应该发送 ls l 到从属终端
如何表示类的实例与将其作为输入的类之间的关系？

我有一堂课叫House 这个类的实例是house class House def init self height length self height height self length length def housePlan hou
Python列表对象属性“append”是只读的

正如标题所说在Python中我试图做到这一点以便当有人输入一个选择在本例中为Choice13 时它会从密码列表中删除旧密码并添加新密码 passwords mrjoebblock mrjoefblock mrjoegblock m
获取运行云功能的运行时服务帐户

有没有办法以编程方式从云功能获取运行时服务帐户的电子邮件我知道我可以猜测默认的 App Engine 帐户因为它始终是 appspot gserviceaccount com 但这不是我想要的我本来期待有一些环境变量 https
如何将 Pandas Dataframe 中的字符串转换为字符列表或数组？

我有一个名为的数据框data 其中一列包含字符串我想从字符串中提取字符因为我的目标是对它们进行一次性编码并使之可用于分类包含字符串的列存储在预测因子如下 predictors pd DataFrame data columns Seq
Python 中的迭代器 (iter()) 函数。 [关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案对于字典我可以使用iter 用于迭代字典的键 y x 10 y 20 for val in iter y print val 当

随机推荐

如何将 StringVar 连接到 Python/Tkinter 中的文本小部件？

基本上我希望 Text 小部件的主体在 StringVar 发生变化时发生变化简而言之你不能至少不需要做额外的工作文本小部件不直接支持variable option 如果您想自己完成所有工作可以在变量上设置跟踪以便使文本小部
无法在 AWS Lambda (Python) 中导入模块

我有一个名为的 python 脚本foo py 它有一个 lambda 处理函数定义如下 def handler event context for record in event Records bucket record s3 buc
柯尔莫哥洛夫复杂度近似算法

我正在寻找一种算法可以计算给定输入字符串的柯尔莫哥洛夫复杂度的近似值因此如果 K 是字符串 S 的柯尔莫哥洛夫复杂度并且 t 代表时间那么该函数的行为将如下所示 limit t gt inf K approx t S K 理论上
如何使用 PowerShell cmdlet 对 PowerShell 脚本文件进行完整语法检查

我正在编写一个控制台应用程序来验证 PowerShell 脚本语法我的请求是验证 PowerShell 脚本而不执行该脚本我在下面的 PowerShell 命令中发现了这个命令它可以在不执行脚本的情况下执行语法检查 Get Comma
Self.Type 无法直接转换为 AnyClass 以扩展为 swift 中的 Objective-C 类

我正在尝试创建结构方法来创建具有正确笔尖名称的 UIViewController 以修复 iOS8 默认初始化程序问题为此我添加了扩展 extension UIViewController class func create gt Se
Jquery 选择器中的引号

我读过几个关于类似问题的答案人们总是说单引号和双引号之间没有区别问题是我有一小行代码似乎很重要 li data type veg append v 这段代码做了我希望他做的事情在链接末尾放置一个 v 但是这段代码 li data ty
ApacheConnectorProvider：泽西客户端 2.5.1

Ref https jersey java net documentation latest user guide html d0e4337 https jersey java net documentation latest user g
关于游戏循环、tick和实时编程的一些问题

首先我想为我的英语水平道歉因为我是法国人我目前正在使用 LWJGL 用 java 制作实时游戏我有一些关于游戏循环的问题我正在线程中运行渲染例程这是不是一个好主意通常渲染例程相当慢并且不应该减慢更重要的世界更新滴答例程
Xcode 3.1.4 中添加 -Wall 和 -Wextra 的位置

我试图找出在 Xcode 中添加额外警告标志的位置例如 Wall 和 Wextra 我在 Leopard 上使用版本 3 1 4 苹果的文档适用于旧版本如果我按照他们的说明进行操作它会将我带到与他们显示的完全不同的窗口他们还提供了特
Highcharts - 指定堆叠时间序列的顺序

Highcharts 有没有办法指定时间序列的堆叠顺序我发现的唯一方法是在系列出现时订购它们因此如果我有 A B 和 C 系列并且希望通过以下方式订购 B C A然后我将系列添加到B C A顺序使得系列 0 B 系列 1 C 系列
如何从 scala/sbt/slf4j 项目中排除公共日志记录？

我的 scala sbt 项目使用 grizzled slf4j 和 logback 第三方依赖项使用 Apache Commons Logging 对于 Java Maven 我将使用 jcl over slf4j 和 logback c
Android XML：投影被截断

我有一个带有边距的相对布局和一个嵌套在该布局内的浮动操作按钮
如何正确处理 ASP.Net Core 3 Web API 中的多个端点

我有 2 种方法来处理 HTTP GET 请求第一个方法用于int键入输入另一个用于string类型输入 GET api Fighters 5 HttpGet id public async Task
如果我在 MySQL 中存储 int(255) ，最大数量是多少？

我在mysql中使用int 255 作为我的id 这够长吗如果我有大约 1 000 000 条记录谢谢有些东西可能只是将其转换为int 11 为你因为你不能在一个字符中包含 255 个可见数字int 最大值将为2147483647
在 asp.net mvc 2.0 中使用 Html.DropDownListFor 助手时如何更改 id 值？

我有这样的部分观点现在您可以创建新产品并编辑现有产品编辑和创建都使用相同的形式加载时创建位于主页上编辑会在 jQuery UI 模型对话框中弹出并呈现新的部分视图因此就页面而言我有两个具有相同 id 的下拉框这很糟糕因为它
向下滚动到页面图像时是否能够部分加载页面图像，或者只是效果？

我在一些网站上注意到例如http mashable com http mashable com当您打开页面并尝试滚动它时它似乎在您到达它时加载图像我不知道这是否只是闪烁效果或者它确实是为了减少滚动到它之前的图像负载这是一个帮助您入
Hbase-hadoop集成中datanode、regionserver的作用

根据我的理解行被插入到 HBase 表中并作为区域存储在不同的区域服务器中因此区域服务器存储数据类似地就 Hadoop 而言数据存储在 hadoop 集群中的数据节点中假设我在 Hadoop 1 1 1 之上配置了 HBas
仅当安装支持 Android 应用程序时 HTML 重定向到自定义协议

我想让所有用于我的应用程序的 URI 启动我的应用程序如果已安装如果未安装我想显示有关我的应用程序的网页看了下面两个问题还是找不到靠谱的解决办法意图过滤器适用于 Google 但不适用于 Chrome 和 Facebook ht
Flask jsonify 在新行上打印结果

第一次使用 Flask 我创建了一个非常基本的应用程序我正在尝试打印推荐系统的结果第一组代码来自我的 python 函数 print most similar 正在创建一个格式化字符串希望在新行上打印每个 REC 代码的第二部分显然是
如何将不同的输入放入 sklearn Pipeline 中？

我正在使用 sklearn 的 Pipeline 对文本进行分类在此示例管道中我有一个 TfIDF 矢量器和一些用 FeatureUnion 包装的自定义功能和分类器作为管道步骤然后我拟合训练数据并进行预测 from sklearn

如何将不同的输入放入 sklearn Pipeline 中？

如何将不同的输入放入 sklearn Pipeline 中？ 的相关文章

随机推荐

热门标签

如何将不同的输入放入 sklearn Pipeline 中？的相关文章