属性错误：未找到下层；在 scikit-learn 中使用带有 CountVectorizer 的 Pipeline

2024-05-08

我有一个这样的语料库：

X_train = [ ['this is an dummy example'] 
      ['in reality this line is very long']
      ...
      ['here is a last text in the training set']
    ]

和一些标签：

y_train = [1, 5, ... , 3]

我想使用 Pipeline 和 GridSearch 如下：

pipeline = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('reg', SGDRegressor())
])


parameters = {
    'vect__max_df': (0.5, 0.75, 1.0),
    'tfidf__use_idf': (True, False),
    'reg__alpha': (0.00001, 0.000001),
}

grid_search = GridSearchCV(pipeline, parameters, n_jobs=1, verbose=1)

grid_search.fit(X_train, y_train)

当我运行这个时，我收到一条错误消息AttributeError: lower not found.

我搜索并发现了有关此错误的问题here https://stackoverflow.com/questions/28103992/tfidf-vectorizer-giving-error，这让我相信我的文本没有被标记化存在问题（这听起来像是击中要害，因为我使用列表列表作为输入数据，其中每个列表包含一个完整的字符串）。

我编写了一个快速而肮脏的分词器来测试这个理论：

def my_tokenizer(X):
    newlist = []
    for alist in X:
        newlist.append(alist[0].split(' '))
    return newlist

它做了它应该做的事情，但是当我在参数中使用它时CountVectorizer:

pipeline = Pipeline([
    ('vect', CountVectorizer(tokenizer=my_tokenizer)),

...我仍然遇到同样的错误，就好像什么也没发生一样。

我确实注意到我可以通过注释掉该错误来避免该错误CountVectorizer在我的管道中。这很奇怪......我不认为你可以使用TfidfTransformer()无需首先转换数据结构......在本例中为计数矩阵。

为什么我不断收到此错误？实际上，很高兴知道这个错误意味着什么！（曾是lower调用将文本转换为小写或其他什么？我无法通过阅读堆栈跟踪来判断）。我是否滥用了管道...或者问题实际上是参数的问题CountVectorizer独自的？

任何建议将不胜感激。

这是因为您的数据集格式错误，您应该通过“产生 str、unicode 或文件对象的迭代” http://scikit-learn.org/dev/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html#sklearn.feature_extraction.text.CountVectorizer.fit进入 CountVectorizer 的拟合函数（或进入管道，没关系）。不可迭代带有文本的其他可迭代对象（如您的代码中所示）。在您的情况下，列表是可迭代的，您应该传递其成员是字符串的平面列表（而不是另一个列表）。

即您的数据集应如下所示：

X_train = ['this is an dummy example',
      'in reality this line is very long',
      ...
      'here is a last text in the training set'
    ]

看看这个例子，非常有用：用于文本特征提取和评估的示例管道 http://scikit-learn.org/dev/auto_examples/model_selection/grid_search_text_feature_extraction.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

属性错误：未找到下层；在 scikit-learn 中使用带有 CountVectorizer 的 Pipeline 的相关文章

Python setuptools：如何在 setup.py 中添加私有存储库 (gitlab)？

我上传了 2 个包它们位于我的 gitlab 存储库中如果我想使用 pip 将它们安装在我的系统中这很容易因为 gitlab 可以帮助您 https docs gitlab com ee user packages pypi rep
如何将base64字符串直接解码为二进制音频格式

音频文件通过 API 发送给我们该文件是 Base64 编码的 PCM 格式我需要将其转换为 PCM 然后再转换为 WAV 进行处理我能够使用以下代码解码 gt 保存到 pcm gt 从 pcm 读取 gt 保存为 wav decod
Flask+Nginx+uWSGI：导入错误：没有名为站点的模块

我安装为http www reinbach com uwsgi nginx flask virtualenv mac os x html http www reinbach com uwsgi nginx flask virtualenv
即使页面未完全加载，我们也可以使用 Selenium 获取页面源吗（TimeoutException: Message: timeout）？

即使遇到 TimeoutException Message timeout 也能获取页面源码吗当我调用 driver page source 时有时无法加载整页但我只需要它的部分信息尚未确定所以我只想在任何情况下保存页面是否可以
Python从int到string的快速转换

我正在用 python 求解大量阶乘并发现当我完成计算阶乘时需要相同的时间才能转换为字符串以保存到文件中我试图找到一种将 int 转换为字符串的快速方法我将举一个计算和 int 转换时间的例子我正在使用通用的 a str a 但感
当我在 Pandas 中使用 df.corr 时，我的一些列丢失了

这是我的代码 import numpy as np import pandas as pd import seaborn as sns import matplotlib pyplot as plt data pd read csv dea
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
可以用 Django 制作移动应用程序吗？

我想知道我是否可以在我的网站上使用 Django 代码并以某种方式在移动应用程序 Flutter 等框架中使用它那么是否可以使用我现在拥有的 Django 后端并在移动应用程序中使用它所以就像models views etc 是的有
为管道重用自定义对象时出现意外结果

A while ago I changed my Join Object https stackoverflow com a 45483110 1701026 cmdlet which appeared to cause a bug whi
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
Python 声音（“铃声”）

我想让一个 python 程序在完成任务时通过发出嘟嘟声来提醒我目前我使用import os然后使用命令行语音程序说进程完成我更愿意它是一个简单的铃我知道有一个函数可以用于Cocoa apps NSBeep 但我认为这与此没有太
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X

随机推荐

github 操作未收到机密

我看过其他答案但似乎都不起作用我想我只是想用 Github Actions 做一些非常简单的事情只需让 access key 可用于我的 github 操作而不将其放入我的 github 存储库中所以我认为我们可以创造action
如何使用 Codable 解析此 JSON？

我一直在尝试从我的中解析这个对象JSON并不断收到此错误错误类型不匹配 Swift Array Swift DecodingError Context codingPath debugDescription 本应解码数组但找到了字典
Genymotion Google Nexus 6P 7.0.0 与 Open_Gapps 手臂 7.0.0

With Genymotion 2 8 0 我已经安装了谷歌 Nexus 6P 7 0 0API 级别为 24 的设备启动设备后我刷新了 ARM 虚拟转换器并重新启动了设备然后我从下载 open gapps用于 Playstore
网格属性不适用于网格容器内的元素

我正在尝试定位嵌套li ul li ul li 在最顶层创建的 CSS 网格上ul 还没有爱它不起作用也许这是不可能的或者我错过了什么 orgChart ul orgChartLevel1 display grid grid temp
JMeter：tearDown Thread Group的目的是什么

我想了解JMeter中tearDown Thread Group的实际用法在什么场景下可以使用tearDown Thread Group 根据提供的帮助JMeter 拆解线程组 http jmeter apache org userman
Java 中的逻辑回归

我们需要用 Java 进行逻辑回归我们在 Python 中使用了这段代码http blog smellthedata com 2009 06 python logistic regression with l2 html http blo
python：发送邮件，在“with”块内时失败

我想知道为什么这段代码 test smtplib SMTP smtp gmail com 587 test ehlo test starttls test ehlo test login address passw test sendmai
Windows 中的信号处理

在Windows中我试图创建一个等待SIGINT信号的python进程当它收到SIGINT时我希望它只打印一条消息并等待SIGINT的另一次出现所以我使用了信号处理程序这是我的 signal receiver py 代码 impo
获取运行时提供的类名的 n 维数组的类

给定一个完全限定的类名和多个维度我想获取该类的类名我相信我可以这样做 public Class elementType Class forName className return Array newInstance elementTy
Android：实现使用内置电话堆栈的自定义 ConnectionService

我正在尝试在我的自定义电话应用程序中实现自定义 ConnectionService 根据文档 http developer android com reference android telecom ConnectionService ht
java.util.Objects 与Optional 哪个更可取？

The java util Objects http download java net java jdk9 docs api java util Objects html类通过许多新方法进行了扩展对象 requireNonNullEls
如何恢复 QSS 属性的默认系统值？

如果父级之一将其样式表设置为 Qt QSS 会传播给子级color red 它的所有子级都将应用此样式表如果你明确设置QLabel color red 那么只有 QLabel 子项会受到关注如果子项设置自己的值则可以覆盖子项的样式表c
带操作栏的 requestFeature

所以我正在查看 google 的操作栏 api 演示他们有这个 The Action Bar is a window feature The feature must be requested before setting a conte
Oauth 2：为什么刷新令牌必须是有状态的？

我正在开发一个基于 Node 的 SPA 应用程序并使用 JWT 进行基于令牌的身份验证目前 jwt 令牌永远不会过期这不太好我希望它过期以提高安全性但我不希望我的用户被迫重新登录这就是为什么我需要刷新令牌所以我正在阅读有关
React Native：即使文件不存在，也会出现 hprof 文件太大错误

当我尝试跑步时git push origin master在我的 React Native 应用程序中我得到 file android java pid60072 hprof is 564 94 MB this exceeds GitHu
如何让SeekBar占据父级的整个宽度

我有一个SeekBar in a RelativeLayout其宽度等于屏幕宽度我申请了layout width match parent to the SeekBar但两边似乎都留有一些空白SeekBar以容纳拇指我也尝试过使用and
Pandas 过滤 - 非索引列上的 Between_time

我需要过滤掉特定时间的数据 DataFrame 函数 Between time 似乎是执行此操作的正确方法但是它仅适用于数据帧的索引列但我需要原始格式的数据例如数据透视表期望日期时间列具有正确的名称而不是索引这意味着每个过滤器
按名称删除 jsonb 数组项

我有下表 CREATE TABLE country id INTEGER NOT NULL PRIMARY KEY name VARCHAR 50 extra info JSONB INSERT INTO country id extra
在 Datagrid wpf 上对数据进行分组

我想使用包含组名称并包含所有 ClassMate 名称的扩展器重新组合我的数据这是我的班级组 public class Group public List
属性错误：未找到下层；在 scikit-learn 中使用带有 CountVectorizer 的 Pipeline

我有一个这样的语料库 X train this is an dummy example in reality this line is very long here is a last text in the training set 和一

属性错误：未找到下层；在 scikit-learn 中使用带有 CountVectorizer 的 Pipeline

属性错误：未找到下层；在 scikit-learn 中使用带有 CountVectorizer 的 Pipeline 的相关文章

随机推荐

热门标签