sklearn 管道拟合：AttributeError：未找到较低值

2024-01-07

我想在 sklearn 中使用管道，如下所示：

corpus = load_files('corpus/train')

stop_words = [x for x in open('stopwords.txt', 'r').read().split('\n')]  # Uppercase!

countvec = CountVectorizer(stop_words=stop_words, ngram_range=(1, 2))

X_train, X_test, y_train, y_test = train_test_split(corpus.data, corpus.target, test_size=0.9,
                                                    random_state=0)
x_train_counts = countvec.fit_transform(X_train)
x_test_counts = countvec.transform(X_test)

k_fold = KFold(n=len(corpus.data), n_folds=6)
confusion = np.array([[0, 0], [0, 0]])

pipeline = Pipeline([
    ('vectorizer',  CountVectorizer(stop_words=stop_words, ngram_range=(1, 2))),
    ('classifier',  MultinomialNB()) ])

for train_indices, test_indices in k_fold:

    pipeline.fit(x_train_counts, y_train)
    predictions = pipeline.predict(x_test_counts)

但是，我收到此错误：

AttributeError: lower not found

我看过这个帖子：

属性错误：未找到下层；在 scikit-learn 中使用带有 CountVectorizer 的 Pipeline https://stackoverflow.com/questions/33605946/attributeerror-lower-not-found-using-a-pipeline-with-a-countvectorizer-in-scik

但我将字节列表传递给矢量化器，所以这不应该是问题。

EDIT

corpus = load_files('corpus')

stop_words = [x for x in open('stopwords.txt', 'r').read().split('\n')]

X_train, X_test, y_train, y_test = train_test_split(corpus.data, corpus.target, test_size=0.5,
                                                    random_state=0)

k_fold = KFold(n=len(corpus.data), n_folds=6)
confusion = np.array([[0, 0], [0, 0]])

pipeline = Pipeline([
    ('vectorizer', CountVectorizer(stop_words=stop_words, ngram_range=(1, 2))),
    ('classifier', MultinomialNB())])

for train_indices, test_indices in k_fold:
    pipeline.fit(X_train[train_indices], y_train[train_indices])
    predictions = pipeline.predict(X_test[test_indices])

现在我收到错误：

TypeError: only integer arrays with one element can be converted to an index

2ND EDIT

corpus = load_files('corpus')

stop_words = [y for x in open('stopwords.txt', 'r').read().split('\n') for y in (x, x.title())]

k_fold = KFold(n=len(corpus.data), n_folds=6)
confusion = np.array([[0, 0], [0, 0]])

pipeline = Pipeline([
    ('vectorizer', CountVectorizer(stop_words=stop_words, ngram_range=(1, 2))),
    ('classifier', MultinomialNB())])

for train_indices, test_indices in k_fold:
    pipeline.fit(corpus.data, corpus.target)

您没有正确使用管道。您不需要传递矢量化的数据，其想法是管道对数据进行矢量化。

# This is done by the pipeline
# x_train_counts = countvec.fit_transform(X_train)
# x_test_counts = countvec.transform(X_test)

k_fold = KFold(n=len(corpus.data), n_folds=6)
confusion = np.array([[0, 0], [0, 0]])

pipeline = Pipeline([
    ('vectorizer',  CountVectorizer(stop_words=stop_words, ngram_range=(1, 2))),
    ('classifier',  MultinomialNB()) ])

# also you are not using the indices...
for train_indices, test_indices in k_fold:

    pipeline.fit(corpus.data[train_indices], corpus.target[train_indices])
    predictions = pipeline.predict(corpus.data[test_indices])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

pipeline

sklearn 管道拟合：AttributeError：未找到较低值的相关文章

Cython 函数中的字符串

我想这样做将字符串传递给 Cython 代码 test py s Bonjour myfunc s test pyx def myfunc char mystr cdef int i for i in range len mystr err
如何读取通过追加行不断更新的文件？

在我的终端中我正在运行 curl user dhelm 12345 https stream twitter com 1 1 statuses sample json gt raw data txt curl 的输出是实时流式 Twitte
[python]没有属性“TessBaseAPI”

当我编译代码时出现错误 import tessercat api tesseract TessBaseAPI 错误是 AttributeError 模块对象没有属性 TessBaseAPI 我已经安装了tesseract via pip
SQLAlchemy：检查给定值是否在列表中

问题在 PostgreSQL 中检查某个字段是否在给定列表中是使用IN操作员 SELECT FROM stars WHERE star type IN Nova Planet SQLAlchemy 的等价物是什么INSQL查询我尝试过
Python 列表理解不适用于 itertools.groupby 解码

我正在尝试解码结果itertools groupby到一个值列表中我的来源是 x 1 2 2 1 6 3 6 5 1 3 最初的方法是使用 for 语句来实现如下所示 keyfunc itemgetter 0 groups unique
为什么我不能“string”.print()？

我的理解print 在 Python 和 Ruby 以及其他语言中它是字符串或其他类型上的方法因为它的语法非常常用打印嗨 works 那么为什么不呢 hi print 在 Python 中或 hi print在红宝石工作当你
如何在返回的 AJAX 调用上使用 django 模板标签？

我有一个简单的 AJAX 脚本它在名为的搜索字段中获取输入的字符串AJAXBox并调用一个视图函数该函数使用过滤器查询数据库并返回与输入参数匹配的所有 User 对象的查询集当我使用 django 模板标签迭代查询集时它不起作用我
什么时候用==，什么时候用is？

奇怪的是 gt gt gt a 123 gt gt gt b 123 gt gt gt a is b True gt gt gt a 123 gt gt gt b 123 gt gt gt a is b False Seems a is b
如何将一串Python代码编译成一个可以调用函数的模块？

在 Python 中我有一串 Python 源代码其中包含以下函数 mySrc def foo print foo def bar print bar 我想将这个字符串编译成某种形式类似模块的对象这样我就可以调用代码中包含的函数这是我
直接打开Spyder还是通过Pythonxy打开？

之前我一直在运行PythonSpyder 我总是开始Spyder直接双击其图标今天突然发现我还有一个东西叫Python x y 我注意到我也可以开始Spyder通过它这两种方法有什么区别吗如果不是的话有什么意义Python x y
将查询参数添加到 URL

我正在尝试自动从网站下载数据我需要将动态参数传递到每天更改的站点 html 的结构是表格而不是表单如何传递参数并从 url 获取结果这是我尝试过的它需要在 python 2 7 中 import urllib url https d
如何将字符串方法应用于数据帧的多列

我有一个包含多个字符串列的数据框我想使用对数据帧的多列上的系列有效的字符串方法我希望这样的事情 df pd DataFrame A 123f 456f B 789f 901f df Out 15 A B 0 123f 789f 1 45
如何在 Python 中将 EXR 文件的 float16 转换为 uint8

我正在使用 OpenEXR 读取 Python 中的 EXR 文件我有带有半数据 float16 的 R G 和 B 通道我尝试使用 Numpy 将数据从 float16 转换为 uint8 0 255 颜色但没有成功 rCh get
Python `concurrent.futures`：根据完成顺序迭代 future

我想要类似的东西executor map 除了当我迭代结果时我想根据完成的顺序迭代它们例如首先完成的工作项应该首先出现在迭代中等等这样当且仅当序列中的每个工作项尚未完成时迭代就会阻塞我知道如何使用队列自己实现这一点但我想知道
让 TensorFlow 在 ARM Mac 上使用 GPU

我已经安装了TensorFlow在 M1 上 ARM Mac 根据这些说明 https github com apple tensorflow macos issues 153 一切正常然而模型训练正在进行CPU 如何将培训切换到GPU
使用 plone.api 创建文件的 Python 脚本在设置文件时出现错误 WrongType

Dears 我正在创建一个脚本python来在Plone站点中批量上传文件安装是UnifiedInstaller Plone 4 3 10 该脚本读取了一个txt 并且该txt以分号分隔在新创建的项目中设置文件时出现错误下面是脚本 f
需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

我对 python 很陌生但我很感激您帮助指导我创建一个简单的脚本该脚本读取一堆 yaml 文件同一目录中的大约 300 个文件并从 yaml 文件并将其转换为 csv yaml 文件中内容的示例 code 9313 degrees
Python模糊字符串匹配作为相关样式表/矩阵

我有一个文件其中包含 x 个字符串名称及其关联的 ID 本质上是两列数据我想要的是一个格式为 x by x 的相关样式表将相关数据作为 x 轴和 y 轴但我想要 fuzzywuzzy 库的函数 fuzz ratio x y 作为输出
将字典写入 csv 时遇到问题，其中键作为标题，值作为列

我有一本字典看起来像 mydict foo 1 2 bar 3 4 asdf 5 6 我正在尝试将其写入 CSV 文件使其看起来像 foo bar asdf 1 3 5 2 4 6 我花了最后一个小时寻找解决方案我发现的最接近的解决方
将自定义属性添加到 Tk 小部件

我的主要目标是向小部件添加隐藏标签或字符串之类的内容以在其上保存简短信息我想到创建一个新的自定义 Button 类在本例中我需要按钮它继承所有旧选项这是代码 form tkinter import class NButton Bu

随机推荐

使用 ASP MVC 下载并显示私有 Azure Blob

我将 ASP MVC 5 Razor 与 Microsoft Azure Blob 存储结合使用我可以使用 MVC 成功地将文档和图像上传到 Blob 存储但我很难找到一些如何下载和显示文件的 MVC 示例如果 blob 存储为公共文
ConstraintLayout 不会省略 TextView 中的长文本

我有一个TextView在图像的右侧我试图在图像旁边放置一些长文本但该文本应通过在末尾添加自动结束然而这是行不通的我使用这个布局
Google 地图 API - geocode() 不返回纬度和经度

我试图使用以下代码通过地址获取纬度和经度 function initialize directionsDisplay new google maps DirectionsRenderer geocoder new google maps G
如何避免在factory_girl中循环创建关联模型？

我有一个应用程序用户可以使用多种服务登录例如谷歌脸书推特等为了促进这一点我有一个基础User模型哪个has many Identity记录 Each Identity记录有一个provider字段例如 Google Faceb
实现幻灯片的下一个和后退按钮

我正在尝试制作一个 php 幻灯片我几乎完成了我只需要实现下一个和后退按钮我认为这很容易但显然你不能在 php 中增加索引 sql SELECT pic url FROM pic info result conn gt query
无法在 Angular 2 应用程序内提交 HTML 表单

我试图在我的 Angular 2 beta2 应用程序中包含静态 HTML 表单但当我点击提交按钮时它不会执行任何操作这是我使用的 HTML
Jenkins代理407错误

我在跑詹金斯 CI在使用代理访问互联网的公司网络内我尝试在中配置代理详细信息插件 gt 高级但即使凭据是正确的是的我检查了很多次它也无法验证测试 URL 即使在http google com http google com并返回
是否可以按 3 个月的时间段对结果进行分组？

我尝试从当月开始按 3 个月的时间段对结果进行分组如下所示 row1 15 This should contain November September and October row2 25 This should contain Au
使用 Enterprise Library 5 进行数据库日志记录

有人知道如何使用 EL 5 0 实现数据库异常日志记录吗 Thanks 您将需要针对数据库运行脚本以便它为您创建特定的表结构此外还将创建一个存储过程您必须在跟踪侦听器的配置部分中引用该存储过程您应该能够在此处找到此脚本文件 C E
ExpressJS 不会在 app.use 中触发下一个路由

我在使用 app use 时遇到 ExpressJS 触发错误路由的问题这是index js 文件中的代码我在其中组合了所有路由 const app express Router express Router app use api v
Java Streams 是迭代器设计模式的实现吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案那么正如标题所问的那样 Java Streams 可以被视为迭代器模式的实现吗我们是否可以认为 stream 调用 Collection 会
没有得到应用内结算的响应

我正在我的应用程序中实现 Android 应用内计费但我没有从 Google play 获得 Json 响应 Override public void onClick DialogInterface dialog int which d
在 Google Apps 脚本中调用 Google 表格插件？

是否可以像调用 Apps 脚本中的函数一样调用 Google Sheets 插件我正在尝试自动化这样的几个步骤将数据从工作表 1 导入附加到主工作表 1 将数据从工作表 2 导入附加到主工作表 2 将主表 1 和 2 中的值合并附
如何在 SDL Tridion Anguilla 框架中从用户 ID 获取用户名和描述

我为 SDL Tridion 2011 SP1 编写了 GUI 扩展 GUI 由一个额外的功能区按钮和保存组件时触发的事件处理程序组成我的事件处理程序注册如下 PowerTools Commands ItemCommenting prot
否认和注销后是否可以看到输出到标准输出？

我已经对该程序执行了此操作 ctrl z 否认 h 1 背景1 然后注销我现在还能看到该程序输出到标准输出的内容吗 ctrl z the program bg so it wont die when you logoff screen r
R 中有符号 ODE 求解器吗？（ODE = 常微分方程）

问题 R 中有符号 ODE 求解器吗常微分方程常微分方程 https en wikipedia org wiki Ordinary differential equation 恐怕没有但让我向专家确认例如求解 gt 5x 6 2
模拟 DirectoryEntry 的“Properties”属性

我正在尝试对一些 Active Directory 代码进行单元测试与此问题中概述的几乎相同创建 DirectoryEntry 实例以供测试使用 https stackoverflow com questions 5966161 cre
我可以使用 java 开发 iPhone 应用程序吗？

是否可以使用 Java 为 iPhone 开发应用程序如果是这样它是否允许使用自定义 jar 文件 Thanks 最初的答复是否定的苹果协议曾经规定不允许使用解释语言其他语言时期现在这种情况已经改变有几种这样的解决方案 Cod
RuntimeWarning：pandasalign.py 中的 log10 中遇到除以零，来自“查询”的问题 - 原因/解决方案？

收到以下错误并且不知道这意味着什么如何避免我是否应该担心 C Users Nick Anaconda3 lib site packages pandas computation align py 98 ordm np log10 ab
sklearn 管道拟合：AttributeError：未找到较低值

我想在 sklearn 中使用管道如下所示 corpus load files corpus train stop words x for x in open stopwords txt r read split n Uppercase

sklearn 管道拟合：AttributeError：未找到较低值

sklearn 管道拟合：AttributeError：未找到较低值 的相关文章

随机推荐

热门标签

sklearn 管道拟合：AttributeError：未找到较低值的相关文章