文本数据的多标签核外学习：部分拟合的 ValueError

2024-03-12

我正在尝试构建一个多标签外核文本分类器。如上所述here http://scikit-learn.org/stable/auto_examples/applications/plot_out_of_core_classification.html，其想法是批量读取（大规模）文本数据集并将其部分拟合到分类器。此外，当您具有如上所述的多标签实例时here http://scikit-learn.org/stable/modules/multiclass.html，其想法是以一对多的方式构建与数据集中的类数量一样多的二元分类器。

当将 sklearn 的 MultiLabelBinarizer 和 OneVsRestClassifier 类与部分拟合相结合时，出现以下错误：

ValueError：具有多个元素的数组的真值不明确。使用 a.any() 或 a.all()

代码如下：

from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import HashingVectorizer
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.multiclass import OneVsRestClassifier

categories = ['a', 'b', 'c']
X = ["This is a test", "This is another attempt", "And this is a test too!"]
Y = [['a', 'b'],['b'],['a','b']]

mlb = MultiLabelBinarizer(classes=categories)
vectorizer = HashingVectorizer(decode_error='ignore', n_features=2 ** 18,         non_negative=True)
clf = OneVsRestClassifier(MultinomialNB(alpha=0.01))

X_train = vectorizer.fit_transform(X)
Y_train = mlb.fit_transform(Y)
clf.partial_fit(X_train, Y_train, classes=categories)

您可以想象最后三行应用于每个小批量，为了简单起见，我删除了其中的代码。

如果删除 OneVsRestClassifier 并仅使用 MultinomialNB，则代码运行良好。

您正在传递 y_train 转换自MultiLabelBinarizer其形式为 [[1, 1, 0], [0, 1, 0], [1, 1, 0]]，但将类别传递为['a','b','c']然后通过这行代码 https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/multiclass.py#L260:-

if np.setdiff1d(y, self.classes_):
raise ValueError(("Mini-batch contains {0} while classes " +
                 "must be subset of {1}").format(np.unique(y),
                                              self.classes_))

这会产生一个布尔值数组，例如 [False, True, ..]。if无法将此类数组作为单个真值处理，因此会出现错误。

首先，您应该以与以下内容相同的数字格式传递类：Y_train。现在即使你这样做了，那么内部的label_binarizer_OneVsRestClassifier 的 http://scikit-learn.org/stable/modules/generated/sklearn.multiclass.OneVsRestClassifier.html#sklearn.multiclass.OneVsRestClassifier将决定它是“多类”类型而不是multilabel然后将拒绝正确地转换类。我认为这是 OneVsRestClassifer 和/或 LabelBinarizer 中的一个错误。

请向 scikit-learn github 提交问题partial_fit看看会发生什么。

Update显然，从目标向量 (y) 决定“多标签”或“多类”是 scikit-learn 上当前持续存在的问题，因为它存在很多复杂性。

https://github.com/scikit-learn/scikit-learn/issues/7665 https://github.com/scikit-learn/scikit-learn/issues/7665
https://github.com/scikit-learn/scikit-learn/issues/5959 https://github.com/scikit-learn/scikit-learn/issues/5959
https://github.com/scikit-learn/scikit-learn/issues/7931 https://github.com/scikit-learn/scikit-learn/issues/7931
https://github.com/scikit-learn/scikit-learn/issues/8098 https://github.com/scikit-learn/scikit-learn/issues/8098
https://github.com/scikit-learn/scikit-learn/issues/7628 https://github.com/scikit-learn/scikit-learn/issues/7628
https://github.com/scikit-learn/scikit-learn/pull/2626 https://github.com/scikit-learn/scikit-learn/pull/2626

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

文本数据的多标签核外学习：部分拟合的 ValueError 的相关文章

Celery计划任务中的打印语句不会出现在终端中

当我跑步时celery A tasks2 celery worker B我想看到每秒打印芹菜任务目前没有打印任何内容为什么这不起作用 from app import app from celery import Celery from
Pyenv 无法在 Cygwin 上安装 python: ModuleNotFoundError: No module named '_ctypes'

我正在尝试设置 Cygwin 环境以使用 pyenv 来管理 python 版本我没有管理员权限所以我使用以下命令运行设置 no admin flag 我使用 Cygwin 包管理器应用程序解决了一些依赖关系但我被困在了这一点上 Mo
带括号的上下文管理器

我试图了解新的新内容带括号的上下文管理器Python 3 10 中的功能新功能中的顶部项目here https docs python org 3 10 whatsnew 3 10 html 我的测试示例是尝试编写 with open f
帮助需要在可选条件下编写正则表达式[关闭]

我有一个日志文件包含如下内容 log Using data from yyyy mm dd 2011 8 3 0 files queued for scanning Warning E test H ndler pdf File not F
如何在 Django 管理中以表格格式显示添加模型？

我刚刚开始使用 Django 编写我的第一个应用程序为我的家庭设计的家务图表管理器在本教程中它向您展示了如何添加相关对象 http docs djangoproject com en dev intro tutorial02 cust
Django 如何从 ManyToManyField 序列化并列出全部

我正在使用 Django 1 9 1 开发移动应用程序后端我实现了关注者模型现在我想列出用户的所有关注者但目前我不得不这样做我还使用 Django Rest 框架这是我的 UserProfile 模型 class UserProf
将 matplotlib png 转换为 base64 以在 html 模板中查看

背景你好我正在尝试制作一个简单的网络应用程序按照教程计算阻尼振动方程并将结果的 png 返回到 html 页面然后将其转换为 Base64 字符串 Problem 该应用程序运行正常只是在计算结果时返回损坏的图像图标可能是因为
使用opencv计算深度视差图

我无法使用 opencv 从视差图计算深度我知道两个立体图像中的距离是用以下公式计算的z baseline focal disparity p 但我不知道如何使用地图计算视差我使用的代码如下为我提供了两个图像的视差图 import n
理解@property装饰器和继承[重复]

这个问题在这里已经有答案了这里是 Python 3 以防万一它很重要我试图正确理解如何实现继承 property使用我已经搜索了 StackOverflow 并阅读了大约 20 个类似的问题但无济于事因为他们试图解决的问题略有不同
当 DetailView 遇到时更新模型字段。 [姜戈]

我有一个类似的 DetailViewviews py views py class CustomView DetailView context object name content model models AppModel templa
向 Python 2.6 添加 SSL 支持

我尝试使用sslPython 2 6 中的模块但我被告知它不可用安装OpenSSL后我重新编译2 6 但问题仍然存在有什么建议么您安装了 OpenSSL 开发库吗我必须安装openssl devel例如在 CentOS 上在
如何使用 python 操作系统更改驱动器？

我正在尝试更改当前目录C to Y 我试过 import os os chdir Y 但我不断收到错误消息提示无法找到驱动器本质上我正在寻找相当于 cd d cmd 中的命令你确定吗Y 确实是有效的驱动器号吗 Try os chdir
在 MATLAB 中创建共享库

一位研究人员在 MATLAB 中创建了一个小型仿真我们希望其他人也能使用它我的计划是进行模拟清理一些东西并将其变成一组函数然后我打算将其编译成C库并使用SWIG https en wikipedia org wiki SWIG创建一
使用python中的mysql连接器正确从mysql数据库获取blob

当执行以下代码时 import mysql connector connection mysql connector connect connection params here cursor connection cursor curso
在Python中计算结构体的CRC

我有以下结构来自 C 中的 NRPE 守护程序代码 typedef struct packet struct int16 t packet version int16 t packet type uint32 t crc32 value
从 csv 中读取 pandas 数据帧，以非固定标头开始

我有许多数据文件是由我的实验室中使用的一些相当黑客的脚本生成的该脚本非常有趣因为它在标头之前附加的行数因文件而异尽管它们具有相同的格式并具有相同的标头我正在编写一个批处理来将所有这些文件处理为数据帧如果我不知道位置如何让 pan
psutil：测量特定进程的CPU使用率

我正在尝试测量进程树的 cpu 使用率目前获取进程没有子进程的 cpu usage 就可以了但我得到了奇怪的结果 import psutil p psutil Process PID p cpu percent 还给我float g
django 组合对两个不同基本模型的查询

我有两个不同的查询集我想将两个查询集合并 q1 tbl nt 123 objects values list id value geometry filter restriction height exclude condition id
如何让你的精灵在pygame中跳跃

目前我已经制作了一个平台游戏可以左右移动我的角色他从地上开始关于如何让他跳的任何想法因为我不明白目前如果我按住向上键我的玩家精灵将连续向上移动或者如果我按下它我的玩家精灵将向上移动并保持向上我想找个办法远离他让我重新跌
Selenium Python 使用代理运行浏览器[重复]

这个问题在这里已经有答案了我正在尝试编写一个非常简单的脚本该脚本从 txt 文件获取代理不需要身份验证并用它打开浏览器然后沿着代理列表循环此操作一定次数我确实知道如何打开 txt 文件并使用它我的主要问题是让代理正常工作我见

随机推荐

未添加 NuGet 包的参考

我有一个自定义 NuGet 包 My Resources 其中包含程序集和对另一个自定义 NuGet 包 My Base 的依赖项如果我安装该软件包安装会成功完成但不会添加程序集引用这是完整的输出Install Packagecom
矩阵列表乘以标量，Rcpp 中不保留维度属性

我正在使用 Rcpp 来加速一些 R 代码实际上这是我 2014 年待办事项列表中的项目之一部分代码包括将矩阵列表乘以标量我能够得到结果尽管如此矩阵不再是矩阵而是向量我想要一个矩阵列表作为最终输出这是我到目前为止的代码
htaccess 重定向百分号

我遇到了 htaccess redirect 问题在搜索了近一个小时后无法解决请帮我 RewriteRule yeah http www domain de awesome 123123 NC QSA L R 301 所以我想从doma
从 futures::Stream 转发到 futures::Sink

我目前正在尝试了解 tokio futures 原语和生态系统我开始做一些工作tk http websocket 示例 https github com swindon rs tk http blob abfdb50a00ab90b4f0
在 C# 中导入 DLL

我正在尝试使用 DllImport 将 dll 导入到我的 C 项目如下所示 DllImport kernel32 private static extern long WritePrivateProfileString string s
使用 HTML / CSS 显示/隐藏带有复选框的特定 Div

我正在尝试找出一种方法来链接特定的复选框以显示隐藏specificdiv 元素我能够找到显示隐藏 Div 元素的复选框的代码紧接在下面他们但我想知道是否有一种方法可以将特定的复选框链接到我选择的任何 div 在我的代码中我基本上想
如何在 R 中获得 ping 响应

我有一个包含域名列的数据框我想通过 ping 域名来查看存在哪个域我可以从以下函数获得单独的 ping 响应 ping lt function x stderr FALSE stdout FALSE pingvec lt system2
应用自动调整大小时旋转期间 iOS8 MKMapView 帧缓冲区错误

import AppDelegate h import
如何将 gettext 与 python >3.6 f 字符串一起使用

以前你会使用gettext如下 Hey format username 但是新的 Python 的 f 字符串呢 f Hey username Hey 按原样包含在您的翻译词典中如果你使用f Hey username 这会创建另一个不会被
如果父对象不是单例，那么子对象也是单例吗？

我有一个不是单例的 Dao 从他扩展的其他对象是否是单例代码示例
按数字顺序对文件进行排序

我编写了一个程序将文件夹中的所有文件组合在一起这是我的代码的一部分 File folder new File c some directory File listOfFiles folder listFiles for File file
Dplyr select 和 group_by 之间关于引用变量的区别？

在当前版本的 dplyr 中 select参数可以按值传递 variable lt Species iris gt select variable Species 1 setosa 2 setosa 3 setosa 4 setosa 5
是否可以从 Visual Studio 2013 创建 Windows 8 应用商店应用程序？

因此我有一台安装了 Visual Studio 2013 的 Windows 8 1 计算机每当我去创建新的 Windows 应用商店项目时我都看不到任何创建新的 Windows 8 应用商店应用程序的选项而不是 Windows 8
设置 32 英尺库

我正在尝试开始使用这个库 32feet http 32feet codeplex com 我有一个 Broadcomm 蓝牙堆栈但无法弄清楚如何设置该库当我运行我的代码时我得到未处理的异常 System PlatformNotSup
Android连接错误java.lang.UnsupportedOperationException [重复]

这个问题在这里已经有答案了当我尝试连接到 mysql 数据库时我在 android studio 上遇到问题这是代码 public Connection getMySqlConnection Declare and initializ
DownloadManager 在 INSUFFICIENT_SPACE_ERROR 之后不发送广播

问题 If the cache目录已满尝试执行简单请求将失败而不发送DownloadManager ACTION DOWNLOAD COMPLETE播送 Note 该问题很普遍但大部分可以在缓存有限的低端设备上重现 data data
找不到符号方法添加（java.lang.integer）..实际上是什么问题？

public class ArrayList instance variables replace the example below with your own public void processinput String s int
用于包裹转运的高效车辆路线

我有一个仓库和三个配送和接收地点我知道它们之间的距离每个地点都有不同数量的标准尺寸包裹但重量也不同我有三辆车一辆车运载 30 个包裹或 1100 磅一辆车运载 20 个包裹或 700 磅一辆车运载 15 个包裹或 500 磅
分页sql查询语法

我正在尝试按日期对讨论板中的帖子进行排序这是我的代码 query mysql query SELECT FROM statement LIMIT startpoint limit ORDER BY datetime ASC 这在语法上有什
文本数据的多标签核外学习：部分拟合的 ValueError

我正在尝试构建一个多标签外核文本分类器如上所述here http scikit learn org stable auto examples applications plot out of core classification htm

文本数据的多标签核外学习：部分拟合的 ValueError

文本数据的多标签核外学习：部分拟合的 ValueError 的相关文章

随机推荐

热门标签