ValueError：发现样本数量不一致的数组 [6 1786]

2023-12-13

这是我的代码：

from sklearn.svm import SVC
from sklearn.grid_search import GridSearchCV
from sklearn.cross_validation import KFold
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import datasets
import numpy as np

newsgroups = datasets.fetch_20newsgroups(
                subset='all',
                categories=['alt.atheism', 'sci.space']
         )
X = newsgroups.data
y = newsgroups.target

TD_IF = TfidfVectorizer()
y_scaled = TD_IF.fit_transform(newsgroups, y)
grid = {'C': np.power(10.0, np.arange(-5, 6))}
cv = KFold(y_scaled.size, n_folds=5, shuffle=True, random_state=241) 
clf = SVC(kernel='linear', random_state=241)

gs = GridSearchCV(estimator=clf, param_grid=grid, scoring='accuracy', cv=cv)
gs.fit(X, y_scaled)

我收到错误，我不明白为什么。回溯：

回溯（最近一次调用最后一次）：文件
“C:/Users/Roman/PycharmProjects/week_3/assignment_2.py”，第 23 行，位于

gs.fit(X, y_scaled) #TODO: 检查这一行 File "C:\Users\Roman\AppData\Roaming\Python\Python35\site-packages\sklearn\grid_search.py",
804 行，适合
返回 self._fit(X, y, ParameterGrid(self.param_grid)) 文件 "C:\Users\Roman\AppData\Roaming\Python\Python35\site-packages\sklearn\grid_search.py",
第 525 行，在 _fit 中
X, y = 可索引(X, y) 文件“C:\Users\Roman\AppData\Roaming\Python\Python35\site-packages\sklearn\utils\validation.py”，
第 201 行，可转位
check_concient_length(*结果) 文件“C:\Users\Roman\AppData\Roaming\Python\Python35\site-packages\sklearn\utils\validation.py”，
第 176 行，在 check_concient_length 中
"%s" % str(唯一))

ValueError：发现样本数量不一致的数组：[ 6 1786]

有人可以解释为什么会出现这个错误吗？

我认为你对你的事情有点困惑X and y这里。你想要改变你X进入 tf-idf 向量并使用它进行训练y。见下文

from sklearn.svm import SVC
from sklearn.grid_search import GridSearchCV
from sklearn.cross_validation import KFold
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import datasets
import numpy as np

newsgroups = datasets.fetch_20newsgroups(
                subset='all',
                categories=['alt.atheism', 'sci.space']
         )
X = newsgroups.data
y = newsgroups.target

TD_IF = TfidfVectorizer()
X_scaled = TD_IF.fit_transform(X, y)
grid = {'C': np.power(10.0, np.arange(-1, 1))}
cv = KFold(y_scaled.size, n_folds=5, shuffle=True, random_state=241) 
clf = SVC(kernel='linear', random_state=241)

gs = GridSearchCV(estimator=clf, param_grid=grid, scoring='accuracy', cv=cv)
gs.fit(X_scaled, y)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

scikitlearn

textanalysis

ValueError：发现样本数量不一致的数组 [6 1786] 的相关文章

如果 Excel 文件是由程序创建的，Pandas read_excel 对于具有简单公式的单元格返回 nan [重复]

这个问题在这里已经有答案了 I use pd read excel读取由以下命令创建的 excel 文件openpyxl并从一个网址下载解析后的数据框将给出nan如果单元格值是公式 which formula is simply 100
Python 转换矩阵

我有一个如下所示的列表 2 1 3 1 2 3 1 2 2 2 我想要的是一个转换矩阵它向我显示如下序列 1 后跟 1 的频率是多少 1 后面跟着 2 的频率是多少 1 后跟 3 的频率是多少 2 后跟 1 的频率是多少 2 后跟 2 的
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
来自 pandas 数据帧的烛台图，用日期替换索引

此代码给出了带有移动平均线的烛台图但 x 轴位于索引中我需要 x 轴位于日期中需要做什么改变 import numpy as np import pandas as pd import matplotlib pyplot as plt
Matplotlib 图例，跨列添加项目而不是向下添加项目

对于下面的简单绘图有没有办法让 matplotlib 填充图例以便它从左到右填充行而不是第一列然后第二列 gt gt gt from pylab import gt gt gt x arange 2 pi 2 pi 0 1 gt gt
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
使用 NumPy 编写一个函数来计算具有特定公差的积分

我想编写一个自定义函数来以特定容差对表达式 python 或 lambda 函数进行数字积分我知道与scipy integrate quad人们可以简单地改变epsabs但我想使用 numpy 自己编写该函数 From 这篇博文 htt
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
正在使用 PIL 保存损坏的图像

我遇到一个问题操作图像像素导致保存损坏的图像因此我使用 PIL 打开图像然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后我转置图像
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
是否可以使用 Anaconda 包作为 Google Cloud Functions 的依赖项？

我正在使用 Python 运行时编写 Google Cloud Function 我需要包含一些无法使用的依赖项pip 如文档中所述here https cloud google com functions docs writing spe
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的
如何使用 Python/Django 在 Facebook 中获取（和使用）扩展权限

我正在尝试编写一个简单的应用程序让用户授予我的代码写入其页面的 Facebook 流的权限据我了解它应该很简单让用户单击一个按钮启动一个弹出窗口其中包含我的 Facebook 应用程序中的页面在该页面中他们单击授予的内容流发
如何同时接受int和float类型的输入？

我正在制作一个货币转换器如何让 python 同时接受整数和浮点数我就是这样做的 def aud brl amount From to ER 0 42108 if amount int if From strip aud and to
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

在 Go 中解组 json：必填字段？

如果使用 Go 解析 JSON 输入时未找到字段是否可能会生成错误我在文档中找不到它是否有任何标签指定所需字段中没有标签encoding json将字段设置为必需的包你要么必须自己写MarshalJSON 方法或者对丢失的字
for 循环中的多个“subplot2grid”

我试图绘制两组不同的函数通过双循环一次我不知道如何要求 subplot2grid 对第二个图执行操作 import numpy as np from matplotlib import pyplot as plt t np linspa
检索 XSLT 中的页面 URL 参数或页面 URL

我有一个具有 URL 结构的页面可以创建一个通用方法来获取 URL 可能的任何其他参数的值 parama 1 paramb 2 是否可以像 javascript 的 location href 一样获取 XSL 中页面的 URL 是否可以
来自广泛 data.frames 的汇总数据表

我正在尝试寻找创建汇总表的惰性简单方法data frames从宽处data frames 假设有以下 data frame 但有更多列因此指定列名称需要很长时间 set seed 2 x lt data frame Rep rep 1
Console.WriteLine 慢

我运行了数百万条记录有时我必须使用Console WriteLine看看发生了什么然而 Console WriteLine非常慢比写入文件慢得多但这非常方便有谁知道加快速度的方法吗如果只是为了调试目的你应该使用Debug Wr
openjdk-8-jdk - 缺少 src.zip？

以下是所需信息 apt list grep installed grep i openjdk 8 jdk WARNING apt does not have a stable CLI interface Use with caution i
Google 地图折线：标记包含单击的 LatLng 的两条折线坐标

我在谷歌地图的折线中遇到问题我有一条从一点到另一点的折线当我单击折线时我需要两端的纬度和经度请问有人可以帮助我吗
分数的2的补码表示法？

我对此有点迷失我需要使用两个小数位0 a 1 a 2 像这样现在我可以使用 00 01 10 and 11但我也需要负数 2的补码所以会 10 be 5 或者会是 25 与 11 那就是 75 或者会是 5 我很确定这两种情况都是前者
HTML5 Server 发送事件和多个客户端（不使用 Comet）

我有一个用例我想知道 HTML5 的 Server sent Events 是否适合多个客户端 Javascript HTML5 浏览器连接到 Web 服务器具有 Java EE 后端每个客户都可以随时查看不同的视图具体取决于他
如何接受/忽略QKeyEvent

http qt project org doc qt 5 qwidget html keyPressEvent 请注意 QKeyEvent 以 isAccepted true 开头因此您不需要需要调用 QKeyEvent accept
禁用 jQuery 自动完成下拉列表

这是一个相当简单的问题但如何禁用 jQuery 自动完成的下拉菜单当用户开始输入时我在响应回调上运行我自己的函数我不需要任何其他东西出现这就是我所拥有的 search autocomplete source app friends
如何在C++中输出unicode方框图？

抱歉这听起来很简单但我正在尝试使用来自的 unicode 字符在 Visual Studio 2017 中绘制一个简单的框https en wikipedia org wiki Box drawing character使用下面的代码
这段代码是否安全，不会受到 SQL 注入的影响

我想让我的代码尽可能安全免受任何类型的攻击我希望对下面使用的简单代码有一些了解如果有任何关于如何使其更安全如果它很脆弱以及为什么会变得更安全的指示那就太棒了我读到使用准备好的语句是防范攻击的最佳实践
将块元素排列在一条水平线上

我不知道要么我不太擅长搜索艺术要么这个话题太简单了通常没有人问这个问题但自从我开始我的网站以来我一直在搜索这个问题我的网页上只有四个块元素第一个 Block 元素单独显示在顶部第二个第三个和第四个块元素我想从下一行排
scipy.interpolate 中的 interp1d 函数使用什么算法

所以我正在为我的数值课程编写一个Python程序并且我必须编写一个三次样条程序所以我实现了书中给出的三次样条公式Chapra 和 canale 的数值方法 and 数值数学作者 chenny 和 kincaid 所以我的数据是 x 1
需要在单引号xslt中分配属性值

我们需要使用 xslt 转换从 xml 创建一个 html 我们需要生成的 html 锚标记为 a a
将 UUID 与 EclipseLink 和 PostgreSQL 结合使用

我想使用 PostgreSQL uuid 类型作为对象的主键为此我创建了一个转换器实现 Converter 接口下面是相关代码 Override public void initialize DatabaseMapping mapp
如何替换一堆文件中的多行字符串

bin sh old hello new world sed i s old new g grep old rl 前面的脚本仅适用于单行文本我如何编写一个脚本可以替换多行文本 old line1 line2 line3 new newt
检测iframe内容是否加载成功

我有一个包含 iframe 的小部件用户可以配置此 iframe 的 url 但如果无法加载该 url 它不存在或用户无法访问互联网则 iframe 应该故障转移到默认的离线页面问题是如何检测iframe是否可以加载我尝试订阅 l
ValueError：发现样本数量不一致的数组 [6 1786]

这是我的代码 from sklearn svm import SVC from sklearn grid search import GridSearchCV from sklearn cross validation import KFo

ValueError：发现样本数量不一致的数组 [6 1786]

ValueError：发现样本数量不一致的数组 [6 1786] 的相关文章

随机推荐

热门标签