ValueError:发现样本数量不一致的数组 [6 1786]

2023-12-13

这是我的代码:

from sklearn.svm import SVC
from sklearn.grid_search import GridSearchCV
from sklearn.cross_validation import KFold
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import datasets
import numpy as np

newsgroups = datasets.fetch_20newsgroups(
                subset='all',
                categories=['alt.atheism', 'sci.space']
         )
X = newsgroups.data
y = newsgroups.target

TD_IF = TfidfVectorizer()
y_scaled = TD_IF.fit_transform(newsgroups, y)
grid = {'C': np.power(10.0, np.arange(-5, 6))}
cv = KFold(y_scaled.size, n_folds=5, shuffle=True, random_state=241) 
clf = SVC(kernel='linear', random_state=241)

gs = GridSearchCV(estimator=clf, param_grid=grid, scoring='accuracy', cv=cv)
gs.fit(X, y_scaled) 

我收到错误,我不明白为什么。回溯:

回溯(最近一次调用最后一次):文件
“C:/Users/Roman/PycharmProjects/week_3/assignment_2.py”,第 23 行,位于

gs.fit(X, y_scaled) #TODO: 检查这一行 File "C:\Users\Roman\AppData\Roaming\Python\Python35\site-packages\sklearn\grid_search.py​​",
804 行,适合
返回 self._fit(X, y, ParameterGrid(self.param_grid)) 文件 "C:\Users\Roman\AppData\Roaming\Python\Python35\site-packages\sklearn\grid_search.py​​",
第 525 行,在 _fit 中
X, y = 可索引(X, y) 文件“C:\Users\Roman\AppData\Roaming\Python\Python35\site-packages\sklearn\utils\validation.py”,
第 201 行,可转位
check_concient_length(*结果) 文件“C:\Users\Roman\AppData\Roaming\Python\Python35\site-packages\sklearn\utils\validation.py”,
第 176 行,在 check_concient_length 中
"%s" % str(唯一))

ValueError:发现样本数量不一致的数组:[ 6 1786]

有人可以解释为什么会出现这个错误吗?


我认为你对你的事情有点困惑X and y这里。你想要改变你X进入 tf-idf 向量并使用它进行训练y。见下文

from sklearn.svm import SVC
from sklearn.grid_search import GridSearchCV
from sklearn.cross_validation import KFold
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn import datasets
import numpy as np

newsgroups = datasets.fetch_20newsgroups(
                subset='all',
                categories=['alt.atheism', 'sci.space']
         )
X = newsgroups.data
y = newsgroups.target

TD_IF = TfidfVectorizer()
X_scaled = TD_IF.fit_transform(X, y)
grid = {'C': np.power(10.0, np.arange(-1, 1))}
cv = KFold(y_scaled.size, n_folds=5, shuffle=True, random_state=241) 
clf = SVC(kernel='linear', random_state=241)

gs = GridSearchCV(estimator=clf, param_grid=grid, scoring='accuracy', cv=cv)
gs.fit(X_scaled, y)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

ValueError:发现样本数量不一致的数组 [6 1786] 的相关文章

随机推荐

  • 在 Go 中解组 json:必填字段?

    如果使用 Go 解析 JSON 输入时未找到字段 是否可能会生成错误 我在文档中找不到它 是否有任何标签指定所需字段 中没有标签encoding json将字段设置为 必需 的包 你要么必须自己写MarshalJSON 方法 或者对丢失的字
  • for 循环中的多个“subplot2grid”

    我试图绘制两组不同的函数 通过双循环一次 我不知道如何要求 subplot2grid 对第二个图执行操作 import numpy as np from matplotlib import pyplot as plt t np linspa
  • 检索 XSLT 中的页面 URL 参数或页面 URL

    我有一个具有 URL 结构的页面 可以创建一个通用方法来获取 URL 可能的任何其他参数的值 parama 1 paramb 2 是否可以像 javascript 的 location href 一样获取 XSL 中页面的 URL 是否可以
  • 来自广泛 data.frames 的汇总数据表

    我正在尝试寻找创建汇总表 的惰性 简单方法data frames从宽处data frames 假设有以下 data frame 但有更多列 因此指定列名称需要很长时间 set seed 2 x lt data frame Rep rep 1
  • Console.WriteLine 慢

    我运行了数百万条记录 有时我必须使用Console WriteLine看看发生了什么 然而 Console WriteLine非常慢 比写入文件慢得多 但这非常方便 有谁知道加快速度的方法吗 如果只是为了调试目的 你应该使用Debug Wr
  • openjdk-8-jdk - 缺少 src.zip?

    以下是所需信息 apt list grep installed grep i openjdk 8 jdk WARNING apt does not have a stable CLI interface Use with caution i
  • Google 地图折线:标记包含单击的 LatLng 的两条折线坐标

    我在谷歌地图的折线中遇到问题 我有一条从一点到另一点的折线 当我单击折线时 我需要两端的纬度和经度 请问有人可以帮助我吗
  • 分数的2的补码表示法?

    我对此有点迷失 我需要使用两个小数位0 a 1 a 2 像这样 现在我可以使用 00 01 10 and 11但我也需要负数 2的补码 所以会 10 be 5 或者会是 25 与 11 那就是 75 或者会是 5 我很确定这两种情况都是前者
  • HTML5 Server 发送事件和多个客户端(不使用 Comet)

    我有一个用例 我想知道 HTML5 的 Server sent Events 是否适合 多个客户端 Javascript HTML5 浏览器 连接到 Web 服务器 具有 Java EE 后端 每个客户都可以随时查看不同的视图 具体取决于他
  • 如何接受/忽略QKeyEvent

    http qt project org doc qt 5 qwidget html keyPressEvent 请注意 QKeyEvent 以 isAccepted true 开头 因此您不需要 需要调用 QKeyEvent accept
  • 禁用 jQuery 自动完成下拉列表

    这是一个相当简单的问题 但如何禁用 jQuery 自动完成的下拉菜单 当用户开始输入时 我在响应回调上运行我自己的函数 我不需要任何其他东西出现 这就是我所拥有的 search autocomplete source app friends
  • 如何在C++中输出unicode方框图?

    抱歉 这听起来很简单 但我正在尝试使用来自的 unicode 字符在 Visual Studio 2017 中绘制一个简单的框https en wikipedia org wiki Box drawing character使用下面的代码
  • 这段代码是否安全,不会受到 SQL 注入的影响

    我想让我的代码尽可能安全 免受任何类型的攻击 我希望对下面使用的简单代码有一些了解 如果有任何关于如何使其更安全 如果它很脆弱 以及为什么会变得更安全的指示 那就太棒了 我读到 使用准备好的语句是防范攻击的最佳实践
  • 将块元素排列在一条水平线上

    我不知道 要么我不太擅长 搜索 艺术 要么这个话题太简单了 通常没有人问这个问题 但自从我开始我的网站以来 我一直在搜索这个问题 我的网页上只有四个块元素 第一个 Block 元素单独显示在顶部 第二个 第三个和第四个块元素 我想从下一行排
  • scipy.interpolate 中的 interp1d 函数使用什么算法

    所以我正在为我的数值课程编写一个Python程序 并且我必须编写一个三次样条程序 所以我实现了书中给出的三次样条公式Chapra 和 canale 的数值方法 and 数值数学 作者 chenny 和 kincaid 所以我的数据是 x 1
  • 需要在单引号xslt中分配属性值

    我们需要使用 xslt 转换从 xml 创建一个 html 我们需要生成的 html 锚标记为 a a
  • 将 UUID 与 EclipseLink 和 PostgreSQL 结合使用

    我想使用 PostgreSQL uuid 类型作为对象的主键 为此 我创建了一个转换器 实现 Converter 接口 下面是相关代码 Override public void initialize DatabaseMapping mapp
  • 如何替换一堆文件中的多行字符串

    bin sh old hello new world sed i s old new g grep old rl 前面的脚本仅适用于单行文本 我如何编写一个脚本可以替换 多行文本 old line1 line2 line3 new newt
  • 检测iframe内容是否加载成功

    我有一个包含 iframe 的小部件 用户可以配置此 iframe 的 url 但如果无法加载该 url 它不存在或用户无法访问互联网 则 iframe 应该故障转移到默认的离线页面 问题是 如何检测iframe是否可以加载 我尝试订阅 l
  • ValueError:发现样本数量不一致的数组 [6 1786]

    这是我的代码 from sklearn svm import SVC from sklearn grid search import GridSearchCV from sklearn cross validation import KFo