ValueError: X.shape[1] = 2 应等于 13，即训练时的特征数量

2024-06-24

我试图通过使用 scikit-learn 的 SVM 文档分类器来预测肺癌数据，我使用以下代码但出现一些错误。我用过matplotlib.pyplot as plt用于数据图但出现错误。

在这里，我明智地使用了肺癌数据风险因素。

输入文件

GENDER  AGE SMOKING YELLOW_FINGERS  ANXIETY PEER_PRESSURE   CHRONIC DISEASE FATIGUE     ALLERGY     WHEEZING    ALCOHOL CONSUMING   COUGHING    SHORTNESS OF BREATH SWALLOWING DIFFICULTY   CHEST PAIN  LUNG_CANCER
F   59  0   0   0   1   0   1   0   1   0   1   1   0   1   0
F   63  0   1   0   0   0   0   0   1   0   1   1   0   0   0
F   75  0   1   0   0   1   1   1   1   0   1   1   0   0   1
M   69  0   1   1   0   0   1   0   1   1   1   1   1   1   1
M   74  1   0   0   0   1   1   1   0   0   0   1   1   1   1
M   63  1   1   1   0   0   0   0   0   1   0   0   1   1   0

脚本支持向量机

# Support Vector Machine (SVM)

# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importing the dataset
dataset = pd.read_csv('C:/Users/Vishnu/Desktop/Lung Cancer/lung_cancer.csv')
X = dataset.iloc[:, [2,3,4,5,6,7,8,9,10,11,12,13,14]].values
y = dataset.iloc[:, 15].values

# Splitting the dataset into the Training set and Test set
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

# Feature Scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

# Fitting SVM to the Training set
from sklearn.svm import SVC
classifier = SVC(kernel = 'linear', random_state = 0)
classifier.fit(X_train, y_train)

# Predicting the Test set results
y_pred = classifier.predict(X_test)

# Making the Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)

# Visualising the Training set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('SVM (Training set)')
plt.xlabel('Age')
plt.ylabel('Lung Cancer Risk Factor')
plt.legend()
plt.show()

# Visualising the Test set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_test, y_test
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):
    plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],
                c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('SVM (Test set)')
plt.xlabel('Age')
plt.ylabel('Lung Cancer Risk Factor')
plt.legend()
plt.show()

Error

ValueError: X.shape[1] = 2 should be equal to 13, the number of features at training time

在这就像我收到错误

plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),
         alpha = 0.75, cmap = ListedColormap(('red', 'green')))

为什么我收到错误，请给我建议。先感谢您。

Edit_1

SVM 测试集输出图

SVM 训练集输出图

有谁可以告诉我吗？这是正确的输出吗？

提前致谢

不管例外情况如何，我认为有几个方面需要解决。

The 例外其本身是因为您只提供 2 个变量作为输入而引起的classifier.predict而您的模型接受了 13 个变量的训练。如果您想在其中 2 个变量上绘制等高线，则必须将其他 11 个变量设置为某个默认值。

X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),
                     np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
Xpred = np.array([X1.ravel(), X2.ravel()] + [np.repeat(0, X1.ravel().size) for _ in range(11)]).T
# Xpred now has a grid for x1 and x2 and average value (0) for x3 through x13
pred = classifier.predict(Xpred).reshape(X1.shape)   # is a matrix of 0's and 1's !
plt.contourf(X1, X2, pred,
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))

This snippet will work, however it will probably not give you what you want. With some random binomial data you get a digital red-green plot like the following. The output of SVC.predict is a binary matrix, not probabilities. SVM prediction (binary)

You could绘制decision_function http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC.decision_function相反，作为预测结果，可视化到分离超平面的距离。这可以解释为风险因素。然而这并不是一个概率
```
pred = classifier.decision_function(Xpred).reshape(X1.shape)    
plt.contourf(X1, X2, pred,
             alpha=1.0, cmap="RdYlGn", levels=np.linspace(pred.min(), pred.max(), 100))
```
我看到你的另一个问题dataset。好像有15列。然后我会期待这条线y = dataset.iloc[:, 15].values提出一个IndexError。如果没有，请检查数据集的完整性。是否正确导入pd.read_csv https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html?

另外，您还丢弃了前两列的信息：性别和年龄。对于性别，你可以改变F to 0 and M to 1例如，还包括年龄X:

dataset = pd.read_csv('C:/Users/Vishnu/Desktop/Lung Cancer/lung_cancer.csv')
dataset.loc[dataset['GENDER'] == 'F', 'GENDER'] = 0
dataset.loc[dataset['GENDER'] == 'M', 'GENDER'] = 1
X = dataset.iloc[:, 0:14].values
y = dataset.iloc[:, 14].values

我希望这有帮助。如果在研究您想要的解决方案时出现另一个问题，并且您无法通过自己的研究找到答案，请随时询问:)

EDIT

解决关于散点图正确性的第二个问题：我不知道你是如何制作这个图的，但是使用你的散点图代码，绘制在决策函数之上，我得到以下结果（带有肺癌数据 https://drive.google.com/file/d/1DGe3ZKeoW7UsGGq-lPQZmK0_8UXK1D6I/view你提供的）

y是一个二元变量。这就是为什么np.unique(y_set)是相同的[0, 1]。我不知道如何使用此代码获得柱状数据点结构。很抱歉，我什至不知道您实际上想通过此图实现什么目的，所以我无法判断它是否显示您想要显示的内容。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ValueError: X.shape[1] = 2 应等于 13，即训练时的特征数量的相关文章

查找数据集中的异常值

我有一个 python 脚本它创建服务器正常运行时间和性能数据列表的列表其中每个子列表或行包含特定集群的统计信息例如格式良好的它看起来像这样 Cluster Availability Requests Sec Errors S
Python：访问另一个类中一个类的属性和方法

假设我有两个 A 类和 B 类 Class A A s attributes and methods here Class B B s attributes and methods here 现在我可以评估 B 类对象中 A 的属性如下所
在 PyCharm 中启用终端模拟

很多人告诉过我和PyCharm 2 7 的 PyCharm 发行说明 https www jetbrains com pycharm whatsnew whatsnew 27 html吹捧那个PyCharm包括完整的终端仿真我认为这是关于
从 java 代码运行 Python 脚本

这是我第一次在java中尝试python 我正在尝试从我的代码执行 python 脚本如下所示 Process process Runtime getRuntime exec python C Users username Desktop
python 函数 *args 和 **kwargs 以及其他指定的关键字参数

我有一个 Python 类它的方法应该以这种方式接受参数和关键字参数 class plot def init self x y self x x self y y def set axis self args xlabel x ylabe
如何在 dash/plotly 中使用 iframe？（Python/HTML）

我正在创建一个仪表板我想使用这个交互式地图网站链接 https www ons gov uk peoplepopulationandcommunity healthandsocialcare causesofdeath articles
为什么 scikit-learn SVM.SVC() 非常慢？

我尝试使用SVM分类器来训练大约10万个样本的数据但我发现它非常慢甚至两个小时后也没有任何反应当数据集有大约 1k 个样本时我可以立即得到结果我还尝试了 SGDClassifier 和朴素贝叶斯速度相当快几分钟内就得到了结果
将 postgres 连接到 django 时遇到问题

以下文档来自Django Postgres 文档 https docs djangoproject com en 4 1 ref databases postgresql notes我添加到我的settings py 在我设置的设置中 DA
[Python]比较两个 zip 文件的函数，一个位于 FTP 目录中，另一个位于我的本地计算机上

我在创建比较两个 zip 文件的函数时遇到问题如果它们相同而不仅仅是名称相同这是我的代码示例 def validate zip files self host 192 168 0 1 port 2323 username 123 pa
如何在 Google App Engine (Python) 中定义配置变量/常量？

我是 python GAE 的新手想知道如何快速定义和使用全局设置变量所以说你 git 克隆我的 GAE 应用程序然后打开config yaml 添加更改设置应用程序就全部连接起来如下所示 config yaml or whate
python osmnx - 仅提取一个国家的大型高速公路

我知道可以通过 OSMNX python 包提取城市的道路网络详情请参阅https geoffboeing com 2016 11 osmnx python street networks https geoffboeing com 20
python 函数中的对象不可迭代错误

我有一个简单的功能如下 comdList range 0 27 for t in comdList print t 但是它返回一个 in object not iterable 错误在函数之外它工作正常这是怎么回事尝试这个 for t
dask分布式内存错误

在分布式作业上运行 Dask 时我在调度程序上遇到以下错误 distributed core ERROR Traceback most recent call last File usr local lib python3 4 dist
基于 Pandas 中特殊字符分隔列中的每个项目进行聚合

我输入的数据如下 Date Investment Type Medium 1 1 2000 Mutual Fund Stocks Fixed Deposit Real Estate Own Online Through Agent 1 2
过滤给定范围内的坐标

我有数百个带有地理位置的 out 文件我将把它们批量导入到 SQLite 数据库中但是为了节省时间我只会导入地理坐标在某些间隔内的线文件是这样的 value value longitude latitude value value
Spacy-nightly (spacy 2.0) 问题“thinc.extra.MaxViolation 大小错误”

显然成功安装了 spacy nightly spacy nightly 2 0 0a14 和英语模型 en core web sm 后我在尝试运行它时仍然收到错误消息 import spacy nlp spacy load en core
Python for 循环前瞻

我有一个 python for 循环其中我需要向前查看一项以查看在处理之前是否需要执行某项操作 for line in file if the start of the next line 0 perform pre processing
用于监视文件夹和更新数据库的 Python 守护进程

这专门用于管理 MP3 文件但它应该可以轻松地适用于任何包含大量文件的目录结构我想找到或编写一个守护程序最好用Python 来监视一个包含许多子文件夹的文件夹这些子文件夹都应该包含X个MP3文件每当添加更新或删除文件时它都应该
python3-numpy：使用 numpy savetxt 附加到文件

我正在尝试使用 numpy 的 savetxt 函数将数据附加到文件中下面是最小的工作示例 usr bin env python3 import numpy as np f open asd dat a for iind in range
定义Python类时，如何在其中设置随机变量？

假设我有一个名为Person 其中只有该人的姓名和性别性别应从男性和女性中随机选择为此我导入random randint 功能根据随机int确定随机性别 import random class Person alias random

随机推荐

Android - 创建 RESTful WebService - 将其托管在移动设备上

我的问题是如何在 Android 设备上创建 Web 服务并将其托管在移动设备上我不想access已创建的 Web 服务部署在server 我想要create返回 json xml 并将其托管在其上的 Web 服务mobile 移动设备中
Bootstrap Typeahead：删除第一项的强制选择

您好我正在 Twitter Bootstrap 中使用 typeahead 我在这里发现在自动完成下拉列表中它默认选择第一个选项我的要求是最初它不应该选择任何内容只有当我按下导航键向上或向下或将鼠标悬停在它上面时它才会进入
MySQL 从多个表中删除行

这是正确的方法吗 DELETE t1 t2 t3 t4 FROM table1 as t1 INNER JOIN table2 as t2 on t1 id t2 id INNER JOIN table3 as t3 on t1 id t3
使用python的csv文件仅存储单行数据

我抓取了一个网站并尝试将其存储为 Csv 格式但当我这样做时它只存储单行数据如何在csv中写入多行数据 for lis in lists title lis find a class title text tag lis find s
我可以从 JavaScript 调用 C++ 函数吗？

有一个 C 库我需要从客户端浏览器上运行的 JavaScript 对该库进行函数调用该库仅驻留在客户端计算机中如何加载库并访问c 库提供的接口函数该库主要包含算法和渲染调用我能想到的几个选择 1 在 JavaScript 中找到
从 QTableView 读取和写入文件

如何读取和写入输入 QTableView 的文本文件日期这就是我所拥有的但我想在将数据添加到表中时保存数据当然能够在重新打开应用程序时读回它有什么教程可以参考吗 MainWindow MainWindow QWidget paren
保存枚举时值不正确

我在将 Entity Framework 5 枚举映射到迁移中的整数列时遇到了一些困难代码如下所示 Table UserProfile public class UserProfile public enum StudentStatusT
在 C++ 中处理 Apache Thrift list/map 返回类型

首先我会说我不是最有能力的 C 程序员但我正在学习并享受 Thrift 的强大功能我已经实现了一个 Thrift 服务其中包含一些返回 void i32 和列表的基本函数我正在使用由 Django Web 应用程序控制的 Pyth
通过将两个单独表中的价格和数量列相乘来计算餐厅数据库中每个订单的总价

我有两个表 Contain 和 FoodItem 它们的描述和内容如下所示 CREATE TABLE Customer CustomerID INT NOT NULL AUTO INCREMENT Fname VARCHAR 10 Lnam
提取 numpy 数组的边界

Let A是一个代表掩码的 numpy 数组我想提取与该掩码相对应的边界即使除边界之外的所有内容都为零 eg In 22 A array 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
即使显示设置为动态，自定义验证器控件也会占用空间

为什么自定义验证器控件即使设置为显示等于动态也会占用高度 tr td style min height 1px td tr
使用 SQLAlchemy 进行多重联接

我有这个数据库模型 class Distributor Base tablename distributor id Column Integer primary key True commercial address id Column I
如何重置嵌套导航器（react-navigation v5）

拥有两组堆栈导航器 const SetOneScreens gt
不支持从“describe”返回 Promise。测试必须同步定义

特定测试通过了但我得到了这个 console log node modules jest jasmine2 build jasmine Env js 502 Test suite failed to run Returning a Pro
PhpStorm - xDebug 按需未附加

我尝试了你的新功能 xedbug ondemand 我坚持这些指南 https www jetbrains com help phpstorm 2016 3 configuring xdebug html https www jetbrai
O(log n) 总是比 O(n) 快吗

如果有 2 种算法以不同的复杂度计算相同的结果 O log n 总是会更快吗如果是这样请解释一下顺便说一句这不是作业问题不会如果一种算法运行在N 100另一个在 log N 100 那么对于较小的输入大小第二个将会较慢渐近复杂
参数类型“Widget？”无法分配给参数类型“Widget”

我将应用程序包装在滚动配置中以删除滚动发光这总是有效但自从我使用 flutter 以来已经有一段时间了所以我创建了一个新项目但它给出了这个错误 ProviderScope child MaterialApp title testin
lmer 模型产生 NA 的置信区间

NAlmer 模型的置信区间是否发生我怎样才能摆脱它 simfun lt function J n j g00 g10 g01 g11 sig2 0 sig01 sig2 1 N lt sum rep n j J x lt rnorm N
无法加载文件或程序集 SQLitePCLRaw.core

我在用 Microsoft EntityFrameworkCore Sqlite 版本 2 2 4 Microsoft EntityFrameworkCore 版本 2 2 4 我的 net core 类库上的 nuget 包将我的类库添
ValueError: X.shape[1] = 2 应等于 13，即训练时的特征数量

我试图通过使用 scikit learn 的 SVM 文档分类器来预测肺癌数据我使用以下代码但出现一些错误我用过matplotlib pyplot as plt用于数据图但出现错误在这里我明智地使用了肺癌数据风险因素输入文件 GE

ValueError: X.shape[1] = 2 应等于 13，即训练时的特征数量

ValueError: X.shape[1] = 2 应等于 13，即训练时的特征数量 的相关文章

随机推荐

热门标签

ValueError: X.shape[1] = 2 应等于 13，即训练时的特征数量的相关文章