【python】KNN模型训练及应用01

2023-10-30

目的应用：让电脑代替人工对图片分类

1.数据加载

from sklearn.datasets import load_iris
from sklearn.model_selection import  train_test_split
from sklearn.neighbors import  KNeighborsClassifier
import pandas as pd
# 1.数据加载
iris=load_iris()

2. DataFrame 使用花萼长、花萼宽、花瓣长、花瓣宽作为列名

# 2.二维--使用花萼长、花萼宽、花瓣长、花瓣宽 作为列
pd_data = pd.DataFrame(iris["data"], columns=iris.feature_names)
print(pd_data.head())

3.加入label:将iris.target值赋给label加进pd_data

# 3.加入label:将iris.target值赋给label加进pd_data
pd_data["label"] = iris.target
print(pd_data.head(6), pd_data.shape)

4.数据打乱特征、标签在同一行

# 4.数据打乱 特征、标签在同一行
df = shuffle(pd_data)
print(df.head())

5.索引重新排序 reset_index

df.reset_index(drop=True, inplace=True)
print(df.head(10), df.shape)

6.数据分割

x = df.iloc[:, :4].values  # 转换为ndarray
print(x)
# 标签   拍平 多维转一维
# y = df.iloc[:, 4:].values  # 中括号太多，不符合数据格式
y = np.ravel(df.iloc[:, 4:].values)
print(y, y.shape, type(y))

7.测试集20% 训练集120 测试集30

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=6)

8、超参数k为邻居个数，如何找出最优k以及对应最高评分的呢？先定义一个best_k,给初始值为-1，循环让一个k值取3-12，求对应的score，找出最大的score，对应的k也就是best_k.

# k初始值为-1
best_k = -1  # 邻居 如何得到一半的邻居 k要小于数据个数的平方根
best_score = 0 # 最高评分
for k in range(3, 13):
    # 创建出每一个k对应的模型
    # for p in range(1, 8):
    knn_model = KNeighborsClassifier(n_neighbors=k)
    knn_model.fit(x_train, y_train)
    score = knn_model.score(x_test, y_test)
    if best_score < score:  # 如果bestscore小于score
        best_score = score
        best_k = k
        # p = p
print("best_k:",best_k,"best_sc:", best_score)

可以得出最大score为0.9666666...，对应的最优best_k则为7。用这个k代入进去训练模型、评分、预测。

print("best_k:", best_k, "best_sc:", best_score)
knn_model = KNeighborsClassifier(n_neighbors=best_k)
knn_model.fit(x_train,y_train)
score = knn_model.score(x_test, y_test)
y_predict = knn_model.predict(x_test)
print(y_predict)
print(y_test)
print(y_predict == y_test)  #是否相等，布尔值判断

得出最优k，还要求best_p(距离的导数)。定义best_p初始化为1，加入p循环、p参数，求最优p。

# k初始值为-1
best_k = -1  # 邻居 如何得到一半的邻居 k要小于数据个数的平方根
best_p = 1
best_score = 0 # 最高评分
W = ['uniform', 'distance']
for k in range(3, 13):
    # 创建出每一个k对应的模型
    for p in range(1, 8): # 表示求和次方数
        knn_model = KNeighborsClassifier(n_neighbors=k, p=p)
        knn_model.fit(x_train, y_train)
        score = knn_model.score(x_test, y_test)
        if best_score < score:  # 如果bestscore小于score
            best_score = score
            best_k = k
            best_p = p
print("best_k:", best_k, "best_sc:", best_score,"best_p:",best_p)
knn_model = KNeighborsClassifier(n_neighbors=best_k, p=best_p)
knn_model.fit(x_train,y_train)
score = knn_model.score(x_test, y_test)
y_predict = knn_model.predict(x_test)
print(y_predict)
print(y_test)
print(y_predict == y_test)  #是否相等，布尔值判断

最优p为2.

还有超参best_weight。定义初始化，求最优解。

# k初始值为-1
best_k = -1  # 邻居 如何得到一半的邻居 k要小于数据个数的平方根
best_p = 1
best_score = 0 # 最高评分
W = ['uniform', 'distance']
weight = ''
for k in range(3, 13):
    # 创建出每一个k对应的模型
    for p in range(1, 8): # 表示求和次方数
        for w in W:
            knn_model = KNeighborsClassifier(n_neighbors=k, p=p, weights=w)
            knn_model.fit(x_train, y_train)
            score = knn_model.score(x_test, y_test)
            if best_score < score:  # 如果bestscore小于score
                best_score = score
                best_k = k
                best_p = p
                weight = w
print("best_k:", best_k, "best_sc:", best_score,"best_p:",best_p, "weight:",weight)
knn_model = KNeighborsClassifier(n_neighbors=best_k, p=best_p, weights=w)
knn_model.fit(x_train,y_train)
score = knn_model.score(x_test, y_test)
y_predict = knn_model.predict(x_test)
print(y_predict)
print(y_test)
print(y_predict == y_test)  #是否相等，布尔值判断

算出所有最优超参。

完整代码：

mport numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import  train_test_split
from sklearn.neighbors import  KNeighborsClassifier
import pandas as pd
# 1.数据加载
from sklearn.utils import shuffle

iris = load_iris()
# 2.二维--使用花萼长、花萼宽、花瓣长、花瓣宽 作为列
pd_data = pd.DataFrame(iris["data"], columns=iris.feature_names)
print(pd_data.head())
# 3.加入label:将iris.target值赋给label加进pd_data
pd_data["label"] = iris.target
print(pd_data.head(6), pd_data.shape)

# 4.数据打乱 特征、标签在同一行
df = shuffle(pd_data)
print(df.head())

# 5.索引重新排序  reset_index
df.reset_index(drop=True, inplace=True)
print(df.head(10), df.shape)

# 6.数据分割  特征---前四列 标签
x = df.iloc[:, :4].values  # 转换为ndarray
print(x)
# 标签   拍平 多维转一维
# y = df.iloc[:, 4:].values  # 中括号太多，不符合数据格式
y = np.ravel(df.iloc[:, 4:].values)
print(y, y.shape, type(y))
# 7.测试集20% 训练集120 测试集30
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=6)
# k初始值为-1
best_k = -1  # 邻居 如何得到一半的邻居 k要小于数据个数的平方根
best_p = 1
best_score = 0 # 最高评分
W = ['uniform', 'distance']
weight = ''
for k in range(3, 13):
    # 创建出每一个k对应的模型
    for p in range(1, 8): # 表示求和次方数
        for w in W:
            knn_model = KNeighborsClassifier(n_neighbors=k, p=p, weights=w)
            knn_model.fit(x_train, y_train)
            score = knn_model.score(x_test, y_test)
            if best_score < score:  # 如果bestscore小于score
                best_score = score
                best_k = k
                best_p = p
                weight = w
print("best_k:", best_k, "best_sc:", best_score,"best_p:",best_p, "weight:",weight)
knn_model = KNeighborsClassifier(n_neighbors=best_k, p=best_p, weights=weight)
knn_model.fit(x_train,y_train)
score = knn_model.score(x_test, y_test)
y_predict = knn_model.predict(x_test)
print(y_predict)
print(y_test)
print(y_predict == y_test)  #是否相等，布尔值判断

这种操作方法很麻烦。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

百度智能云

机器学习

人工智能

【python】KNN模型训练及应用01 的相关文章

ssh 远程计算机并使用 pexpect 运行“ls-l”

我想要ssh远程机器并运行ls l using pexpect 我是一名学习Python语言的系统工程师没有编码知识有人可以帮助我吗提前致谢 My code import pexpect child pexpect spawn usr
Python dict 到 DataFrame Pandas - 级别

几个月前 Romain X 在这个问题上帮了我很多忙 Python 字典到 DataFrame Pandas https stackoverflow com questions 32770359 python dict to datafra
如何在 django 中获取复选框值？

tr td td tr
如何从Python中的阿拉伯字符串中删除英文文本？

我有一个带有英文文本和标点符号的阿拉伯字符串我需要过滤阿拉伯文本我尝试使用 sting 删除标点符号和英语单词但是我失去了阿拉伯语单词之间的空格我哪里错了 import string exclude set string punc
如何使用 Julia 查找矩阵中的连通分量

假设我有以下矩阵此处用 Julia 语言定义 mat 1 1 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 1 1 将一组值为 1 的相邻元素视为一个分量如何识别该矩阵有 2 个分量以及每个分量由哪些顶点组成对于矩
有没有办法在 Altair 箱线图中格式化工具提示值

是否可以格式化箱线图工具提示中的值由此织女星文档 https vega github io vega lite docs boxplot html tooltip encoding channels 看起来是这样但我不太清楚如何使用 A
在python中合并3个dict()

如果多个字典之间有公共字符串是否有逻辑合并多个字典的方法即使这些公共字符串在一个 dict 的值与另一个 dict 的键之间匹配我在 SO 上看到了很多类似的问题但似乎没有一个问题能解决我将较低级别文件中的多个键与较高键值中的
如何将多项式拟合到带有误差线的数据

我目前正在使用 numpy polyfit x y deg 将多项式拟合到实验数据然而我想拟合一个基于点误差使用加权的多项式我已经发现scipy curve fit http docs scipy org doc scipy refe
在 Windows 上的 python2.5 上安装 Openpyxl

我努力了easy install install openpyxl and python setup install 两者都失败了我也尝试过easy install openpyxl并再次失败我包括了我得到的输出当我尝试时easy i
为什么 Numpy 创建零数组比用零替换现有数组的值要快得多？

我有一个用于跟踪各种值的数组数组是2500x1700尺寸上所以不是很大在会话结束时我需要将该数组中的所有值重置为零我尝试创建一个新的零数组并将数组中的所有值替换为零并且创建一个全新的数组要快得多代码示例 for in sess
安装 Ta-lib 会产生 gcc 错误

当我尝试在我的 mac 上将 Ta lib 作为全局包安装时出现 gcc 错误我收到以下错误 gcc Wno unused result Wsign compare Wunreachable code DNDEBUG g fwrapv
群组名称不能以数字开头？

看来我不能使用像这样的正则表达式 P lt 74xxx gt 0 9 重新打包会引发错误 sre constants error bad character in group name u 74xxx 我似乎无法使用以数字开头的组名称为什
Python 调试器是否会介入生成器？

我目前正在使用 NetBeans IDE 和 Jython 2 5 1 当逐步调试我的项目时一旦遇到生成器的迭代调试器就会直接转到代码末尾输出工作正常但是一旦满足第一个生成器就无法进行逐步调试这是所有 Python IDE 中 P
Python 特征向量：numpy.linalg、scipy.linalg 和 scipy.sparse.linalg 之间的差异

Scipy 和 Numpy 具有三个不同的函数来查找给定方阵的特征向量它们是 numpy linalg eig a http docs scipy org doc numpy reference generated numpy linal
PyGTK TreeView 中的自动换行

如何在 PyGTK TreeView 中自动换行文本 gtk TreeView 中的文本是使用 gtk CellRendererText 渲染的文本换行归结为在单元格渲染器上设置正确的属性为了让文本换行您需要设置wrap width单
iter(fp.readline, '') 中的行而不是 fp 中的行：

我读了内置函数iter的例子在内置函数 Python 3 7 0 文档 https docs python org 3 library functions html iter with open mydata txt as fp for l
如何更改Python中的全局变量[重复]

这个问题在这里已经有答案了我正在尝试更改程序中的变量我在程序开始时声明了一个全局变量我想在程序中的不同函数中更改该变量我可以通过再次声明函数内的变量来做到这一点但我想知道是否有更好的方法来做到这一点下面是一些测试代码来解释我的意
Django populate() 不可重入

当我尝试在生产环境中加载 Django 应用程序时我不断收到此消息我尝试了所有的 stackoverflow 答案但没有任何解决办法任何其他想法我使用的是 Django 1 5 2 和 Apache Traceback most
获取 TypeError：ord() 期望长度为 1 的字符串，但 int 发现错误 [重复]

这个问题在这里已经有答案了 Code is from PyPDF2 import PdfFileReader with open HTTP Book pdf rb as file pdf PdfFileReader file pagedd
类型错误：对于仅使用浮点数的函数，返回数组必须是 ArrayType

这个实在是难倒我了我有一个计算单词权重的函数我已经确认 a 和 b 局部变量都是 float 类型 def word weight term a term freq term print a type a b idf term prin

随机推荐

【小结】从输入URL到页面显示发生了什么？（二）渲染

本文总结从输入URL到页面显示的第二部分内容渲染从拿到HTML资源到显示的过程主要过程构建DOM树样式计算分成三步把 CSS 转换为浏览器能够理解的结构 styleSheets 转换样式表中的属性值使其标准化计算出 DOM
yuv图解（YUV444,YUV422,YUV420,YV12,NV12,NV21）

参考文章图解YUV YUV是什么 YUV 444 422 420 And YUV Packed Planar Semi Planar 知识点 YUV是用一个称为Y 相当于灰度的亮度分量和两个色度分量表示分别称为U 蓝色投影和V 红色
Cgroups----限制kvm虚拟机

Cgroups 限制kvm虚拟机 Cgroups相关概念及其关系相关概念 1 任务 task 在cgroups中任务就是系统的一个进程 2 控制族群 control group 控制族群就是一组按照某种标准划分的进程 Cgroups中的
查看mysql版本的六种方法

1 root localhost mysql V 2 root localhost mysql help grep Distrib 在mysql下有四种 3 登陆时会显示 4 mysql gt status 5 mysql gt selec
中阳：ChatGPT横空出世，或迎来“安卓时刻”

ChatGPT横空出世写代码写情书写文章做题它啥都会会被人工智能替代的行业由人工智能实验室OpenAI发布的对话式大型语言模型ChatGPT在各大中外媒体平台掀起了一阵狂热之风继 AI 绘画之后由 OpenAI 上线的 C
Reference vs Pointer

参考自Dan Saks的文章 An Introduction to References References and const The key insights I believe the key insight into why C
用git和idea推送本地项目到远程仓库

方式一 git命令方式 1 鼠标右键 Git Bash Here 2 初始化仓库 git init 3 配置签名 git config user name Zhang3 git config user email zhang3 163 co
WebFlux出现接口已返回成功，但查询时数据未改变的问题

问题描述在使用WebFlux时遇到一个很奇怪的问题先调用禁用账号接口接着在进行查询该数据结果页面显示数据未改变在点一次时页面数据才刷新即连续点两次查询接口才能看到修改后的数据相关代码前端 const disableAcco
商城登录后端

二登录 1 用户名和密码用户名和密码的格式验证可以不需要在后端进行在前端服务器判断就可以 2 图片验证码与验证 import string redis from captcha image import ImageCaptcha cl
Email Error - You have exceeded the storage limit on your mailbox

Description You may receive an error You have exceeded the storage limit on your mailbox Delete some items from your mai
前端--三种插件用来解析mardowm，转化成为html语法

前端三种插件用来解析mardowm 转化成为html语法使用方式十分简单快捷参考地址 1 markdown js 下载地址 https github com evilstreak markdown js div div
IBCS虚拟专线公网IP在公司内部搭建ERP系统按教程

企业资源计划 ERP 系统是现代企业不可或缺的组成部分可以将各个业务领域的信息整合到一个系统中以实现信息共享协调和协作然而随着企业规模的扩大企业的ERP系统也需要相应地进行升级和扩展因此使用IBCS虚拟专线公网IP在公司内部
五. Zuul 限流

目录一 spring cloud zuul ratelimit 基础解释二实现案例 1 pom 添加依赖 2 yml 配置 3 redis 配置类 4 自定义Zuul过滤器 5 自定义限流策略key 6 在当前Zuul服务中编写Con
string查找和替换

string查找和替换查找查找指定字符串是否存在替换在指定的位置替换字符串函数原型 int find const string str int pos 0 const 查找str第一次出现位置从pos开始查找 int find
python读取串口数据绘图_3.使用串口读取IMU数据并通过话题发布

0x00 简介我们的IMU扩展板是支持通过串口方式来读取IMU数据现在代码已经开发完成前面文章介绍的都是将IMU板插在树莓派上然后使用树莓派的IIC接口来数据通信因此不需要额外接线就可以发布imu话题的若使用串口进行通信的话若
在Linux下安装jdk的步骤

1 下载安装包 http www oracle com technetwork java javase downloads jdk8 downloads 2133151 html 版本 jdk 8u191 linux x64 tar gz
确实卷，公司新来的00后卷王，我们这帮老油条真干不过.....

都说00后躺平了但是有一说一该卷的还是卷这不前段时间我们公司来了个00后工作没两年跳槽到我们公司起薪18K 都快接近我了后来才知道人家是个卷王从早干到晚就差搬张床到工位睡觉了最近和他聊了一次天原来这位小老弟家里条件不太好
C#反编译工具：ILSpy

参考反编译软件ILSpy的使用教程 TONY5388的博客 CSDN博客 ilspy exe 总结以前以为dnspy是反编译的结果发现iLSpy是真的好用可以选择生成不同C 版本的源码
SQLite数据库总结

参考网址 https www cnblogs com stephen liu74 archive 2012 02 29 2328348 html 3种工作模式 1 SQLite完全内存数据库在SQLite中数据库通常是存储在磁盘文件中的
【python】KNN模型训练及应用01

目的应用让电脑代替人工对图片分类 1 数据加载 from sklearn datasets import load iris from sklearn model selection import train test split fro

【python】KNN模型训练及应用01

【python】KNN模型训练及应用01 的相关文章

随机推荐

热门标签