k近邻法matlab_【机器学习算法笔记】01-k近邻法

2023-10-27

k近邻法是一种基本的分类和回归方法，是最简单的监督学习算法之一，其本质极其直观：在给定的训练数据集里找距离新的输入实例最近的k个实例，将该k个实例中的多数标签赋给输入实例即可。问题的关键在于三个方面：

距离度量

样本空间中两个实例点的距离显然是其相似程度的反映，常见模型一般是n维实数向量空间

，多数使用欧式距离，及

distance 中的 p = 2。所以算法程序中此处可设置默认参数；

k值的选择

k的选择对结果影响重大：

一般选用一个比较小的数值，后面根据我们的实际数据作交叉验证。

分类决策规则

往往是多数表决，即直接取k个中最多的标签即可。其实应当还有半数表决等更强要求的方法，数据和精力有限暂未谈论。

这三点一说其实理论准备就已经说完了，只是这样的算法每次要计算训练集所有实例到输入的距离，效率过低，这个问题将在下一篇【机器学习算法笔记】02——kd树中聊一聊，这篇基本还是以简单k近邻法实现快速分类为主。以下是主题代码。

1、数据集准备

根据书上内容准备了三个数据集

# 函数1 创建题设数据集
def create_movie_data_set():
    group_out = np.array([[1, 101], [5, 89], [108, 5], [115, 8]])
    labels_out = np.array(['爱情片', '爱情片', '动作片', '动作片'])
    return group_out, labels_out


# 函数2 读取鸾尾花数做实验（弃）
def create_iris_data_set(test_proportion=0.2):
    from sklearn import datasets
    from sklearn.model_selection import train_test_split
    iris_all = datasets.load_iris()
    iris_train, iris_test, iris_label_train, iris_label_test 
        = train_test_split(iris_all.data, iris_all.target,test_size=test_proportion)
    return iris_train, iris_test, iris_label_train, iris_label_test


# 函数3 读取书上约会数据实验
def create_dating_data_set(test_proportion=0.2):
    from sklearn.model_selection import train_test_split
    # 原始数据归一化处理
    dating_data = normalization1(np.loadtxt("datingTestSet.txt", delimiter='t', usecols=(0, 1, 2)))
    dating_target = np.loadtxt("datingTestSet.txt", delimiter='t', dtype = 'str',usecols=3)
    dating_train, dating_test, dating_label_train, dating_label_test 
        = train_test_split(dating_data, dating_target,test_size=test_proportion)
    return dating_train, dating_test, dating_label_train, dating_label_test

sklearn中有

2、kNN算法主体

《机器学习实战》书中内容及目前CSDN中多个高浏览的kNN代码都过于陈旧，明明使用了numpy模块，有好用的boardcast规则不用，偏偏要把一维数组扩到n维占内存毫无意义。

# 函数4 简单k邻近算法
def kNN1(x_in, data_train_in, label_train_in, k, n=2):
    """
    :param x_in: 待测试的数据点
    :param data_train_in: 训练集
    :param label_train_in: 训练集标签
    :param k: k近邻法参数
    :param n: 距离度量方法选择，默认n=2即计算欧氏距离
    :return label_result:测试点的标签
    """
    import numpy as np

    # 计算各点到目标点的距离，默认n=2即欧氏距离
    distance = (((data_train_in - x_in) ** n).sum(axis=1)) ** (1 / n)

    distance_sort = distance.argsort()  # 求取distance中从小到大的索引值

    label_dic = {}
    for i in range(k):
        # 读取距离最近的k个点的标签
        label_vote = label_train_in[distance_sort[i]]
        # 将该k个点的标签写入字典
        label_dic[label_vote] = label_dic.get(label_vote, 0) + 1
    # 读取最近k个点的标签值入字典后，直接求取字典中值最大的健即可
    label_result = max(label_dic.items(), key=lambda x: x[1])[0]  # 快速求取字典最值

    return label_result

对于上述算法中的三个关键点：（1）距离度量默认欧式距离，可根据实际情况更改参数n；（2）k值需调用时输入；（3）分类决策规则为简单的多数表决。

1.0版本的算法应当说还是非常粗糙的，没有容错机制，但通过自己尝试修改能深刻理解算法。

3、归一化函数

算法函数一写完就急不可耐地测试了，结果发现效果很差，才想起来对于各维度数值差异较大的数据一定是要归一化的。

# 函数5 简单直接归一化算法
def normalization1(array_in):
    array_in_max = array_in.max(0)
    array_in_min = array_in.min(0)
    array_out = (array_in-array_in_min)/(array_in_max - array_in_min)
    return array_out

这样单独写有个问题就在于对于新数据，每次调用kNN1()前都得先归一化，非常麻烦，暂时搁置，后期更新kNN2时再将normalization直接内置进kNN中。

4、算法效果验证

选取不同的k值，每个k值抽取200次iris数据做验证，

使用经典的iris数据，按照8：2的比例将15个原始数据分为训练集和测试集作初步验证。

k值取1~30，每个k值做200次验证取平均错误率，实现代码如下：

if __name__ == '__main__':
    """直接验证尝试"""
       
    test_result = np.array([])
    for k_test in range(1,31):
        error_rate = np.array([])
        for n in range(200):

            data_train, data_test, label_train, label_test = create_iris_data_set(0.2)
            len_test = float(len(data_test))
            result_error = 0
            
            for i in range(len(data_test)):
                label_try = kNN1(data_test[i], data_train, label_train, k_test)
                # 检查统计每个输入实例分类结果是否与实际标签一致
                if label_try != label_test[i]:
                    result_error += 1
            # 统计每批的错误率
            error_rate = np.append(error_rate, float(result_error) / len_test)

        test_result = np.append(test_result,np.mean(error_rate))

    print(test_result)
    # 画图看一看
    plt.title("iris_data_kNN_test")
    plt.xlabel("k")
    plt.ylabel("error_rate")
    plt.plot(np.arange(1,31), test_result)
    plt.show()

结果如下：

[ 4.65% 4.40% 3.77% 3.80% 3.72% 4.18% 3.72% 3.67% 3.73% 3.30%
3.55% 3.28% 2.58% 3.23% 3.40% 3.58% 3.32% 3.25% 3.62% 3.67%
4.95% 4.30% 4.52% 4.55% 5.22% 5.05% 5.48% 5.27% 5.55% 4.77%]

即当k取13时，分类误差达到最小，约2.58%。

5、收获

严格来讲k近邻法并没有弄完，kd树能有效提升计算效率我还没弄好，还得加紧；
目前主程序了调用同一数据源的create函数需要多次读取硬盘很没有效率，这是我在前期构建数据时没有提前考虑到的，以后在构建数据来源接口时务必考虑后面要怎么用，根据功能需求调整接口；
自己码代码和看别人的成品过程收获是截然不同的，网上可参考资料虽然多，但没有自己真的做过看再多也没用；
要善于利用python各类模块的便捷，比如iris数据，我本来是下载了txt放电脑上准备硬盘读取的，但实际著名的sklearn模块都自带了这些经典数据集，如breast_cancer等等，完全不需要自己来回折腾；另一个分割数据集的时候我是先自己用sample功能写了个小函数来拆分原始数据，成功实现后觉得太过麻烦还是换成了sklearn的相应功能，这些小细节有精力了当然自己做更好，但已经有成熟的解决方案时就没有必要非得用自己的。
numpy操作还是不熟练啊，格式化打印个结果弄了半天。文档看的再细帮助也有限，还是得大量练习，长期浸润其中，Practice make perfect，还是不能着急，毕竟用的时间太短，数组在我手上还开不了花。得想想办法怎么把平常用到的numpy小技巧积累起来。
效率得提高，写这么一篇没多少干货的文字都花了不少功夫，得思考思考如何在学习和编程的同时就把思路和收获记下来，否则每周时间这么紧，如果做算法笔记成了累赘那就得不偿失了。
这周末要去跑西马，基本上一天半就交代出去了，还有些计划任务都没完成，下周估计得加把劲儿了，希望不要鸽。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

k近邻法matlab

k近邻法matlab_【机器学习算法笔记】01-k近邻法的相关文章

微信小程序分享功能总结

小程序实现分享功能有如下三种方式 1 在js文件中实现onShareAppMessage函数即可点击右上角菜单分享给微信好友页面中默认已实现在js文件中实现onShareTimeline函数即可点击右上角菜单分享到微信朋友圈需要自
联盟链走向何方

联盟链技术哪家强开源架构Fabric FISCO BCOS 以下简称 BCOS CITA 技术对比出品碳链价值研究院 01 摘要第 46 届世界经济论坛达沃斯年会将区块链与人工智能自动驾驶等一并列入第四次工业革命经济学人曾在
qt5.5.1 移植4412的问题过程

编译错误 WTF wtf unicode wchar UnicodeWchar h In function bool WTF Unicode isAlphanumeric UChar WTF wtf unicode wchar Unicod
开源项目部署之悟CRM部署 PHP服务端版

文章目录前言一部署环境二部署流程 1 安装宝塔等基础环境 2 部署CRM 点击安装即可在这里插入图片描述 https img blog csdnimg cn 4f83ede5d3f74343a927f8a641c25e19 pn
助推打造全球研发中心城市

阿里社招一面面不动了真的面不动了一项目挑一个你觉得最有挑战性的细说有些细节被质疑了嘴在前面飞脑子在后面追以后说每一句话都要小心笑cry 二八股1 聚簇索引和非题解检索产品名称和描述一 select prod nam
3D关键点检测（2020-2017)

3D关键点检测 1 3D关键点检测之PoseDRL Deep Reinforcement Learning for Active Human Pose Estimation AAAI2020 这篇文章可能与我们通常所处理的姿态估计任务略有不
【BEV】BEVDet

BEVDet 解析 BEVDet 模型 bevdet r50 训练配置 Scale NMS 优化配置推理记录注册随机种子总结 BEVDet BEVDet继承于CenterPoint gt MVTwoStageDetector 模型实
射频工程师笔记---射频通信基础

文章更新或问题可关注本人公众号回顾一下移动通信技术的发展其实是互联网和通信技术的融合过程在这个过程中很多应用都在不断加入其中比如计算机跟通信的融合产生了互联网互联网跟手机的融合带来了移动互联网手机可以看杂志看视频听音乐于
SpringCLoud——服务的拆分和远程调用

服务拆分服务拆分注意事项一般是根据功能的不同将不同的服务按照功能的不同而分开微服务拆分注意事项不同微服务不要重复开发相同业务微服务数据独立不要访问其他微服务的数据库微服务可以将自己的业务暴露为接口供其他微服务调用远程调
C++ 数据结构与算法（五）（哈希表）

哈希表 1 定义哈希表 Hash table 也称散列表是根据关键码的值而直接进行访问的数据结构一般哈希表都是用来快速判断一个元素是否出现集合里只需要在初始化时用哈希函数 hash function 将这些元素映射在哈希表的索引上
WJ的Direct3D简明教程2：Render-To-Texture

转载请注明来自http blog csdn net skyman 2001 Rendering to a texture is one of the advanced techniques in Direct3D On the one h
Unity绘制户型（一）

户型绘制主要对象数据点线面部件门窗主要难点是通过绘制的点寻找闭合多边形多边形的生成 3D墙体的生成门窗要在墙体上留下孔洞这四个功能这篇文章我只写前两个问题后面来两个问题单独再写一篇文章 1 如何寻找闭合多边形我的方法是
内容管理系统测试实战

使用django和restframework开发接口使用postman测试接口使用unittest和requests模块测试接口目录 Django安装 Django Rest Framework 创建API应用数据库迁移创建超级管
C++11中pair的用法

概述 pair可以将两个数据组合成一种数据类型 C 标准库中凡是必须返回两个值的函数都使用pair pair有两个成员变量分别是first和second 由于使用的struct而不是class 因此可以直接访问pair的成员变量基本用法
Python_某宝某东秒杀抢购

纯学习分享只用于学习用途请勿用于任何商业用途本人不承担任何责任视频编写过程某宝秒杀程序某宝源码 from selenium import webdriver from selenium webdriver common by i
springboot配置shiro多项目实现session共享的详细步骤

springboot配置shiro多项目实现session共享的详细步骤项目的配置步骤我已写到另一篇文章中 shiro框架多项目登录访问共享session的实现 springboot redis shiro 的实现项目已共享到GitHu
关于Tomcat端口被占用的情况

今天打开eclipse突然发现运行不了报错的提示为 Several ports 8005 8080 8009 required by Tomcat v7 0 Server at localhost are already in use 有
Android studio遇到问题:Emulator: PANIC: Cannot find AVD system path. Please define ANDROID_SDK_ROOT

前言在使用android studio时配置模拟器的时候一直在报错这个然后网上找到问题并实际解决了问题在这里记录下目录问题原因没有配置环境的情况下是因为他默认找的是这个路径的AVD 问题很明显了中文路径导致的 C Use
Vue路由传参几种方式

动态路由传参 path detail username name a component gt import components Detail vue

随机推荐

windows server 2012 安装gooderp

概述这是我安装的第一个erp系统为什么选择gooderp 因为它是开源的个人认为还是不错的一个erp系统 windows上安装完全是傻瓜式的安装介绍下环境我使用的是阿里云的windows server 2012 为了安全呢最好更新
前端浏览器常见兼容性问题及解决方案

目录 1 最常见的每个浏览器的默认margin padding大小都不同当设置定位时会有些许差异 2 图片默认有间距当几个img标签放到一起时有些浏览器会有默认间距加上第一条的设置的通配符样式也无用 3 min height问题
mc服务器查看死亡位置,我的世界查询死亡地点指令

发布时间 2016 06 01 很多朋友在玩我的世界这款游戏时总会有各种意外死亡发生今天蚕豆网小编带给大家的是我的世界死亡后怎么才能使东西不掉落的方法游戏中的设定死亡后你身上的物品会掉落在地上需要快速的捡回要不然东西就会消失那么
goto语句在工作当中的用法

前言 goto语句在C语言编程中是比较少用的在学习C语言时老师也告诉要少用有的甚至说别用后来再工作当中看到了前辈写的代码里用了goto语句顿时感到goto语句的精妙遂在此记录 goto语句能使用不过要慎用应为C语言的代码中大
爬虫：json()数据解析（Request Method：GET）

有一些网页会直接把所有的关键信息都放在HTML中请求尤其是一些比较老或比较轻量的网站我们用requests和BeautifulSoup就能解决它们比如豆瓣而有些数据请求则通过Fetch XHR传送这些数据并不能直接在HTML页
Git 常用命令大全

一 Git 常用命令速查 git branch 查看本地所有分支git status 查看当前状态 git commit 提交 git branch a 查看所有的分支git branch r 查看远程所有分支git commit am i
openssl RSA基本加密解密

include
【计算机毕业文章】垃圾分类系统设计与实现

毕业论文题目垃圾分类系统目录摘要 1 前言 3 第1章概述 4 1 1 研究背景 4 1 2 研究目的 4 1 3 研究内容 4 第二章开发技术介绍 5 2 1Java技术 6 2 2 Mysql数据库 6 2 3 B S
Intellij IDEA 安装jnetpcap开发环境与 no jnetpcap in java.library.path 的解决方案

jnetpcap是libpcap的一个java完整封装这篇博客就是讲解如何能够使用Intellij IDEA来编写jnetpcap 这篇博客分为四个部分安装必要的开发环境添加jnetpcap的jar包测试导入包解决java lan
如何解决Python中的RuntimeWarning: invalid value encountered in double_scalars问题

在写代码计算类皮尔森相关系数的计算时遇到如下警告 RuntimeWarning invalid value encountered in double scalars 相关的代码段如下在下面的语句的执行过程中出现上述提示 id col t
Android 欢迎界面停留3秒后进入登陆页面，输入登陆信息跳转到空白页面接收展示登陆页面内容

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档目录文章目录一项目准备二使用步骤第一个页面 MainActivity java代码如下示例 activity main xml布局文件代码如下第二个页面 In
入门级题解2：394. 字符串解码

知识点总结这里的字符串中s i 是数字时转为数字用的是 s i 0 asic码来转化不用stoi那个多个数位的情况23 abb int val 0很重要这样就第一个数位是个位的情况也能直接用 if true isdigit s i
Android拓展系列--Android源码下载

1 安装git和curl命令 sudo apt get install git core curl 说明 curl是一个向服务器或从服务器传输数据的工具它支持HTTP HTTPS FTP FTPS SCP SFTP TFTP DICT T
spring boot集成mybatis-plus——Mybatis Plus 新增数据并返回主键 ID（图文讲解）

Mybatis Plus 新增数据并返回主键 ID 图文讲解更新时间 2023 01 10 15 37 37 大家好我是小哈本小节中我们将学习如何通过 Mybatis Plus 框架给数据库表新增数据主要内容思维导图如下 Myba
CAS研究（四）-登出/logout

很多童鞋对单点登出不是很理解下面我们来看看单点登出到底做了什么东西我们来看看怎么从配置到代码的 1 web xml com bingo tfp web init SafeDispatcherServlet
获取URL参数的两种方法及location对象的各项获取方式

获取URL参数第一种第二种公共部分首页
MongoDB地理空间简介与一个简单的示例：寻找一定距离范围内餐厅

地理空间数据在MongoDB中可以将地理空间数据存储为 GeoJSON对象或传统坐标对以上两种数据都在何种情况下使用 GeoJSON对象要计算类球体上的几何体位置数据应存储为GeoJSON对象传统坐标对要计算欧几里得平面上
mac jd-gui-osx jar包反编译工具使用报错

JD GUI 是一款轻量级的jar包反编译工具官网地址 https java decompiler github io 笔者安装完之后启动报错如果你也有相同问题可以使用我的方法解决看看笔记本信息报错信息从报错信息来看是jdk版
openwrt开发使用-OPKG包管理系统详解

一 OPKG简介 OPKG Open OpenWrt Package 是一个轻量快速的软件包管理系统是 IPKG 的克隆目前已成为开源嵌入式系统领域的事实标准 OPKG 常用于路由交换机等嵌入式设备中用来管理软件包的下载安装升级
k近邻法matlab_【机器学习算法笔记】01-k近邻法

k近邻法是一种基本的分类和回归方法是最简单的监督学习算法之一其本质极其直观在给定的训练数据集里找距离新的输入实例最近的k个实例将该k个实例中的多数标签赋给输入实例即可问题的关键在于三个方面距离度量样本空间中两个实例点的距离显然

k近邻法matlab_【机器学习算法笔记】01-k近邻法

k近邻法matlab_【机器学习算法笔记】01-k近邻法 的相关文章

随机推荐

热门标签

k近邻法matlab_【机器学习算法笔记】01-k近邻法的相关文章