用KNN（K近邻算法）和ANN（人工神经网络）建立预测模型

2023-11-19

数据
输入 32 维的向量输出一个值
有151组这样的数据

目的
用这样一组数据建立一个预测模型
输入32维的向量就能预测一个值

代码部分

1 导入工具包

在import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.utils import shuffle
from sklearn.metrics import r2_score
from tensorflow.keras.layers import Dense
from tensorflow.keras.models import Sequential
from tensorflow.keras.callbacks import History
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import train_test_split

""" 显示中文 """
plt.rcParams['font.sans-serif'] = [u'SimHei']
plt.rcParams['axes.unicode_minus'] = False

2 读取数据

df = pd.read_excel('data.xls', index_col = 0) #index_col=0 表示第一列不作为索引
df = df.T #对列表进行转置

3 归一化

model_M = MinMaxScaler()
for i in df.columns:
    if (i == 'soot'):
        pass
    else:
        df[i] = model_M.fit_transform(pd.DataFrame(df[i]))
        #DataFrame 表示为表的形式
        #fit_transform 对数据进行归一化、标准化

#对fit、transform和fit_transform通俗易懂的解释点这里

4 数据集划分
前100 个作为训练集、后 51 个作为测试集

df = shuffle(df) #对数据进行随机排列
df1 = df[:100]
df2 = df[100:]

5 相关性分析

column = df1.columns.tolist()#将列的索引转化为列表
corr_num = df1[column].corr(method = 'spearman').abs() #斯皮尔曼系数 相关性分析 并取绝对值
corr_ratio = corr_num[corr_num['soot'] > 0.2]['soot'] #挑选出相关性系数绝对值大于0.2的参数
plt.figure(figsize = (10, 6))
ratio = df1[corr_ratio.index].corr() #对挑选出的系数列进行相关性分析 皮尔森系数
g = sns.heatmap(ratio, annot = True, cmap = 'RdYlGn') #画出热力图

corr_top = corr_ratio.sort_values(ascending = False).reset_index() 
#sort_values(ascending=False)降序排列 默认是升序
#reset_index() 重置索引
corr_top.columns = ['特征', '相关性'] #将索引改成特征、相关性

df_top = [col for col in corr_top['特征']] #储存特征索引

df1 = df1[df_top] #训练集
df2 = df2[df1.columns] #测试集
#

6 划分训练集、验证集

train_data = df1[df1.columns[1:]] #input
test_data = df1['soot'] #label
X_train, X_val, y_train, y_val = train_test_split(train_data, test_data, test_size = 0.3, random_state = 2020) 
#test_size=0.3 这里训练集70组 验证集30组 random_state=2020保证每次划分是相同的

7 分离测试集特征、预测值

X_test = df2[df2.columns[1:]] #input
y_test = df2['soot'] #label

8 KNN
8.1 网格调参

model_KNN = KNeighborsRegressor() #KNN回归
parameters = {
    'p':[1],
    'n_neighbors':[i for i in range(3, 11)],
} #p=1 曼哈顿距离

model_GSCV = GridSearchCV(model_KNN, parameters, cv = 5)#网格搜索
model_GSCV.fit(X_train, y_train)

score_MSE = mean_squared_error(y_val, model_GSCV.predict(X_val))

print('验证集均方误差：', score_MSE)
print('最优参数：', model_GSCV.best_params_)

8.2 R2分数

model_KNN = KNeighborsRegressor(
    p = 1,
    n_neighbors = 3
)#这里最佳的n_neighbors最佳值为3
model_KNN.fit(X_train, y_train) #将训练集数据导入训练
predict_KNN = model_KNN.predict(X_val) #用验证集测试
r2_score(y_val, predict_KNN) #R2分数

8.3 测试集预测

predict_KNN = model_KNN.predict(X_test) #输入测试集数据，获得预测值
x = [i for i in range(0, 51)]
y1 = [i for i in y_test] #实际值
y2 = [i for i in predict_KNN] #预测值
plt.figure(figsize = (20, 6))
plt.plot(x, y1, label = '真实值')
plt.plot(x, y2, label = '预测值')
plt.title('KNN')
plt.legend() #图例位置

8.4 R2分数

r2_score(y_test, predict_KNN)

9 ANN
9.1搭建初级模型

#这里用 Sequential()建立神经网络，一层隐层，神经元个数32个
model_1 = Sequential()
model_1.add(Dense(32, input_dim = 7, activation = 'relu'))#激活函数relu
model_1.add(Dense(1, activation = 'linear'))

model_1.compile(optimizer = 'adam', loss = 'mean_absolute_error', metrics = ['mean_absolute_error']) #优化器选用adam，loss function选用 平均绝对误差

history = model_1.fit(X_train, y_train, validation_data = (X_val, y_val), epochs = 200, batch_size = 16) #模型训练 用history进行每一步的记录便于之后画图

#画图 训练集和验证集的loss随着epochs的变化
plt.plot(history.history['loss'])
plt.plot(history.history['val_loss'])
plt.title('模型的训练和验证损失曲线')
plt.ylabel('Loss')
plt.xlabel('Epochs')
plt.legend(['Train', 'Validation'], loc = 'upper right')

9.2 R2分数

predict_ANN = model_1.predict(X_val)#验证集中的预测值
r2_score(y_val, predict_ANN)

9.3再增加四个隐层

#5层隐层，每一层的神经元个数为32
model_2 = Sequential()
model_2.add(Dense(32, input_dim = 7, activation = 'relu'))
model_2.add(Dense(32, activation = 'relu'))
model_2.add(Dense(32, activation = 'relu'))
model_2.add(Dense(32, activation = 'relu'))
model_2.add(Dense(32, activation = 'relu'))
model_2.add(Dense(1, activation = 'linear'))

model_2.compile(optimizer = 'adam', loss = 'mean_absolute_error', metrics = ['mean_absolute_error'])

history = model_2.fit(X_train, y_train, validation_data = (X_val, y_val), epochs = 200, batch_size = 16)

#画图
plt.plot(history.history['loss'])
plt.plot(history.history['val_loss'])
plt.title('模型的训练和验证损失曲线')
plt.ylabel('Loss')
plt.xlabel('Epochs')
plt.legend(['Train', 'Validation'], loc = 'upper right')

9.4 R2分数

predict_ANN = model_2.predict(X_val)
r2_score(y_val, predict_ANN)

9.5增加神经元

#5层隐层，每一层的神经元个数为64
model_3 = Sequential()
model_3.add(Dense(64, input_dim = 7, activation = 'relu'))
model_3.add(Dense(64, activation = 'relu'))
model_3.add(Dense(64, activation = 'relu'))
model_3.add(Dense(64, activation = 'relu'))
model_3.add(Dense(64, activation = 'relu'))
model_3.add(Dense(1, activation = 'linear'))

model_3.compile(optimizer = 'adam', loss = 'mean_absolute_error', metrics = ['mean_absolute_error'])

history = model_3.fit(X_train, y_train, validation_data = (X_val, y_val), epochs = 100, batch_size = 16)

#画图
plt.plot(history.history['loss'])
plt.plot(history.history['val_loss'])
plt.title('模型的训练和验证损失曲线')
plt.ylabel('Loss')
plt.xlabel('Epochs')
plt.legend(['Train', 'Validation'], loc = 'upper right')

9.6 R2分数

predict_ANN = model_3.predict(X_val)
r2_score(y_val, predict_ANN)

9.7 测试集预测

#在三个ANN模型中选择R2分数最高的那个，这里选择model3
predict_ANN = model_3.predict(X_test)

x = [i for i in range(0, 51)]
y1 = [i for i in y_test]
y2 = [i for i in predict_ANN]
plt.figure(figsize = (20, 6))
plt.plot(x, y1, label = '真实值')
plt.plot(x, y2, label = '预测值')
plt.title('ANN')
plt.legend()

9.8 R2分数

r2_score(y_test, predict_ANN)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习算法

神经网络

机器学习

用KNN（K近邻算法）和ANN（人工神经网络）建立预测模型的相关文章

讲解光流估计 liteflownet3

目录讲解光流估计 LiteFlowNet3 什么是 LiteFlowNet3 模型架构训练与优化应用与展望结论讲解光流估计 LiteFlowNet3 光流估计是计算机视觉领域的重要任务其可以估计图像序列中每个像素的运动矢量光流
机器学习项目结构数据预测实验报告

需求我经过处理得到了测试值然后进一步得到预测和真实值的比较然后再把之前的所有相关的参数评估指标预测值比较结果都存入excel 另外我还打算做测试报告模板包括敏感性分析等您建议我这些功能如何封装这些功能哪些功能放到一个文件中
【提示工程】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

解决问题探索大语言模型解决推理问题的能力从头训练或微调模型需要创建大量的高质量含中间步骤的数据集成本过大相关工作 1 使用中间步骤来解决推理问题 1 使用自然语言通过一系列中间步骤解决数学应用题 2 通过创建更大的数据集微调语言模
基于BP神经网络结合自适应带宽核函数密度估计区间预测。BP-ABKDE区间概率预测，BP神经网络核密度估计下置信区间预测。区间预测(区间覆盖率PICP、区间平均宽度百分比PINAW，CRPS,CW

清空环境变量 warning off 关闭报警信息 close all 关闭开启的图窗 clear 清空变量 clc 清空命令行 res xlsread 数据集 xlsx num size 0 8 训练集占数据集比例 dataran 0 不
讲解光流估计 liteflownet3

目录讲解光流估计 LiteFlowNet3 什么是 LiteFlowNet3 模型架构训练与优化应用与展望结论讲解光流估计 LiteFlowNet3 光流估计是计算机视觉领域的重要任务其可以估计图像序列中每个像素的运动矢量光流
基于生成式对抗网络的视频生成技术

随着人工智能的快速发展生成式对抗网络 GAN 作为一种强大的生成模型已经在多个领域展现出了惊人的能力其中基于GAN的视频生成技术更是引起了广泛的关注本文将介绍基于生成式对抗网络的视频生成技术的原理和应用探索其对电影游戏等领域带
CNN和TCN的区别和联系

CNN 卷积神经网络和TCN 时间卷积网络都是神经网络的变体用于处理不同类型的数据以下是它们的主要区别和联系区别应用领域 CNN 主要用于处理图像数据具有在空间维度上捕捉局部特征的能力常用于计算机视觉任务 TCN 主要用于处
基于ResNet模型微调的自定义图像数据分类

Import necessary packages import torch import torch nn as nn from torchvision import datasets models transforms from tor
互操作性(Interoperability)如何影响着机器学习的发展？

互操作性 Interoperability 也称为互用性即两个系统之间有效沟通的能力是机器学习未来发展中的关键因素对于银行业医疗和其他生活服务行业我们期望那些用于信息交换的平台可以在我们需要时无缝沟通我们每个人都有成千上万个数据
澳鹏干货解答！“关于机器学习的十大常见问题”

探索机器学习的常见问题了解机器学习和人工智能的基本概念原理发展趋势用途方法和所需的数据要求从而发掘潜在的商机什么是机器学习机器学习即教授机器如何学习的过程为机器提供指导帮助它们自己开发逻辑访问您希望它们访问的数据机器学
使用pytorch构建图卷积网络预测化学分子性质

在本文中我们将通过化学的视角探索图卷积网络我们将尝试将网络的特征与自然科学中的传统模型进行比较并思考为什么它的工作效果要比传统的方法好图和图神经网络化学或物理中的模型通常是一个连续函数例如y f x x x x 其中x x x
时间序列平稳性相关检验方法

理解平稳性一般来说平稳时间序列是指随着时间的推移具有相当稳定的统计特性的时间序列特别是在均值和方差方面平稳性可能是一个比较模糊的概念将序列排除为不平稳可能比说序列是平稳的更容易通常不平稳序列有几个特征平均值随时间推移发生变化
机器学习前馈神经网络

人工神经网络 Artificial Neural Network ANN 是指一系列受生物学和神经科学启发的数学模型这些模型主要是通过对人脑的神经元网络进行抽象构建人工神经元并按照一定拓扑结构来建立人工神经元之间的连接来模拟生物神经
MIT_线性代数笔记：复习二

目录第二单元主要内容例题第二单元主要内容正交矩阵 Q 用矩阵形式描述正交性质投影矩阵 P 最小二乘法在方程无解时求最优解 Gram Schmidt 正交化从任意一组基得到标准正交基策略是从向量中减去投影到其它向量方向的分
基于机器学习的贷中风险预测模型-江苏银行“随e融”杯-二等奖

文章目录源码下载地址项目介绍界面预览项目备注毕设定制咨询源码下载地址源码下载地址点击这里下载源码项目介绍基于机器学习的贷中风险预测模型江苏银行
机器学习：基于python微博舆情分析系统+可视化+Django框架 K-means聚类算法（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
机器学习算法实战案例：LSTM实现多变量多步负荷预测

文章目录 1 数据处理 1 1 数据集简介 1 2 数据集处理 2 模型训练与预测 2
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
【GRNN-RBFNN-ILC算法】【轨迹跟踪】基于神经网络的迭代学习控制用于未知SISO非线性系统的轨迹跟踪（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 第1部分 2 2 第2部分

随机推荐

java word转pdf 后通过 PdfReader 和 PdfStamper对pdf添加水印通过poi等组件实现

所需jar包地址
javah用法

正确做法进入到包com所在的目录是java文件所在的包不是class javah classpath jni com jnitest MainActivity 如果执行这个 javah jni com example zndktest
Git中添加文件.gitignore作用

添加文件 gitignore作用作用我们使用Git时经常看到 gitignore文件具体有什么作用呢作用该文件用来描述Git仓库中不需要管理的文件和目录一般可以在初始化时自动生成 gitignore文件如果初始化是忘记加入此
虚拟化、虚拟机等概念理解

虚拟化定义是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机在一台计算机上同时运行多个逻辑计算机每个逻辑计算机可运行不同的操作系统并且应用程序都可以在相互独立的空间内运行而不受影响从而显著提高计算机的工作效率软件完全虚拟 V
Qt表格分页，跳转，首尾页

简介 1 使用QTableWidget实现了首页上下页切换尾页以及跳转上代码 widget h ifndef WIDGET H define WIDGET H include
unity 使用vrtk4的插件打包htv vive VR客户端包，手柄不生效

背景目的 u3d使用vrtk开发pico应用 vrtk是为了到时候无缝衔接后续要买的htc vive pro 2 先导入了tilia importer 也就是vrtk4 0 根据教程模块化使用功能和pico官网下的 PICO Unity
Dom事件

1 onclick 点击事件 2 ondbclick 双击事件 3 onmousedown 鼠标按下事件 4 onmouseup 鼠标松开事件 5 onmouseenter 鼠标移入事件不支持冒泡只触发一次 6 onmouseover
Linux 磁盘与文件系统管理(鸟哥私房菜)

本文来自 http vbird dic ksu edu tw linux basic 0230filesystem php 第八章 Linux 磁盘与文件系统管理系统管理员很重要的任务之一就是管理好自己的磁盘文件系统每个分割槽不可太大也
JAVA用到的环境变量，JAVA_HOME、CLASSPATH、PATH

Windows下JAVA用到的环境变量主要有3个 JAVA HOME CLASSPATH PATH JAVA HOME指向的是JDK的安装路径如C JDK 1 4 2 在这路径下你应该能够找到bin lib等目录值得一提的是 JDK的安
vue3学习笔记（1）script引入vue3实现简单应用

Vue3专栏入口目录一脚本引入简单使用二双向绑定的基本表现一脚本引入简单使用 script引入简单使用实现数据渲染 div h1 counter num h1 div
人工智能学习（一）newff函数介绍

以下是matlab中的newff函数说明不是neurolab中的newff 两者的参数不同 newff函数指的是训练前馈网络的第一步是建立网络对象实质是newff函数的参数 newff函数的格式为 net newff PR S1 S2
Linux服务器装mysql数据库并且连接数据库（详细教程）(阿里云)

废话不多说直接上教程 1 首先执行如下命令更新YUM源 rpm Uvh http dev mysql com get mysql57 community release el7 9 noarch rpm 执行完上面命令后如果出现Peer
Verilog学习记录4——Verilog +: / -:语法

Verilog 语法看到这个语法的时候是在分析 IP AXI4 STREAM DATA FIFO的example时碰见的然后查阅了资料做出如下理解变量的定义可以分为大端和小端由于实际使用中变量常定义成大端所以这里对小端不进行分析
【华为OD机试】分糖果【2023 B卷

华为OD机试真题点这里华为OD机试真题考点分类点这里题目描述小明从糖果盒中随意抓一把糖果每次小明会取出一半的糖果分给同学们当糖果不能平均分配时小明可以选择从糖果盒中假设盒中糖果足够取出一个糖果或放回一个糖果小明最少
VS-code出现注释乱码以及VS调试过程中出现汉字乱码问题

文章目录 VS VS code 1 前言 2 方法 VS Notepad 方法 VS VS code 1 前言 Visual Studio Code 简称VS code 是如今我们常用的一款编辑器但是可能一些用户会需要其他软件进行调试等
一次线上生产系统内存泄漏排查与优化实践

今天给大家分享一个我们之前基于dubbo开发一个线上系统时候遇到的内存泄漏生产问题的排查与优化实践经验相信对于大家多看一些类似的案例以后对于大家自己在线上系统遇到各种生产问题的时候进行排查和优化的思路会有很大的启发内存泄漏问题发生背
begin to drop messages due to rate-limiting

对于syslog保存的日志会有很多重要信息但是一旦打印的日志数量超过设置的阈值就会丢掉 imuxsock pid 48 begin to drop messages due to rate limiting 这是在调试时不愿看到的可以
【论文笔记系列】AutoML：A Survey of State-of-the-art （上）

之前已经发过一篇文章来介绍我写的AutoML综述最近把文章内容做了更新所以这篇稍微细致地介绍一下由于篇幅有限下面介绍的方法中涉及到的细节感兴趣的可以移步到论文中查看论文地址 https arxiv org abs 1908 007
yolo 车辆测距+车辆识别+单目测距（双目测距）

基于yolo目标检测算法实现的车前道路中的车辆和行人检测并且可以估测出目标与本车之间的距离一视频展示 yolo车距1 订阅专栏获得源码提供完整代码无需看下文二单目测距原理图中有一个车辆且车辆在地面上其接地点Q必定在地面上
用KNN（K近邻算法）和ANN（人工神经网络）建立预测模型

数据输入 32 维的向量输出一个值有151组这样的数据目的用这样一组数据建立一个预测模型输入32维的向量就能预测一个值代码部分 1 导入工具包在import pandas as pd import seaborn as sn

用KNN（K近邻算法）和ANN（人工神经网络）建立预测模型

用KNN（K近邻算法）和ANN（人工神经网络）建立预测模型 的相关文章

随机推荐

热门标签

用KNN（K近邻算法）和ANN（人工神经网络）建立预测模型的相关文章