数学建模——数据分析方法

2023-10-31

一、常见数据分析软件

Excel（office三件套之一）、R语言、Eviews、origin(图形分析工具)、SPSS（统计分析与数据挖掘）
MATLAB（墙裂推荐）、python（墙裂推荐）、SAS

二、统计性描述

均值(mean)： x ˉ = 1 n ∑ i = 1 n x i \bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i} xˉ=n1i=1∑nxi
方差(var)、均方差(std): S 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 , S = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 \quad S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}, S=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}} S2=n−11i=1∑n(xi−xˉ)2,S=n−11i=1∑n(xi−xˉ)2
(与传统的方差不同，这里除以的是n-1)
偏度（df.skewness）:标准化三阶中心矩阵，反映对称性，当其值大于0时，此时数据位于均值右侧的比位于左侧的多
s k = 1 n ∑ i = 1 n ( x i − x ˉ ) 3 s 3 s_{k}=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3}}{s^{3}} sk=s3n1∑i=1n(xi−xˉ)3
峰度（df.kurt）：标准化四阶中心矩阵，当其值大于3时，表示分布有沉重的尾巴，说明样本有较多远离均值的数据 G 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 4 ( 1 n ∑ i = 1 n ( x 1 − x ˉ ) 2 ) 2 − 3 G_{2}=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{4}}{\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{1}-\bar{x}\right)^{2}\right)^{2}}-3 G2=(n1∑i=1n(x1−xˉ)2)2n1∑i=1n(xi−xˉ)4−3
分位数（df.quantile( p )）：若概率0<p<1,随机变量X或他的概率分布的分位数Za是指满足条件p(X < Za)=α的实数

三、数据的预处理

缺漏数据的处理

删掉这条数据：df.dropna(axis=0,how="any",inplace=False)
用均值填充:

	means = df[列].mean()
	df[列].fillna(means)

用中位数来填补

	medians = df[列].median()
	df[列].fillna(medians)

用众数来填补

	modes = df[列].mode()
	df[列].fillna(modes)

数据的标准化：
最大最小值标准化和均值标准化
x i ′ = x i − x min ⁡ x max ⁡ − x min ⁡ x i ′ = x i − x s x_{i}^{\prime}=\frac{x_{i}-x_{\min }}{x_{\max }-x_{\min }} \quad x_{i}^{\prime}=\frac{x_{i}-x}{s} xi′=xmax−xminxi−xminxi′=sxi−x
```
	# 最大最小值标准化
	def max_min_std(data):
	    m_max = data.max(axis=0)
	    m_min = data.min(axis=0)
	    data = (data - m_min)/(m_max-m_min)
	    return data
	
	#均值标准化
	def mean_std(data):
	    m_mean = data.mean(axis=0)
	    m_std = data.std(axis=0)
	    data = (data - m_mean)/m_std
	    return data	
```

四、相关性分析

如何判断各因素之间是否相关？
1. pearson相关系数(df.corr(method = ))：
r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 r=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}} r=∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2 ∑i=1n(xi−xˉ)(yi−yˉ)
2. spearman,kendall相关系数
相关程度有多大？
1. 当R>0时，正相关，R<0时，负相关
2. R的绝对值越接近1，表示两个变量越接近线性关系
3. R的绝对值越接近0，表示两个变量越没有相关系
4. R的绝对值大于0.8时，视为高度相关
5. R的绝对值介于0.5~0.8时，视为中度相关
6. R的绝对值小于0.3时，视为不相关

五、回归分析

多元线性回归模型：
y = β 0 + β 1 x 1 + β 2 x 2 + … + β p x p + ε y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{p} x_{p}+\varepsilon y=β0+β1x1+β2x2+…+βpxp+ε
其中的 β i \beta_{i} βi是回归系数

from sklearn.linear_model import LinearRegression
linear = LinearRegression()
model = linear.fix(x,y)
print("截距：")
print(linear.intercept_)
print("回归系数：")
print(linear.coef_)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

数模学习

数据分析

机器学习

数学建模——数据分析方法的相关文章

怎么用计算机计算年月份,如何使用Excel计算两个日期之间的月数？

一这可以通过DATEDIF函数完成二 DATEDIF函数的定义 DATEDIF函数是Excel中的隐藏函数而不是帮助和插入公式中的隐藏函数返回两个日期之间的年月日间隔的数量 DATEDIF函数通常用于计算两个日期之间的时差语法
Windows11之QT开发框架超详细下载安装与使用教程

文章目录前言 3 1 QT开发框架下载 3 2 QT开发框架安装 3 3 QT开发框架使用总结前言本博客的主要内容为在Windows11系统下的QT开发框架的下载安装与使用教程 QT开发框架开发C 图形化界面十分有用读者跟着我一步
球坐标系下梯度、散度、旋度和拉普拉斯的简单计算

转载于 https www cnblogs com hiramlee0534 p 5480045 html
七天玩转Redis

一简要了解 redis是一个key value存储系统和Memcached类似它支持存储的value类型相对更多包括string 字符串 list 链表 set 集合 zset sorted set 有序集合和hash 哈希类型

随机推荐

ELK系列(九)、配置ES和Kibana的用户密码

前面介绍的都是没有设置密码的情况 ES默认没有密码什么数据泄露的新闻简直是家常便饭所以这里还是建议大家给ES和kibana设置用户登陆或者使用nginx限制IP或用户访问本文介绍ELK自带的创建用户的方式 ELK系列一安装Ela
CSDN编程竞赛第六期

CSDN编程竞赛报名地址 https edu csdn net contest detail 16 本次是我第二次参加CSDN举办的编程竞赛这一次的题相比上一次简单不少对编程新人或者刚开始学习算法的人很友好前言背景本次CSDN编程
服务器管理系统是什么

服务器管理系统是什么服务器管理系统是在操作系统下对操作系统的服务器软件及其相关软件进行二次设置的管理软件是运营商管理域名服务器企业邮局数据库等服务器主机类产品的一个网站平台以达到快捷实现域名服务器主机企业邮局数据库等产品
C#连接数据库SQlServer+Form窗格实现简单动态增删查改操作

C 连接数据库SQlServer Form窗格实现简单动态增删查改操作一数据库连接数据库连接部分学习自该博主原创博客点击即可跳转再附上该博主的博客链接 https blog csdn net kiss soul article d
深度学习去运动模糊----《DeblurGAN》

前言现实生活中大多数图片是模糊不清的试想一下追剧时视频不清晰看着都很捉急何况现实中好端端的一幅美景美女也可以被抓拍得不忍直视瞬间暴躁拍照时手抖或者画面中的物体运动都会让画面模糊女友辛辛苦苦摆好的各种Pose也将淹没在
海湾主机汉字注释表打字出_海湾报警主机（JB-QG-GST5000）操作手册

报警主机正面示意图报警主机内部结构图控制器模块总线通讯总线联动电源输出端子示意图 A1 B1 An Bn RS 485有极性通讯线端子接火灾报警显示盘 GND 24V LD D02电源盘对外输出端子保护地此端子与机壳相连接
NLP技术中的Tokenization

作者 Gam Waiciu 单位 QTrade AI研发中心研究方向自然语言处理前言今天我们来聊一聊 NLP 技术中的 Tokenization 之所以想要聊这个话题是因为一方面在 NLP 技术中 Tokenization 是非
网络知识：光纤收发器TX、RX介绍以及两者的区别

当我们远距离传输时通常会使用光纤来传输因为光纤的传输距离很远一般来说单模光纤的传输距离在10千米以上而多模光纤的传输距离最高也能达到2千米而在光纤网络中我们常常会使用到光纤收发器那么光纤收发器怎么连我们一起来了解下一光纤
自媒体月入过万的运营攻略，轻松上手

很多自媒体新手羡慕大V月入过万同是做自媒体运营为什么自己不能实现营收过万呢给大家分享一套月入过万的运营攻略适合新手们去操作收藏起来直接套用到运营哦 1 账号定位清晰的定位是影响后期变现的关键因素选一个后期容易变现的领域能帮自己
ajax net::err_connection_refused,javascript - How to handle net::ERR_CONNECTION_REFUSED in jquery aj...

It appears that when jqXHR readyState i e the readyState field of the first parameter to the ajax fail method is 0 that
调用织梦搜索功能

织梦默认的搜索框
使用C对TOML文件的解析

使用C对TOML文件的解析 toml书写语法解析toml文件测试输出内容如下 TOML是前GitHub CEO Tom Preston Werner 于2013年创建的语言其目标是成为一个小规模的易于使用的语义化配置文件格式 TOML
HJT212协议

HJ T212是由国家环保行业制定的数据传输标准协议目前广泛使用的是HJ T212 2005通信协议该协议在2005年制定并于2006年2月1日正式实施 HJ T212标准不规定数据采集传输仪与监控仪器仪表的通讯方式可以采用RS23
Mali GPU OpenGL ES 应用性能优化--基本概念

1 基本概念 1 1 Mali GPU家族 Mali GPU家族都包含以下通用的硬件基于分块的延迟渲染 Mali GPU把framebuffer分成许多块 16 x 16像素然后一块一块地进行渲染基于分块的渲染是有效的因为像素值使用
matlab中if elseif语句,Matlab if…elseif…elseif…else…end语句

if语句后面可以有一个或多个可选elseif 和一个else语句这对于测试各种条件非常有用当使用if elseif else语句时请记住几点 if可以有零个或一个else 它必须在elseif之后 if可以有零到多个elseif
(python编程)k-shell的实现

一 k shell 算法改错他发的代码报错 def kshell graph importance dict ks 1 while graph nodes temp node degrees dict for i in graph de
python之标准库使用

目录一标准库二字符串操作三字符串类型四时间操作五文件基本方法及操作文件基本方法文件操作一标准库 Python 标准库非常庞大所提供的组件涉及范围十分广泛正如以下内容目录所显示的这个库包含了 Python中的
Activiti7 监听器【十四】

Activiti 7系列文章目录文章代码下载 Activiti7 工作流设计器一 Activiti7 创建表二 Activiti7 表结构介绍三 Activiti7 设计器创建流程四 Activiti7 部署流程五 Activi
maven打包出错：Failed to execute goal org.sp

Failed to execute goal org springframework boot spring boot maven plugin 2 2 13 RELEASE repackage default on project bla
数学建模——数据分析方法

一常见数据分析软件 Excel office三件套之一 R语言 Eviews origin 图形分析工具 SPSS 统计分析与数据挖掘 MATLAB 墙裂推荐 python 墙裂推荐 SAS 二统计性描述均值 mean x

数学建模——数据分析方法

一、常见数据分析软件

二、统计性描述

三、数据的预处理

四、相关性分析

五、回归分析

数学建模——数据分析方法 的相关文章

随机推荐

热门标签

数学建模——数据分析方法的相关文章