数学建模——数据分析方法

2023-10-31

一、常见数据分析软件

Excel(office三件套之一)、R语言、Eviews、origin(图形分析工具)、SPSS(统计分析与数据挖掘)
MATLAB(墙裂推荐)、python(墙裂推荐)、SAS

二、统计性描述

  1. 均值(mean) x ˉ = 1 n ∑ i = 1 n x i \bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i} xˉ=n1i=1nxi
  2. 方差(var)、均方差(std): S 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 , S = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 \quad S^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}, S=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}} S2=n11i=1n(xixˉ)2,S=n11i=1n(xixˉ)2
    (与传统的方差不同,这里除以的是n-1)
  3. 偏度(df.skewness):标准化三阶中心矩阵,反映对称性,当其值大于0时,此时数据位于均值右侧的比位于左侧的多
    s k = 1 n ∑ i = 1 n ( x i − x ˉ ) 3 s 3 s_{k}=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{3}}{s^{3}} sk=s3n1i=1n(xixˉ)3
  4. 峰度(df.kurt):标准化四阶中心矩阵,当其值大于3时,表示分布有沉重的尾巴,说明样本有较多远离均值的数据 G 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 4 ( 1 n ∑ i = 1 n ( x 1 − x ˉ ) 2 ) 2 − 3 G_{2}=\frac{\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{4}}{\left(\frac{1}{n} \sum_{i=1}^{n}\left(x_{1}-\bar{x}\right)^{2}\right)^{2}}-3 G2=(n1i=1n(x1xˉ)2)2n1i=1n(xixˉ)43
  5. 分位数(df.quantile( p )):若概率0<p<1,随机变量X或他的概率分布的分位数Za是指满足条件p(X < Za)=α的实数

三、数据的预处理

  1. 缺漏数据的处理
    • 删掉这条数据:df.dropna(axis=0,how="any",inplace=False)
    • 用均值填充:
    	means = df[].mean()
    	df[].fillna(means)
    
    • 用中位数来填补
    	medians = df[].median()
    	df[].fillna(medians)
    
    • 用众数来填补
    	modes = df[].mode()
    	df[].fillna(modes)
    
  2. 数据的标准化:
    最大最小值标准化和均值标准化
    x i ′ = x i − x min ⁡ x max ⁡ − x min ⁡ x i ′ = x i − x s x_{i}^{\prime}=\frac{x_{i}-x_{\min }}{x_{\max }-x_{\min }} \quad x_{i}^{\prime}=\frac{x_{i}-x}{s} xi=xmaxxminxixminxi=sxix
    	# 最大最小值标准化
    	def max_min_std(data):
    	    m_max = data.max(axis=0)
    	    m_min = data.min(axis=0)
    	    data = (data - m_min)/(m_max-m_min)
    	    return data
    	
    	#均值标准化
    	def mean_std(data):
    	    m_mean = data.mean(axis=0)
    	    m_std = data.std(axis=0)
    	    data = (data - m_mean)/m_std
    	    return data	
    

四、相关性分析

  1. 如何判断各因素之间是否相关?
    1. pearson相关系数(df.corr(method = ))
    r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 r=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} \sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}} r=i=1n(xixˉ)2i=1n(yiyˉ)2 i=1n(xixˉ)(yiyˉ)
    2. spearman,kendall相关系数
  2. 相关程度有多大?
    1. 当R>0时,正相关,R<0时,负相关
    2. R的绝对值越接近1,表示两个变量越接近线性关系
    3. R的绝对值越接近0,表示两个变量越没有相关系
    4. R的绝对值大于0.8时,视为高度相关
    5. R的绝对值介于0.5~0.8时,视为中度相关
    6. R的绝对值小于0.3时,视为不相关

五、回归分析

  1. 多元线性回归模型:
    y = β 0 + β 1 x 1 + β 2 x 2 + … + β p x p + ε y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{p} x_{p}+\varepsilon y=β0+β1x1+β2x2++βpxp+ε
    其中的 β i \beta_{i} βi是回归系数
from sklearn.linear_model import LinearRegression
linear = LinearRegression()
model = linear.fix(x,y)
print("截距:")
print(linear.intercept_)
print("回归系数:")
print(linear.coef_)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数学建模——数据分析方法 的相关文章

随机推荐

  • ELK系列(九)、配置ES和Kibana的用户密码

    前面介绍的都是没有设置密码的情况 ES默认没有密码 什么数据泄露的新闻简直是家常便饭 所以这里还是建议大家给ES和kibana设置用户登陆 或者使用nginx限制IP或用户访问 本文介绍ELK自带的创建用户的方式 ELK系列 一 安装Ela
  • CSDN编程竞赛第六期

    CSDN编程竞赛报名地址 https edu csdn net contest detail 16 本次是我第二次参加CSDN举办的编程竞赛 这一次的题相比上一次简单不少 对编程新人或者刚开始学习算法的人很友好 前言 背景 本次CSDN编程
  • 服务器管理系统是什么

    服务器管理系统是什么 服务器管理系统 是在操作系统下对操作系统的服务器软件及其相关软件进行二次设置的管理软件 是运营商管理域名 服务器 企业邮局 数据库等服务器主机类产品的一个网站平台 以达到快捷实现域名 服务器主机 企业邮局 数据库等产品
  • C#连接数据库SQlServer+Form窗格实现简单动态增删查改操作

    C 连接数据库SQlServer Form窗格实现简单动态增删查改操作 一 数据库连接 数据库连接部分学习自该博主原创博客 点击即可跳转 再附上该博主的博客链接 https blog csdn net kiss soul article d
  • 深度学习去运动模糊----《DeblurGAN》

    前言 现实生活中 大多数图片是模糊不清的 试想一下 追剧时视频不清晰 看着都很捉急 何况现实中好端端的一幅美景 美女也可以 被抓拍得不忍直视 瞬间暴躁 拍照时手抖 或者画面中的物体运动都会让画面模糊 女友辛辛苦苦摆好的各种Pose也将淹没在
  • 海湾主机汉字注释表打字出_海湾报警主机(JB-QG-GST5000)操作手册

    报警主机正面示意图 报警主机内部结构图 控制器 模块总线 通讯总线 联动电源输出端子示意图 A1 B1 An Bn RS 485有极性通讯线端子 接火灾报警显示盘 GND 24V LD D02电源盘对外输出端子 保护地 此端子与机壳相连 接
  • NLP技术中的Tokenization

    作者 Gam Waiciu 单位 QTrade AI研发中心 研究方向 自然语言处理 前言 今天我们来聊一聊 NLP 技术中的 Tokenization 之所以想要聊这个话题 是因为 一方面在 NLP 技术中 Tokenization 是非
  • 网络知识:光纤收发器TX、RX介绍以及两者的区别

    当我们远距离传输时 通常会使用光纤来传输 因为光纤的传输距离很远 一般来说单模光纤的传输距离在10千米以上 而多模光纤的传输距离最高也能达到2千米 而在光纤网络中 我们常常会使用到光纤收发器 那么光纤收发器怎么连 我们一起来了解下 一 光纤
  • 自媒体月入过万的运营攻略,轻松上手

    很多自媒体新手羡慕大V月入过万 同是做自媒体运营 为什么自己不能实现营收过万呢 给大家分享一套月入过万的运营攻略 适合新手们去操作 收藏起来直接套用到运营哦 1 账号定位 清晰的定位是影响后期变现的关键因素 选一个后期容易变现的领域能帮自己
  • ajax net::err_connection_refused,javascript - How to handle net::ERR_CONNECTION_REFUSED in jquery aj...

    It appears that when jqXHR readyState i e the readyState field of the first parameter to the ajax fail method is 0 that
  • 调用织梦搜索功能

    织梦默认的搜索框
  • 使用C对TOML文件的解析

    使用C对TOML文件的解析 toml书写语法 解析toml文件 测试输出内容如下 TOML是前GitHub CEO Tom Preston Werner 于2013年创建的语言 其目标是成为一个小规模的易于使用的语义化配置文件格式 TOML
  • HJT212协议

    HJ T212是由国家环保行业制定的数据传输标准协议 目前广泛使用的是HJ T212 2005通信协议 该协议在2005年制定 并于2006年2月1日正式实施 HJ T212标准不规定数据采集传输仪与监控仪器仪表的通讯方式 可以采用RS23
  • Mali GPU OpenGL ES 应用性能优化--基本概念

    1 基本概念 1 1 Mali GPU家族 Mali GPU家族都包含以下通用的硬件 基于分块的延迟渲染 Mali GPU把framebuffer分成许多块 16 x 16像素 然后一块一块地进行渲染 基于分块的渲染是有效的 因为像素值使用
  • matlab中if elseif语句,Matlab if…elseif…elseif…else…end语句

    if语句后面可以有一个 或多个 可选elseif 和一个else语句 这对于测试各种条件非常有用 当使用if elseif else语句时 请记住几点 if可以有零个或一个else 它必须在elseif之后 if可以有零到多个elseif
  • (python编程)k-shell的实现

    一 k shell 算法 改错 他发的代码报错 def kshell graph importance dict ks 1 while graph nodes temp node degrees dict for i in graph de
  • python之标准库使用

    目录 一 标准库 二 字符串操作 三 字符串类型 四 时间操作 五 文件基本方法及操作 文件基本方法 文件操作 一 标准库 Python 标准库非常庞大 所提供的组件涉及范围十分广泛 正如以下内容目录所显示的 这个库包含了 Python中的
  • Activiti7 监听器【十四】

    Activiti 7系列文章目录 文章代码下载 Activiti7 工作流设计器 一 Activiti7 创建表 二 Activiti7 表结构介绍 三 Activiti7 设计器创建流程 四 Activiti7 部署流程 五 Activi
  • maven打包出错:Failed to execute goal org.sp

    Failed to execute goal org springframework boot spring boot maven plugin 2 2 13 RELEASE repackage default on project bla
  • 数学建模——数据分析方法

    一 常见数据分析软件 Excel office三件套之一 R语言 Eviews origin 图形分析工具 SPSS 统计分析与数据挖掘 MATLAB 墙裂推荐 python 墙裂推荐 SAS 二 统计性描述 均值 mean x