机器学习:单或双变量常用分析技巧

2023-05-16

你好,我是你们的老朋友,zhenguo!

在机器学习EDA阶段,变量分析及可视化是常做的事情,这篇文章总结变量分析中,最常使用的单变量,双变量分析以及可视化。

单变量分析

单变量分析是指分析单个变量对目标变量的影响。

例如,在预测房屋价格的模型中,单变量分析可以探究房屋面积对价格的影响。

单变量分析中,常用到boxplot图,用来显示一个变量的分布情况,并且常用于离散变量。

import matplotlib.pyplot as plt

# 准备数据
data = [0, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 5]

# 绘制盒须图
plt.boxplot(data)
plt.show()
73b19f54ce6761efdd4eb591d396ccc2.png

双变量分析

双变量分析则是分析两个变量之间的关系。或者,两个变量联合对目标值的影响。

例如,在同样的房屋价格预测模型中,双变量分析可以探究房屋面积和房龄对价格的影响。

常用的分析技巧包括:

  • 散点图: 用来显示两个变量之间的关系,常用于连续变量

  • 回归分析: 用来确定两个变量之间的关系强度以及预测目标变量

  • 分类分析: 用来确定哪些变量最能预测目标变量属于哪一类

散点图确定两个变量之间的关系

下面是一个示例,展示了如何使用 matplotlib 绘制散点图:

import matplotlib.pyplot as plt

# 准备数据
x = [1, 2, 3, 4, 5]
y = [2, 5, 7, 9, 11]

# 绘制散点图
plt.scatter(x, y)
plt.show()

这段代码将会绘制一个显示 x 和 y 之间关系的散点图。

78182c9b537085cfebeb03e1a452a7ca.png

回归和分类分析

回归分析和分类分析可以使用 scikit-learn 库来实现。下面是一个例子,展示了如何使用 scikit-learn 进行线性回归分析:

from sklearn.linear_model import LinearRegression

# 准备数据
X = [[1], [2], [3], [4], [5]]
y = [2, 5, 7, 9, 11]

# 建立模型
model = LinearRegression()

# 训练模型
model.fit(X, y)


# 预测结果
print(model.predict([[6]]))

这段代码将会输出预测 x=6 时 y 的值。

下面是一个示例,展示了如何使用 scikit-learn 进行决策树分类分析

from sklearn.tree import DecisionTreeClassifier

# 准备数据
X = [[1, 2], [3, 4], [5, 6], [7, 8]]
y = [0, 0, 1, 1]

# 建立模型
model = DecisionTreeClassifier()

# 训练模型
model.fit(X, y)

# 预测结果
print(model.predict([[2, 3]]))

这段代码将会输出预测 x=[2, 3] 时 y 的类别。

以上就是理解单变量分析、双变量分析以及常用的分析技巧。

一起💪🏻

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习:单或双变量常用分析技巧 的相关文章

随机推荐

  • Java面试基础——异常基础知识+可查异常、非可查异常的处理方式和区别+try...catch..finally用法和陷阱总结

    工作日 x1f407 x1f407 x1f407 这两天在刷Java技能树 xff0c 刚好刷到异常 xff0c 也让我自己认识到很多的不足 xff0c 这里来总结一下 xff0c 感谢c站技能树 xff0c 这里有很多知识可以学习 x1f
  • 华为面试题错题集总结,你的Java基础过关了吗?

    x1f9ca x1f9ca x1f9ca 之前刷的题了 xff0c 现在特意回来总结一下 xff0c 最近太忙了 x1f617 x1f617 x1f617 也希望给今年准备秋招和明年春招的朋友给个小练习 xff0c 看看自己Java基础如何
  • Java多线程——并发知识(计算机内存模型、Java内存模型JMM、可见性理解)初恋版

    计算机内存模型和Java内存模型有着一定的关系 x1f916 x1f916 x1f916 而JMM的学习又和JVM有着直接的关系 x1f425 x1f425 x1f636 x1f32b x1f636 x1f32b x1f636 x1f32b
  • 使用Sphinx阅读rst格式的文档

    背景 Sphinx是一个开源软件 xff0c 可以生成python项目的文档 xff0c 在很多github上的项目 xff0c 当你打开doc下的相关文档文件时 xff0c 往往可以看见rst格式的文件 xff0c 这些文件就是用sphi
  • oracle新增控制文件遇到的问题

    最近在学oracle xff0c 看的是林树泽 卢芬编著的 oracle 11g r2 DBA操作指南 在新增控制文件的时候写了一个带有中文的路径 xff0c 步骤如下 xff1a alter system set control file
  • 算法描述的一般格式和设计步骤

    通常用C C 43 43 函数来描述算法 算法描述的一般格式如下 返回值 算法对应的函数名 xff08 形参列表 xff09 临时变量的定义 实现由输入参数到输出参数的操作 函数体 其中 xff0c 39 返回值 通常为bool类型 xff
  • 清除浏览器js和css缓存

    原文链接 xff1a https jingyan baidu com article acf728fd5986aff8e510a32a html 方法 xff1a 1 ctrl 43 F5 强制刷新 2 如果刷新浏览器无法清除js的缓存 x
  • 统计学 常用的数据分析方法大总结,推荐收藏

    作者 xff1a 阿平 64 zhihu 来源 xff1a 知乎 一 描述统计 描述统计是通过图表或数学方法 xff0c 对数据资料进行整理 分析 xff0c 并对数据的分布状态 数字特征和随机变量之间关系进行估计和描述的方法 描述统计分为
  • 手把手教你研发自己的智能无人机

    1 让智能无人机梦想变成现实 对于大多数极客学员来说 xff0c 自己组装一台无人机 xff0c 可以航拍 xff0c 可以目标跟踪 xff0c 是心中
  • 软件工程复习之软件生命周期

    生命周期 基本概念 xff1a 生命周期 xff1a 1995过程的划分 xff1a 基本过程 xff1a 开发过程包含的活动 xff1a 过程实现包含任务系统需求分析包含任务系统体系结构设计包含任务软件需求分析软件体系结构设计包含任务 支
  • 先验分布与后验分布,认真看看这篇

    此文主要参考 huaxiaozhuan com 编辑 Python与算法社区 公众号 在贝叶斯学派中 xff0c 先验分布 43 数据 xff08 似然 xff09 61 后验分布 例如 xff1a 假设需要识别一大箱苹果中的好苹果 坏苹果
  • 置信度&置信区间,这篇讲解我给100分!

    今天这篇聊聊统计学里面的置信度和置信区间 xff0c 好像没怎写过统计学的东西 xff0c 这篇试着写一写 1 点估计 在讲置信度和置信区间之前先讲讲点估计 xff0c 那什么是点估计呢 xff1f 给你举两个例子你就知道了 现在你想要知道
  • sklearn 实战指南

    0 引言 Sklearn 全称 Scikit Learn 是基于 Python 语言的机器学习工具 它建立在 NumPy SciPy Pandas 和 Matplotlib 之上 xff0c 里面的 API 的设计非常好 xff0c 所有对
  • 绘制频率分布直方图的三种方法,总结的很用心!

    直方图能帮助迅速了解数据的分布形态 xff0c 将观测数据分组 xff0c 并以柱状条表示各分组中观测数据的个数 简单而有效的可视化方法 xff0c 可检测数据是否有问题 xff0c 也可看出数据是否遵从某种已知分布 本次案例通过生成深圳市
  • Python 列表如何转化为二叉树?

    Day46 列表转化为二叉树 已知列表nums xff0c 将其转化为二叉树 举例 xff1a nums 61 3 9 20 None None 15 7 xff0c 转化为二叉树后 节点3的左子节点9 xff0c 右子节点20 xff0c
  • Peter Norvig 给程序员们的一份传世典文:10年编程无师自通

    你好 xff0c 我是zhenguo 这篇文章的作者 xff1a Peter Norvig xff0c 可以说是程序员中最牛叉的人物之一 xff0c 现任谷歌研究总监 xff0c 是誉满全球的人工智能专家 xff0c 著有 Artifici
  • 全球最优秀的14位程序员

    接下来带你一起膜拜大神 xff08 排名不分先后 xff09 1 Linus Torvalds Linus Torvalds 是开源操作系统Linux和Git之父 1997 2003年 xff0c Torvalds在硅谷Transmeta
  • 《数据分析咖哥十话》包邮送3本

    文末留言包邮送三本 小雪求职记 入秋以来 xff0c 市场就开始不景气 xff0c 我们的女主人公小雪从一家互联网公司的运营岗毕 xff08 cai xff09 业 xff08 yuan xff09 以来 xff0c 三个月都没接到任何面试
  • 梳理机器学习常用算法(含深度学习)

    你好 xff0c 我是你们的老朋友 xff0c zhenguo xff01 机器学习的任务主要分为三类 xff1a 监督学习非监督学习强化学习 监督学习是指在训练过程中 xff0c 模型是根据给定的输入和输出标签来学习的 监督学习的任务主要
  • 机器学习:单或双变量常用分析技巧

    你好 xff0c 我是你们的老朋友 xff0c zhenguo xff01 在机器学习EDA阶段 xff0c 变量分析及可视化是常做的事情 xff0c 这篇文章总结变量分析中 xff0c 最常使用的单变量 xff0c 双变量分析以及可视化