数据挖掘 第一天(Jupyter-Notebook的使用)

2023-11-16

Jupyter-Notebook

下载Jupyter,matplotlib

pip install jupyter -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install matplotlib-i https://pypi.tuna.tsinghua.edu.cn/simple

启动jupyter-Notebook服务

jupyter-notebook

会自动弹出
在这里插入图片描述
如果没有打开
在这里插入图片描述
关闭notebook服务

虚拟机命令行按下快捷键CTRL+C,5秒内输入y关闭服务,否则服务不会关闭需要再按 CTRL+C

注意:如果虚拟机或宿主机电脑开启某些WEB相关服务(如网络代理或去广告服务),可能会导致Jupyter Notebook无法运行

在这里插入图片描述
工具栏操作
在这里插入图片描述

折线图

先导入包,并点击运行

import matplotlib.pyplot as plt
import random

在这里插入图片描述
写入折线代码,并运行

# 指定画版的大小和分辨率
plt.figure(figsize=(6,6), dpi=100)
# 绘制一条线时,x轴可以省略,默认用y轴数据的索引代替
plt.plot([0,2,4,6,8]) # 默认Y轴坐标

plt.plot([0,2,4,6,8],[1,5,3,9,7]) # X轴坐标值,Y轴坐标值

plt.show() #显示图片

运行结果
在这里插入图片描述

条形图/柱状图的绘制

代码

# 指定画版的大小和分辨率
plt.figure(figsize=(6,6), dpi=100)
x = [1,2,3,4,5]
y = [3,6,1,8,2]

# 柱状图,x轴为单个柱子,y轴为柱子高度,Width用于柱子粗细
plt.bar(x, y)
plt.show()

# 条形图,注意x,y含义
plt.barh(
    x, # 横条离开x轴的距离
    y, # 横条长度
    height=0.5, # 横条粗细
)
# y轴标注
plt.yticks(x,['a','b','c','d','e'])
# x轴标注
plt.xticks([2,4,6,8,10],['2','4','6','8','10'])
plt.show()

运行效果
在这里插入图片描述

直方图

代码

import matplotlib.pyplot as plt
import random
from matplotlib import font_manager
my_font = font_manager.FontProperties(fname="/home/halon/桌面/caogao/arial unicode ms.ttf")

# 直方图统计电影市场的頻数
plt.figure(figsize=(15, 6), dpi=100)

# 准备时长
time =[131,  98, 125, 131, 124, 139, 131, 117, 128, 108, 135, 138, 131, 102, 107, 114, 119, 128, 121, 142, 127, 130, 124, 101, 110, 116, 117, 110, 128, 128, 115,  99, 136, 126, 134,  95, 138, 117, 111,78, 132, 124, 113, 150, 110, 117,  86,  95, 144, 105, 126, 130,126, 130, 126, 116, 123, 106, 112, 138, 123,  86, 101,  99, 136,123, 117, 119, 105, 137, 123, 128, 125, 104, 109, 134, 125, 127,105, 120, 107, 129, 116, 108, 132, 103, 136, 118, 102, 120, 114,105, 115, 132, 145, 119, 121, 112, 139, 125, 138, 109, 132, 134,156, 106, 117, 127, 144, 139, 139, 119, 140,  83, 110, 102,123,107, 143, 115, 136, 118, 139, 123, 112, 118, 125, 109, 119, 133,112, 114, 122, 109, 106, 123, 116, 131, 127, 115, 118, 112, 135,115, 146, 137, 116, 103, 144,  83, 123, 111, 110, 111, 100, 154,136, 100, 118, 119, 133, 134, 106, 129, 126, 110, 111, 109, 141,120, 117, 106, 149, 122, 122, 110, 118, 127, 121, 114, 125, 126,114, 140, 103, 130, 141, 117, 106, 114, 121, 114, 133, 137,  92,121, 112, 146,  97, 137, 105,  98, 117, 112,  81,  97, 139, 113,134, 106, 144, 110, 137, 137, 111, 104, 117, 100, 111, 101, 110,105, 129, 137, 112, 120, 113, 133, 112,  83,  94, 146, 133, 101,131, 116, 111,  84, 137, 115, 122, 106, 144, 109, 123, 116, 111,111, 133, 150]

# 指定组距
width = 5

# 组数
num_bins = int((max(time) - min(time))/width)

# 显示直方图
plt.hist(x=time,bins=num_bins,density=True)

#指定显示刻度的个数
plt.xticks(range(min(time),max(time))[::5])

# 指定标题
plt.title('250个电影的时长分布图',fontdict={"fontproperties":my_font})
plt.grid(True,linestyle="--",alpha=0.5)
plt.show()

效果图
在这里插入图片描述

饼图

代码

# 饼图大小
plt.figure(figsize=(15, 6), dpi=100)
# 国名
mark = ['America','China','India','Saudi','Russia','Japan','Britain','Germany','France']
# 各国占9国总军费的比例
percent = [0.5548467,0.14444868,0.05094268,0.04846696,0.046753,0.04418206,0.04161112,0.03799276,0.03075605]

plt.pie(
    percent,  # 百分比
    labels = mark,  # 名称
    explode=(0,0.1,0,0,0,0,0,0,0),  # 突出块,突出比例
    autopct='%1.1f%%',  # 显示百分比方式
    shadow=False,  # 阴影效果
    startangle=-110,  # 饼图起始的角度,度数,默认0为右侧水平180度开始,逆时针旋转
)

plt.axis('equal') #正圆形饼图,x/y轴尺寸相等.默认是扁图,

plt.show()

效果图
在这里插入图片描述

离散图

plt.figure(figsize=(10, 6), dpi=100)

my_font = font_manager.FontProperties(fname="/home/halon/桌面/caogao/arial unicode ms.ttf")
# 设置背景色为灰色
plt.rcParams['axes.facecolor'] = '#ebebeb'
# 年龄
age = [34,40,37,30,44,36,32,26,32,36]
# 收入
income = [350,450,169,189,183,80,166,120,75,40]
# 销售额
sales = [123,114,135,139,117,121,133,140,133,133]

# 年龄,销售额,散点图
plt.scatter(age, sales)
# 收入,销售额,散点图
plt.scatter(income, sales)
plt.plot(age[::4],sales[::4])
# 指定标题
plt.title("散点图",fontdict={"fontproperties":my_font})
plt.grid(linewidth=0.2)
plt.show()

效果图
在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据挖掘 第一天(Jupyter-Notebook的使用) 的相关文章

  • 从数据框中按索引删除行

    我有一个数组wrong indexes train其中包含我想从数据框中删除的索引列表 0 63 151 469 1008 要删除这些索引 我正在尝试这样做 df train drop wrong indexes train 但是 代码失败
  • Python中Decimal类型的澄清

    每个人都知道 或者至少 每个程序员都应该知道 http docs oracle com cd E19957 01 806 3568 ncg goldberg html 即使用float类型可能会导致精度错误 然而 在某些情况下 精确的解决方
  • 如何在 AWS CDK 创建的 Python Lambda 函数中安装外部模块?

    我在 Cloud9 中使用 Python AWS CDK 并且我部署简单的 Lambda 函数那应该是发送 API 请求到 Atlassian 的 API当对象上传到 S3 存储桶时 也是由 CDK 创建的 这是我的 CDK 堆栈代码 fr
  • Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

    这是漫长的一天 我有点困惑 我正在读取一个包含大量宽字符字符串的二进制文件 我想将它们转储为 Python unicode 字符串 为了解压非字符串数据 我使用 struct 模块 但我不知道如何对字符串执行相同的操作 例如 阅读 系列 一
  • 使用 python 进行串行数据记录

    Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件 我在读取数据方面取得了一些进展 但尚未成功地将这些信息存储在新文件中 这是我的代码 from future import print function import se
  • python 中的代表

    我实现了这个简短的示例来尝试演示一个简单的委托模式 我的问题是 这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
  • 如何迭代按值排序的 Python 字典?

    我有一本字典 比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键 换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
  • 在 Python distutils 中从 setup.py 查找脚本目录的正确方法?

    我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
  • 通过列表理解压平列表列表

    我正在尝试使用 python 中的列表理解来展平列表 我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目 我编写了这个函数 def flat listoflist for item in listoflis
  • 将数据帧行转换为字典

    我有像下面的示例数据这样的数据帧 我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典 但是当我使用 to dict 时 我得到了索引和列值 有谁知道如何将行转换为像所需输出那样的字典 任何提示都非常感激 Sample data pri
  • 如何计算numpy数组中元素的频率?

    我有一个 3 D numpy 数组 其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素 我只显示了几个元素 array 136 129 130 103 102 101 我
  • 切片 Dataframe 时出现 KeyError

    我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
  • Python urllib.request.urlopen:AttributeError:'bytes'对象没有属性'data'

    我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹 我对SO进行了很多研究 但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
  • 如何从Python中的字符串中提取变量名称和值

    我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量 更具体地说 我对字典变量感兴趣 这样我就可以获得变量的值 id和name python 这是由提供
  • 如何设置 Celery 来调用自定义工作器初始化?

    我对 Celery 很陌生 我一直在尝试设置一个具有 2 个独立队列的项目 一个用于计算 另一个用于执行 到目前为止 一切都很好 我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类 每个工作人员一个 id 我想知
  • Pandas 根据 diff 列形成簇

    我正在尝试使用 Pandas 根据表示时间 以秒为单位 的列中的差异来消除数据框中的一些接近重复项 例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
  • 使用yield 进行字典理解

    作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
  • Tkinter - 浮动窗口 - 调整大小

    灵感来自this https stackoverflow com a 22424245 13629335问题 我想为我的根窗口编写自己的调整大小函数 但我刚刚注意到我的代码显示了一些性能问题 如果你快速调整它的大小 你会发现窗口没有像我希望
  • Ubuntu 上的 Python 2.7

    我是 Python 新手 正在 Linux 机器 Ubuntu 10 10 上工作 它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能 有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是 如
  • 限制 django 应用程序模型中的单个记录?

    我想使用模型来保存 django 应用程序的系统设置 因此 我想限制该模型 使其只能有一条记录 极限怎么办 尝试这个 class MyModel models Model onefield models CharField The fiel

随机推荐

  • TCP报文段结构

    TCP报文段结构 源端口号和目的端口号 含义从名字就能看出来 序号和确认号 这二个字段被 TCP 发送方和接收方用来实现可靠数据传输服务 每个字段都是32比特 接收窗口 该字段用于流量控制 大小为16比特 首部长度 该字段指示了以 32 比
  • 12串口通信的定义-2

    1 设备状态信号线 数据装置准备好 DSR 高电平有效 数据终端准备好 DTR 高电平有效 2 请求发送 RTS 当数据终端设备 DTE 要发 允许发送 CTS 是对请求发送信号 RTS 的 3 接收控制线 载波检测 DCD 当数据通信设备
  • ultraiso 下载+破解+Linux U盘启动制作

    1 到官网下载ultraiso https cn ultraiso net xiazai html 2 将该软件安装到windows上 打开输入注册码进行破解 用户名 Guanjiu 注册码 A06C 83A7 701D 6CFC 3 破解
  • 处理雪花算法等造成的精度丢失问题

    前端js精度丢失因为number处理的是16位 雪花算法是19位 在前后端交互的时候就会造成精度损失 方法一 如果是专门针对某一个Id的话 JsonSerialize using ToStringSerializer class 注解可以实
  • c++数据结构第六周(图),深搜、广搜(stl版)

    本方法皆用vector进行邻接表模拟 7 1 图的先深搜索 作者 唐艳琴 单位 中国人民解放军陆军工程大学 输出无向图的给定起点的先深序列 输入格式 输入第一行给出三个正整数 分别表示无向图的节点数N 1
  • 秒杀系统中常见问题及解决方案

    秒杀中的常见问题的解决 1 解决超卖的问题 1 Redis预减库存 有一个下单请求过来时预减库存 若减完后的redis库存小于0说明已经卖完 此时直接返回客户端已经卖完 后续使用内存标记 减少Redis访问 若预减库存成功 则异步下单 请求
  • DateFormat setLenient

    SimpleDateFormat df new SimpleDateFormat MMddyyyy With lenient parsing the parser may use heuristics to interpret inputs
  • 惠普服务器关机自动重启,HP笔记本关机自动重启的解决办法

    部分型号的HP笔记本会在点击关机按钮的时候出现自动重启的现象 如 DV2803 V3608TX 这个是网卡的Wake On Lan功能而引起的 也就是网络唤醒功能 方法一 解决办法是在开机启动时按F10 进入bios设置界面 选择 系统设定
  • 为什么现在不看好 CV 方向了呢?

    来源 https www zhihu com question 383486199 编辑 深度学习与计算机视觉 声明 仅做学术分享 侵删 作者 匿名用户https www zhihu com question 383486199 answe
  • Android--图片轮播(banner)

    推荐第三方框架banner 地址 https github com youth5201314 banner 使用步骤 Step 1 依赖banner Gradle dependencies compile com youth banner
  • 进程控制-进程终止(exit、_exit)

    知道了进程怎么创建 接下来就来看看怎么终止一个进程终止函数exit 和 exit 函数 头文件 声明 exit stdlib h void exit int status exit unistd h void exit int status
  • hadoop和spark读取GBK编码乱码

    转自 http www cnblogs com teagnes p 6112019 html 首先来看一下为什么会出现这个问题 下面是一个最简单的spark的wordcount程序 sc textFile filePath 方法从文本文件创
  • u8系统怎么连接服务器,u8服务器和客户端怎么连接服务器

    u8服务器和客户端怎么连接服务器 内容精选 换一换 Linux云服务器一般采用SSH连接方式 使用密钥对进行安全地无密码访问 但是SSH连接一般都是字符界面 有时我们需要使用图形界面进行一些复杂操作 本文以Ubuntu 18 04操作系统为
  • 【华为OD机试真题 Java】英文句子倒序

    前言 本专栏将持续更新华为OD机试题目 并进行详细的分析与解答 包含完整的代码实现 希望可以帮助到正在努力的你 关于OD机试流程 面经 面试指导等 如有任何疑问 欢迎联系我 wechat steven moda email nansun09
  • 解决谷歌浏览器在F12情况下自动断点问题Paused in debugger

    解决谷歌浏览器在F12情况下自动断点问题 Paused in debugger 最近在使用谷歌浏览器在调试js脚本的时候 每次按F12 再刷新页面 都会跳出如上图所示的图标 自动进入断点调试 如果不想让它自动断点可以按一下3步去设置 1 打
  • 什么是对象存储OSS,看完你就懂了

    伴随着业务的发展 企业经营规模的扩张 存储需求量不断增加 这时候就需要一种方法让数据处理起来更简单 另外支持扩展性 便于访问信息 对象存储就是图片 音频 视频等非结构化数据的数据池 相对于主机服务器 具有读写速度快 有利于分享的特点 那么
  • Docker-Compose.yml详解

    说在前面 本文是基于version 3 build 在构建时应用的配置选项 build 可以指定为包含构建上下文路径的字符串 version 3 7 services webapp build dir 或者 作为具有在context下指定的
  • Leetcode刷题-312 :戳气球

    刷题记录 1 题目介绍 2 题目分析 2 1 穷举不可行 2 2 区间层次的动态规划 3 题目解答 1 题目介绍 有 n 个气球 编号为0 到 n 1 每个气球上都标有一个数字 这些数字存在数组 nums 中 现在要求你戳破所有的气球 戳破
  • 以太坊构建本地私有网络

    以太坊网络 以太网网络的实时的统计数据信息可以在EthStats net https ethstats net 上查看 这网站上包含了许多重要的数据 如当前区块 交易 gas价格等 这页面上展示的节点只是实际网络中的节点的一部分 任何人都可
  • 数据挖掘 第一天(Jupyter-Notebook的使用)

    Jupyter Notebook 下载Jupyter matplotlib pip install jupyter i https pypi tuna tsinghua edu cn simple pip install matplotli