经典不衰数据可视化项目第一节（共享单车项目）

2023-10-27

1.1，首先导入包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import calendar  # 日历
import warnings
warnings.filterwarnings('ignore')

1.2，导入数据集及处理数据集

data = pd.read_csv('train.csv')
data.info()
print(data.head(10))
print(data.describe())

经典的数据集查看三连，可以得出一下

分别获取月份，天，小时的信息

#获取月份信息
def get_month(md):  #2011-01-01 00:00:00
   #返回时间的datetime对象
   #month_obj = datetime.datetime.strptime(md,'%Y-%m-%d %H:%M:%S')
   month_obj = datetime.datetime.fromisoformat(md)
   #返回datetime中对应的月份信息
   return month_obj.month
#获取天的信息
def get_day(md):   #2011-01-01 00:00:00
   #返回时间的datetime对象
   day_obj = datetime.datetime.fromisoformat(md)
   #返回datetime中对应的月份信息
   return day_obj.day
#获取小时信息
def get_hour(md):
   #返回时间的datetime对象
   hour_onj = datetime.datetime.formisoformat(md)
   #返回datetime中对应的月份信息
   return hour)obj.hour

python时间处理datetime模块的datetime对象提供的fromisoformat方法将符合isoformat时间格式的字符串转为datetime对象,比如“2022-06-02”和“2022-06-02 07：39：00”,这种方式比较简便，因此传统代码注释供参考

将月份，天，小时添加到data中

date['month'] = date['datetime'].map(get_month)
date['day'] = date['datetime'].map(get_day)
date['hour'] = date['datetime'].map(get_hour)

调用刚刚创建的三个函数

# 获取月份名字
def creat_month_name(n):
    # 返回datetime中对应的月份信息
    month_value = datetime.datetime.fromisoformat(n).month
    return calendar.month_name[month_value]

# 获取天的名字
def creat_day_name(n):
    # 返回datetime中对应的月份信息
    day_value = datetime.datetime.fromisoformat(n).weekday()
    return calendar.month_name[day_value]

# 添加月份和星期名字到字段中
data['month_name'] = data['datetime'].map(creat_month_name)
data['day_name'] = data['datetime'].map(creat_day_name)

设置时间段函数，并添加时间段字段

def creat_hour_type(n):
    if 0 <= n <=6:
       return 1
    elif 7 <= n <= 10:
       return 2
    elif 11 <= n <=15:
       return 3
    elif 16 <= n <= 20:
       return 4
    else:
       return 5

#添加时间段字段
data['hour_tyoe'] = data['hour'].map(creat_hour_type)
data.info()

如图将一天二十四个小时划分为五个时间段字段

下面就开始简单的绘图了

sns.pointplot(data=data,x='hour',y='count')
plt.show()

可以简单的看到随着一天中二十四个小时的变化骑行人数随之变化

sns.pointplot(data=data,x='hour_type',y='count')
plt.show()

可以从字段中简要看出五个时间段中骑行人数在一天中的大致变化

sns.pointplot(data=data, x='month', y='count')
plt.show()

如图，这是一年十二个月骑行人数大致的变化趋势

上面三张图都为线性图，现在为大家上两张箱型图进一步了解数据集

sns.boxplot(
    data=data,
    y='count',
)
plt.show()

sns.boxplot(
    data=data,
    x='season',
    y='count',
)
plt.show()

以上简单了解一下数据集后咱们进入下一步

对数据集进行处理

# iloc ----> 需要使用字段索引或行索引，对数据切分获取，iloc[:,9]
# loc  ----> 需要使用字段名或行名对数据进行切分获取  ，loc[:,['count']]

介绍一下两种划分数据集的方法后，咱们进行截取骑行量数据

dd_count = data.loc[:, ['count']]

 # 骑行量的均值
dd_count_mean = np.mean(dd_count)



# 骑行量的标准差
dd_count_std = np.std(dd_count)

获取这些数据后咱们再通过上面两种箱型图可以看出来有很多的异常值，这里也可以说成噪声，首先说一下噪声的判断条件： 数据点 - 均值 > 3 * 标准差

通过距离值与三倍的标准差相比，大的就是异常值，否则就是正常，直接上代码

dd_count = dd_count - dd_count_mean
noie_opt = dd_count > 3 * dd_count_std
noie_opt_valu = noie_opt.values.flatten()

之后咱们获取一下非噪声数据

～对当前数据取反

dd_data_good = data.loc[~noie_opt_valu, :]

非噪声数据取出后咱们画一张热力图看一下

heat_map_list = ['count', 'weather', 'temp', 'atemp', 'windspeed', 'casual', 'registered']
# 取出上面列表中的字段数据
dd_data_keep = dd_data_good.loc[:, heat_map_list]
# 计算皮尔逊相关系数
dd_data_keep_corr = dd_data_keep.corr()
sns.heatmap(
    data=dd_data_keep_corr,
    annot=True
)
plt.show()

简要了解后进入正题

咱们先分析一下不同季节对骑行量的影响

按照‘season’字段进行分组，并得到分组后字段的平均值

season_gd = dd_data_good.groupby(by=['season']).mean()

        holiday  workingday   weather  ...        day       hour  hour_type
season                                  ...
1       0.026473    0.680089  1.425056  ...   9.960477  11.633482   2.736018
2       0.017817    0.688196  1.427246  ...   9.990349  11.426503   2.692279
3       0.036036    0.667417  1.368619  ...   9.981231  11.383634   2.682432
4       0.035569    0.671360  1.461282  ...  10.000741  11.473138   2.702112

# 重置索引
season_gd_good = season_gd.reset_index()

    season   holiday  workingday  ...        day       hour  hour_type
0       1  0.026473    0.680089  ...   9.960477  11.633482   2.736018
1       2  0.017817    0.688196  ...   9.990349  11.426503   2.692279
2       3  0.036036    0.667417  ...   9.981231  11.383634   2.682432
3       4  0.035569    0.671360  ...  10.000741  11.473138   2.702112

#上条形图
sns.barplot(
    data=season_gd_good,
    x='season',
    y='count'
)
plt.show()

# # 按照'season'，'hour'字段进行分组统计
season_gd = dd_data_good.groupby(by=['season', 'hour']).mean().reset_index()
sns.barplot(
    data=season_gd,
    x='hour',
    y='count',
    hue='season'
)
plt.show()

上完图后咱们进一步处理数据

删除冗余字段 datetime month hour

dd_data_good.drop('datetime', inplace=True, axis=1)
dd_data_good.drop('month', inplace=True, axis=1)
dd_data_good.drop('hour', inplace=True, axis=1)

穿插一点小知识点

离散型：人为定义的数据，都是自然数 ，可数的   obj/int -----> 独热
连续型：在某一个区间之内【35，37。2】 float64 -----> 标准化/归一化

#独热处理离散型数据
dd_data_good = pd.get_dummies(data=dd_data_good, columns=['season', 'month_name', 'day_name', 'hour_type', 'weather'])
#进行特征缩放，导入标准化包
from sklearn.preprocessing import StandardScaler
fs_list = ['temp', 'atemp', 'windspeed', 'humidity', 'casual', 'registered']
for i in fs_list:
    dd_data_good[i] = StandardScaler().fit_transform(dd_data_good[[i]])
    

#     dd_data_good[i]---> 取出的是一维数据【1，2，3。。。】
#     标准化----> 二维数据，dd_data_good[[i]]

#导入岭回归包，
from sklearn.linear_model import Ridge
#导入train_test_split 包进行纯随机采样 ， 导入GridSearchCV 进行网格搜索交叉验证，寻找最优参数
from sklearn.model_selection import train_test_split, GridSearchCV
# 准备特征和标签矩阵   标签 -----> count 要预测什么，要分析什么数据
y = dd_data_good.pop('count')  # pop 将指定数据取出，原始数据集中就没有了，作为返回值给变量
x = dd_data_good
# dataframe 数据类型转化为矩阵类型，矩阵类型的数据更适合机器学习
x_arr = np.array(x)
y_arr = np.array(y)
# 切分训练集测试集
x_train,x_test,y_train,y_test = train_test_split(x_arr,y_arr,test_size=0.2)
# 调用线性回归
robj = Ridge()
# 网格搜索交叉验证 -----> 确定参数
gmodel = GridSearchCV(robj,param_grid={'alpha':[1.0,0.3,0.5,0.002,0.2]},cv=5)
# 训练找最优惨
gmodel.fit(x_train,y_train)
# 打印最优惨
print(gmodel.best_params_)
# 将最优参数传入模型训练
robj = Ridge(alpha=gmodel.best_params_['alpha'])
robj.fit(x_train,y_train)

# 预测
y_pre= robj.predict(x_test)

# 评分
print(robj.score(x_train,y_train))

获取r2,mse，mae值

# 模型评估 r2，mse，mae
from sklearn.metrics import r2_score,mean_squared_error,mean_absolute_error
print('r2',r2_score(y_test,y_pre))
print('mse',mean_squared_error(y_test,y_pre))
print('mae',mean_absolute_error(y_test,y_pre))

以上就是共享单车项目的总流程欢迎大家在评论区探讨，生活不易，随手留个

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

信息可视化

python

开发语言

经典不衰数据可视化项目第一节（共享单车项目）的相关文章

嵌套生成器表达式 - 意外结果[重复]

这个问题在这里已经有答案了这是测试代码 units 1 2 tens 10 20 nums a b for a in units for b in tens units 3 4 tens 30 40 x for x in nums 假设第
pandas 读取列中带有额外逗号的 csv

我正在阅读一个基本的 csv 文件其中各列用逗号分隔列名称如下 userid username body 但是正文列是一个可能包含逗号的字符串显然这会导致一个问题 pandas 会抛出一个错误 CParserError Error
使用不带引号的块样式的 Python YAML 转储

如何使用 PyYAML 加载和转储 YAML 以便它尽可能地使用原始样式我有 Python 来加载和转储 YAML 数据例如 import sys import yaml def represent dictorder self dat
在 PyCharm 中启用终端模拟

很多人告诉过我和PyCharm 2 7 的 PyCharm 发行说明 https www jetbrains com pycharm whatsnew whatsnew 27 html吹捧那个PyCharm包括完整的终端仿真我认为这是关于
我如何知道Python的unicode函数识别的所有支持的编码

Python 有一个unicode将字节流转换为 unicode 字符串的内置函数我只是希望我能查询所有可用的encoding在我的系统上但如何这个问题的原因是有人使用 MAC OS X 向我发送了一封内容编码为 iso 2022
从 java 代码运行 Python 脚本

这是我第一次在java中尝试python 我正在尝试从我的代码执行 python 脚本如下所示 Process process Runtime getRuntime exec python C Users username Desktop
使用 cx_oracle 返回 MERGE 中受影响的行数

如何在 CX Oracle 中执行 MERGE INTO sql 命令来获取受影响的行数当我在cx oracle 上执行MERGE SQL 时我得到的cursor rowcount 为 1 有没有办法获取受合并影响的行数由于 cx o
并行执行按位运算的代码

我有这段代码通过将该 AU 矩阵的每个字节 8 个元素打包到 A 中来减少内存消耗从而使 100k 200k 矩阵占用更少的空间正如您所期望的这段代码需要永远运行我也计划将行数增加到 200k 我正在一个非常强大的实例 CPU 和
如何在 dash/plotly 中使用 iframe？（Python/HTML）

我正在创建一个仪表板我想使用这个交互式地图网站链接 https www ons gov uk peoplepopulationandcommunity healthandsocialcare causesofdeath articles
Python Jinja2 调用宏会导致（不需要的）换行符

我的 JINJA2 模板如下所示 macro print if john name if name John Hi John endif endmacro Hello World print if john Foo print if joh
如何在 Google App Engine (Python) 中定义配置变量/常量？

我是 python GAE 的新手想知道如何快速定义和使用全局设置变量所以说你 git 克隆我的 GAE 应用程序然后打开config yaml 添加更改设置应用程序就全部连接起来如下所示 config yaml or whate
将列表列表替换为“压缩”列表列表，同时保持顺序

我有一个列表列表如我所附的代码所示如果有任何共同值我想链接每个子列表然后我想用列表的精简列表替换列表的列表例子如果我有一个清单 1 2 3 3 4 I want 1 2 3 4 如果我有 4 3 1 2 3 I want 4 3
Python父类访问子私有变量

以下代码会生成错误 class A object def say something self print self foo print self bar class B A def init self self foo hello sel
基于 Pandas 中特殊字符分隔列中的每个项目进行聚合

我输入的数据如下 Date Investment Type Medium 1 1 2000 Mutual Fund Stocks Fixed Deposit Real Estate Own Online Through Agent 1 2
python请求ssl握手失败

每次我尝试这样做 requests get https url 我收到这条消息 import requests gt gt gt requests get https reviews gethuman com companies Trace
如何循环遍历列表中除最后一项之外的所有项？ [复制]

这个问题在这里已经有答案了 Using a for循环如何循环遍历列表中除最后一项之外的所有项我想遍历一个列表检查每个项目与后面的项目我可以在不使用索引的情况下做到这一点吗 for x in y 1 If y是一个生成器那么上面的
matplotlib 后端 - 我关心吗？

gt gt gt import matplotlib gt gt gt print matplotlib rcsetup all backends u GTK u GTKAgg u GTKCairo u MacOSX u Qt4Agg u
Python pandas：向我的数据框中添加一列来计算变量

我有一个像这样的数据框 gt org group org1 1 org2 1 org3 2 org4 3 org5 3 org6 3 我想将列 count 添加到 gt 数据帧以计算组的成员数量预期结果如下 org group count
Python - 将列表作为参数传递给 SQL，以及更多变量

我试图在 python 3 6 中将未知数量的参数传递给 SQL Server 这是我使用 pypyodbc 的代码 cursor cnxn cursor theargs 1033286869 1053474957 1063654630 1
print() 函数的有趣/奇怪的机制

我正在学习Python 我目前正在学习如何定义自己的函数并且在尝试理解返回值和打印它之间的区别时遇到了一些困难我读到的关于这个主题的描述对我来说不太清楚所以我开始自己尝试我想我现在已经明白了如果我没记错的话区别在于你可以传递 a

随机推荐

Timing Borrow的理解

在集成电路设计中静态时序分析 Static Timing Analysis STA 是一种常用的验证方法用于确保芯片在运行时的时序约束得到满足在STA分析过程中 Timing Borrow是一种时序收敛技术即在某些情况下可以借用下
PowerMock--Mock静态方法

1 PowerMock静态方法写单元测试时经常会遇到测试方法体内调用了某些工具类的静态方法的情况而这些静态方法一般是读取配置中心里的文件数据或者是一些其他涉及到需要启动项目的操作往往这些操作会造成Mock单元测试的不彻底有些流水
排序算法之快速排序

高快省的排序算法有没有既不浪费空间又可以快一点的排序算法呢那就是快速排序啦光听这个名字是不是就觉得很高端呢假设我们现在对 6 1 2 7 9 3 4 5 10 8 这个10个数进行排序首先在这个序列中随便找一个数作为基准数不
【福利】南昌大学NCU主题电子笔记本，免费获取！

转载请注明出处小锋学长生活大爆炸 xfxuezhang cn 禁止转卖恰烂钱可耻下载链接 https pan baidu com s 1RWVrQgbmth CwoTcY 1yVw pwd 5gu8
MATLAB——基于自回归积分移动平均线（ARIMA）模型对数据进行预测

通过1985至20222年各年的参加测试人数为实际数据通过ARIMA模型对未来十年参加测试人数进行预测 clc clear Y data 2 N length Y t 1985 2022 figure 1 plot t Y title 高
数据库性能优化的误区！

常见的数据库系统优化中的一些观点系统性能出现问题进行优化一定要深入了解数据库内部参数等待事件 Latch 缓冲池 trace文件查询优化引擎等底层细节这种观点往往出自数据库高手这部分人以了解数据库底层实现细节而感到非常骄傲
Python文件指针

实验文件data txt如下 This file is data txt hello world My name is mark 实验一文件指针初始化 f open data txt r print f tell f write nice
matlab读取.dat数据

任务手上有一个dat后缀名文件需要导入matlab 并对其中的每一列数据进行处理解决方案导入数据 S1 点击导入数据按钮弹出导入数据窗口 S2 选择范围因为第一行是标题所以我不想导入导入范围从A2开始到G436结束
Notes Twenty one days-渗透攻击-红队-权限提升

Notes Twenty one days 渗透攻击红队权限提升 dayu 作者大余时间 2020 10 7 请注意对于所有笔记中复现的这些终端或者服务器都是自行搭建的环境进行渗透的我将使用Kali Linux作为此次学习的攻
获取系统磁盘类型信息以及判断是否是U盘

使用WIN API函数实现 include
Web渗透测试实战——（1）Web渗透测试简介

一什么是渗透测试渗透测试 penetration testing 是对计算机系统的一种授权攻击旨在评估系统网络的安全性执行测试以识别漏洞及其带来的风险一般而言渗透测试过程分为五个阶段包括识别目标系统检测存在的漏洞以及每个漏
Java基础系列30-单列 Collection集合

文章目录一集合的概述 1 1 为什么会出现集合类 1 2 集合类体系结构图二 Collection集合 2 1 Collection集合入门 2 2 Collection集合的成员方法 2 3 Collection集合的遍历 2 4
vue使用vue-amap 高德地图进行选点和搜索

vue使用vue amap进行地图点的搜索和点击选点 npm install vue amap save 下载npm 包在main js主文件中进行引用 import VueAMap from vue amap Vue use VueAM
C++连接CTP接口实现简单量化交易（行情、交易、k线、策略）

对于量化交易来说量化策略和技术系统缺一不可为了知其所以然本文实现了一个C 连接CTP接口进行仿真交易的demo 从接收行情下订单数据处理到添加策略挂载运行交易等多个环节来看一下量化交易的最简单流程管中窥豹一探究竟准备工作
NetworkManager 使用

Network Manager Network Manager aims for Network Connectivity which Just Works The computer should use the wired network
clickhouse源码：函数分析和自定义函数UDF

clickhouse函数介绍 clickhouse官方提供了许多的函数包括常规的数学函数聚合函数时间函数逻辑函数比较函数等等关于官方的函数可以在官方文档中查看官方文档当然随着clickhouse的流行国内也有不少的博主已经
《星岛日报》专访：欧科云链AML，助力数字资产合规及风险防控

6月1日香港适用于虚拟资产交易平台营运者的指引及打击洗钱指引正式施行香港虚拟资产发牌制度正式生效作为深耕香港市场多年的Web3科技企业欧科云链OKLink也正式推出的Onchain AML反洗钱合规解决方案利用多年积累的海
python如何建立一个空集合_python的集合set

一集合set 概念 1 集合set是一组无序不可重复的key集合 2 set跟dict的key类似区别在于set没有value 3 set使用场景 1 判断某个元素是否在集合中 2 消除输入数据的重复元素二 set 的创建方式 1 创
timm 视觉库中的 create_model 函数详解

timm 视觉库中的 create model 函数详解最近一年 Vision Transformer 及其相关改进的工作层出不穷在他们开源的代码中大部分都用到了这样一个库 timm 各位炼丹师应该已经想必已经对其无比熟悉了本文将介
经典不衰数据可视化项目第一节（共享单车项目）

1 1 首先导入包 import pandas as pd import numpy as np import matplotlib pyplot as plt import seaborn as sns import datetime i

经典不衰数据可视化项目第一节（共享单车项目）

1.1，首先导入包

经典不衰数据可视化项目第一节（共享单车项目） 的相关文章

随机推荐

热门标签

经典不衰数据可视化项目第一节（共享单车项目）的相关文章