3-4 数据变换

2023-11-12

3.4 数据变换

请参考《数据准备和特征工程》中的相关章节，调试如下代码。

基础知识

import pandas as pd

data = pd.read_csv("/home/aistudio/data/data20514/freefall.csv", index_col=0)
data.describe()

	time	location
count	100.000000	1.000000e+02
mean	250.000000	4.103956e+05
std	146.522832	3.709840e+05
min	0.000000	0.000000e+00
25%	124.997500	7.658593e+04
50%	250.000000	3.062812e+05
75%	375.002500	6.890859e+05
max	500.000000	1.225000e+06

# !mkdir /home/aistudio/external-libraries
# !pip install -i https://pypi.tuna.tsinghua.edu.cn/simple seaborn -t /home/aistudio/external-libraries

import sys
sys.path.append('/home/aistudio/external-libraries')

%matplotlib inline
import seaborn as sns

# scatterplot绘制散点图
ax = sns.scatterplot(x='time', y='location', data=data)

import numpy as np

data.drop([0], inplace=True)    # 去掉0，不计算log0
data['logtime'] = np.log10(data['time'])    # 求对数
data['logloc'] = np.log10(data['location'])   

data.head()

	time	location	logtime	logloc
1	5.05	124.99	0.703291	2.096875
2	10.10	499.95	1.004321	2.698927
3	15.15	1124.89	1.180413	3.051110
4	20.20	1999.80	1.305351	3.300987
5	25.25	3124.68	1.402261	3.494806

ax2 = sns.scatterplot(x='logtime', y='logloc', data=data)

在这里插入图片描述

from sklearn.linear_model import LinearRegression

reg = LinearRegression()
reg.fit(data[['logtime']], data[['logloc']])

# 返回直线的斜率和截距
(reg.coef_, reg.intercept_)

(array([[1.99996182]]), array([0.69028797]))

import numpy as np

X = np.arange(6).reshape(3, 2)
X

array([[0, 1],
       [2, 3],
       [4, 5]])

from sklearn.preprocessing import PolynomialFeatures    

# 多项式变换，2代表创建一个最高项为2的多项式:1 + x1 + x2 + x1*x1 + x1*x2 + x2*x2
poly = PolynomialFeatures(2)

# 将x1和x2依次代入行向量中，从而得到一个更大的特征矩阵
poly.fit_transform(X)

array([[ 1.,  0.,  1.,  0.,  0.,  1.],
       [ 1.,  2.,  3.,  4.,  6.,  9.],
       [ 1.,  4.,  5., 16., 20., 25.]])

项目案例

dc_data = pd.read_csv('/home/aistudio/data/data20514/sample_data.csv')
dc_data.head()

	MONTH	AIR_TIME
0	1	28
1	1	29
2	1	29
3	1	29
4	1	29

%matplotlib inline
import matplotlib.pyplot as plt

# 绘制特征“AIR_TIME”的直方图，看是否符合正态分布
h = plt.hist(dc_data['AIR_TIME'], bins=100)

23dsfdg

from scipy import stats

# 将特征AIR_TIME转换为二维矩阵，便于输入
transform = dc_data[['AIR_TIME']]

# 通过boxcox变换，将其变为正态分布
dft = stats.boxcox(transform)[0]   

# 检查是否符合正态分布
hbc = plt.hist(dft, bins=100)

adsfsd

from sklearn.preprocessing import power_transform

# power_transform:广义幂变换，它包含了：box-cox变换和yeo-johnson变换
dft2 = power_transform(dc_data[['AIR_TIME']], method='box-cox')   

hbcs = plt.hist(dft2, bins=100)

在这里插入图片描述

动手练习

%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.linear_model import Ridge
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

df = pd.read_csv("/home/aistudio/data/data20514/xsin.csv")
colors = ['teal', 'yellowgreen', 'gold']

# 绘制散点图
plt.scatter(df['x'], df['y'], color='navy', s=30, marker='o', label="training points")

for count, degree in enumerate([3, 4, 5]):

    # PolynomialFeatures(),多项式变换
    # Ridge()，线性最小二乘L2正则化。该模型求解了线性最小二乘函数和L2正则化的回归模型。也称为岭回归或者Tikhonov 正则化。
    # make_pipeline可以将许多算法模型串联起来，比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。

    model = make_pipeline(PolynomialFeatures(degree), Ridge())    # 获得岭回归后的模型

    model.fit(df[['x']], df[['y']])     # 用真实数据来训练模型

    y_pre = model.predict(df[['x']])    # 通过训练好的模型来预测y值
    
    # 绘制预测图表，不难发现degree=4是与原数据集拟合的最好的
    plt.plot(df['x'], y_pre, color=colors[count], linewidth=2,
             label="degree %d" % degree)

# 绘制左上角的图例
plt.legend()

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CH3数据准备和特征工程

python

开发语言

数据挖掘

数据分析

3-4 数据变换的相关文章

如何删除django中级联的一对一相关模型？

背景我在 Django 1 8 5 中定义了以下模型 class PublishInfo models Model pass class Book models Model info models OneToOneField Publis
Python setuptools：如何在 setup.py 中添加私有存储库 (gitlab)？

我上传了 2 个包它们位于我的 gitlab 存储库中如果我想使用 pip 将它们安装在我的系统中这很容易因为 gitlab 可以帮助您 https docs gitlab com ee user packages pypi rep
xlrd.biffh.XLRDError：Excel xlsx 文件；不支持[重复]

这个问题在这里已经有答案了我正在尝试使用读取启用宏的 Excel 工作表pandas read excel与 xlrd 库它在本地运行良好但是当我尝试将其推送到 PCF 时我收到此错误 2020 12 11T21 09 53 441
从Python中的字符串中提取货币金额

我正在制作一个程序从字符串中获取货币并将其转换为其他货币例如如果字符串是 the car cost me 13 250 我需要得到 and 13250 我已经有了这个正则表达式 1 确实如此但是该字符串很有可能有多个价格并且全部使
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
长/宽数据到宽/长

我有一个数据框如下所示 import pandas as pd d decil 1 decil 1 decil 2 decil 2 decil 3 decil 3 decil kommune AA BB AA BB AA BB 2010

随机推荐

服务器多网卡多路由策略

场景背景与需求某公司新买一台服务器服务器资源 cpu 内存硬盘比较多并且有多个网卡运维工程师为了节省资源在服务器上搭建多个服务希望通过多个网卡实现流量分流但由于运维工程师对网络理解不够深入将服务器的多个网卡都配置了同一个
被suse搞到崩溃了

在Vmware上装了个suse 10 2 它还没崩溃我快要崩溃了这玩意号称最新最强的Linux 但是启动速度真的是慢的没法说关机也是慢的没法说点个按钮半天才出来对话框有时我都怀疑他是不是死掉了多点几下结果过一会出来一堆对话框
2015年底总结

时间过的好快一年又过了回顾这一年经历了很多成长了很多今天对2015做一个简单的总结同时展望一下未来在14年总结中今年的重点是考注册电气工程师学习Android开发在技术这块儿往精学而不是多而不精这一年确实在注电考试
QQuickWidget里放置QML

1 效果 2 QML 在资源里新建Mybattery qml import QtQuick 2 0 import QtQuick 2 12 Item id root property color color1 18FD18 绿色健康 pr
@Retention注解作用

Retention作用是定义被它所注解的注解保留多久一共有三种策略定义在RetentionPolicy枚举中从注释上看 source 注解只保留在源文件当Java文件编译成class文件的时候注解被遗弃被编译器忽略 class
c/c++调用system获取返回值

目录参考命令定义函数调用参考在 c c 程序中可以使用 system 函数运行命令行但是只能得到该命令行的 int 型返回值并不能获得显示结果例如system ls 只能得到0或非0 如果要获得ls的执行结果则要通过管
Jlink在ADS下的配置说明及常见问题解决办法

阅读1087次 2013 4 2 21 04 37 Jlink在ADS下的配置说明及常见问题解决办法Zhaoxj 参考文档 1 TQ2440开发板使用手册V3 2 20121203 pdf 2 JLINK ADS 2440 pdf 注 1
HBase：Region的拆分

为什么要拆分Region 首先 Region是一段Rowkey数据的集合当查询一条数据时会先从元数据中判断该条数据的Rowkye属于哪个Region 然后到指定的Region中查找当一个Region过大时在这个Region中查找Ro
java并发的基本概念和级别

之前买了一本实战Java高并发程序设计这里记一下笔记至于书怎么样读完之后再看值不值得推荐先提供下试读pdf的下载地址关于java并发的一些概念并发的概念并发 Concurrency 和并行 Parallelism 并发偏重于
LVM扩容操作

文章目录一测试环境二给lvm分区扩容加硬盘 1 新增硬盘 2 给新的硬盘分区 3 Lvm操作查看卷组状态 vgdisplay 创建物理卷 pvcreate dev sdb1 扩展卷组 vgextend 卷组名物理卷路径扩展逻
为何程序员要考教师资格证？备考指南与职业价值

大家好我是苍何一个刚拿完教师资格证的非主流程序员我考教资完全是在两年前受到一位朋友的影响我们姑且叫他小 y 小 y 是计算机科班名校毕业 985 大学硕士学历并在华为担任软件开发工程师这样强的专业和大厂背景已经吊打很多程序猿了
升降压电路Charger&Boost 自己的小解读

上图为charger内部大致的结构图 Vbus进来 Q1可先认为是二极管当Q2开启时可以向后级电感储能当Q2关断时 Q3 SW 电池形成一个回路因为同样接地电感给电池充电锂电池标称值为3 7V 满电电压是4 2V VBUS电压是
LPDDR4特点和基本概念--基于Hynix H9HCNNNBPUMLHR系列

Feature 两个Channel 每个Channel有8个Bank 对于command和address 采用SDR传输减少总引脚数量所有的command和address在CLK上升沿锁存每两个时钟周期传输一个command 对于数据线
Oracle --------序列

1 思考问题在某张表中存在一个id列整数用户希望在添加记录的时候该列从1开始自动的增长如何处理 2 介绍 Oracle通过序列处理自动增长列 1 可以为表中的列自动产生值 2 由用户创建数据库对象并可由多个用户共享 3 一般
六. go 高性能编程之空结构体 struct{} 的使用

目录空结构体的优点实现集合Set 不发送数据的信道channel 仅包含方法的结构体空结构体的优点因为空结构体不占据内存空间因此被广泛作为各种场景下的占位符使用 Go 语言中可以使用 unsafe Sizeof 计算出一个数据类
DDR5内存条容量计算

DDR5内存条容量计算一理解DDR5通道的变化二理解芯片package 三 DDR5 symmetric module容量计算之前对DDR的一些基础知识进行了总结最近需要了解DDR5的知识在之前文章基础上又有一些认识所以重新
NumPy 的随机采样模块 random 使用简单介绍

NumPy的API的简单介绍 NumPy 提供的random模块提供了方便的自动生成伪随机数的API 一使用简单随机数API生成随机数组 1 random rand d0 d1 dn 参数 d0 d1 dn int optional
MySQL 存储函数

文章目录 1 简介 2 创建存储函数 3 调用存储函数 4 查看存储函数 SHOW FUNCTION STATUS SHOW CREATE FUNCTION 5 修改存储函数 6 删除存储函数参考文献 1 简介 MySQL 存储函数 St
java向多线程中传递参数的三种方法详细介绍

在传统的同步开发模式下当我们调用一个函数时通过这个函数的参数将数据传入并通过这个函数的返回值来返回最终的计算结果但在多线程的异步开发模式下数据的传递和返回和同步开发模式有很大的区别由于线程的运行和结束是不可预料的因此在传递和
3-4 数据变换

3 4 数据变换请参考数据准备和特征工程中的相关章节调试如下代码基础知识 import pandas as pd data pd read csv home aistudio data data20514 freefall csv

3-4 数据变换

3.4 数据变换

基础知识

项目案例

动手练习

3-4 数据变换 的相关文章

随机推荐

热门标签

3-4 数据变换的相关文章