特征工程

2023-05-16

一、数据读取

1.1 读取CSV文件

1.1.1 原文件内容

原文件内容

1.1.2 读取csv

import csv
csv_file = "/home/aistudio/data/data20465/cities.csv"
f = open(csv_file)
data = csv.reader(f)    # ①
for line in data:
    print(line)

1.1.3 pandas读取

import pandas as pd
df = pd.read_csv(csv_file)    # ②
df

1.1.4 查看信息

diabetes =pd.read_csv(csv_file, index_col=0) # 不读取index
diabetes.shape #查看形状
diabetes.head() #查看前5行数据
diabetes.info() #查看描述信息
diabetes.dtypes #查看各列数据类型

1.2 读取excel文件

1.2.1 安装第三方模块

# 安装第三方模块到上述目录
!pip install xlrd -t /home/aistudio/external-libraries
!pip install openpyxl -t /home/aistudio/external-libraries

1.2.2 读取excel

jiangsu = pd.read_excel("/home/aistudio/data/data20465/jiangsu.xls")

1.2.3 写入excel

jiangsu.to_excel('work/files/jiangsu.xlsx')

1.2.4 基础操作

cpi = pd.read_excel("/home/aistudio/data/data20465/cpi.xls")
cpi.columns = cpi.iloc[1]    # ⑤
cpi = cpi[2:]    # ⑥
cpi.drop([11, 12], axis=0, inplace=True)    # ⑦
cpi['cpi_index'] = ['总体消费', '食品烟酒', '衣着', '居住', '生活服务', '交通通信', '教育娱乐', '医保', '其他']    # ⑧
cpi.drop(['指标'], axis=1, inplace=True)    # ⑨
cpi.reset_index(drop=True, inplace=True)    # ⑩
cpi.columns.rename('', inplace=True)    # ⑪
cpi

1.3 读取数据库数据

import pymysql
mydb = pymysql.connect(host="localhost",    # ①
                       user='root',
                       password='1q2w3e4r5t',
                       db="books",
                      )
cursor = mydb.cursor()    # ②
sql = "select * from mybooks"    # ③
cursor.execute(sql)    # ④
datas = cursor.fetchall()    # ⑤
for data in datas:
    print(data)

sql_count = "SELECT COUNT(1) FROM city"
cursor.execute(sql_count)
n = cursor.fetchone()    # 获得一个返回值
n

1.4 读取来着API的数据

import requests
response = requests.get("https://api.github.com/users/qiwsir")    # ①
response.json()

在这里插入图片描述

import pandas as pd
data = response.json()    # ②
login = data['login']     # ③
name = data['name']
blog = data['blog']
public_repos = data['public_repos']
followers = data['followers']
html_url = data['html_url']
df = pd.DataFrame([[login, name, blog, public_repos, followers, html_url]], 
                  columns=['login', 'name', 'blog', 'public_repos', 'followers', 'html_url'])    # ④
df

在这里插入图片描述

二、数据清理

2.1 数据查看

import pandas as pd
df = pd.read_csv("/home/aistudio/data/data20505/pm2.csv")
df.sample(10)

在这里插入图片描述

df.shape  # (264, 4)
df.info() #查看信息

在这里插入图片描述

df.dtypes

在这里插入图片描述

2.2 转换数据类型

import pandas as pd
df = pd.DataFrame([{'col1':'a', 'col2':'1'}, 
                           {'col1':'b', 'col2':'2'}])
df.dtypes

在这里插入图片描述

df['col2-int'] = df['col2'].astype(int)    # ①
df.dtypes

在这里插入图片描述

s = pd.Series(['1', '2', '4.7', 'pandas', '10'])    
s.astype(float, errors='ignore')

在这里插入图片描述

pd.to_numeric(s, errors='coerce')

在这里插入图片描述

import pandas as pd
df = pd.read_csv('/home/aistudio/data/data20506/sales_types.csv') 
df.info()

在这里插入图片描述

df[['Customer Number']]

在这里插入图片描述

df['Customer Number'].astype(int).astype(str)

在这里插入图片描述

df[['2016', '2017']]

在这里插入图片描述

def convert_money(value):
    new_value = value.replace("$","").replace(",","")  # ②
    return float(new_value)

df['2016'].apply(convert_money)    # ③

df[['Percent Growth']]

在这里插入图片描述

df['Percent Growth'].apply(lambda x: float(x.replace("%", "")) / 100)

在这里插入图片描述

df[['Active']]

在这里插入图片描述

import numpy as np
np.where(df['Active']=='Y', 1, 0)

在这里插入图片描述

df[['Year', 'Month', 'Day']]

在这里插入图片描述

pd.to_datetime(df[['Month', 'Day', 'Year']])

在这里插入图片描述

2.3 处理重复数据

import pandas as pd
d = {'Name':['Newton', 'Galilei', 'Einstein', 'Feynman', 'Newton', 'Maxwell', 'Galilei'],
             'Age':[26, 30, 28, 28, 26, 39, 40],
             'Score':[90, 80, 90, 100, 90, 70, 90]}
df = pd.DataFrame(d,columns=['Name','Age','Score'])
df

在这里插入图片描述

df.duplicated()

在这里插入图片描述

df.duplicated('Age', keep='last')  #保留最后一个

在这里插入图片描述

df.duplicated(['Age', 'Score'])

df.drop_duplicates() #删除重复值
#df.drop_duplicates('Age', keep='last')

在这里插入图片描述

2.4 缺失值处理

2.4.1 判断缺失值

df = pd.DataFrame({"one":[1, 2, np.nan], "two":[np.nan, 3, 4]})
df.isna()

hitters = pd.read_csv("/home/aistudio/data/data20507/Hitters.csv")
hitters.isna().any()

在这里插入图片描述

(hitters.shape[0] - hitters.count()) / hitters.shape[0]

在这里插入图片描述

2.4.2 删除缺失值

df.dropna(axis=0, how='all')    # how声明删除条件

df.dropna(thresh=2)    # 非缺失值小于2的删除

new_hitters = hitters.dropna()
new_hitters.isna().any()

2.4.3 用指定值填充缺失值

df = pd.DataFrame({'ColA':[1, np.nan, np.nan, 4, 5, 6, 7], 'ColB':[1, 1, 1, 1, 2, 2, 2]})
df['ColA'].fillna(method='ffill')

pdf['Height-na'].fillna(pdf['Height-na'].mean(), inplace=True)   
pdf

pdf2 = persons.sample(20)
pdf2['Height-na'] = np.where(pdf2['Height'] % 5 == 0, np.nan, pdf2['Height'])    # 制造缺失值

from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')    # ③
col_values = imp_mean.fit_transform(pdf2['Height-na'].values.reshape((-1, 1)))    # ④
col_values

2.5 处理异常值

2.5.1 查看异常值

%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("/home/aistudio/data/data20510/experiment.csv", index_col=0)

fig, ax = plt.subplots()
ax.scatter(df['alpha'], df['belta'])

在这里插入图片描述

import seaborn as sns
sns.set(style="whitegrid")

tips = sns.load_dataset("tips")    #加载数据集
tips.sample(5)

在这里插入图片描述

sns.boxplot(x="day", y="tip", data=tips, palette="Set3")

在这里插入图片描述

ax = sns.boxplot(x="day", y="tip", data=tips)
ax = sns.swarmplot(x="day", y="tip", data=tips, color=".25")

三、特征变换

3.1 特征数值化

import pandas as pd
df = pd.DataFrame({"gene_segA": [1, 0, 0, 1, 1, 1, 0, 0, 1, 0],
                   "gene_segB": [1, 0, 1, 0, 1, 1, 0, 0, 1, 0],
                   "hypertension": ["Y", 'N', 'N', 'N', 'N', 'N', 'Y', 'N', 'Y', 'N'],
                   "Gallstones": ['Y', 'N', 'N', 'N', 'Y', 'Y', 'Y', 'N', 'N', 'Y']
                  })
df

在这里插入图片描述

df.replace({"N": 0, 'Y': 1})

在这里插入图片描述

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit_transform(df['hypertension'])

le.fit_transform([1, 3, 3, 7, 3, 1])
le.inverse_transform([0, 1, 1, 2, 1, 0])

在这里插入图片描述

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()    # ①
le.fit(['white', 'green', 'red', 'green', 'white'])    # ②
le.classes_    # ③
#out : array(['green', 'red', 'white'], dtype='<U5')

le.transform(["green", 'green', 'green', 'white'])    # ④
# array([0, 0, 0, 2])

3.2 特征二值化

import pandas as pd
pm25 = pd.read_csv("/home/aistudio/data/data20505/pm2.csv")
pm25.head()

在这里插入图片描述

import numpy as np
pm25['bdays'] = np.where(pm25["Exposed days"] > pm25["Exposed days"].mean(), 1, 0)
pm25.sample(10)

在这里插入图片描述

from sklearn.preprocessing import Binarizer
bn = Binarizer(threshold=pm25["Exposed days"].mean())    # ①
result = bn.fit_transform(pm25[["Exposed days"]])   # ②
pm25['sk-bdays'] = result
pm25.sample(10)

在这里插入图片描述

3.3 OneHot编码

persons = pd.DataFrame({"name":["Newton", "Andrew Ng", "Jodan", "Bill Gates"], 'color':['white', 'yellow', 'black', 'white']})
persons

在这里插入图片描述

from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder()
features = ohe.fit_transform(persons[['color']])
features.toarray()

在这里插入图片描述

size_mapping = {'XL': 3, 'L': 2, 'M': 1}
df['size'] = df['size'].map(size_mapping)    # ②
df

在这里插入图片描述

3.4 数据变换

import numpy as np
data.drop([0], inplace=True)    # 去掉0，不计算log0
data['logtime'] = np.log10(data['time'])    # ①
data['logloc'] = np.log10(data['location'])    # ②
data.head()

3.5 特征离散化

ages2 = pd.DataFrame({'years':[10, 14, 30, 53, 300, 32, 45], 'name':['A', 'B', 'C', 'D', 'E', 'F', 'G']})
klass2 = pd.cut(ages2['years'], 3, labels=['Young', 'Middle', 'Senior'])    # ②
ages2['label'] = klass2
ages2

ages2 = pd.DataFrame({'years':[10, 14, 30, 53, 300, 32, 45], 'name':['A', 'B', 'C', 'D', 'E', 'F', 'G']})
klass2 = pd.cut(ages2['years'], bins=[9, 30, 50, 300], labels=['Young', 'Middle', 'Senior'])    # ③
ages2['label'] = klass2
ages2

在这里插入图片描述

3.6 数据规范化

from sklearn import datasets
from sklearn.preprocessing import StandardScaler 
iris = datasets.load_iris()
iris_std = StandardScaler().fit_transform(iris.data)

在这里插入图片描述

from sklearn.preprocessing import MinMaxScaler
iris_mm = MinMaxScaler().fit_transform(iris.data)    # ②
iris_mm[:5]

四、特征选择

4.1 过滤器法


from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest    # ①
from sklearn.feature_selection import chi2    
iris = load_iris()
X, y = iris.data, iris.target
skb = SelectKBest(chi2, k=2)    # ②
result = skb.fit(X, y)    # ③
print("X^2 is: ", result.scores_)
print("P-values is: ", result.pvalues_)

4.2 嵌入法

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LogisticRegression

df_wine = pd.read_csv("/home/aistudio/data/data20527/wine_data.csv")
X, y = df_wine.iloc[:, 1:], df_wine.iloc[:, 0].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0, stratify=y)

std = StandardScaler()
X_train_std = std.fit_transform(X_train)
X_test_std = std.fit_transform(X_test)

lr = LogisticRegression(C=1.0, penalty='l1')    # ①
model = SelectFromModel(lr, threshold='median')    # ②
X_new = model.fit_transform(X_train_std, y_train)
X_new.shape

五、特征抽取

5.1 无监督特征抽取

from sklearn.decomposition import PCA
import numpy as np
pca = PCA()    # ①
X_pca = pca.fit_transform(X)    # ②
np.round(X_pca[: 4], 2)    # ③

pca = PCA(n_components=2)    # ④
X_pca = pca.fit_transform(X)
X_pca[: 4]


from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
X_train, X_test, y_train, y_test = train_test_split(X, iris.target,
                                                   test_size=0.3, 
                                                    random_state=0)
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

X_train_pca, X_test_pca, y_train_pca, y_test_pca = train_test_split(X_pca, iris.target,
                                                   test_size=0.3, 
                                                    random_state=0)
clf2 = DecisionTreeClassifier()
clf2.fit(X_train_pca, y_train_pca)
y_pred_pca = clf2.predict(X_test_pca)
accuracy2 = accuracy_score(y_test_pca, y_pred_pca)

print("dataset with 4 features: ", accuracy)
print("dataset with 2 features: ", accuracy2)

5.2 有监督特征抽取

from sklearn.datasets.samples_generator import make_classification
X,y = make_classification(n_samples=1000,
                          n_features=4,
                          n_redundant=0,
                          n_classes=3,
                          n_clusters_per_class=1,
                          class_sep=0.5,
                          random_state=10)
X.shape, y.shape

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

特征工程的相关文章

ubuntu下SD卡分区与挂载

本来只是想借SD卡来做一个OK6410的升级但笔记本上只装了ubuntu xff0c 一开始是可以识别sd卡的 xff0c 但按照网上的教程不小心将 dev sdb1删除了导致ubuntu不能识别sd卡了记录一下解决过程 1 sd的设
信号量与互斥锁的一些理解

一直对信号量和互斥锁只有一个模糊的认识 xff0c 今天特别学习了 xff0c 总结一下一从作用上来讲互斥锁是用在多线程多任务互斥的信号量用于线程的同步二从原理上讲线程互斥锁 pthread mutex t 的实现原理 xff
springboot2.x +kafka使用和源码分析九(KafkaListenerEndpointRegistry暂停启动容器)

我们在运行中如果需要暂停启动容器时可以通过此类KafkaListenerEndpointRegistry来处理 KafkaListenerEndpointRegistry源码只解释了核心代码 public class KafkaListe
H3C 交换机配置命令

H3C 交换机配置命令三层和二层交换机配置命令 dis this 查看下属命令 save 保存 reboot 重启初始化命令和提示选项 reset saved configuration 初始清除所有配置信息后提示是否初始化 xff
【粒子群算法整定PID参数】MATLAB2016b(02一些细节问题)

此帖主要针对01帖的细节方面很抱歉更新的晚了 xff0c 现在我对01帖发布到现在 xff0c 用粒子群算法整定PID参数时存在的细节问题进行讲解 xff0c 以便于帮助大家学会此方法 xff0c 降低整定参数的难度问题一 xff1a
通过input框上传图像并预览

HTML 如下 xff1a lt input type 61 34 file 34 name 61 34 upImg 34 gt lt input type 61 34 text 34 gt lt div id 61 34 showImag
STM32Cube STM32L053配置GPIO达到最低功耗详解含测量实际电流值

外部有上拉电阻 xff0c 设置输入模式 xff0c 此模式最省电设置输入模式 GPIO InitStruct Mode 61 GPIO MODE INPUT GPIO InitStruct Pull 61 GPIO NOPULL 外部有
Envoy 中文指南系列：Envoy 介绍

原文链接 xff1a https fuckcloudnative io envoy handbook docs overview overview 前言 Envoy 是专为大型现代 SOA xff08 面向服务架构 xff09 架构设计的
Linux 内核代码行数达到 2700 万行量级

来自 xff1a 技术让梦想更伟大截止到2020年1月1日09 xff1a 00 xff1a 10 xff0c Linux内核Git源码树中的代码达到了2780万行 phoronix网站统计了Linux内核在进入2020年时的一些源码数据
「得印度者，得天下」聊聊你不知道的印度在线视频江湖

印度 xff0c 一个神奇古老的国度千百年来 xff0c 恒河水鉴证了古印度王朝的兴衰更迭 xff0c 壮丽的历史文化 xff0c 和印度文明缘起缘灭的生死轮回时光飞转 xff0c 来到公元 2018年恒河水波澜不惊一切如昨 xff0
ROS系列——如何把ROS和STM32之间联系起来

ROS系列如何把ROS和STM32之间联系起来本节内容包括如何实现ros主控和stm32之间的通信 xff0c 以及ros主控对stm32发送的数据做了哪些处理一两种控制器的功能 1 1 ROS主控实现的功能雷达信息采集摄像头信
Android中Parcelable接口详细用法

Android中Parcelable接口 1 Parcelable接口 Interface for classes whose instances can be written to and restored from a Parcel C
二分查找模板分析

模板说明 xff1a 你在网上看到的 99 的二分查找问题会归结于这 3 个模板中的一个有些问题可以使用多个模板来实现 xff0c 但是当你做更多的练习时 xff0c 你会注意到一些模板比其他模板更适合某些问题注意 xff1a 模板和它
使用SMPL进行pose and shape estimation常用数据集关节点信息

1 SMPL模型关节点名称 self j names 61 0 39 Pelvis 39 1 39 L Hip 39 2 39 R Hip 39 3 39 Spine1 39 4 39 L Knee 39 5 39 R Knee 39 6
研究生生涯的一些经验和感悟

研究生生涯的一些经验和感悟引言写这篇博客前 xff0c 我不禁要感慨一下互联网分享所带来的好处我这里讲的分享主要是指知识技术和个人思想的分享网络新闻媒体更多是传播一些资讯 xff0c 而这些资讯一般不涉及深入的技术 xff0c 深
U-SEM体验模型——让游戏交互设计的维度更加清晰

U SEM体验模型让游戏交互设计的维度更加清晰 U SEM体验模型让游戏交互设计的维度更加清晰游戏交互设计的定位游戏交互设计的场景游戏对玩家输出玩家对游戏输入游戏交互体验的维度 U SEM体验模型游戏交互的复杂度游戏交互设计的应用游
ROS中geometry_msgs消息类型

Point 点 float64 x xff0c float64 y xff0c float64 z Point32 float32 x xff0c float32 y xff0c float32 z 一般使用Point xff0c 大规模点
TTY 到底是个什么玩意？

先来回答一道面试题 xff1a 我们知道在终端中有一些常用的快捷键 xff0c Ctrl 43 E 可以移动到行尾 xff0c Ctrl 43 W 可以删除一个单词 xff0c Ctrl 43 B 可以向前移动一个字母 xff0c 按上键可
ftp命令大全详解

来熟悉熟悉ftp命令 xff0c 对于服务器之间的文件传输太有用啦 xff0c 不会怎么能行呢 xff01 先来看看基础的命令 xff0c 包括了连接 xff0c 列出列表 xff0c 下载 xff0c 上传 xff0c 断开这最基础的命令
TCP/IP，Linux中使用信号量控制运行中的进程，使用signal函数绑定信号量和处理函数，替换信号量默认功能，信号量会打断sleep的休眠状态

TCP IP xff0c Linux中使用信号量控制运行中的进程 xff0c 绑定信号量和处理函数 xff0c 信号量会打断sleep的休眠状态一 Linux中使用信号量对进程的调控 xff1a 1 信号量是一个int值 xff0c 由操

随机推荐

几种经典非线性滤波算法简单概括（EKF，UKF，CKF，PF）

几种经典非线性滤波算法概括 xff08 EKF xff0c UKF xff0c CKF xff0c PF xff09 上一篇文章阐述了Kalman滤波算法 xff0c 该算法是在线性高斯下的最优滤波估计算法但是在实际控制系统中 xff0c
扩展卡尔曼滤波（EKF）算法详细推导及仿真（Matlab）

扩展卡尔曼滤波 xff08 EKF xff09 算法详细推导及仿真 xff08 Matlab xff09 扩展卡尔曼滤波算法是解决非线性状态估计问题最为直接的一种处理方法 xff0c 尽管EKF不是最精确的最优滤波器 xff0c 但在过
uio驱动编写实例1

AUTHOR xff1a Joseph Yang 杨红刚 lt eagle rtlinux 64 gmail com gt CONTENT uio驱动编写实例1 NOTE xff1a linux 3 0 LAST MODIFIED xff
raspberry pi pico, 如何在macos平台使用picoprobe，vscode来debug程序

debugprobe 80元人民币再买一块pico 刷上debug程序 xff0c 仅要16元 xff0c 当然用便宜的在mac上的vs code总是遇见问题单独运行openocd时 xff0c 也有问题 xff0c 出现错误 CMS
1—类、域、方法和实例对象

Java 是面向对象的高级编程语言 xff0c 类和对象是 Java 程序的构成核心围绕着 Java 类和 Java 对象 xff0c 有三大基本特性 xff1a 封装是 Java 类的编写规范继承是类与类之间联系的一种形式而多态为系
常用数学公式汇总

常用数学公式汇总一基础代数公式 1 平方差公式 xff1a xff08 a xff0b b xff09 xff08 a xff0d b xff09 xff1d a2 xff0d b2 2 完全平方公式 xff1a xff08 a b x
Kubernetes--API Server资源隔离

Kubernetes的一些功能特性也与公有云提供商密切相关 xff0c 例如 xff1a 负载均衡服务弹性公网IP 存储服务等 xff0c 具体实现也需要与API Server通信 xff0c 也属于运行商内部重点保障的安全区域此外 x
公式提取方法

Mathpix Snipping Tool和MathType配合用法 Mathpix Snipping Tool是一个可以提取数学公式的工具 xff0c 当我们写毕业论文或者结课报告或者参加数学建模等比赛的用到的公式 xff0c 可以用这款
（学习unix编程）关于文件流与文件描述符的区别

文件描述符 xff08 就是整数 xff09 用于在一个进程内唯一的标识打开的文件这假定了内核能够在用户进程的描述符和内核内部使用的机构之间 xff0c 建立一种关联 xff08 深入linux内核架构 xff09 由于唯一标识进程的结构
2000页kubernetes操作手册，内容详细代码清晰，小白也能看懂

现如今 xff0c Kubernetes业务已成长为新时代的IT基础设施 xff0c 并成为高级运维工程师架构师后端开发工程师的必修技术栈毫无疑问 xff0c Kubernetes是云计算发展演进的一次彻底革命性的突破 xff0c 只
Linux安装nodejs和npm

最近window系统转向linux系统开发 xff0c linux系统的确适合程序员的开发作为前端安装了nodejs和npm xff0c 遇到了一些坑 xff0c 赶紧记录下来第一种安装方法 xff1a 安装nodejs xff1a s
查看core dumped的详细错误原因

什么是Core Dump Core的意思是内存 Dump的意思是扔出来堆出来开发和使用Unix程序时有时程序莫名其妙的down了却没有任何的提示有时候会提示core dumped 这时候可以查看一下有没有形如core 进程号的文件
IntelliJ IDEA创建Servlet最新方法 Idea版本2020.2.2以及IntelliJ IDEA创建Servlet 404问题（超详细）

第一次用IntelliJ IDEA写java代码 xff0c 之前都是用eclipse xff0c 但eclipse太老了下面为兄弟们奉上IntelliJ IDEA创建Servlet方法 xff0c 写这个的目的也是因为在网上找了很多资料
Linux下做C语言/C++开发的一些建议

相对于Linux下的C C 43 43 开发 xff0c 在windows下的初学者往往容易入门 xff0c 原因是visual studio 这个强大的工具隐藏了很多的细节 xff0c 好多人甚至以为拖拖控件 xff0c 写写消息响应函数
Target ‘STM32F4xx‘ uses ARM-Compiler ‘Default Compiler Version 5‘ which is not available.找不到v5版本解决方法

现在官网上没有v5的版本了 xff0c keil默认安装的是v6的版本 xff0c 如果工程想要运行以前的工程 xff0c 可以设置将工程的编辑器从v5转到v6 xff0c 下面是方法 xff1a 1 使用MDK打开工程 2 选择 Proj
关于imu的介绍

1 imu时惯性运动丹云 xff0c 包含加速度计和陀螺传感器的组合它被用来检查加速度和角速度 xff08 IMU传感器 xff0c 你所需要知道的全部知乎 xff09 虽然时外文翻译的 xff0c 凡是整体风格清晰 2 imu的使用
LSTM与GRU

LSTM 与 GRU 一综述 LSTM 与 GRU是RNN的变种 xff0c 由于RNN存在梯度消失或梯度爆炸的问题 xff0c 所以RNN很难将信息从较早的时间步传送到后面的时间步 LSTM和GRU引入门 xff08 gate xff0
Pytorch 实战RNN

一简单实例 span class token comment coding utf8 span span class token keyword import span torch span class token keyword as
Pytorch : Dataset和DataLoader

一综述 Dataset 对数据进行抽象 xff0c 将数据包装为Dataset类 DataLoader 在 Dataset之上对数据进行进一步处理 xff0c 包括进行乱序处理 xff0c 获取一个batch size的数据等二 Dat
特征工程

一数据读取 1 1 读取CSV文件 1 1 1 原文件内容 1 1 2 读取csv span class token keyword import span csv csv file span class token operator 6

特征工程

一、数据读取

1.1 读取CSV文件

1.1.1 原文件内容

1.1.2 读取csv

1.1.3 pandas读取

1.1.4 查看信息

1.2 读取excel文件

1.2.1 安装第三方模块

1.2.2 读取excel

1.2.3 写入excel

1.2.4 基础操作

1.3 读取数据库数据

1.4 读取来着API的数据

二、数据清理

2.1 数据查看

2.2 转换数据类型

2.3 处理重复数据

2.4 缺失值处理

2.4.1 判断缺失值

2.4.2 删除缺失值

2.4.3 用指定值填充缺失值

2.5 处理异常值

2.5.1 查看异常值

三、特征变换

3.1 特征数值化

3.2 特征二值化

3.3 OneHot编码

3.4 数据变换

3.5 特征离散化

3.6 数据规范化

四、特征选择

4.1 过滤器法

4.2 嵌入法

五、特征抽取

5.1 无监督特征抽取

5.2 有监督特征抽取

特征工程 的相关文章

随机推荐

热门标签

特征工程的相关文章