机器学习——数据清洗，特征选择

2023-10-26

数据清洗的方法：
设置阈值去掉异常值
随机森林预测去掉点的数值加进去

onehot编码（不适用于决策树和随机森林）：
先将一个属性分成几个类别
然后再将样本的数据变成矩阵01，1表示其所在类别
会导致特征数增多

数据清洗代码实现

import numpy as np
import pandas as pd
from fuzzywuzzy import fuzz
from fuzzywuzzy import process


def enum_row(row):
    print row['state']


def find_state_code(row):
    if row['state'] != 0:
        print process.extractOne(row['state'], states, score_cutoff=80)


def capital(str):
    return str.capitalize()


def correct_state(row):
    if row['state'] != 0:
        state = process.extractOne(row['state'], states, score_cutoff=80)
        if state:
            state_name = state[0]
            return ' '.join(map(capital, state_name.split(' ')))
    return row['state']


def fill_state_code(row):
    if row['state'] != 0:
        state = process.extractOne(row['state'], states, score_cutoff=80)
        if state:
            state_name = state[0]
            return state_to_code[state_name]
    return ''


if __name__ == "__main__":
    pd.set_option('display.width', 200)
    data = pd.read_excel('sales.xlsx', sheetname='sheet1', header=0)
    print 'data.head() = \n', data.head()
    print 'data.tail() = \n', data.tail()
    print 'data.dtypes = \n', data.dtypes
    print 'data.columns = \n', data.columns
    for c in data.columns:
        print c,
    print
    data['total'] = data['Jan'] + data['Feb'] + data['Mar']
    print data.head()
    print data['Jan'].sum()
    print data['Jan'].min()
    print data['Jan'].max()
    print data['Jan'].mean()

    print '============='
    # 添加一行
    s1 = data[['Jan', 'Feb', 'Mar', 'total']].sum()
    print s1
    s2 = pd.DataFrame(data=s1)
    print s2
    print s2.T
    print s2.T.reindex(columns=data.columns)
    # 即：
    s = pd.DataFrame(data=data[['Jan', 'Feb', 'Mar', 'total']].sum()).T
    s = s.reindex(columns=data.columns, fill_value=0)
    print s
    data = data.append(s, ignore_index=True)
    data = data.rename(index={15:'Total'})
    print data.tail()

    # apply的使用
    print '==============apply的使用=========='
    data.apply(enum_row, axis=1)

    state_to_code = {"VERMONT": "VT", "GEORGIA": "GA", "IOWA": "IA", "Armed Forces Pacific": "AP", "GUAM": "GU",
                     "KANSAS": "KS", "FLORIDA": "FL", "AMERICAN SAMOA": "AS", "NORTH CAROLINA": "NC", "HAWAII": "HI",
                     "NEW YORK": "NY", "CALIFORNIA": "CA", "ALABAMA": "AL", "IDAHO": "ID",
                     "FEDERATED STATES OF MICRONESIA": "FM",
                     "Armed Forces Americas": "AA", "DELAWARE": "DE", "ALASKA": "AK", "ILLINOIS": "IL",
                     "Armed Forces Africa": "AE", "SOUTH DAKOTA": "SD", "CONNECTICUT": "CT", "MONTANA": "MT",
                     "MASSACHUSETTS": "MA",
                     "PUERTO RICO": "PR", "Armed Forces Canada": "AE", "NEW HAMPSHIRE": "NH", "MARYLAND": "MD",
                     "NEW MEXICO": "NM",
                     "MISSISSIPPI": "MS", "TENNESSEE": "TN", "PALAU": "PW", "COLORADO": "CO",
                     "Armed Forces Middle East": "AE",
                     "NEW JERSEY": "NJ", "UTAH": "UT", "MICHIGAN": "MI", "WEST VIRGINIA": "WV", "WASHINGTON": "WA",
                     "MINNESOTA": "MN", "OREGON": "OR", "VIRGINIA": "VA", "VIRGIN ISLANDS": "VI",
                     "MARSHALL ISLANDS": "MH",
                     "WYOMING": "WY", "OHIO": "OH", "SOUTH CAROLINA": "SC", "INDIANA": "IN", "NEVADA": "NV",
                     "LOUISIANA": "LA",
                     "NORTHERN MARIANA ISLANDS": "MP", "NEBRASKA": "NE", "ARIZONA": "AZ", "WISCONSIN": "WI",
                     "NORTH DAKOTA": "ND",
                     "Armed Forces Europe": "AE", "PENNSYLVANIA": "PA", "OKLAHOMA": "OK", "KENTUCKY": "KY",
                     "RHODE ISLAND": "RI",
                     "DISTRICT OF COLUMBIA": "DC", "ARKANSAS": "AR", "MISSOURI": "MO", "TEXAS": "TX", "MAINE": "ME"}
    states = state_to_code.keys()
    print fuzz.ratio('Python Package', 'PythonPackage')
    print process.extract('Mississippi', states)
    print process.extract('Mississipi', states, limit=1)
    print process.extractOne('Mississipi', states)
    data.apply(find_state_code, axis=1)

    print 'Before Correct State:\n', data['state']
    data['state'] = data.apply(correct_state, axis=1)
    print 'After Correct State:\n', data['state']
    data.insert(5, 'State Code', np.nan)
    data['State Code'] = data.apply(fill_state_code, axis=1)
    print data

    # group by
    print '==============group by================'
    print data.groupby('State Code')
    print 'All Columns:\n'
    print data.groupby('State Code').sum()
    print 'Short Columns:\n'
    print data[['State Code', 'Jan', 'Feb', 'Mar', 'total']].groupby('State Code').sum()

    # 写入文件
    data.to_excel('sales_result.xls', sheet_name='Sheet1', index=False)

主成分分析PCA代码实现：

import pandas as pd
import numpy as np
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegressionCV
from sklearn import metrics
from sklearn.model_selection import train_test_split
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures


def extend(a, b):
    return 1.05*a-0.05*b, 1.05*b-0.05*a


if __name__ == '__main__':
    pd.set_option('display.width', 200)
    data = pd.read_csv('iris.data', header=None)
    columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'type']
    data.rename(columns=dict(zip(np.arange(5), columns)), inplace=True)
    data['type'] = pd.Categorical(data['type']).codes
    print data.head(5)
    x = data.loc[:, columns[:-1]]
    y = data['type']

    pca = PCA(n_components=2, whiten=True, random_state=0)
    x = pca.fit_transform(x)
    print '各方向方差：', pca.explained_variance_
    print '方差所占比例：', pca.explained_variance_ratio_
    print x[:5]
    cm_light = mpl.colors.ListedColormap(['#77E0A0', '#FF8080', '#A0A0FF'])
    cm_dark = mpl.colors.ListedColormap(['g', 'r', 'b'])
    mpl.rcParams['font.sans-serif'] = u'SimHei'
    mpl.rcParams['axes.unicode_minus'] = False
    plt.figure(facecolor='w')
    plt.scatter(x[:, 0], x[:, 1], s=30, c=y, marker='o', cmap=cm_dark)
    plt.grid(b=True, ls=':')
    plt.xlabel(u'组份1', fontsize=14)
    plt.ylabel(u'组份2', fontsize=14)
    plt.title(u'鸢尾花数据PCA降维', fontsize=18)
    # plt.savefig('1.png')
    plt.show()

    x, x_test, y, y_test = train_test_split(x, y, train_size=0.7)
    model = Pipeline([
        ('poly', PolynomialFeatures(degree=2, include_bias=True)),
        ('lr', LogisticRegressionCV(Cs=np.logspace(-3, 4, 8), cv=5, fit_intercept=False))
    ])
    model.fit(x, y)
    print '最优参数：', model.get_params('lr')['lr'].C_
    y_hat = model.predict(x)
    print '训练集精确度：', metrics.accuracy_score(y, y_hat)
    y_test_hat = model.predict(x_test)
    print '测试集精确度：', metrics.accuracy_score(y_test, y_test_hat)

    N, M = 500, 500     # 横纵各采样多少个值
    x1_min, x1_max = extend(x[:, 0].min(), x[:, 0].max())   # 第0列的范围
    x2_min, x2_max = extend(x[:, 1].min(), x[:, 1].max())   # 第1列的范围
    t1 = np.linspace(x1_min, x1_max, N)
    t2 = np.linspace(x2_min, x2_max, M)
    x1, x2 = np.meshgrid(t1, t2)                    # 生成网格采样点
    x_show = np.stack((x1.flat, x2.flat), axis=1)   # 测试点
    y_hat = model.predict(x_show)  # 预测值
    y_hat = y_hat.reshape(x1.shape)  # 使之与输入的形状相同
    plt.figure(facecolor='w')
    plt.pcolormesh(x1, x2, y_hat, cmap=cm_light)  # 预测值的显示
    plt.scatter(x[:, 0], x[:, 1], s=30, c=y, edgecolors='k', cmap=cm_dark)  # 样本的显示
    plt.xlabel(u'组份1', fontsize=14)
    plt.ylabel(u'组份2', fontsize=14)
    plt.xlim(x1_min, x1_max)
    plt.ylim(x2_min, x2_max)
    plt.grid(b=True, ls=':')
    patchs = [mpatches.Patch(color='#77E0A0', label='Iris-setosa'),
              mpatches.Patch(color='#FF8080', label='Iris-versicolor'),
              mpatches.Patch(color='#A0A0FF', label='Iris-virginica')]
    plt.legend(handles=patchs, fancybox=True, framealpha=0.8, loc='lower right')
    plt.title(u'鸢尾花Logistic回归分类效果', fontsize=17)
    # plt.savefig('2.png')
    plt.show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

机器学习——数据清洗，特征选择的相关文章

Unity 鼠标拖动旋转物体，并且物体不会越转越乱

用Mathf Abs 绝对值计算鼠标水平和竖直方向谁的位移更大减少因为一丢丢的其他方向移动导致的物体微幅旋转影响后面物体旋转会越来越混乱这样可以让物体旋转更好的单个方向进行旋转代码如下 public float speed 2f v
vue使用富文本编辑器:vue-quill-editor粘贴图片+图片上传服务器+预览图片

引入vue quill editor 初始化vue quill editor npm install vue quill editor save 部分页面引入组件 import quill dist quill core css impor

随机推荐

51单片机实现串口通信（主单片机到从单片机发送LED流水灯）

其实这是个51单片机串口通信的小例子课堂上老师说你们可以去尝试弄一下于是就去网上找一下资料就做了这个实验先把一个作为主机用来发送数据另一个作为从机用来接收数据将两个程序各自烧录到对应的板子上去并将主机的TX P3 0 接到
VS C++ 生成类图

C 中如何快速清晰的了解定义类型及类型之间的关联关系一个好的类图有助于你快速了解那么怎么去生成一个类图呢下面步骤可以帮到你一安装类设计器组件 1 确定是否已经安装类设计器如果未安装可以打开工具 gt 获取工具和功能或者直
springboot Junit单元测试默认事务不提交

目录一 Junit初次使用二 Junit事务问题 1 默认不提交事务默认回滚 2 设置rollback 让Junit提交事务一 Junit初次使用因为以前总觉得Junit单元测试配置比较繁琐代码功能大多使用main方法或者pos
SD秋叶安装教程

前言本部署整合包基于开源项目 stable diffusion webui制作部署包作者秋葉aaaki 免责声明本安装包及启动器免费提供无任何盈利目的电脑配置要求操作系统 windows10以后 CPU 不做强制要求内存推
输出斐波那契数列的每一项，每五个换行

7 2 利用数组计算斐波那契数列 15 分本题要求编写程序利用数组计算菲波那契 Fibonacci 数列的前N项每行输出5个题目保证计算结果在长整型范围内 Fibonacci数列就是满足任一项数字是前两项的和最开始两项均定义为1
FFmpeg录制流

FFmpeg下windows安装下载地址 http ffmpeg org download html windows 下载 ffmpeg release essentials zip 这个文件名解压后将bin目录加到环境变量path 录
内存使用(分段、分区、分页、多级页表、快表)--OS

内存使用内存使用将程序放在内存中 PC指向内存地址首先我们需要让程序进入内存举个例子 int main int argc char argv text entry 入口地址 call main call exit main ret
windows默认文件(桌面、下载、文档等)设置为C盘根路径后怎么修改回去

桌面下载文档等设置为C盘根路径后怎么修改回去 1 问题 2 解决办法 2 1 按 Win R 调出运行窗口输入 regedit 并按回车 2 2 在弹出的注册表窗口里打开下面路径计算机 HKEY CURRENT USER SOFT
数据结构——迪杰斯特拉（Dijkstra）算法

迪杰斯特拉算法又叫狄克斯特拉算法是从一个顶点到其余各顶点的最短路径算法解决的是有权图中最短路径问题迪杰斯特拉算法主要特点是从起始点开始采用贪心算法的策略每次遍历到始点距离最近且未访问过的顶点的邻接节点直到扩展到终点为止以下是数
【Golang】切片（slice)

文章目录切片直接声明新的切片 append 函数为切片添加元素复制切到另一个切片从切片中删除元素从开头位置删除从中间位置删除从尾部删除切片切片 slice 是对数组的一个连续片段的引用所以切片是一个引用类型这个片段可以
scss 转为 less

tnpm install less plugin sass2less g sass2less scss dir name less rm rf scss 转载于 https www cnblogs com lyraLee p 1048966
virtualbox的虚拟机联不通外网的问题

问题描述在网卡配置上按照网上的操作配置好了但是仍然联不通外网 ip地址显示为127 0 0 1 解决通过输入dhclient v命令解决
Spring框架常用注解及通配符总结

Autowired 自动注入默认是类型匹配使用配置文件需要set 使用注解不需要只需要类属性 Autowired可以和 Qualifier beanName 配合着使用 Qualifier beanName 多个相同类型的bean 标
基于深度学习的目标检测方法综述

引言现有的深度学习的目标检测方法可以大致分为两类一基于候选区域的目标检测方法二基于回归的目标检测方法依据方法的提出时间可以构建出如下时间线 2014 CVPR R CNN 1 2015 arXiv DenseBox 14 2
「开源项目」现代化开源Linux服务器运维管理面板-1Panel

1Panel 基本介绍 1Panel 是新一代的 Linux 服务器运维管理面板产品优势快速建站深度集成 Wordpress 和 Halo 域名绑定 SSL 证书配置等一键搞定高效管理通过 Web 端轻松管理 Linux 服务器
arm汇编中感叹号/叹号的作用

arm汇编中存在一个神奇的可选后缀一般是在寄存器或寻址方式之后对于加了叹号的情况访问内存时先根据寻址方式更改寄存器的值再按照该已经更新的值访问内存
基于深度学习的目标检测算法概述

摘要目标检测是计算机视觉的一个重要分支其目的是准确判断图像或视频中的物体类别并定位传统的目标检测方法包括这三个步骤区域选择提取特征和分类回归这样的检测方法存在很多问题现已难以满足检测对性能和速度的要求基于深度学习的目标检测方
电子元器件/模块供应商汇总

晶振 WIFI MLCC电容
Python制作模拟按键摘录，pyautogui库及该库在某些窗口不生效的问题部分解决措施（PyDirectInput库、winio驱动级模拟）

文章目录 toc 一使用pyautogui库 1 安装pyautogui库 2 导入并在py中使用 1 导包 2 基本鼠标控制 3 基本键盘控制 4 屏幕截图 5 图片位置识别 3 存在问题二使用PyDirectInput库解决某些游
机器学习——数据清洗，特征选择

数据清洗的方法设置阈值去掉异常值随机森林预测去掉点的数值加进去 onehot编码不适用于决策树和随机森林先将一个属性分成几个类别然后再将样本的数据变成矩阵01 1表示其所在类别会导致特征数增多数据清洗代码实现 import n

机器学习——数据清洗，特征选择

机器学习

机器学习——数据清洗，特征选择的相关文章

Unity 鼠标拖动旋转物体，并且物体不会越转越乱

vue使用富文本编辑器:vue-quill-editor粘贴图片+图片上传服务器+预览图片

随机推荐

51单片机实现串口通信（主单片机到从单片机发送LED流水灯）

VS C++ 生成类图

springboot Junit单元测试默认事务不提交

SD秋叶安装教程

输出斐波那契数列的每一项，每五个换行

FFmpeg录制流

内存使用(分段、分区、分页、多级页表、快表)--OS

windows默认文件(桌面、下载、文档等)设置为C盘根路径后怎么修改回去

数据结构——迪杰斯特拉（Dijkstra）算法

【Golang】切片（slice)

scss 转为 less

virtualbox的虚拟机联不通外网的问题

Spring框架常用注解及通配符总结

基于深度学习的目标检测方法综述

「开源项目」现代化开源Linux服务器运维管理面板-1Panel

arm汇编中感叹号/叹号的作用

基于深度学习的目标检测算法概述

电子元器件/模块供应商汇总

Python制作模拟按键摘录，pyautogui库及该库在某些窗口不生效的问题部分解决措施（PyDirectInput库、winio驱动级模拟）

机器学习——数据清洗，特征选择

热门标签

fieldsfor

jtds

python38

wsastartup

corevideo

gitbundle

exitstatus

lattix

机器学习——数据清洗，特征选择

机器学习——数据清洗，特征选择 的相关文章

随机推荐

热门标签

机器学习——数据清洗，特征选择的相关文章