机器学习之python读取CSV文件

2023-05-16

当我们在用python处理机器学习的问题时，往往需要先读取数据，这些数据通常都是文件，我今天遇到的是CSV文件，是在kaggle竞赛数据集下载的（比如手写数字识别，以及我在博客中用到的泰坦尼克数据都是CSV文件）。
数据下载地址：数据下载
接下来，我介绍两种方法读取文件数据。
第一种：直接用open函数打开文件。程序如下：

import csv
import numpy as np
with open('F:/泰坦尼克/train.csv','r') as csvfile:
    reader = csv.reader(csvfile)
    rows= [row for row in reader]
print (rows)#输出所有数据
data=np.array(rows)#rows是数据类型是‘list',转化为数组类型好处理
print("out0=",type(data),data.shape)
print("out1=",data)

第二种：直接用python 里的pandas读取，很方便。程序如下：

#import pandas as pd
#data=pd.read_csv('F:/泰坦尼克/train.csv')
#print("out0=",data)
import pandas as pd
import os
import numpy as np
trainFile = "F:/泰坦尼克/train.csv"##python3.6版本可读取，但是有的不行，
pwd = os.getcwd()
os.chdir(os.path.dirname(trainFile))
trainData = pd.read_csv(os.path.basename(trainFile))
os.chdir(pwd)
print(trainData)#输出数据
data=trainData.iloc[0:892,0:12]#读取所有数据
print("------------------out",data)
#pandas数据格式为DataFrame,转化为numpy数组格式，方便处理
print (data.as_matrix(columns=None))
print(data.shape)

我的python版本是3.6，如果版本低的话，貌似可以用前面注释的三行就可以了，我最后都转换成数组格式了，好处理。（本来我今天是想处理手写数字识别的，因为那个最后需要转换成数组，但那个文件稍大，我的渣渣电脑就读不出来，所以就先用泰坦尼克这个数据学习读取CSV文件）。
其他参考资料：
pandas处理csv表格
Python3 pandas read_csv 报错解决方法
Python 读取csv的某列
我今天的博文也是参考网上其他博友的的文章内容，非常感谢他们分享知识。
如有错误，欢迎指出，谢谢。

补充一点内容：如何把txt文件转化为csv文件

在尝试softmax分类时，我们经常使用经典的鸢尾花数据集Iris（下载链接https://archive.ics.uci.edu/ml/datasets/Iris ）。但是我下载的时候不是那种csv文件，所以我把数据存为txt文件，然后转化为csv文件（按理说把后缀名修改后，就可以了，但是我的电脑上不行），程序如下（python版本3.6）：

import numpy as np  
import pandas as pd  
txt=np.loadtxt("C:/Users/jingshan/Desktop/irisdata.txt",
   dtype={'names': ('sepal length', 'sepal width', 'petal length', 'petal width', 'label'),
          'formats': (np.float, np.float, np.float, np.float, '|S15')},
   delimiter=',', skiprows=0)#|S15 (a 15-byte string)
print("out=",txt)
print(type(txt))
txtDF = pd.DataFrame(txt)#转化为DataFrame格式
txt1=txtDF.to_csv('C:/Users/jingshan/Desktop/irisdata1.csv',index=False) 
print(type(txtDF))

其中np.loadtxt 作用是把文本文件（*.txt）读入并以矩阵或向量的形式输出。

也可以这样写：

import numpy as np  
import pandas as pd
txt=np.genfromtxt('C:/Users/jingshan/Desktop/irisdata.txt', delimiter=',', dtype=None, names=('sepal length', 'sepal width', 'petal length', 'petal width', 'label'))
print("out=",txt)
print(type(txt))
txtDF = pd.DataFrame(txt)#转化为DataFrame格式
txt1=txtDF.to_csv('C:/Users/jingshan/Desktop/irisdata1.csv',index=False)

1 ，genfromtxt函数创建数组表格数据
2，genfromtxt主要执行两个循环运算。第一个循环将文件的每一行转换成字符串序列。第二个循环将每个字符串序列转换为相应的数据类型。
3，genfromtxt能够考虑缺失的数据,但其他更快和更简单的函数像loadtxt不能考虑缺失值。

好的，就这样，如有错误，欢迎指出，谢谢。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习之python读取CSV文件的相关文章

如何使用python从文件夹中的pdf中提取文本并将其保存在数据框中？

我有很多文件夹每个文件夹都有几个 pdf 文件也有其他文件类型如 xlsx 或 doc 我的目标是提取每个文件夹的pdf文本并创建一个数据框其中每条记录都是文件夹名称每列以字符串形式表示该文件夹中每个pdf文件的文本内容我设法
在命令提示符中识别“Pip”，但在 PyCharm 终端中无法识别

当我尝试在 Windows 命令提示符中运行 pip 时 pip V工作正常但是当我尝试在 PyCharm 终端中运行它时我得到 pip is not recognized as an internal or external comm
在 Mac OS 10.14.2 上的 Python 3.7 中安装 JPype1 时出错

我在系统中安装 JPype1 时遇到错误我正在使用Python 3 7 JPype1 是 Jaydebeapi 的依赖项 pip install Jpype1 以下是错误消息 Collecting jpype1 Using cached
如何向数据添加填充以使其可以接受 pycrypto 库中的 AES256 加密算法

有人可以告诉我如何向数据添加填充使其可以接受 pycrypto 库 Python 中的 AES256 加密算法提前非常感谢看着文档 http www dlitz net software pycrypto doc 看来要由图书馆用户自
numpy.linalg.inv() 是否给出了正确的矩阵逆？编辑：为什么 inv() 给出数值错误？

我有一个矩阵形状 4000 4000 我想取逆矩阵我对逆矩阵的直觉因如此大的矩阵而崩溃起始矩阵的值大小为e 10 具有以下值 print matrix给出一个输出 2 19885119e 10 2 16462810e 10 2 1306
pandas：使用运算符链接过滤 DataFrame 的行

大多数业务在pandas可以通过操作符链接来完成 groupby aggregate apply等但我发现过滤行的唯一方法是通过普通的括号索引 df filtered df df column value 这没有吸引力因为它需要我分配d
在Python中将距离矩阵转换为成对距离列表[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案假设Python中有以下距离矩阵 0 1 2 3 0 0 1 4 8 1 1 0 3 7 2 4 3 0 3 3 8 7 3 0 我想
如何在python包中包含.pyx文件

我在我的包中使用了 cythonpyirt https github com 17zuoye pyirt 但是当我将其发布到 pypi 时 pyx 文件不包含在 tar gz 中我认为这一定与安装文件有关但是我找不到解决这个问题的方法
如何在 Google App Engine 中为模型定义唯一属性？

我需要一些独特的属性我怎样才能实现这个目标有没有类似的东西unique True 我正在使用适用于 Python 的 Google App Engine Google 提供了执行此操作的函数 http code google com a
Pandas Dataframe.to_csv 小数=',' 不起作用

在 Python 中我正在将 Pandas Dataframe 写入 csv 文件并希望将小数分隔符更改为逗号像这样 results to csv D Data Kaeashi BigData ProcessMining Voorbe
Python - 在先前已在全局范围内查找的函数内重新分配名称

为什么我在下面的第三个代码中出现错误但在前两个代码中却没有出现错误我使用的是 Python 3 6 0 Anaconda 4 3 1 64 位 Jupyter Code 1 c 100 def fib c 20 a c print a
类型错误：无法连接“str”和“instance”对象（python urllib）

写一个python程序我在使用时遇到了这个错误urllib urlopen功能 Traceback most recent call last File ChurchScraper py line 58 in
如何让MagicMock返回多个值

我想模拟一个图书馆 matplotlib对于它的价值并且遇到一个问题当调用模拟并期望返回元组时它会失败有一个更好的方法吗 Python 3 7 2 default Jan 13 2019 12 50 15 Clang 10 0 0
ctypes.ArgumentError：不知道如何转换参数

我在C库中定义了一个函数如下所示 int Test char str1 int id1 char str2 float val float ls 我想在Python中使用它所以我编写了以下Python代码 str1 a str2 b i
seaborn 未在定义的子图中绘制

我正在尝试用这段代码并排绘制两个图表 fig ax1 ax2 plt subplots 1 2 sns displot x X train Age hue y train ax ax1 sns displot x X train Fare
Altair 条形图具有可变宽度的条形？

我正在尝试在 Python 中使用 Altair 制作条形图其中条形的宽度根据源数据帧列中的数据而变化最终目标是获得如下所示的图表条形的高度对应于每种能源技术的边际成本在源数据框中以列形式给出条形宽度对应于每种能源技术的容量也以
VS Code Pylance 不突出显示变量和模块

我正在使用带有 Python 和 Pylance 扩展的 VS Code 我遇到的问题是 Pylance 扩展没有对模块和数据框等内容进行语法突出显示我希望顶部的模块为绿色 df 变量为蓝色我正在使用默认的深色颜色主题这是我的 VS
如何使用 Python 3 在 OpenCV 3 上正确加载 cv2.KeyPoint 和描述符？

有一天我不得不恢复一个使用 OpenCV 3 和 Python 2 7 的旧项目在此代码中要加载 cv2 KeyPoint 我执行以下操作 import numpy as np import cPickle import cv2 ke
Mac 上的 PythonXY？

如何在 Mac OS X Lion 上安装 Python 我开始了它应该能够通过 macports 但无论如何我找不到 mac ports 网站上所述的端口 pythonXY 我对 MAC 和 pythonXY 都不太了解但在 pyth
Python 线程与 Linux 中的多处理

基于此question https stackoverflow com questions 807506 threads vs processes in linux我假设创建新流程应该几乎和创造新线程在Linux中然而很少的测试显示出截

随机推荐

caffe中几个基本概念

caffe中几个基本概念 1 caffe中的blob结构是用来进行数据存储交换和处理网络中正向反向迭代时的数据和导数信息的数据结构 blob是caffe的标准数组结构他提供了一个统一的内存接口其将内部的cpu gpu数据之间的传输与存
摄像头引脚定义

摄像头引脚定义 1 NC NO CONNECT 2 AGND Power Analog ground 3 SIO D I O SCCB serial interface data I O 4 AVDD Power Analog power
Android7.0 JACK编译器不支持多用户同时编译的问题的解决

xfeff xfeff Android7 0 xff08 也就是Android N xff09 上默认使用JACK编译器而不再使用openjdk了 xff0c 但发现JACK不是很好用 xff0c 比如最大的一个问题就是 xff0c 同一台
【树莓派】死机自动重启、掉线自动重连

目录 WIFI掉线自动重连首先查看你的板子硬件型号拿树莓派去做服务器就要配置下这两项 xff0c 保证随时能够VNC控制 WIFI掉线自动重连 http shumeipai nxez com 2017 01 25 raspberry p
open vswitch分析

Open vSwitch 概述 Open vSwitch xff08 下面简称 OVS xff09 是一个高质量的多层虚拟交换机 OVS 遵循开源 Apache2 0 许可 xff0c 通过可编程扩展 xff0c OVS 可以实现大规模网
C# 接口《通俗解释》

原文地址 xff1a https www cnblogs com hamburger p 4681681 html 接口的定义 xff1a 接口是指定一组函数成员 xff0c 而不实现他们的引用类型接口使用interface 关键字进行定
linux 如何查看指定动态库

要查看 Linux 系统指定的动态库 xff0c 可以使用以下命令 xff1a 使用 ldconfig 命令 xff1a ldconfig p 该命令将显示系统已加载的所有动态库及其路径如果要查找特定动态库 xff0c 可以使用 grep
Tortoisegit 恢复文件夹被删除的文件（被误删）

关于Tortoisegit 恢复git文件夹中被删除的文件 xff1a 1 在git文件夹右键tortorisegit show log 2 选择版本 xff08 当时执行删除操作的版本 xff09 3 选择被delete掉的 xff0c
putty screen 快捷键

使用putty的时候 xff0c 开启screen再detach xff0c 可以防止跑程序过程中断开连接而导致程序中断总结了下putty与screen 相关的快捷键目前常用的有如下几个 xff08 命令均在putty终端输入 xff0
Magento的不同版本（CE，EE，ECE）介绍

Magento提供了三个不同的版本平台 xff0c 即Magento Community Edition xff08 CE xff09 社区版 xff0c Magento Enterprise Edition xff08 EE xff09
c语言初学，字母大小写转换

这类题目主要通过ASCII码差值实现 xff0c A对应ASCII码十进制数字是65 xff0c a对应ASCII码十进制数字是97 xff0c 即大小写字母之间ASCII码差值为32 xff0c 想要将大写字母转换为小写字母可以将该字符A
matlab——subplot多子图共用一个colorbar，微调子图和colorbar位置

用subplot命令画出多个图后 xff0c 需要让这些图共用一个colorbar 在这里与大家分享我的操作 xff0c 希望能帮助到有需要的人备注 xff1a 从 R2019b 开始 xff0c 可以在分块图布局中显示共享颜色栏 xff
远程连接服务器数据库报错：Host ‘XXXXXX’ is blocked because of many connection errors

一我遇到的问题描述使用Navicat for mysql连接公司的服务器数据库 xff0c 报错 xff1a Host XXXXXX is blocked because of many connection errors 二出现错误
android中MediaCodec硬编码中关键帧间隔时间设置问题

在MediaCodec硬编码中设置 xff29 关键帧时间间隔 xff0c 在 xff21 xff30 xff29 中是这么设置的 mMediaCodec 61 MediaCodec createByCodecName debugger g
python3 网络编程问题——虚拟机centos7上运行tcp服务器，在主机win10上使用网络调试助手作为tcp客户端无法建立连接，提示1035错误：the socket is marked...

前提 xff1a 主机和虚拟机都是在同一网段下我的网络调试助手的连接结果如下图 xff1a 注意红框中的提示 xff0c 连接超时的结果可能是由于以下两种可能的情况导致的 xff1a 1 服务器端口未开启监听 2 路由项被防火墙拦截对
DSSM pytorch实现

之前在网上找到了一个文本匹配实现仓库 xff0c 但是没有提供DSSM的代码 xff0c 我就根据那个代码实现以下DSSM 数据集采用的是蚂蚁金服的数据集也参考过别人的代码 xff0c 但是总感觉怪怪的 xff0c DSSM原文中 xff
文本匹配实验结果总结

主要把一些实验结果说一下 xff1a DSSM 作为文本匹配的开山鼻祖 xff0c 想法也很简单 xff0c 就是将query 和doc拉到同一维度 xff0c 然后计算余弦相似度 xff0c 网络也是非常简单 xff0c 所以只获得了78
使用wikiextractor 提取wiki数据

wikiextractor包链接地址 xff1a https github com attardi wikiextractor 安装wikiextractor pip install wikiextractor 然后下载wiki语料库 xf
python爬虫（Python读取TXT文件中的URL并下载文件）

前言 xff1a 本人之前并没有接触过python爬虫 xff0c 但是现在因为要做个试验 xff0c 需要下载海量人脸图片 xff0c 所以需要用到python爬虫这个办法但是过程中遇到到了很多问题 xff0c 程序调了很久都不成功 x
机器学习之python读取CSV文件

当我们在用python处理机器学习的问题时 xff0c 往往需要先读取数据 xff0c 这些数据通常都是文件 xff0c 我今天遇到的是CSV文件 xff0c 是在kaggle竞赛数据集下载的 xff08 比如手写数字识别 xff0c 以及

机器学习之python读取CSV文件

机器学习之python读取CSV文件 的相关文章

随机推荐

热门标签

机器学习之python读取CSV文件的相关文章