Pandas 读取缺少一个标头的 csv

2024-04-25

我正在尝试使用 Pandas 读取 csv 文件，但第一列包含用逗号分隔的名字和姓氏。这会导致 Pandas 认为有 5 列而不是 4 列，因此最后一列现在没有标题，因此无法选择它。

该文件如下所示：

CustomerName,ClientID,EmailDate,EmailAddress
FNAME1,LNAME1,100,2019-01-13 00:00:00.000,[email protected] /cdn-cgi/l/email-protection
FNAME2,LNAME2,100,2019-01-13 00:00:00.000,[email protected] /cdn-cgi/l/email-protection
FNAME3,LNAME3,100,2019-01-13 00:00:00.000,[email protected] /cdn-cgi/l/email-protection
FNAME4,LNAME4,100,2019-01-13 00:00:00.000,[email protected] /cdn-cgi/l/email-protection
FNAME5,LNAME5,100,2019-01-13 00:00:00.000,[email protected] /cdn-cgi/l/email-protection

我的代码现在是什么样子：

def convert_ftp_data():
    file = os.getcwd() + "/data.csv"
    data = pd.read_csv(file, index_col=False)

data["first_name"] = data["CustomerName"].str.split().str[0].str.title()
data["email"] = data["EmailAddress"]

clean_data = data.drop(data[["CustomerName", "ClientID", "EmailDate", "EmailAddress"]], 1)

print(clean_data)

使用我的代码我得到以下输出：

first_name  email
0   FNAME1  2019-01-13 00:00:00.000
1   FNAME1  2019-01-13 00:00:00.000
2   FNAME1  2019-01-13 00:00:00.000
3   FNAME1  2019-01-13 00:00:00.000
4   FNAME1  2019-01-13 00:00:00.000

我只需要选择 FNAME 和 EmailAddress 字段。最好的方法是什么？

单独阅读标题

With pd.read_csv https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html，你可以利用nrows, skiprows and names参数：

from io import StringIO

x = """CustomerName,ClientID,EmailDate,EmailAddress
FNAME1,LNAME1,100,2019-01-13 00:00:00.000,[email protected] /cdn-cgi/l/email-protection
FNAME2,LNAME2,100,2019-01-13 00:00:00.000,[email protected] /cdn-cgi/l/email-protection
FNAME3,LNAME3,100,2019-01-13 00:00:00.000,[email protected] /cdn-cgi/l/email-protection
FNAME4,LNAME4,100,2019-01-13 00:00:00.000,[email protected] /cdn-cgi/l/email-protection
FNAME5,LNAME5,100,2019-01-13 00:00:00.000,[email protected] /cdn-cgi/l/email-protection"""

headers = pd.read_csv(StringIO(x), nrows=0).columns
headers = np.hstack((['FirstName', 'LastName'], headers[1:]))

df = pd.read_csv(StringIO(x), header=None, skiprows=[0], names=headers)

print(df)

#   FirstName LastName  ClientID                EmailDate        EmailAddress
# 0    FNAME1   LNAME1       100  2019-01-13 00:00:00.000  [email protected] /cdn-cgi/l/email-protection
# 1    FNAME2   LNAME2       100  2019-01-13 00:00:00.000    [email protected] /cdn-cgi/l/email-protection
# 2    FNAME3   LNAME3       100  2019-01-13 00:00:00.000      [email protected] /cdn-cgi/l/email-protection
# 3    FNAME4   LNAME4       100  2019-01-13 00:00:00.000   [email protected] /cdn-cgi/l/email-protection
# 4    FNAME5   LNAME5       100  2019-01-13 00:00:00.000      [email protected] /cdn-cgi/l/email-protection

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

csv

DataFrame

Pandas 读取缺少一个标头的 csv 的相关文章

在 Jupyter Notebook 中设置环境变量的不同方法

在某些情况下我在 Windows 10 计算机上使用 Jupyter 笔记本我想通过设置环境变量 GOOGLE APPLICATION CREDENTIALS 来向 GCP 进行身份验证我想知道这两种设置环境变量的方式有什么区别当
Python 中 time.sleep 和多线程的问题

我对 python 中的 time sleep 函数有疑问我正在运行一个脚本需要等待另一个程序生成 txt 文件虽然这是一台非常旧的机器所以当我休眠 python 脚本时我遇到了其他程序不生成文件的问题除了使用 time sl
如何在动态执行的代码字符串中使用inspect.getsource？

如果我在文件中有这段代码 import inspect def sample p1 print p1 return 1 print inspect getsource sample 当我运行脚本时它按预期工作在最后一行源代码sampl
将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
样本（）和r样本（）有什么区别？

当我从 PyTorch 中的发行版中采样时两者sample and rsample似乎给出了类似的结果 import torch seaborn as sns x torch distributions Normal torch tens
R：如何根据规范更改数据框中的列名称

我有一个数据框它的开头如下 SM H1455 SM V1456 SM K1457 SM X1461 SM K1462 ENSG00000000419 8 290 270 314 364 240 ENSG00000000457 8 252
从字典中绘制直方图

我创建了一个dictionary计算 a 中出现的次数list每个键的内容我现在想绘制其内容的直方图这是我想要绘制的字典的内容 1 27 34 1 3 72 4 62 5 33 6 36 7 20 8 12 9 9 10 6 11 5
Karasuba算法递归过多

我正在尝试用 c 实现 Karasuba 乘法算法但现在我只是想让它在 python 中工作这是我的代码 def mult x y b m if max x y lt b return x y bm pow b m x0 x bm x1
打印一份拥有多个家庭的人员名单，每个家庭都有多个电话号码

我有一类 Person 它可以有多个 Home 每个 Home 都有一个或多个电话号码我已经定义了类但现在我正在尝试创建一个视图其中列出每个人的所有家庭以及每个家庭地址的所有电话号码类似于 john smith 123 fake s
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
同一台机器上有多个Python版本？

Python 网站上是否有关于如何在 Linux 上的同一台计算机上安装和运行多个版本的 Python 的官方文档我可以找到无数的博客文章和答案但我想知道是否有标准官方方法可以做到这一点或者这一切都取决于操作系统我认为它是完全独
Jupyter笔记本突然变得很慢

我以前在anaconda环境下运行jupyter运行得很好显示警告后 IOPub data rate exceeded The notebook server will temporarily stop sending output to
在 pygame 中，我如何创建一个数据结构来跟踪调整大小事件和对象的坐标？

我希望在调整屏幕大小后使鼠标事件与对象保持同步有人告诉我需要创建一个数据结构来跟踪调整事件大小新坐标以匹配调整大小如何使用简单的代数方程来完成此操作并将其集成到调整大小事件中以进行准确更新反过来做创建一个虚拟游戏地图在绘制场景
django 中的身份验证方法返回 None

你好我在 django 中做了一个简单的注册和登录页面当想要登录时登录视图中的身份验证方法不返回任何内容我的身份验证应用程序模型 py from django db import models from django contri
如何让 Streamlit 每 5 秒重新加载一次？

我必须每 5 秒重新加载 Streamlit 图表以便在 XLSX 报告中可视化新数据如何实现这一目标 import streamlit as st import pandas as pd import os mainDir os pa
如何在 Python 中跟踪日志文件？

我想在 Python 中提供 tail F 或类似内容的输出而无需阻塞或锁定我找到了一些非常旧的代码来做到这一点here http code activestate com recipes 436477 filetailpy 但我认为现
旧版本的 spaCy 在尝试安装模型时抛出“KeyError: 'package'”错误

我在 Ubuntu 14 04 4 LTS x64 上使用 spaCy 1 6 0 和 python3 5 为了安装 spaCy 的英文版本我尝试运行这给了我错误消息 ubun ner 3 NeuroNER master src pyt
如何在supervisord中设置组？

因此我正在设置 Supervisord 并尝试控制多个进程并且一切正常现在我想设置一个组以便我可以启动停止不同的进程集而不是全部或全无这是我的配置文件的片段 group tapjoy programs tapjoy game1
为什么我的 PyGame 应用程序根本不运行？

我有一个简单的 Pygame 程序 usr bin env python import pygame from pygame locals import pygame init win pygame display set mode 400
OSError: [WinError 193] %1 不是有效的 Win32 应用程序，同时使用 CTypes 在 python 中读取自定义 DLL

我正在尝试编写用 python 封装 C 库的代码我计划使用 CTypes 来完成此操作并使用 Visual Studio 来编译我的 DLL 我从一个简单的函数开始在 Visual Studio 内的标头中添加了以下内容然后将其构

随机推荐

JSLint 错误：将调用移至包含该函数的括号中

我怎样才能让这个代码 jsLint 快乐 function window document undefined some code jQuery window document 它建议我这样写会有什么不同吗我该怎么办 function
如何在 WPF 中的窗口上绘图（最佳实践）？

我正在尝试编写一个类似交互式游戏的小型应用程序我需要有一个Draw方法将在屏幕上绘制但无法弄清楚如何构造 WPF 的方法如果这是Winforms 我可以使用 public void Draw Graphics g 但对于一个WPF W
我的 java 应用程序不读取我的文件（maven 项目）

我有一个 Java 简单项目中的应用程序但是我需要将此项目粘贴到 Maven 项目中因此我基本上制作了一个简单的 Maven 项目并将所有类复制并粘贴到其中我需要在服务器中运行一个war 并且我需要像Java应用程序一样运行Ma
从头开始创建 mp3 文件 C#

作为一些实验的一部分我想到了一些事情如何在 C 中从头开始创建一个 mp3 文件这实际上听起来像什么例如创建一个播放音符的 mp3 文件 C 或 B 降调我怎样才能实现这一点它必须是 mp3 文件而不是 wav 或其他任何文
Python 寻求读取不断增长的文件

我编写了一个 python 脚本使用任务计划程序每 5 分钟运行一次读取不断增长的日志文件文本文件并将数据插入数据库每天生成新的日志文件我需要修改它并在最后一行的末尾放置一个指针因此当调度程序再次运行时它会在最后插入的行之后
普遍接受的变量名称格式 - C/C++

我意识到这可能是一个偏好问题但我注意到我见过的很多代码示例中的变量名称都有前缀g s m 要不就这是一种普遍接受的做法吗这些前缀的含义是什么还有其他值得了解的吗 g 是一个全局变量 s 是一个静态的 m 是一个成员实例变量是成员
如何在cocos2dx 3.0中调用callfunc函数

我必须将 Objective C 转换为 C 11 我坚持使用以下语法我已在 testcpp 中引用并尝试以下语法这是我尝试过的代码 this gt runAction Sequence create blink CallFunc cr
Reset.css 在 IE7/IE6 中覆盖 colgroup 背景

我有一个表其中的列具有由 colgroup 设置的不同背景然而在 IE6 7 中它完全忽略 colgroup 背景并采用单元格的 Reset css 背景值即背景透明如何解决此问题而无需转到每个单元格并手动输入背景值 HTM
安装期间初始化 user.config 或 app.exe.config

我正在开发一个 NET WinForms 应用程序它依赖于 user config 来存储各种有用的设置例如 Intranet Web 服务 URL 我们希望能够在安装过程中导入自定义初始设置其用例是如果一家公司想要在 100 台计
Spring Boot - 微服务之间如何通信？

我目前正在开发一个 Spring Boot 微服务项目我创建了服务每个服务都单独运行这样我需要一些服务来与其他服务进行通信我怎样才能做到这一点我看到一些关于此的博客使用 Netflix Eureka 云服务器来实现这一点有什么
mysql中auto_increment（整数）的限制是多少

我有一个mysql数据库我在其中使用auto increment integer 你能告诉我它可以增加多少整数吗我们如何提高auto increment的限制的极限auto increment column 是列的大小 https d
PHP / OpenCart 2.2.0 - 创建自定义主题

我今天开始在 OpenCart 2 2 中进行主题开发我正在关注这篇文章 http code tutsplus com tutorials create a custom theme with opencart introduction
类型错误：“itertools.combinations”对象不可下标

当我尝试运行时 temp twoset2 x i 0 twoset x i 1 I get 类型错误 itertools combinations 对象不可下标 My code for x in range 0 64 for i in ra
如何在动态更新时检测输入的值变化（Angular 6）

我正在使用自定义指令和自定义管道对文本输入进行货币格式化它适用于任何类型的直接用户输入焦点模糊按键但是当值动态更改时我似乎无法捕获更改事件我也找不到可靠的主机侦听器事件列表并且不知道如何捕获进入输入的任何事件因此无法看到
如何在 API 模式下使用 Doorkeeper 处理 OAuth 流程？

场景很简单 A 仅限 Rails API带有 Doorkeeper 提供商的服务器 A 移动应用 and a SPA 假设是 React 想要使用电子邮件和密码注册和登录的用户当你有一个正常的Rails 堆栈你需要定义一个authori
RecyclerView 和 Picasso 图像滚动后消失

我没有找到答案here https stackoverflow com questions 29564824 recyclerview disappearing images here https stackoverflow com que
GWT 和 Google 文档 API

我正在使用 GWT 创建一个简单的应用程序让教师可以轻松创建自己的课程该应用程序将位于 Google App Engine 上但我想将课程存储在用户的 Google 文档空间中是否可以据我所知 gwt 将 java 转换为 jav
未捕获的错误：期望增强器是一个函数

我试图从组件调用减速器并希望在组件中渲染它但是当我尝试将减速器存储在 redux 的 createStore 方法中时出现了上述错误我的代码是这样的 import applyMiddleware compose createStore
Powershell Invoke-RestMethod 授权标头

当调用一个Invoke RestMethod使用 Powershell 例如 Invoke RestMethod Method Get Uri https google com api GetData Headers headers and
Pandas 读取缺少一个标头的 csv

我正在尝试使用 Pandas 读取 csv 文件但第一列包含用逗号分隔的名字和姓氏这会导致 Pandas 认为有 5 列而不是 4 列因此最后一列现在没有标题因此无法选择它该文件如下所示 CustomerName ClientID

Pandas 读取缺少一个标头的 csv

单独阅读标题

Pandas 读取缺少一个标头的 csv 的相关文章

随机推荐

热门标签