从列中的字符串中去除空格

2024-02-25

我正在使用Pythoncsvkit比较 2 个文件,如下所示:

df1 = pd.read_csv('input1.csv', sep=',\s+', delimiter=',', encoding="utf-8")
df2 = pd.read_csv('input2.csv', sep=',\s,', delimiter=',', encoding="utf-8")
df3 = pd.merge(df1,df2, on='employee_id', how='right')
df3.to_csv('output.csv', encoding='utf-8', index=False)

目前,我正在通过预先编写的脚本运行该文件,该脚本会从employee_id column.

一个例子employee_ids:

37 78973 3
23787
2 22 3
123

有没有办法得到csvkit这样做可以让我节省一步吗?


You can strip()Pandas 中的整个系列使用.str.strip() https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.strip.html:

df1['employee_id'] = df1['employee_id'].str.strip()
df2['employee_id'] = df2['employee_id'].str.strip()

这将删除前导/尾随空格employee_id两者中的列df1 and df2

或者,修改read_csv https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html使用线路skipinitialspace=True https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#:%7E:text=variants%20of%20%E2%80%9CFalse%E2%80%9D.-,skipinitialspace,-bool%2C%20default%20False

df1 = pd.read_csv('input1.csv', sep=',\s+', delimiter=',', encoding="utf-8", skipinitialspace=True)
df2 = pd.read_csv('input2.csv', sep=',\s,', delimiter=',', encoding="utf-8", skipinitialspace=True)

看起来您正在尝试删除包含数字的字符串中的空格,这可以通过以下方式完成pandas.Series.str.replace https://pandas.pydata.org/docs/reference/api/pandas.Series.str.replace.html:

df1['employee_id'] = df1['employee_id'].str.replace(" ", "")
df2['employee_id'] = df2['employee_id'].str.replace(" ", "")
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从列中的字符串中去除空格 的相关文章

  • 如何将 UPX 与 pyinstaller 一起使用?

    如何将 UPX 与 pyinstaller 一起使用 我正在关注文档 我已经下载了UPX 我的文件如下所示 import csv import selenium import pandas print Hello 然后我运行 pyinsta
  • TCP打孔问题

    我尝试使用 Python 3 中概述的原则为防火墙编写一个基本的 TCP 打孔器本文 http www bford info pub net p2pnat index html 不过 我无法连接任何东西 这是代码 usr bin pytho
  • 根据 R 中的字符串模式选择行

    假设我有以下数据 df lt data frame name c TO for Turnover for people HC people Hello world beenie man apple pears TO is number c
  • 将数字转换为整数列表[重复]

    这个问题在这里已经有答案了 我该如何写magic下面的函数 gt gt gt num 123 gt gt gt lst magic num gt gt gt gt gt gt print lst type lst 1 2 3
  • Python,将字典存储在数据库中

    在数据库中存储和检索 python 字典的最佳方法是什么 如果您对使用传统 SQL 数据库 例如 MySQL 不是特别感兴趣 您可以研究非结构化文档数据库 其中文档自然映射到 python 字典 例如MongoDB http www mon
  • Django“模型”对象不可迭代

    我有一张表 其中显示了已注册的员工 我想根据他们的数据库生成一个简单的 HTML 页面 其中包括他们的姓名 id 职称等 为此 我将一个 id 传递给视图 以便它可以获取相应用户的详细信息并向我显示 一切正常 直到出现错误对象不可迭代 下面
  • 完全定制的Python帮助用法

    我正在尝试使用 Python 创建完全自定义的 帮助 用法 我计划将其导入到许多我想要具有风格一致性的程序中 但遇到了一些麻烦 我不知道为什么我的描述忽略换行符 尝试过 和 我无法让 出现在 ARGS 行的 换行符之后 显然它们坐在自己的行
  • 从网站上抓取数字和详细信息的数据

    我想从网站上抓取联系电话以及快递服务的相应详细信息 我无法从所有快递服务中获取联系电话和其他详细信息 例如姓名地址和评级 我分析的数据位于脚本标签中 请提出修复此问题的建议 import requests import pandas as
  • 模拟类:Mock() 还是 patch()?

    我在用mock http www voidspace org uk python mock index html使用Python 想知道这两种方法中哪一种更好 阅读 更Pythonic 方法一 只需创建一个模拟对象并使用它 代码如下 def
  • 导入我自己的模块时出现“ImportError:没有名为...的模块”

    我正在尝试导入模块 但不断收到导入错误 在 PortfolioStatus py 文件中 我有以下代码 它从 share data py 模块导入 share data 类 from Shares share data import sha
  • 保存游戏最高分?

    我使用 pygame 在 python 中制作了一个非常简单的游戏 分数取决于玩家达到的级别 我将级别作为变量称为score 我想在游戏开始或结束时显示顶级 我会更乐意显示多个分数 但我见过的所有其他线程都太复杂 我无法理解 所以请保持简单
  • Tkinter 如何根据此组合框自动更新第二个组合框

    我在 Tkinter Python 中遇到了组合框更新的问题 我有两个组合框 组合框A with values A B C and 组合框B 我想要的是 当值A在组合框中选择A然后在组合框中B显示值 1 2 3 当值B在组合框中选择A然后在
  • 如何使用 selenium 获取 javascript 结果?

    我有以下代码 from selenium import selenium selenium selenium localhost 4444 chrome http some site com selenium start sel selen
  • 枚举上的 random.choice

    我想用random choice on an Enum I tried class Foo Enum a 0 b 1 c 2 bar random choice Foo 但是这段代码失败了KeyError 我怎样才能随机选择一个成员Enum
  • 如何从 IDLE 命令行运行 Python 脚本?

    在 bash shell 中 我可以使用 bash 或 source 手动调用脚本 我可以在 Python IDLE 的交互式 shell 中做类似的事情吗 我知道我可以转到文件 gt gt 打开模块 然后在单独的窗口中运行它 但这很麻烦
  • 在 MySQL 中分割逗号分隔值

    我正在尝试将字符串中以逗号分隔的 值拆分为多列 样本数据 COL1 COL2 COL3 000002 000003 000042 09 31 51 007 004 007 预期输出 Pno Cno Sno 000002 09 007 000
  • 混合两个列表的Pythonic方法[重复]

    这个问题在这里已经有答案了 我有两个长度为 n 和 n 1 的列表 a 1 a 2 a n b 1 b 2 b n 1 我想要一个函数作为结果给出一个列表 其中包含两个中的替代元素 即 b 1 a 1 b n a n b n 1 以下方法有
  • float() 参数必须是字符串或数字,而不是“时间戳”

    我无法使 scilearn 与日期时间系列一起工作 找到了这篇文章 但对我没有帮助 Pandas 类型错误 float 参数必须是字符串或数字 https stackoverflow com questions 41256626 panda
  • 重新安装后使用 pandas dataframes 时出现问题

    我已经重新安装了 Python 和 Anaconda 现在面临以下问题 在我将 pkl 文件加载到数据帧并尝试 查看 该文件后 如下所示 df pd read pickle example pkl df 我收到错误 AttributeErr
  • Python Web 编程的不同方法的优缺点

    我想使用 Python 编写一些服务器端脚本 但我对这样做的方法有点迷失了 它从 DIY CGI 方法开始 似乎以一些相当强大的框架结束 这些框架基本上可以自己完成所有工作 中间有很多东西 比如web py http webpy org P

随机推荐

  • 我可以在 angular2 中返回原始 json 响应吗

    angular2 是否可以返回原始 json 响应 前任 成分 getrawJson this someservice searchJson subscribe somelist gt this somelist somelist erro
  • 是否可以使用“yield”来生成“Iterator”而不是 Scala 中的列表?

    是否可以使用yield作为迭代器而不评估每个值 当很容易实现复杂的列表生成时 这是一个常见的任务 然后你需要将其转换为Iterator 因为你不需要一些结果 当然 实际上 非严格性有三种选择 我在下面列出 对于示例 假设 val list
  • Delphi XML 数据绑定错误:“未知数据类型”

    我正在尝试从导入的架构中导入包含一些复杂文件的 XSD 文件 XML 数据绑定向导给我一个 未知数据类型 错误 我在几个论坛中看到这个问题 但目前还没有解决方案 这是文件 http www sii cl factura electronic
  • Android 12 上的 apk 安装失败

    compileSdkVersion 31 defaultConfig minSdkVersion 20 targetSdkVersion 31 构建或组装调试效果良好 但是安装APK时出现 解析包错误时出现问题 当我查找时 我看到将 and
  • 如何在 Visual Studio Code 中为 C++ 启用漂亮打印?

    我正在尝试使用 MinGW GDB python 调试器在 Visual Studio Code 中启用 C 的漂亮打印 我按照描述的步骤操作here https stackoverflow com questions 4985414 ho
  • 检查显示器是否已连接

    我必须制作一个简单的程序 向服务器报告显示器的状态 是开 关还是只是未连接 到目前为止 我正在使用在另一个讨论中找到的这种方法 但它每次都会返回 true 即使我已经断开了显示器的连接 public static Boolean isMon
  • getJSON 同步

    目标 我所追求的是每次在数据库中添加某些内容时 在 ajax 到 Submit to db php 之后 从数据库获取数据并刷新 main php 通过 draw polygon 更明显 所以基本上我有一个main php 它将ajax调用
  • 数据表在编辑后不记得分页页面

    我一直在使用 DataTable 服务器端处理 我的数据表有编辑列 当编辑链接时 单击 jQuery 对话框将出现 提交后对话框将关闭并调用 ajax reload 但是 当我在分页中执行此操作时 如果我在 ajax reload 之后在第
  • AS3 功能点击按钮后开始下载!

    我的网站需要一个 ActionScript 3 函数 让人们在单击按钮后下载文档 在网上任何地方都找不到这个 谢谢 詹妮弗 文件参考 下载 http livedocs adobe com flash 9 0 ActionScriptLang
  • 使用 64 位包编译 32 位 Qt 应用程序

    我使用的是 Windows 8 64 位 Qt 5 0 2 for Windows 64 位和 Visual Studio 2012 我在 64 位操作系统上编译和运行我的应用程序没有遇到任何问题 但显然它不适用于 32 位操作系统 有没有
  • 如何使用 JWT 为 Google firebase 生成身份验证令牌?

    所以我正在努力对 Firebase REST API 进行身份验证 https firebase google com docs database rest auth我正在使用蒸气框架 https vapor codes对于服务器端 swi
  • 存储过程中关键字 '.未闭合引号附近的语法不正确

    我有 2 个表和 2 个存储过程 在这两个存储过程中 我有相同的插入数据代码 从一个存储过程中 我在插入相同数据时收到错误 信息 Testing is going on Let s find out it 我将一个值从 C 代码隐藏直接传递
  • Polars的replace_time_zone函数抛出“没有这样的当地时间”的错误

    这是我们要使用的测试数据 import polars as pl import pandas as pd from datetime import date time datetime df pl DataFrame pl date ran
  • 带命名空间的 PHPUnit getMock()

    我对开始在 PHP 中使用名称空间的追求仍在继续 这次 PHPUnit 给我带来了问题 我的 setup 方法是这样的 test new MyNamespace NonPersistentStorage works mock this gt
  • 将多种日期格式解析为单一格式

    我有一个名为 已发布 日期 的专栏 正如您所看到的 它有多种日期格式和 nan 值 我想跳过 nan 值 将所有其他格式转换为 Y d 并忽略具有唯一年份的格式 我尝试了 df publish time pd to datetime df
  • 为什么Python语言没有writeln()方法?

    如果我们需要向文件写入新行 我们必须编写以下代码 file output write Fooo line n Python 没有任何原因吗 writeln method 在 Python 2 中 使用 print gt gt file ou
  • 使用 jQuery ajax 提交表单

    表单未使用 ajax form 在单击 li 时提交 给我一些解决方案 我的js代码在这里 document ready function sortable li click function frmgallery submit funct
  • 我可以使用 WiX 设置自定义许可证吗?

    WiX 生成的 MSI 的默认许可证是通用公共许可证 如何将其更改为 GPLv2 The Wix变量 http wix sourceforge net manual wix3 wix xsd wixvariable htm XML元素 ht
  • 使用 C# 从完整结果集变量获取数据到脚本任务

    我需要使用脚本任务将数据从 SQL 任务获取到 DataTable 对象以生成电子邮件 但是当我尝试使用 OLEDB 适配器填充任务填充数据时 它会生成错误 OleDbDataAdapter 内部错误 行集访问器无效 Ordinal 1 S
  • 从列中的字符串中去除空格

    我正在使用Pythoncsvkit比较 2 个文件 如下所示 df1 pd read csv input1 csv sep s delimiter encoding utf 8 df2 pd read csv input2 csv sep