Python pandas 在数据框中拆分文本和数字

2023-11-29

我有一个数据框 df1,其列名称 Acc Number 作为第一列,数据如下所示:

Acc Number
ASC100.1
MJT122
ASC120.4
XTY111

我需要创建一个新的数据框 df2 ,它有两列,第一列包含文本部分,第二列包含数字,因此所需的输出是:

Text    Number 
ASC     100.1
MJT     122
ASC     100.4
XTY     111

我该怎么做呢?

Thanks!


你可以这样做:

import pandas as pd

data = ['ASC100.1',
'MJT122',
'ASC120.4',
'XTY111']

df = pd.DataFrame(data=data, columns=['col'])

result = df.col.str.extract('([a-zA-Z]+)([^a-zA-Z]+)', expand=True)
result.columns = ['Text', 'Number']
print(result)

Output

  Text Number
0  ASC  100.1
1  MJT    122
2  ASC  120.4
3  XTY    111

图案([a-zA-Z]+)([^a-zA-Z]+)表示匹配一组字母:([a-zA-Z]+)后面跟着一组非字母:([^a-zA-Z]+)。更安全的替代方法是使用以下正则表达式:([a-zA-Z]+)(\d+\.?\d+)假设数字最多只能有一个点。

Further

  1. 有关的文档regex在Python中。
  2. 有关的文档extract.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python pandas 在数据框中拆分文本和数字 的相关文章

  • 如何跳过财务图中的空日期(周末)

    ax plot date dates dates highs lows 我目前正在使用此命令来绘制财务高点和低点Matplotlib http en wikipedia org wiki Matplotlib 效果很好 但如何删除 x 轴上
  • 如何在 kubernetes 上使多个 pod 相互通信

    我是 Kubernetes 新手 我正在尝试通过 microk8s 将应用程序部署到 Kubernetes 该应用程序包含Python Flask后端 Angular前端 Redis和MySQL数据库 我将映像部署在多个 Pod 中 状态显
  • 如何使用 boto3 从 AWS Cognito 获取经过身份验证的身份响应

    我想使用 boto3 获取访问 AWS 服务的临时凭证 用例是这样的 我的 Cognito 用户池中的用户登录到我的服务器 我希望服务器代码为该用户提供访问其他 AWS 服务的临时凭证 我有一个存储我的用户的 Cognito 用户池 我有一
  • Python pandas:删除字符串中分隔符之后的所有内容

    我有数据框 其中包含例如 vendor a ProductA vendor b ProductA vendor a Productb 我需要删除所有内容 包括 两个 以便我最终得到 vendor a vendor b vendor a 我尝
  • S3 选择检索 CSV 中的标头

    我尝试使用以下代码从存储在 S 存储桶中的 CSV 中获取记录子集 s3 boto3 client s3 bucket bucket file name file sql stmt SELECT S FROM s3object S LIMI
  • 如何充分释放函数中使用的GPU内存

    我在用着cupy在接收一个函数numpy数组 将其推到 GPU 上 对其进行一些操作并返回cp asnumpy它的副本 问题 函数执行后内存没有被释放 如ndidia smi 我知道内存的缓存和重用cupy 但是 这似乎仅适用于每个用户 当
  • __getitem__、__setitem__ 如何处理切片?

    我正在运行 Python 2 7 10 我需要拦截列表中的更改 我所说的 更改 是指在浅层意义上修改列表的任何内容 如果列表由相同顺序的相同对象组成 则列表不会更改 无论这些对象的状态如何 否则 它会更改 我不需要找出来how列表已经改变
  • 为什么我不能“string”.print()?

    我的理解print 在 Python 和 Ruby 以及其他语言 中 它是字符串 或其他类型 上的方法 因为它的语法非常常用 打印 嗨 works 那么为什么不呢 hi print 在 Python 中或 hi print在红宝石工作 当你
  • 覆盖现有的 django-admin 命令

    除了编写自定义 django admin 命令之外 这是有详细记录的 https docs djangoproject com en 1 9 howto custom management commands 我希望能够覆盖现有命令 例如ma
  • 来自数据框 groupby 的条形图

    import pandas as pd import numpy as np import matplotlib pyplot as plt df pd read csv arrests csv df df replace np nan 0
  • 直接打开Spyder还是通过Pythonxy打开?

    之前 我一直在运行PythonSpyder 我总是开始Spyder直接双击其图标 今天突然发现我还有一个东西叫Python x y 我注意到我也可以开始Spyder通过它 这两种方法有什么区别吗 如果不是的话 有什么意义Python x y
  • 将查询参数添加到 URL

    我正在尝试自动从网站下载数据 我需要将动态参数传递到每天更改的站点 html 的结构是表格而不是表单 如何传递参数并从 url 获取结果 这是我尝试过的 它需要在 python 2 7 中 import urllib url https d
  • 如何将列表中的每个项目转换为字符串,以便连接它们? [复制]

    这个问题在这里已经有答案了 我需要加入一个项目列表 列表中的许多项目都是从函数返回的整数值 IE myList append munfunc 我应该如何将返回的结果转换为字符串以便将其加入列表 我是否需要对每个整数值执行以下操作 myLis
  • django 中的“管理器”是什么?

    我已经阅读了Django官方中的定义文档 https docs djangoproject com en dev topics db managers 我仍然对什么感到困惑Manager does 文档说它们允许您操作数据库表 模型 但我仍
  • Learning_rate 不是合法参数

    我正在尝试通过实现 GridSearchCV 来测试我的模型 但我似乎无法在 GridSearch 中添加学习率和动量作为参数 每当我尝试通过添加这些代码来执行代码时 我都会收到错误 这是我创建的模型 def define model op
  • Python:使用for循环更改变量后缀

    我知道这个问题被问了很多 但到目前为止我无法使用 理解答案 我想改变for循环中变量的后缀 我尝试了 stackoverflow 搜索提供的所有答案 但很难理解提问者经常提出的具体代码 因此 为了清楚起见 我使用一个简单的示例 这并不意味着
  • 用户的完整 UNIX 用户名

    想知道您是否知道是否有一种巧妙的方法可以从 shell 获取完整的用户名 示例 如果我的 UNIX 用户名是 froyo 那么我想获取我的全名 在本例中 如系统中注册的那样 froyo Abhishek Pratap Finger 命令可以
  • 如何有效地计算另一列中每个元素的较大元素的数量?

    我有以下内容df name created utc 0 t1 cqug90j 1430438400 1 t1 cqug90k 1430438400 2 t1 cqug90z 1430438400 3 t1 cqug91c 143043840
  • 使用 Python 进行 Google 搜索网页抓取 [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 最近为了工作中的一些项目 学习了很多python 目前我需要使用谷歌搜索结果进行一些网络抓取 我发现几
  • Pandas DataFrame 自定义 agg 函数奇怪的行为

    我想使用自定义函数沿轴聚合 Pandas DataFrame 但我无法弄清楚该函数应返回什么 df pd DataFrame np arange 50 reshape 10 5 您可以将 numpy 函数传递给DataFrame agg C

随机推荐

  • 用于验证字符串中括号的 JS 函数

    伙计们 我想问你如何创建一个函数来检查字符串中的括号是否正确放置 例如 a b 4 2 c 5 我必须检查括号 我尝试了一些方法 但似乎不起作用 抱歉 我是 javascript 的新手 function checkBrackets str
  • 如何将文件从独立存储复制到下载文件夹?

    我正在尝试将数据库文件从独立存储复制到下载文件夹 或用户可以访问的任何文件夹 目前我的数据库存储在 data user 0 com companyname appname files Databases MyDatabase db 我尝试使
  • 无法删除 JTextPane 中 html 内容的额外行距

    我无法将 Java 中的行挤在一起JTextPane如果我将内容类型设置为text html 我希望它们像内容类型一样紧密地结合在一起text plain 默认值 The line height top margin CSS 属性似乎没有帮
  • PHP 如何将对象数组与数组数组合并

    首先 抱歉冗长的解释 我在 PHP 中有两个数组 第一个数组是对象数组 第二个数组是数组的数组 基本上 我想循环遍历并将对象与其匹配的数组合并 然后返回合并的对象 请参阅以下内容print r 对象结构数组 Array 0 gt stdCl
  • 在 Azure Blob 存储上上传大文件时“流太长”

    我尝试将大文件 4Gb 上传到 Azure Blob 存储 但失败 根据这篇文章 https learn microsoft com en us azure storage storage dotnet how to use blobs 这
  • Excel/VBA - 如果网络连接不存在则中止脚本

    是否有任何 VBA 代码可以查找当前的互联网连接 我有一个将在计时器上运行的代码 此代码将打开本地网络共享驱动器上的文件 我正在寻找某种类型的 On Error Goto ErrorMessage 代码 如果它在网络未连接时尝试打开文件 您
  • Marshal (Ruby) 管道:将序列化对象发送到子进程

    我需要使用 Marshal 序列化 Ruby 中的对象 并通过管道将其发送到子进程 我怎样才能做到这一点 我的代码如下所示 我的问题在评论中 data Marshal dump data call sub process ruby r a
  • SQL 作业存在事务日志问题

    我有一个仅执行存储过程的 SQL 作业 每天早上当作业尝试运行时 我都会收到以下错误 当前事务无法提交 并且无法支持写入日志文件的操作 当我继续尝试重新启动作业时 它总是给我同样的错误 但是 如果我只是执行存储过程而不使用作业 它就可以正常
  • 如何在 Rails 4 中格式化 db:datetime 记录中的时间和日期?

    我有一个var在我看来 返回日期和时间datetime数据库记录为 UTC 格式 输出如下所示 2014 01 21 03 13 59 UTC 我该如何格式化它 Date parse var 会给 gt Tue 21 Jan 2014在 I
  • 与 DrawText 函数冲突

    我正在开发一个多平台应用程序 在一个组件中我有一个名为 DrawText 的类方法 不幸的是 我收到一个链接器错误 仅在 Windows 上 指出此类的 DrawTextW 方法存在未解析的外部符号 我之前见过以 Text 结尾的其他方法
  • 将值从一种形式传递到另一种形式

    我有两个表单 我需要将值从 form1 textbox1 传递到 form2 variable Form1 string Ed En public string En1 get return En set En value public s
  • 包裹在 Horizo​​ntalScrollView 中的 TabWidget 不随 ViewPager 滚动

    我必须使用TabHost代替ActionBarTabs为了使它们可以滚动 我已经包裹了我的TabWidget in a HorizontalScrollView 但是HorizontalScrollView不按照以下方式自行滚动ViewPa
  • Slowcheetah 已安装,但没有转换选项

    我在 Visual Studio 2013 中有一个使用 MVC 5 和 EF 6 的 NET 4 5 项目 我想要对 app config 进行转换 I ve installed the SlowCheetah project via N
  • 为矩阵的每一行查找 5 个连续的数字 >= 3

    我有以下矩阵 mdat lt matrix c 6 2 4 4 5 1 6 2 1 5 1 3 3 5 4 5 1 4 2 2 4 3 4 4 4 4 3 3 1 1 3 2 3 3 3 3 3 2 2 2 1 2 2 2 2 2 1 1
  • Chrome 开发者工具中的 Websocket

    目前正在与Socket IO使用网络套接字 我有几个关于如何在 chrome devtools 中解释 websockets 的问题 当我们在 chrome 中得到以下输出时 问题 该方法仍然由HTTPget 方法动词 难道是因为这个HTT
  • 在 Altair 中生成“闪避”或“并排”条形图/柱形图?

    如果之前有人问过这个问题 我深表歉意 但我正在寻找一种方法来创建 躲避 的条形图 language from ggplot2 在 python 中使用 Altair 库 我知道 Altair 有这个例子 import altair as a
  • 将逗号分隔值转换为多行

    我有一个这样的表 ID NAME Dept ID 1 a 2 3 2 b 3 c 1 2 Department 是另一个以 dept id 和 dept name 作为列的表 我想要的结果是 ID Name Dept ID 1 a 2 1
  • 自包含数据库?

    有没有一种方法可以将 小型 独立的关系数据库与 Windows 应用程序一起分发 而不需要用户安装其他依赖项 例如 MS Access SQL Server MySQL SQLite 等 只有应用程序将访问数据库 而不是用户直接访问 微软
  • 使用 google calendar api 时,Android 给出 IOException 并显示“无法创建目录:/tokens”

    尝试将日历快速入门 API 实现到 Android 中 但是当我声明令牌时 如图所示 private final String TOKENS DIRECTORY PATH tokens 然后在构建器中使用该字符串 GoogleAuthori
  • Python pandas 在数据框中拆分文本和数字

    我有一个数据框 df1 其列名称 Acc Number 作为第一列 数据如下所示 Acc Number ASC100 1 MJT122 ASC120 4 XTY111 我需要创建一个新的数据框 df2 它有两列 第一列包含文本部分 第二列包