pandas 正则表达式从第一次出现的字符开始向前和向后查看

2024-04-12

我有像下面这样的Python字符串

"1234_4534_41247612_2462184_2131_GHI.xlsx"
"1234_4534__sfhaksj_DHJKhd_hJD_41247612_2462184_2131_PQRST.GHI.xlsx"
"12JSAF34_45aAF34__sfhaksj_DHJKhd_hJD_41247612_2f462184_2131_JKLMN.OPQ.xlsx"
"1234_4534__sfhaksj_DHJKhd_hJD_41FA247612_2462184_2131_WXY.TUV.xlsx"

我想做下面的事情

a) 提取出现在第一个点之前和之后的字符

b) 我想要的关键词总是在最后一个之后找到_ symbol

例如：如果您查看第二个输入字符串，我只想得到PQRST.GHI作为输出。是在最后之后_以及1号之前.我们也在第 1 个之后得到关键字.

所以，我尝试了以下方法

for s in strings:
   after_part = (s.split('.')[1])
   before_part = (s.split('.')[0])
   before_part = qnd_part.split('_')[-1]
   expected_keyword = before_part + "." + after_part
   print(expected_keyword)

尽管这可行，但这绝对不是编写正则表达式的好方法和优雅方法。

还有其他更好的写法吗？

我希望我的输出如下所示。正如你所看到的，我们得到了 1st 之前和之后的关键词dot特点

GHI
PQRST.GHI
JKLMN.OPQ
WXY.TUV

Try (regex101 https://regex101.com/r/lB6c2L/1):

import re

strings = [
    "1234_4534_41247612_2462184_2131_ABCDEF.GHI.xlsx",
    "1234_4534__sfhaksj_DHJKhd_hJD_41247612_2462184_2131_PQRST.GHI.xlsx",
    "12JSAF34_45aAF34__sfhaksj_DHJKhd_hJD_41247612_2f462184_2131_JKLMN.OPQ.xlsx",
    "1234_4534__sfhaksj_DHJKhd_hJD_41FA247612_2462184_2131_WXY.TUV.xlsx",
]

pat = re.compile(r"[^.]+_([^.]+\.[^.]+)")

for s in strings:
    print(pat.search(s).group(1))

Prints:

ABCDEF.GHI
PQRST.GHI
JKLMN.OPQ
WXY.TUV

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

regex

string

DataFrame

pandas 正则表达式从第一次出现的字符开始向前和向后查看的相关文章

Python3.0 - 标记化和取消标记化

我正在使用类似于以下简化脚本的内容来解析较大文件中的 python 片段 import io import tokenize src foo bar src bytes src encode src io BytesIO src src l
如果未引发异常，则通过 Python 单元测试

在Python中unittest框架是否有一种方法可以在未引发异常的情况下通过单元测试否则会因 AssertRaise 而失败如果我正确理解你的问题你could做这样的事情 def test does not raise on va
除括号之间的内容外，所有内容均小写

考虑以下字符串 LoReM FOO IPSUM dolor BAR Samet fooBar 我正在寻找一种方法来小写所有内容除了 brackets 之间的内容应该被忽略所以期望的输出是 lorem FOO ipsum dolor BA
在没有模型的情况下将自定义页面添加到 django admin

我正在尝试在没有模型关联的情况下向管理员添加自定义页面这就是我迄今为止所取得的成就 class MyCustomAdmin AdminSite def get urls self from django conf urls import
搜索多个字段

我想我没有正确理解 django haystack 我有一个包含多个字段的数据模型我希望搜索其中两个字段 class UserProfile models Model user models ForeignKey User unique
如何在 Python 中加密并在 Java 中解密？

我正在尝试在 Python 程序中加密一些数据并将其保存然后在 Java 程序中解密该数据在Python中我像这样加密它 from Crypto Cipher import AES KEY 1234567890123456789012
Keras：如何保存模型或权重？

如果这个问题看起来很简单我很抱歉但是阅读 Keras 保存和恢复帮助页面 https www tensorflow org beta tutorials keras save and restore models https www t
Perl regex：如何知道匹配数

我循环遍历一系列正则表达式并将其与文件中的行进行匹配如下所示 for my regex regexs ref LINE for rawfile regex do do something here next LINE 有没有办法让我知道我
在 matplotlib 中的极坐标图上移动径向刻度标签

From matplotlib 示例 http matplotlib org examples pylab examples polar demo html import numpy as np import seaborn as sbs
从扫描文档中提取行表 opencv python

我想从扫描的表中提取信息并将其存储为 csv 现在我的表提取算法执行以下步骤应用倾斜校正应用高斯滤波器进行去噪使用 Otsu 阈值进行二值化进行形态学开局 Canny 边缘检测进行霍夫变换以获得表格行去除重复行 10像素范围内相
pytest：同一接口的不同实现的可重用测试

想象一下我已经实现了一个名为的实用程序可能是一个类 Bar在一个模块中foo 并为其编写了以下测试测试 foo py from foo import Bar as Implementation from pytest import ma
使用Python计算目录的大小？

在我重新发明这个特殊的轮子之前有没有人有一个很好的例程来使用 Python 计算目录的大小如果例程能够很好地以 Mb Gb 等格式格式化大小那就太好了这会遍历所有子目录总结文件大小 import os def get size s
Matplotlib 中 x 轴标签的频率和旋转

我在下面编写了一个简单的脚本来使用 matplotlib 生成图形我想将 x tick 频率从每月增加到每周并轮换标签我不知道从哪里开始 x 轴频率我的旋转线产生错误 TypeError set xticks got an unexp
Mac OSX 10.6 上的 Python mysqldb 不工作

我正在使用 Python 2 7 并尝试让 Django 项目在 MySQL 后端运行我已经下载了 mysqldb 并按照此处的指南进行操作 http cd34 com blog programming python mysql pyth
Anaconda 无法导入 ssl 但 Python 可以

Anaconda 3 Jupyter笔记本无法导入ssl 但使用Atom终端导入ssl没有问题我尝试在 Jupyter 笔记本中导入 ssl 但出现以下错误 C ProgramData Anaconda3 lib ssl py in
动态过滤 pandas 数据框

我正在尝试使用三列的阈值来过滤 pandas 数据框 import pandas as pd df pd DataFrame A 6 2 10 5 3 B 2 5 3 2 6 C 5 2 1 8 2 df df loc df A gt 0
替换两个引号之间的字符串

我想转动一根绳子str hello my name is michael what s your s into hello my name is span class name michael span 我怎样才能在 JavaScript
Bash 正则表达式——似乎无法匹配任何 \s \S \d \D \w \W 等

我有一个脚本试图从 gparted 获取信息块我的数据如下所示 Disk dev sda 42 9GB Sector size logical physical 512B 512B Partition Table msdos Number
双击打开 ipython 笔记本

相关文章通过双击 osx 打开 ipython 笔记本 https stackoverflow com questions 16158893 open an ipython notebook via double click on osx
使用ssl和socket的python客户端身份验证

我有一个 python 服务器需要客户端使用证书进行身份验证我如何制作一个客户端脚本使用客户端证书由 python 中的服务器使用 ssl 和套接字模块进行身份验证有没有仅使用套接字和 ssl 而不扭曲的示例 from OpenSS

随机推荐

在全局范围内使用自动变量

auto int a 5 include
C# 中的 PHP MCRYPT_RIJNDAEL_128 加密

我正在尝试用 C 重写这个函数但 C 输出与 php 不匹配 PHP版本 Encrypt data using AES128 cbc function encrypt data key iv cipher mcrypt module op
如何摆脱 Drupal CSS 样式表？

我正在努力完成以下任务我需要使用 Drupal 6 作为项目要求但我想将它与我自己的 HTML 和 CSS 样式表一起用于每个节点视图面板等问题是无论什么主题我总是发现 Drupal 适用于我的 HTML 内容包括我的 CS
在 gradle 中更新具有特定 id 的 xml 元素

我想在 xml 文件中进行以下更改我的测试 xml
vscode 键绑定“转到搜索结果窗格上的下一个搜索结果”？

是否有转到搜索结果窗格上的下一个搜索结果的 vscode 键绑定我在键绑定 json 或上找不到它http code visualstudio com docs customization keybindings http code
保留整个物体 VS 不寻找东西

我在读福勒的重构书时看到保留整个对象 http martinfowler com refactoring catalog preserveWholeObject html 一种不同的较新的观点认为这种重构与你应该做的完全相反整洁代码讲座
在javascript中将坐标存储在数组中

我想将坐标存储到JavaScript中的数组中我是 javascript 新手不知道该怎么做任何帮助将不胜感激有多种方法可以存储 x y 坐标选项 1 数组中的所有其他索引 function storeCoordinate x
将 DartAngular 与 dart:html 结合使用

是否可以使用默认的 dart 库html有角飞镖 IE class Test1Component implements OnInit override void ngOnInit ButtonElement button querySele
是否有相当于 T4MVC 的 Web 表单？

我在我的 asp mvc 项目中使用 T4MVC 主要是因为它非常棒是否有与 asp webforms 相当的东西事实证明 David Ebbo 他也做了 T4MVC 的东西也给了 asp webforms 一点爱 http blog
在步骤定义文件之间共享相同的 selenium WebDriver

现在我们正在努力采用 Cucumber 在我们的 Java8 Spring 应用程序上运行功能测试我们希望我们的步骤定义文件尽可能保持干燥因此计划在不同的功能文件中使用相同的步骤定义由于我们使用的是硒WebDriver为了驱动我们的测
为什么 GCC 对这种隐式转换发出警告？

GCC 警告我以下代码包含可能更改值的隐式转换 include
在 C# 中为函数名创建别名

我想在 C 中为函数名创建别名除了函数重载还有什么办法吗 public class Test public void A 我想用B代替A 如下所示 var test new Test test B I m surprised that n
我应该自行提交表格还是提交到外部文件？

我对编程相当陌生特别是 Coldfusion 我很好奇我是否将表单提交到其所在的页面并在那里处理结果或者是否应该将其提交到外部文件进行处理是否有区别然后从那里重定向它可以发挥作用当我第一次开始编程时我经常会做这样的事情 myfo
在 JavaScript 或 Node 中将 Blob 数据转换为原始缓冲区

我正在使用插件jsPDF https github com MrRio jsPDF它生成 PDF 并将其保存到本地文件系统现在在 jsPDF js 中有一些代码可以生成 blob 格式的 pdf 数据如下所示 var blob new
带参数的 ASP.NET ODBC 查询

请帮助我我不知道以下代码有什么问题 OdbcConnection conn new OdbcConnection connString String query INSERT INTO customer custId custName c
Python 使用 euc-kr 编码以意想不到的方式对（韩语）字符进行编码（编解码器、编码模块）

我尝试在 python 中读取一些以 euc kr 编码的韩语文本文件但出现了一些错误检查后encodings使用模块一段时间后我了解到该模块以看似非常奇怪的方式对韩语字符进行编码让我举个例子韩国文字这是一个很少使用的字符但我
在 main() 中为 SerialPort 添加事件处理程序

我尝试将事件处理程序订阅到数据接收事件似乎我无法指定事件处理函数名称我不明白为什么myComPort DataReceived new SerialDataReceivedEventHandler comPort DataReceive
规范的 HTTP POST 代码？

我见过很多发送 http post 的实现并且不可否认我并不完全理解底层细节以了解需要什么在 C NET 3 5 中发送 HTTP POST 的简洁正确规范代码是什么我想要一个通用方法例如 public string Send
.net MAUI c# 后台任务ContinueWith和通知事件

编辑已解决见下文编辑这是一个新手问题我只是深入研究 C 和异步为什么我想要单击按钮按顺序运行多个任务但在后台线程中一个接一个地运行如果可能的话正在运行的任务应该通知它们的进度现在我可以单击按钮并启动任务链但在完成事
pandas 正则表达式从第一次出现的字符开始向前和向后查看

我有像下面这样的Python字符串 1234 4534 41247612 2462184 2131 GHI xlsx 1234 4534 sfhaksj DHJKhd hJD 41247612 2462184 2131 PQRST GHI

pandas 正则表达式从第一次出现的字符开始向前和向后查看

pandas 正则表达式从第一次出现的字符开始向前和向后查看 的相关文章

随机推荐

热门标签

pandas 正则表达式从第一次出现的字符开始向前和向后查看的相关文章