使用 Python 映射字母数字字符串

2024-07-01

我有一个姓名数据集。根据名称的字母数字字符串，我需要将它们映射到子名称，如下所示。

Name            Subname
9-AIF-09        9A09
980-PD-Z09A     980P09
15-KIC-12       15K12
PIA-110H        P-110
IC009A          I009A

可以定义规则，例如，如果名称中存在“A”，则保留所有数字和字母“A”，名称中存在“P”，则仅保留“P”。算法本身必须识别关于如何完成映射的模式。

是否有任何算法可以用来识别训练数据集中的模式以进一步预测。

我看到两个选择。

获取 3 组（第一个字母之前、第一个字母之前、第一个字母之后）并删除第 1 组和第 3 组中的所有非数字：

import re
df['Subname'] = df['Name'].str.replace(r'([^a-zA-Z]+)([a-zA-Z])(.*)',
                                       lambda m: (re.sub('\D', '', m.group(1))
                                                  +m.group(2)
                                                  +re.sub('\D', '', m.group(3))),
                                      regex=True)

或者，定义一个模式：非数字/数字/非数字/字母/非数字/数字/非数字：

df['Subname'] = (df['Name'].str.extract(r'\D*(\d+)[^\da-zA-Z]*([a-zA-Z])\D*(\d+)')
                           .agg(''.join, axis=1)
                 )

output

          Name Subname
0     9-AIF-09    9A09
1  980-PD-Z09A  980P09
2    15-KIC-12   15K12

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

mapping

使用 Python 映射字母数字字符串的相关文章

如何使用 TfIdfVectorizer 通过 SciKitLearn 对文档进行分类？

以下示例展示了如何使用 Sklearn 20 新闻组数据训练分类器 gt gt gt from sklearn feature extraction text import TfidfVectorizer gt gt gt categori
Python pandas - 根据集体 NaN 计数删除组

我有一个基于不同气象站的多个变量温度压力等的数据集 stationID Time Temperature Pressure 123 1 30 1010 5 123 2 31 1009 0 202 1 24 NaN 202 2 24 3
使用多处理或线程加速单个任务

是否可以使用多处理线程来加速单个任务我的直觉是答案是否定的以下是我所说的单一任务的示例 for i in range max pick random choice on off both 当参数为 10000000 时在我的系统
使用具有阿拉伯字符的 json.dumps 将字典转换为 json [重复]

这个问题在这里已经有答案了我有一本包含阿拉伯语单词的字典例如 data name name print json dumps data file open data json a encoding utf 8 Output name u
使用 Numpy 对多维数组进行切片/索引

我有 3 个 4x4 数组矩阵使用以下命令创建 arr np linspace 1 48 48 reshape 3 4 4 矩阵如下所示 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2
PyCharm 中的进程已完成，退出代码为 137

当我在 PyCharm 中手动停止脚本时进程以退出代码 137 结束但我没有停止脚本仍然得到退出代码 137 有什么问题吗 Python版本是3 6 运行xgboost train 方法时处理完成退出代码 137 意味着您的进程被
为什么追加会覆盖列表？

我正在尝试 hackerrank 的一些问题并遇到了这个问题https www hackerrank com challenges list com经理问题 https www hackerrank com challenges list
在窗口中定位画布 - Tkinter/python

有没有办法将画布放置在窗口中并在其周围放置一个框架我只找到了如何在画布内放置对象您可以创建一个框架然后将您的小部件放入其中 f tk Frame c1 tk Canvas f c2 tk Canvas f c1 pack side l
DataFrame.stack() 之后的新索引级别名称

注意这个问题 https stackoverflow com questions 26002474 pandas name of the column after a group by function 28303765 28303765看
多处理和美好价值

有谁知道在多处理中创建进程或池时设置进程或池的良好值的简单方法 os nice increment Add increment to the process s niceness Return the new niceness Availa
如何在python中查找文件的mime类型？

假设您想要将一堆文件保存在某个地方例如保存在 BLOB 中假设您想通过网页分发这些文件并让客户端自动打开正确的应用程序查看器假设浏览器通过 HTTP 响应中的 mime type 内容类型标头确定要使用哪个应用程序查看器基
抓取框架 NTSCtoUSB 加密狗、opencv2、python 包装器

Context 我一直在研究 opencv2 的 python 包装器我想尝试一些想法并使用类似于汽车后视摄像头的广角摄像头我从一辆报废的撞车上得到了一根它有 4 根电线我从电线的颜色编码中进行了有根据的猜测将其连接起来以便
Python：使用用户输入作为类名的类工厂

我想动态地将类属性添加到超类此外我想创建动态继承自该超类的类并且这些子类的名称应取决于用户输入有一个超类 Unit 我可以在运行时向其添加属性这已经有效了 def add attr cls name value setattr c
如何在调试 C 程序时将 gdb 值转换为 python 数字对象

我在调试 C 程序时使用 python2 6 的 gdb 模块并希望根据实例的 Type 将 gdb Value 实例转换为 python 数字对象变量例如把我的C程序SomeStruct gt some float val 1 6
Apache24-x86-VC9 与 mod_wsgi 说，“AH00419：master_main：创建子进程失败。正在退出。”并且不会启动

我正在尝试在我的 Windows 版本的 Apache24 上安装 WSGI 功能当我尝试启动该服务时我在 error log 中收到以下内容 Wed Dec 23 10 24 33 404057 2015 ssl warn pid 2
PDFMiner - 迭代页面并将其转换为文本

所以我试图从一些 PDF 中获取特定的文本并且我将 Python 与 PDFMiner 一起使用但由于 API 发生的更改而遇到了一些问题2013年11月 https github com euske pdfminer api chan
Pandas：获取重复索引

给定一个数据帧我想获取重复的索引这些索引在列中没有重复的值并查看哪些值不同具体来说我有这个数据框 import pandas as pd wget https www dropbox com s vmimze2g4lt4ud3 a
将函数应用于数据帧的每一行

下面有什么更优雅的实现方式我想应用一个函数 my function到数据帧其中数据帧的每一行都包含函数的参数然后我想将函数的输出写回数据帧行 results pd DataFrame for row in input panel it
将函数应用于数据帧的每一行

下面有什么更优雅的实现方式我想应用一个函数 my function到数据帧其中数据帧的每一行都包含函数的参数然后我想将函数的输出写回数据帧行 results pd DataFrame for row in input panel it
OpenCV中如何在点之间画线？

我有一个元组数组 a 375 193 364 113 277 20 271 16 52 106 133 266 289 296 372 282 OpenCV中如何在点之间画线这是我的代码不起作用 for index item in enu

随机推荐

连接到 javascript/node.js 中的 Gmail IMAP API

我正在尝试通过其连接到 gmailIMAP API https developers google com google apps gmail oauth overview 我正在使用布鲁诺莫伦西的节点 imap 库 https gith
实体框架 - 将枚举的 ICollection 保存在数据库中

我有一个具有 type 属性的类ICollection
有效地将字符串（或元组）转换为 ctypes 数组

我有一段代码它采用 PIL 图像并将其转换为 ctypes 数组以传递给 C 函数 w px h px img size pixels struct unpack dI w px h px img convert RGBA tostrin
将 ManualResetEvent 包装为可等待任务

我想等待手动重置事件并超时并观察取消我想出了类似下面的东西手动重置事件对象由我无法控制的 API 提供有没有办法在不占用和阻塞 ThreadPool 线程的情况下实现这一点 static Task
将 geom_text 与 ggplot2 中的 geom_vline 对齐

I used vjust作为解决方法并详细阐述通过尝试和错误可以接受的距离但这有时非常耗时且变化与字体大小和轴比例有没有更好的方法来自动对齐示例中的文本 library ggplot2 ggplot data mtcars aes
如何阻止richfaces风格？

我开发了这个联系表格
反应调试模式和正常模式之间的本机不同行为

嗨我有一个非常复杂的问题所以我在 github 上为这个问题创建了一个新的存储库所以你可以克隆它并看看问题是什么 https github com guitar9 hafas client example https github c
如何在 iOS 8 中呈现半透明（半切）视图控制器

在iOS 7中此方法没有问题 rootViewController modalPresentationStyle UIModalPresentationCurrentContext rootViewController presentVie
在 UITextView 内画一条线 - NSAttributedString

我想在里面画一条可定制的线UITextView由一些文本组成使用NSAttributedString 这是我尝试过的 NSString unicodeStr NSString stringWithFormat C C C 0x00A0 0
执行时忽略字符串列

我使用以下代码来标准化 pandas DataFrame df norm df df mean df max df min 当所有列都是数字时此方法效果很好但是现在我有一些字符串列df并且上述标准化有错误有没有办法只对数据帧的数字列
在简单/未命名的 C# LINQ 组连接中排序内部密钥源

我知道这个问题由于用词不同而读起来很奇怪但这是使用的术语这个 MSDN 页面 http msdn microsoft com en us library bb311040 aspx从我正在学习 LINQ 组的地方开始我将解释它们我正在
IE7 中的多个选项卡和一个工具栏实例

我用 C 开发了一个用于 Internet Explorer 的工具栏用于从外部应用程序发送和接收 URL 它在 IE6 中运行得很好但我想在新版本 IE7 中利用选项卡式浏览但我在那里遇到了障碍似乎在 IE7 中每个选项卡都有一
如何声明一个对所有模块的 build.gradle 文件可见的常量？

我有一个具有多个模块的项目库和应用程序每次Android新版本出现时我都需要升级所有模块的targetSdk compileSdk buildToolsVersion等常数可以帮助完成这项乏味的工作如何定义对所有模块的 build
在决定我是否需要请求增加允许的安装数量时，Delphi 激活会考虑哪些因素 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我在VMWare下的Windows7虚拟机中安装了XE4 我的问题是 Delphi 保护系统在决定我是否已使用另一个允许的安装之一时会
Office 加载项 Outlook API 使用 displayNewMessageForm 方法附加文档问题

我正在开发 Outlook 的 Office 插件需要打开带有预定义附件的新邮件尝试从当前项目消息获取附件如下所示 Office context mailbox item attachments 这是一个输出我得到附件类型 id
如何将复杂属性从父作用域继承到指令的隔离作用域中

在查看了 AngularJS 和相关文档以及有关指令中隔离范围的其他 stackoverflow 问题后我仍然有点困惑为什么我不能在父作用域和指令隔离作用域之间进行双向绑定其中父作用域属性是对象而不是属性我应该只使用所需的属性吗s
对于 Android 开发，我可以在图像视图上使用 JPG 图像而不是 PNG 图像吗？

这个问题的主要目的是了解考虑以下场景在 Android 开发中选择 PNG 和 JPG 的最佳选择是什么 1 使用jpg图像作为背景是一个好的选择吗 2 与 png 相比 jpg 图像的加载时间会更长吗 3 与 png 相比 jpg 会花
当用户使用 Internet Explorer 时重定向到新页面

我使用下面的代码将使用 Internet Explorer 的用户重定向到新页面但显然代码有问题因为当我使用 Internet Explorer 时该网站不再加载这是代码由于我不知道我做错了什么如果有人可以发布使用正确编码的正确方
为什么我收到 TypeError: array[i] is undefined？ [复制]

这个问题在这里已经有答案了因此在我的程序中我有一个包含值的字典散列的数组当我循环遍历该数组时我得到了我需要的值但 for 循环之后的任何代码都不会执行因为控制台输出 TypeError array i is undefine
使用 Python 映射字母数字字符串

我有一个姓名数据集根据名称的字母数字字符串我需要将它们映射到子名称如下所示 Name Subname 9 AIF 09 9A09 980 PD Z09A 980P09 15 KIC 12 15K12 PIA 110H P 110 IC

使用 Python 映射字母数字字符串

使用 Python 映射字母数字字符串 的相关文章

随机推荐

使用 Python 映射字母数字字符串的相关文章