从数据列（字符串）中提取字符前后的元素

2024-04-12

我想提取字符串中某些字符之前和之后的字符，其中大部分位于 pandas 数据帧列中。

基本上我想从我的主要数据帧中获取并合并在一起是从我的“应变”和“区域”列中获取以下项目：

i) 原始菌株：链霉菌_sp_QL40_O

ii) 原始地区：区域1.1

Extract:

第二个下划线后面的字符串Ex: QL40
“.”之前的第一个数字Ex: nbsp.1
“.”之后的第二个数字Ex: .1
“&”字符之前的字符串区域
如果数字小于 10，则在字符串“region”后添加两个 0；如果数字大于 10，则在字符串“region”后添加一个 0。

所需输出: QL40_1.region001

下面的例子

import pandas as pd 

data = [['Streptomyces_sp_QL40_O', 'Region&nbsp1.1'], ['Streptomyces_sp_QL40_O', 'Region&nbsp2.2'], ['Streptomyces_sp_QL40_O', 'Region&nbsp2.1']]
df = pd.DataFrame(data, columns = ['Strain', 'Region'])

print(df)

region_list = ['QL40_1.region001', 'QL40_2.region002', 'QL40_3.region001']

我从这样的事情开始：

df['BGC Region'] = df['Strain'].str.split('_').str[2]
print('DataFrame Modified')
df['BGC Region'] = df['BGC Region'].astype(str) + '_' 
df['Region No'] = df['Region'].str.split('.').str[1]

我不太确定这是否是您想要的，但它确实有效：

regions = []
for i in df['Region'].str.split('.').str[0]:
    regions.append(''.join([d for d in i if d.isdigit()]))

df['BGC Region'] = df['Strain'].str.split('_').str[2] + '_' + regions + '.region'

region_number = df['Region'].str.split('.').str[1]
for i, rn in enumerate(region_number):
    if int(rn) < 10:
        df['BGC Region'][i] += '00' + rn
    elif int(rn) < 100:
        df['BGC Region'][i] += '0' + rn

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

pandas

DataFrame

从数据列（字符串）中提取字符前后的元素的相关文章

Windows 7 64位 libsvm 和 python 错误：找不到函数“svm_get_sv_indices”

我正在使用 Windows 7 64 位我已经安装了 Python 2 7 3 32 位版本和 libsvm 3 13 当我尝试启动导入 svmutil 的简单 py 文件时出现错误 C libsvm 3 13 python gt p
验证 Salesforce ID

有没有办法验证 Salesforce ID 也许使用 RegEx 它们通常是 15 个字符或 18 个字符但它们是否遵循我们可以用来检查它是否是有效 ID 的模式验证 salesforce ID 有两个级别使用正则表达式检查格式 a
使用 PyQt 和 matplotlib 在可滚动小部件中显示多个绘图

由于我没有得到答案this https stackoverflow com questions 12179893 creating a scrollable multiplot with pythons pylab我尝试用 PyQt 解决这
根据另一个非索引数组中的值从 numpy 数组中选择元素

假设我有以下两个数组 a array 1 L 74 423088306605 5 H 128 05441039929008 2 L 68 0581377353869 0 H 88 15726964130869 4 L 97 45015825
PyQt5 - 无法使用 QVideoWidget 播放视频

from PyQt5 QtWidgets import from PyQt5 QtMultimedia import from PyQt5 QtMultimediaWidgets import from PyQt5 QtCore impor
lxml/python 使用 CDATA 部分读取 xml

在我的 xml 中我有一个CDATA部分我想保留 CDATA 部分然后剥离它有人可以帮忙解决以下问题吗默认不起作用 from io import StringIO from lxml import etree xml
Python：像石英一样的事件调度程序[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Dataframe unstack 性能 - pandas

我正在尝试拆开数据框它工作正常但问题是我正在处理 CSV 文件中的巨大数据集约 10 亿这是示例数据集 236539 48512569874 Name Danny 236539 48512569874 Class 12 236539
Groupby Sum 忽略几列

在此数据框中我想按位置进行分组并获得分数的总和但我不希望纬度经度和年份在此过程中受到影响 sample pd DataFrame Location A B C A B C Year 2001 2002 2003 200
if(interactive()) 是否相当于 Python 中的“if __name__ == ”__main__“: main()”？

我希望 R 脚本有一个 main 函数可以在交互模式下执行但在获取文件时不应执行 main 函数已经有一个关于这个的问题了 https stackoverflow com questions 2968220 is there an r
创建 Pyomo 约束的性能

我正在用 pyomo 设置一个更大的能量优化问题正如其他中提到的设置花费了不合理的时间问题 https stackoverflow com questions 43413067 performance of pyomo to gener
函数内部变量的赋值会改变外部的赋值 - Python

我从使用 Matlab 转向使用 Python 使用函数时的变量赋值让我感到困惑我有一个代码如下 a 1 1 1 def keeps x y x y 1 2 return y def changes x y x y 1 2 return
使用 selenium 和 firefox 保存图像

我正在尝试使用 selenium 服务器和 python 客户端从网站保存图像我知道图像的 URL 但我无法找到保存它的代码无论是当它是文档本身还是当它嵌入到当前浏览器会话中时到目前为止我找到的解决方法是保存页面的屏幕截图有两种硒方
用于验证网络路径的正则表达式 PHP、jQuery、JavaScript、Ruby

尝试找出用于验证网络路径的正则表达式即 comp xyz or comp or comp x y z storage或者所有部分都更长的东西但希望能够传达其要点我目前拥有的是一个简单的输入字段用户可以通过它传递信息事情是我不希望他
使用字典时如何避免 KeyError？

现在我正在尝试编写汇编程序但我不断收到此错误 Traceback most recent call last File Users Douglas Documents NeWS py line 44 in if item in regis
在keras自定义损失中使用层输出

我正在 Keras 中开发自定义损失函数我需要第一层输出我怎样才能取回它 def custom loss y true y pred cross K mean K binary crossentropy y true y pred ax
适用于 Python 的 GitLab CI 共享 Windows 运行器

我在 GitLab 中有一个 python 项目仓库我看到 GitLab 共享了可用的测试版 Windows 运行程序请参阅this https about gitlab com blog 2020 01 21 windows shar
如何从 Django 中的链接设置预定义的表单值？

我的项目是这样布局的 1 page has many categories 2 category belongs to page has many items 3 item belongs to category 当我进入一个页面时我想修
加入语音频道（discord.py）

当我尝试让我的机器人加入我的语音频道时出现以下错误 await client join voice channel voice channel 产生错误的行 Traceback most recent call last File usr
加载腌制字典对象或加载 JSON 文件哪个更快？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案什么更快 A Unpickling 加载一个 pickled 字典对象使用pickle load or B 使用以下命令将 JSON

随机推荐

ASP.NET MVC4 实体验证错误：用户名已被占用

我是 ASP NET MVC4 的新手在下面的代码中遇到验证错误我的应用程序正在使用身份和数据库我有一些表填充了一些测试数据致电dc SaveChanges 返回验证错误我创建了以下类 Faculty源自类Person源自类Ide
如何通过 Pktgen-DPDK 生成随机流量？

I use range
将 TStringList 的 AddObject 与整数一起使用？

使用德尔福7 如何将整数添加到字符串列表项的目标部分使用AddObject 如何从对象中检索整数字符串列表项的属性如何释放所有对象并列出什么时候完成 Q How can i add an integer to the object
将过滤器应用于 AS3 中的所有内容

我正在尝试在 AS3 Flex SDK 中添加过滤器我可以为任何一个对象添加一个过滤器但我想将过滤器应用到一切那是某个对象的子对象假设弹出一个暂停窗口暂停窗口下方的所有内容都会变得模糊将过滤器应用于每个单独的对象例如迭代列表
如何更改 GTK 中的字体大小？

有没有一种简单的方法可以更改 GTK 中文本元素的字体大小现在我能做的就是set markup在标签上写着一些愚蠢的东西比如 lbl set markup span s span text 这 1 需要我设置字体 2 似乎有很多开销
wpf - 如何控制用户控件鼠标悬停的可见性？

我有一个用户控件我想禁用 UserControl 中控件的可见性我只希望当用户的光标悬停在用户控件的主要部分即橙色矩形部分上时它可见红色圆圈是控件的一部分仅在悬停时可见主窗口 xaml
如何在没有文本框的情况下在 Selenium 中上传文件

我一直在寻找在 Selenium 2 中上传文件的解决方案问题是我尝试上传的网络元素可以通过两种方式使用拖放或单击按钮没有字段输入框并不是说我没有尝试过使用 sendKeys 我已经在按钮和所有周围的元素上尝试过这个问题的第二部分
DocFx：如何在网站上创建目录导航？

我想创建一个目录看起来像什么DocFx 在他们的官方网站上有 http dotnet github io docfx tutorial docfx exe user manual html 使用默认值docfx init使用所有默认值的命
Python wilcoxon：不等N

Rs wilcox test可以采用不同长度的向量但 wilcoxon 来自scipy stats不能我得到一个unequal N错误信息 from scipy stats import wilcoxon wilcoxon range
从 GPS 坐标获取城市名称

我想从 GPS 坐标获取城市的名称我可以使用 Google API 获取 GPS 点的详细信息 http maps googleapis com maps api geocode output parameters 输出是 XML 但我不
如何导出带有产品完整 url 的产品 csv

我想导出包含完整产品 url 的产品 CSV 即包括基本 url 我不想手动执行此操作是否可以自定义代码以便产品导出具有完整的 url
如何读取在 gradle 执行中较早更新的属性文件中的最新属性

对于我的 Android 项目我配置了 defaultConfig 以便它从 gradle properties 中的版本属性获取生成的 apk 中 AndroidManifest xml 的 versionName 这很好用这是 bu
谷歌图片搜索是如何实现的？

我只需拖放谷歌中的任何图像即可获得结果它是如何实施的该算法背后的想法是什么该图像数据是否转换为任何内容以供搜索或不知道令人惊讶的是我们还可以使用Google来回答这个问题 Google 按图像搜索使用的算法是什么 http ww
在 ghci 中跟踪历史

历史管理在 GHCI 或其他基于 Haskell 的 REPL 中如何工作由于 Haskell 是一种纯语言我猜它是使用 monad 实现的也许是状态单子 http learnyouahaskell com for a few mon
使用 apt-get install nginx 后重新编译 nginx

我最初是通过 apt get install 安装 nginx 的它工作得很好现在我想安装一些第 3 方模块并且必须重新编译 nginx 所以我尝试重新编译它只是走过场然后我意识到我的原始版本仍然是正在使用的版本我是否需要先卸
Python ImportError：无法在 virtualenv 中导入名称“_imagingtk”

我想开始使用枕头但遇到了一些问题起初我以为我可以简单地pip install pillow 所以我激活了我的 virtualenv 并做到了这一点当它不起作用时我意识到我需要为枕头安装一些依赖项安装 http pillow re
R - 在城市地图上安装网格并将数据输入到网格方块中

我试图在圣何塞上放置一个网格如下所示圣何塞网格 https i stack imgur com U8RxX png 您可以使用以下代码直观地制作网格 ca cities tigris places state CA using tigr
使用 terraform 为现有虚拟机启用 Azure Monitor

我正在尝试为现有虚拟机启用 azure 监视器功能该功能使用 terraform 检查虚拟机的运行状况和性能但我无法找到相应的文档你能帮我做同样的事情吗因为我想要对天蓝色进行详细的监控要在现有虚拟机上启用 VMinsights 您
我们如何将 JWT 令牌存储在 Http only cookie 中？

我正在创建登录模块用户将输入用户名和密码如果用户验证成功服务器将返回 JWT 令牌我将使用 JWT 令牌来验证 React js 中的不同 API 调用现在我担心的是我发现了一些与此相关的文章然后我发现我们可以使用仅 http
从数据列（字符串）中提取字符前后的元素

我想提取字符串中某些字符之前和之后的字符其中大部分位于 pandas 数据帧列中基本上我想从我的主要数据帧中获取并合并在一起是从我的应变和区域列中获取以下项目 i 原始菌株链霉菌 sp QL40 O ii 原始地区区域1 1

从数据列（字符串）中提取字符前后的元素

从数据列（字符串）中提取字符前后的元素 的相关文章

随机推荐

热门标签

从数据列（字符串）中提取字符前后的元素的相关文章