Python，通过提取字符和数字子串来解析字符串

2024-03-11

我有一个字符串，是由某种机器学习算法产生的，通常由多行组成。在开头和结尾处可以有一些不包含任何字符（空格除外）的行，并且在它们之间应该有 2 行，每行包含一个单词，后跟一些数字和（有时）其他字符。

像这样的东西


first_word  3 5 7 @  4
second_word 4 5 67| 5 [

我需要提取 2 个单词和数字字符。

我可以通过执行以下操作来消除空行：

lines_list = initial_string.split("\n")
for line in lines_list:
    if len(line) > 0 and not line.isspace():
        print(line)

但现在我想知道：

如果有一种更稳健、更通用的方法
如何通过提取单词和数字来解析剩余的 2 条中心线（并丢弃数字之间混合的其他字符，如果有的话）

我想 reg 表达式可能有用，但我从未真正使用过它们，所以我现在有点挣扎

我会在这里使用 re.findall ：

inp = '''first_word  3 5 7 @  4
second_word 4 5 67| 5 ['''
matches = re.findall(r'\w+', inp)
print(matches)  # ['first_word', '3', '5', '7', '4', 'second_word', '4', '5', '67', '5']

如果您想单独处理每一行，则只需在 CR?LF 上拆分输入并使用相同的方法：

inp = '''first_word  3 5 7 @  4
second_word 4 5 67| 5 ['''
lines = inp.split('\n')
for line in lines:
    matches = re.findall(r'\w+', line)
    print(matches)

这打印：

['first_word', '3', '5', '7', '4']
['second_word', '4', '5', '67', '5']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

string

textparsing

Python，通过提取字符和数字子串来解析字符串的相关文章

ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
如何在 R 中将字符串解析为层次结构或树

有没有办法将表示组的字符串解析为 R 中的层次结构假设我的小组结构如下 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 3 1 1 3 1 1 1 3 2 1 1 3 3 1 2 1 2 1 1 2 1 1 1 2 1 2 1
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
在 Spyder 的变量资源管理器中查看局部变量

我是 python 新手正在使用 Spyder 的 IDE 我欣赏它的一项功能是它的变量资源管理器然而根据一些研究我发现它只显示全局变量我找到的解决方法是使用检查模块 import inspect local vars def m
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
在 Windows 上使用带有对数刻度的 matplotlib 时出现 Unicode 错误

我正在使用 python 2 6 和 matplotlib 如果我运行 matplotlib 库页面中提供的示例 histogram demo py 它工作正常我已经大大简化了这个脚本 import numpy as np import
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
通过 Web 界面执行 python 单元测试

是否可以通过 Web 界面执行单元测试如果可以如何执行 EDIT 现在我想要结果对于测试我希望它们是自动化的可能每次我对代码进行更改时抱歉我忘了说得更清楚 EDIT 这个答案此时已经过时了 Use Jenkins https j
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

如何在npm脚本中获取环境变量？

我正在尝试访问 npm 脚本本身中的环境变量如下所示 scripts test istanbul cover node modules bin mocha root SERVER routes recursive 并像这样启动这个脚本 S
X 类型的参数不可分配给 Y 类型的参数。对象字面量只能指定已知属性，并且 X 不存在于类型 Y 中

我正在尝试让 Leaflet 和插件在 Ionic 2 项目中协同工作我已经安装并导入了 Leaflet 本身以及传单路径变换 https github com w8r Leaflet Path Transform插件以及Leaflet
向 CsvHelper 添加自定义字段属性

我正在使用优秀的 CsvHelper 库当前为 v12 2 2 来生成 CSV 文件并且我正在尝试添加自己的自定义属性以直接在类中指定特殊格式我正在编写的记录如下所示尽管集成需要约 200 个数字字段 class PayrollRe
Kafka Streams - 低级处理器 API - RocksDB TimeToLive(TTL)

我正在尝试使用低级处理器 API 我正在使用处理器 API 对传入记录进行数据聚合并将聚合记录写入 RocksDB 但是我想保留在rocksdb中添加的记录仅在24小时内处于活动状态 24 小时后记录应被删除这可以通过更改 ttl
java自动发送邮件

我希望邮件在特定时间自动发送我可以发送邮件但无法使其自动完成谁能告诉我如何自动发送以下是我发送邮件的代码 public class SendEmail String d email email protected cdn cgi l
FluentValidation 何时且必须？

当 dropdownlist 值是时我尝试使用 FluentValidation 验证yes并且该字段必须是日期当下拉列表为时它正在工作yes检查date 但当我选择时也显示验证No仍然说Must be date 如果下拉列表值不是y
将 logback.xml 转换为 log4j.properties

如何将此 logback xml 转换为等效的 log4j properties
使用 spring 反应式 webClient 面临问题“WebClientRequestException：待处理的获取队列已达到其最大大小 1000”

我正在运行微服务 API 的负载其中涉及使用 Spring Reactive Webclient 调用其他微服务 API 我正在使用 Postman runner 选项卡来测试这一点首先我运行了 1500 次迭代的负载为每个请求调用
缓冲区的字节大小（Javascript / Node）[重复]

这个问题在这里已经有答案了如何在 JavaScript 中获取缓冲图像的大小以字节为单位我不允许信任客户端的文件大小并且需要在后端进行验证作为上传验证的一部分我的设置如下 1 我在客户端上传一个文件并将其从 React 组件发送到
C# 如何检查字典中的所有值是否相同？

我有一个字典我想编写一个方法来检查该字典中的所有值是否相同词典类型 Dictionary
PostgreSql：获取格式奇怪的“带时区的时间戳”

我正在将字段类型带有时区的时间戳字符串 1858 11 17 01 09 05 0000 插入到表中并返回 stage 格式化值 05 11 29 04 02 24 这是会话 test gt create table ddtbl va
当 Ruby 中需要文件时，技术上会发生什么？

如果我有一个名为app rb这需要另一个名为foo rb Ruby 在幕后做了什么来使定义的常量foo rb变得可用在app rb 来自 Yukihiro Matsumoto 的 Ruby 编程语言使用 load 或 require 加载
TrustedInstaller 正在阻止注册表写入 HKCR\DirectShow\MediaObjects\Categories

我正在尝试安装需要我写入的 DMOHKCR DirectShow MediaObjects Categories 57f2db8b e6bb 4513 9d43 dcd2a6593125 此注册表路径受 TrustedInstaller 保
Xcode 4 的调试区域变量列表中的图标是什么意思？

有谁能够提供 Xcode 4 调试区域变量列表中标记图标的明确指南吗这是我目前拥有的清单我不明白他们的意思这不直观例如我有 BOOL 和 NSMutableString 对象它们都带有绿色的 i 图标我无法在 Xcode 文档
PlayFramework 多个 SLF4J 绑定

我正在尝试完成一些模型的一些基本单元测试但是我收到以下错误现在看来我有两个 SLF4J 绑定这是因为我使用的是 Mahout 它有一个版本的 SLF4J 而 Play 有它自己的版本谁能告诉我如何解决这个问题 SLF4J 参见htt
在 WooCommerce 中的产品 (Schema.org) 的结构化数据中添加 ean 代码 (gtin)

我使用此代码片段在 Woocommerce 的产品架构中显示 gtin 的 ean 值 add filter woocommerce structured data product filter woocommerce structured
将类实例存储到文件/数据库的最佳方法

将类的实例存储到文件数据库的最佳方法是什么我们有一个名为 Command 的基类和大量派生类用户通过向图形设计器添加命令来创建这些类的实例他们可以在哪里配置它们设置属性然后我们需要一种方法将这些命令存储到文件中而不丢失任何
如何在opencv 4.1.0中实现LSD

我在我的开放简历项目中实施了 LSD 一切都很顺利直到我将 opencv 版本从 4 0 0 升级到 4 1 0 现在我得到的错误是 cv2 error OpenCV 4 1 0 io opencv modules imgproc src
是否可以在 Android Studio 中本地调试 Google Play 的应用内结算？

我在本地测试应用内订阅产品时遇到此错误需要进行身份验证您需要登录您的谷歌帐户我能够检查该产品的库存但我是否也应该能够购买它有很多关于为什么会发生此错误的帖子我认为这些帖子已得到解决该产品在测试版渠道中发布并启用应用内计费我
Python，通过提取字符和数字子串来解析字符串

我有一个字符串是由某种机器学习算法产生的通常由多行组成在开头和结尾处可以有一些不包含任何字符空格除外的行并且在它们之间应该有 2 行每行包含一个单词后跟一些数字和有时其他字符像这样的东西 first word 3 5

Python，通过提取字符和数字子串来解析字符串

Python，通过提取字符和数字子串来解析字符串 的相关文章

随机推荐

热门标签

Python，通过提取字符和数字子串来解析字符串的相关文章