在 python 中解析字符串：如何分割换行符，同时忽略引号内的换行符

2024-02-26

我有一个需要用 python 解析的文本。

这是一个字符串，我想将其拆分为行列表，但是，如果换行符 (\n) 在引号内，那么我们应该忽略它。

例如：

abcd efgh ijk\n1234 567"qqqq\n---" 890\n

应解析为以下几行的列表：

abcd efgh ijk
1234 567"qqqq\n---" 890

我已经尝试过split('\n')，但我不知道如何忽略引号。

任何想法？

Thanks!

这是一个更简单的解决方案。

匹配组(?:"[^"]*"|.)+。即，“引号中的内容或不是换行符的内容”。

Example:

import re
re.findall('(?:"[^"]*"|.)+', text)

NOTE:这会将多个换行符合并为一个，因为空白行将被忽略。为了避免这种情况，也给出一个 null 情况：(?:"[^"]*"|.)+|(?!\Z).

The (?!\Z)是一种令人困惑的说法“不是字符串的结尾”。这(?! )是负前瞻；这\Z是“字符串的结尾”部分。

Tests:

import re

texts = (
    'text',
    '"text"',
    'text\ntext',
    '"text\ntext"',
    'text"text\ntext"text',
    'text"text\n"\ntext"text"',
    '"\n"\ntext"text"',
    '"\n"\n"\n"\n\n\n""\n"\n"'
)

line_matcher = re.compile('(?:"[^"]*"|.)+')

for text in texts:
    print("{:>27} → {}".format(
        text.replace("\n", "\\n"),
        " [LINE] ".join(line_matcher.findall(text)).replace("\n", "\\n")
    ))

#>>>                        text → text
#>>>                      "text" → "text"
#>>>                  text\ntext → text [LINE] text
#>>>                "text\ntext" → "text\ntext"
#>>>        text"text\ntext"text → text"text\ntext"text
#>>>    text"text\n"\ntext"text" → text"text\n" [LINE] text"text"
#>>>            "\n"\ntext"text" → "\n" [LINE] text"text"
#>>>    "\n"\n"\n"\n\n\n""\n"\n" → "\n" [LINE] "\n" [LINE] "" [LINE] "\n"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

Parsing

在 python 中解析字符串：如何分割换行符，同时忽略引号内的换行符的相关文章

pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
有没有办法改变野牛的弹性启动状态？

我在词法分析器中定义了不同的状态这些状态的变化不取决于令牌而是取决于令牌序列类似于模板引擎的工作方式我可以定义更长的标记但我更喜欢这种方法您可以将一个函数粘贴到使用 BEGIN 宏的 l 文件的第三部分中然后从您的 bison
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
Java：正则表达式排除空值

在问题中here https stackoverflow com questions 51359056 java regexp for a separated group of digits 我得到了正则表达式来匹配 1 到 99 之间的一
[A-z0-9]+ 正则表达式匹配方括号[重复]

这个问题在这里已经有答案了我正在努力解决以下正则表达式 A z0 9 如果针对此字符串进行测试 a919238 a asd 它返回a919238 包括方括号我尝试输入我在 regex101 上的测试用例 https www regex1
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
反向引用在 PHP 中不起作用

最近我一直在研究更多的是在实践中说实话正则表达式我注意到他的力量我提出的这个要求 link https stackoverflow com questions 30380397 take the text up to a speci
使用正则表达式查找并替换（批处理.BAT）

我想在多个文本文件中进行查找替换如何使用 BAT 实现自动化我还需要正则表达式示例查找
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户

随机推荐

NSSpeechRecognizer 示例

好的所以我需要这样做等待命令晚安然后运行一个动作有人可以解释如何实现这一点吗试试这个网站 http www cocoadev com index pl NSSpeechRecognizer http www cocoadev c
R 中带有 rCharts 的 nvd3 scatterPlot：增加标签的字体大小？

我正在尝试增加使用创建的图中 x 轴和 y 轴的字体大小 NVD3 和 rCharts 这是我的情节代码任何帮助表示赞赏 n1 lt nPlot pValues Chr data dat type scatterChart height
Git rebase 更改作者？ [复制]

这个问题在这里已经有答案了所以我愚蠢地在一台未配置 git 的机器上进行了 3 次提交没有作者或电子邮件并且我想将这 3 次提交尚未推送作者更改为他们应该的内容 I know git commit amend可以换作者但是怎么才
Android-按下按钮时将文本视图添加到布局

现在我有一个文本字段其下方有一个按钮 add 我想做到这一点以便每次在文本字段中输入文本并按下添加按钮时都会将一个新的文本视图添加到其下方的垂直布局中并包含用户在该字段中键入的文本我不想简单地使文本视图不可见然后在单击时可见
Java 线程示例？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 谁能给出一个示例程序以简单的方式解
BaseAdapter 类不会在 Asynctask 中 setAdapter - Android

我有一个收集用户名评论和数字的 asynctask 它将它们放入字符串中然后调用 BaseAdapter 类创建一个适配器并将适配器设置为该类但我的代码不起作用它使应用程序崩溃这是我的代码 public class Dashb
试图根据具体情况抑制覆盖是错误的吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我明白为什么通过方法重写实现的多态性非常有用我问的是在某些情况下当多态对象作为参数被接收时而不是在定义其类时尝试抑制它可能会出现什么问
如何将 OpenSSL 密钥文件导入 Windows 证书存储区

我有 OpenSSL 生成的 PEM 格式的 X 509 证书及其关联的密钥文件连接到原型服务器时需要此证书进行身份验证这在 Linux 上运行良好我一直在使用 Microsoft SChannel API 在 Windows 平台上
MVC 中的点击计数器

我正在尝试在 ASP NET MVC 中为网站的不同部分构建一个点击计数器知道执行此操作的最佳位置在哪里或者有一个好的方法吗我们想要跟踪网站各个部分的点击量根据您想要的粒度以下是一些选项您可以实施一个动作过滤器属性 http m
Android 设备监视器已禁用

我刚刚开始 Android 开发并正在设置安卓工作室 http developer android com sdk index html在我的Mac上按照说明here http vimeo com 113893631 当尝试运行一个简单的
Android 意图有时会“处理”而不是 ACTION_SEND

我的应用程序应该处理共享文本例如来自亚马逊应用程序的 URL 因此我将以下意图过滤器添加到我的主要活动中
React Native - 将道具从一个屏幕传递到另一个屏幕（使用选项卡导航器进行导航）

我需要将数据从主屏幕传递到第二屏幕如果我单击主屏幕上的按钮导航到 SecondScreen 有大量示例说明如何执行此操作但找不到任何显示如何传递到 SecondScreen 如果我使用 v2 底部选项卡导航器的内容从主屏幕到第二屏幕
在 JavaScript 中，可迭代对象应该是可重复迭代的吗？

我发现有些iterable可以重复迭代 const iterable Symbol iterator function yield 1 yield 3 yield 5 console log iterable console log ite
我可以在 mongodb 的 NodeJS 驱动程序中手动指定 BSON 类型吗？如果我使用“$numberLong”，则会出现错误

这就是我在将文档对象插入集合之前构建文档对象的方式 function newTupple name email return email email name name account status email verified I wan
如何扭曲图像[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在做一个项目我们需要扭曲图像基本上我想拍摄这张图片并将其变成这样请注意文字也变形了老实说我不知道如何去做所以任何帮助
我什么时候应该使用 sed，什么时候应该使用 awk [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
解密 Android 设备上加密的字符串

在 Android 4 4 设备上已使用 spring android auth 1 0 1 RELEASE 模块中的 org springframework security crypto encrypt AndroidEncrypto
在 LINQ to SQL 下管理不同开发人员的连接字符串

使用 Subversion 中的源代码当两台不同的计算机具有不同的连接字符串时我会遇到问题 LINQ to SQL 设计器似乎只喜欢具有相同的连接字符串设计者是否可以使用因开发人员具有不同的本地配置而变化的连接字符串但 Web 应用
如何开始使用 ReactJS Hello World 示例？

我正在使用 MacBook Pro 我更喜欢在虚拟机中使用 ubuntu 进行 Web 开发我在 Macbook 中创建了一个 index html 然后只需使用 Chrome 打开它 html 是按照此创建的video https eg
在 python 中解析字符串：如何分割换行符，同时忽略引号内的换行符

我有一个需要用 python 解析的文本这是一个字符串我想将其拆分为行列表但是如果换行符 n 在引号内那么我们应该忽略它例如 abcd efgh ijk n1234 567 qqqq n 890 n 应解析为以下几行的列表 ab

在 python 中解析字符串：如何分割换行符，同时忽略引号内的换行符

在 python 中解析字符串：如何分割换行符，同时忽略引号内的换行符 的相关文章

随机推荐

热门标签

在 python 中解析字符串：如何分割换行符，同时忽略引号内的换行符的相关文章