包含多个双引号的 CSV 拆分正则表达式

2024-04-27

我有一个包含文本的 CSV 列数据。每行用双引号分隔"

一行中的示例文本类似于此（notice: 新行和每行之前的空格是故意的)

"Lorem ipsum dolor sit amet, 
 consectetur adipisicing elit, sed do eiusmod
 tempor incididunt ut labore et dolore magna 
 aliqua. Ut ""enim ad"" minim veniam,
 quis nostrud exercitation ullamco laboris nisi 
 ut aliquip ex ea commodo
 consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse
 cillum dolore eu fugiat ""nulla pariatu"""
"ex ea commodo
 consequat. Duis aute irure ""dolor in"" reprehenderit 
 in voluptate velit esse
 cillum dolore eu fugiat nulla pariatur. 
 Excepteur sint occaecat cupidatat non
 proident, sunt in culpa qui officia deserunt 
 mollit anim id est laborum."

上面代表 2 个后续行。

我想选择每个第一个双引号之间包含的所有文本作为单独的组"（开始一行）和每个最后一个双引号"

正如您所看到的，文本中有换行符，以及随后转义的双引号""这是我需要选择的文本的一部分。

我想出了这样的东西

(?s)(?!")[^\s](.+?)(?=")

但多个双引号破坏了我想要的匹配

我是正则表达式的真正新手，所以我想我可能错过了一些非常基本的东西。不知道是否相关，但我正在使用 Sublime Text 3，所以我认为应该是 python。

我可以做什么来实现我所需要的？

您可以使用以下正则表达式：

"[^"]*(?:""[^"]*)*"

See demo https://regex101.com/r/nO1wB6/2

此正则表达式将匹配非引号或双引号内的 2 个后续双引号。

它是如何工作的？让我分享一个图形debuggex.com https://www.debuggex.com/r/VMpVzFMT_JuSSV19:

使用正则表达式，我们匹配：

"- (1) - 字面引用
[^"]*- (2, 3) - 除引号外的 0 个或更多字符（是的，包括换行符，这是一个否定字符类 http://www.regular-expressions.info/charclass.html#negated)，如果没有，则正则表达式搜索最终的文字引用 (6)
(?:""[^"]*)* - (4,5) - 0 or more sequences of:
- ""- (4) - 双双引号
- [^"]*- (5) - 除引号外的 0 个或多个字符
"- (6) - 最后的文字引用。

这比"(?:[^"]|"")*" https://regex101.com/r/nO1wB6/4（尽管产生相同的结果），因为前者的处理是线性的，涉及更少的回溯。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

csv

sublimetext3

doublequotes

包含多个双引号的 CSV 拆分正则表达式的相关文章

正则表达式的替代（流畅？）界面设计

我刚刚看到了一个巨大的 Java 正则表达式这让我对正则表达式的一般可维护性进行了一些思考我相信大多数人除了一些糟糕的 Perl 贩子都会同意正则表达式很难维护我正在考虑如何解决这种情况到目前为止我最有希望的想法是使用流畅的界
Windows 中的信号处理

在Windows中我试图创建一个等待SIGINT信号的python进程当它收到SIGINT时我希望它只打印一条消息并等待SIGINT的另一次出现所以我使用了信号处理程序这是我的 signal receiver py 代码 impo
在 Django 中上传文件

我在 Django 1 6 版本中上传文件时遇到问题当我尝试做的时候new file data save 在我的views py 中我收到此错误 quiz patent 22 medical record 2 exams 处的属性错误
cx_freeze：QODBC 驱动程序未加载

我的 python 应用程序如下所示 test py from PyQt4 import QtCore from PyQt4 import QtGui from PyQt4 import QtSql import sys import at
使用 gin 索引和 sqlalchemy 返回排名搜索结果

我为全文搜索设置了 GIN 索引我想获取与搜索查询匹配的记录列表按排名排序记录与搜索查询的匹配程度对于结果我只需要记录及其列不需要用于排序的实际排名值我有以下查询它运行良好并从我的 postgresql 数据库返回预期结果
从 python 的单词列表中查找最长的常见单词序列

我搜索了很多解决方案确实发现了类似的问题这个答案 https stackoverflow com questions 21930757 longest repeated substring返回可能不属于输入列表中所有字符串的最长字符序列
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列？ [复制]

这个问题在这里已经有答案了对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时我只得到输出中的最小值 d
在 Qt Creator 中相互公开 QML 组件

我正在使用 Qt Quick 和 PySide2 开发仪表板应用程序但在 Qt Creator 的设计模式中公开我的 QML 组件时遇到问题我的文件夹结构如下所示 myapp mycomponents component1 qml co
如何判断Python对象是否是字符串？

如何检查 Python 对象是否是字符串常规字符串或 Unicode Python 2 Use isinstance obj basestring 对于要测试的对象obj Docs https docs python org 2 7 li
Python Pandas：将参数传递给 agg() 中的函数

我试图通过使用不同类型的函数和参数值来减少 pandas 数据框中的数据但是我无法更改聚合函数中的默认参数这是一个例子 gt gt gt df pd DataFrame x 1 np nan 2 1 y a a b b gt gt g
Google App Engine 开发服务器中的 PyCrypto“ImportError：无法导入名称 blockalgo”

我有一个使用 PyCrypto 使用 AES 加密字符串的函数当我在单元测试中调用该函数时一切正常在生产环境中它也运行得很好但是在GAE开发服务器上调用该函数时会抛出错误 ImportError 无法导入名称blockalgo
Django：通过外键将两个表连接到第三个表？

我有三个型号 class A Model class B Model id IntegerField a ForeignKey A class C Model id IntegerField a ForeignKey A 我想要得到 B i
numpy 中的分层抽样

在 numpy 中我有一个这样的数据集前两列是索引我可以通过索引将数据集分成多个块即第一个块是 0 0 第二个块是 0 1 第三个块 0 2 然后是 1 0 1 1 1 2 等等每个块至少有两个元素索引列中的数字可能会有所不同我
如何更改 PyGame 中声音或音乐的音量？

如何更改 PyGame 中的音量例如通过设置更改音量我制作了 UI 元素只需要知道如何更改音量即可我知道我说不清楚但你可以理解我请帮忙更改音量取决于您是否正在播放pygame mixer Sound https www pyg
PyTorch 中的交叉熵

交叉熵公式但为什么下面给出loss 0 7437代替loss 0 since 1 log 1 0 import torch import torch nn as nn from torch autograd import Variable
regex php - 查找 div 中具有特定 ID 的内容

我确信这是一个简单的问题尽管我在谷歌上进行了如此多的搜索和搜索但我似乎无法弄清楚这有什么问题我在此页面上的其他区域使用类似的表达式来准确返回我想要的内容但是我无法让这个特定的位返回我想要的东西所以也许有人可以帮助我我有一个带有
如何从 Python 脚本捕获 Curl 的输出

我想使用curl查找有关网页的信息但在Python中到目前为止我有这个 os system curl head www google com 如果我运行它它会打印出 HTTP 1 1 200 OK Date Sun 15 Apr 20
Python：ConfigParser.NoSectionError：没有部分：“TestInformation”

我使用上面的代码收到 ConfigParser NoSectionError No section TestInformation 错误 def LoadTestInformation self config ConfigParser Co
如何在Python中从stdin中逐行读取

每个人都知道如何在 C 中计算 STDIN 中的字符但是当我尝试在 python3 中执行此操作时我发现这是一个难题计数器 py import sys chrCounter 0 for line in sys stdin readl
在Python中：检查文件修改时间是否早于特定日期时间

我用 C 编写了以下代码来检查文件是否已过期 DateTime lastTimeModified file getLastTimeModified if lastTimeModified HasValue File does not exi

随机推荐

使用 istream_iterator 范围构造时无法访问向量

我尝试编译此代码片段但出现编译器错误使用 Visual Studio 2010 进行编译 include
推导具有两个以上参数的 std::function

我想知道为什么std function http en cppreference com w cpp utility functional function只知道有两个参数的函数我已经编写了一些运行良好的代码但存在许多限制欢迎任何反馈
即使在回发后也保持用户检查 radiobtn 检查

我有以下无线电控件默认选中全部如果用户检查其他一些单选按钮并提交在回发时我想保留选中的按钮以便用户可以看到他们单击的内容如何保留使用 jquery 选择的内容我正在使用的是
C#中判断HDD是GPT还是MBT

如何用 C 判断硬盘类型是 GPT 还是 MBR 我查看了Win32 DiskDrive 似乎没有它您想要使用 PInvoke 请参阅http pinvoke net http pinvoke net with CreateFile De
提升精神带走关键字并忽略船长

这是使用表达式的语法的一小部分 prefix lit L not gt gt prefix lit gt gt prefix postfix 我在 postfix 内部有某种方式纯名称获取标识符 name pure lexeme boost
C++ 抛硬币程序错误

我正在尝试计算抛硬币中连续的正面朝上的次数不幸的是我的连续头计数器没有正确增加有任何想法吗代码和示例输出如下 include
从 std::list 中删除具有特定值的元素

我需要从 std list 中删除具有特定值的元素随着list
使用 Deployment Manager 创建 Cloud Run 服务

我正在尝试使用部署管理器创建 Cloud Run 服务因为 Cloud Run 资源类型没有本机支持我通过在以下位置提供其描述符来为 Cloud Run API 创建类型提供程序 https run googleapis com dis
BigInteger 乘以 Double

我的物理老师给全班布置了一项艰巨的任务我正在尝试创建一个程序来为我计算一些事情在某个时刻我需要将分子数量乘以百分比 Ulong 不能容纳大到 6022 10 19 的数字所以我必须使用 net 4 0 中的 BigInteger 但
glypicon 上的单击事件

如何将 ng click 事件添加到文本框中的引导字形图标该事件不会被解雇 h3 How to clear the model on remove icon click h3 div class container div class f
跨源资源共享中 this.withCredentials 属性的问题

我们正在实现一个基于 AngularJS 的应用程序该应用程序使用托管在不同域中的 REST Web 服务以下脚本用于 CORS 它在 Chrome 和 FireFox 上完美运行在 IE9 和 Safari 中进行身份验证时存在问题
了解 Collection.isEmpty() 和 Collection.size() == 0 之间的区别？ [复制]

这个问题在这里已经有答案了我读过很多关于两者之间差异的文章isEmpty and size gt 0 用于检查collection是否为空并发现isEmpty 表现超过size 但我无法轻易理解为什么性能isEmpty 即使 isEmpt
主函数抱怨返回非 IO monad

import Debug Trace main do trace Main function parses and returns 0 return 这会引发错误 app hs 3 1 Couldn t match expected typ
如何在 Docker 容器中运行 Nginx 而不停止？

我在 Docker 容器上安装了 Nginx 并尝试像这样运行它 docker run i t p 80 80 mydockerimage usr sbin nginx 问题是 Nginx 的工作方式是初始进程立即生成一个 Nginx 主
使用 wp_read_audio_metadata()

我正在尝试从 WordPress 中的 mp3 文件获取一些元数据特别是长度变量这是我的一些代码这里没有显示但我已经包含了 wp admin includes media php 文件当我查看我的页面时http beta open
如何从函数调用事件处理程序？

我有一个类我从中调用一个函数ABC string st 带字符串参数该函数定义在一个Form class Form1 我有一个列表视图想要从函数中自动调用列表视图 mouse click 事件我该如何做到这一点您不能调用另一个类的
python lxml 我如何在项目名称中使用标签？

我需要使用项目的特殊名称构建 xml 文件这是我当前的代码 from lxml import etree import lxml from lxml builder import E wp E wp tmp wp title print
Array.filter 与 $filter('filter')

我应该在 Angular 应用程序中使用哪一个为什么 array filter o gt o name myName or filter filter array name myName true 关键的区别是快捷方式或语法糖由提供 fi
如何将 VBScript 转换为可执行 (EXE) 文件？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我四处寻找转换 VBScript 的信息 vbs 到可执行文件并意识到大多数可用的工具实际上是将脚本包装在可执行文件中尝试了一些工
包含多个双引号的 CSV 拆分正则表达式

我有一个包含文本的 CSV 列数据每行用双引号分隔一行中的示例文本类似于此 notice 新行和每行之前的空格是故意的 Lorem ipsum dolor sit amet consectetur adipisicing elit se

包含多个双引号的 CSV 拆分正则表达式

包含多个双引号的 CSV 拆分正则表达式 的相关文章

随机推荐

热门标签

包含多个双引号的 CSV 拆分正则表达式的相关文章