将文本文件中的重复分隔符替换为替代字符

2024-04-16

我正在尝试处理一个大管道“|”带分隔符、双引号限定的文本文件（>700,000 条记录，每条记录 >3,000 个字符，每条记录 28 个字段）。使用Python脚本。我遇到了一个问题，因为 csv 解析器由于文件中字段文本中嵌入的未转义双引号字符和管道而错误地解析字段。由于文件中不存在制表符，我想通过将双引号管道双引号分隔符/限定符字符序列（“|”）替换为制表符（\t），将其转换为制表符分隔文件。如果每个字段都已填充但有些字段未填充，则这将相对简单。未填充的字段由空字符串表示，因此我可以在任何位置按顺序使用 1 到 7 个管道分隔符，并以双引号开头。

一个简单的例子是：

"abc"|"2016-07-30"|"text narrative field"|"2016-08-01"|"123"|"456"|"789"|"EOR"

一个比较有代表性的例子是：

"abc"|"2017-01-01"|"height: 5' 7" (~180 cm) | weight: 80kg | in good health"|"2016-01-10"||||"EOR"

我一直在尝试编写一个正则表达式，它将用制表符替换每个管道字符/双引号组合或管道字符序列，其前面和后面紧跟着双引号 1 for 1 。我发现了许多用单个字符替换重复字符串的正则表达式示例，但没有一个示例用替代字符的等长字符串替换一系列重复字符。

我尝试了以下正则表达式："\|{1,}"它适用于单个管道字符，但使用单个 TAB 按顺序替换多个管道。我还需要处理以下相关方面：

删除行首/双引号 (^")
删除双引号/行尾 ("$)
并用与管道字符相同数量的制表符替换双引号/管道（1个或多个）/行尾（例如“\|$）

应用正则表达式后的输出记录将如下所示，使用 \t 表示制表符：

abc\t2016-07-30\ttext narrative field\t2016-08-01\t123\t456\t789\tEOR
abc\t2017-01-01\theight: 5' 7" (~180 cm) | weight: 80kg | in good health\t2016-01-10\t\t\t\tEOR

我愿意在 python 或 Linux 中使用 sed 或 awk 解决这个问题

import re

def count_pipes_in_regex_match(m):
  #  regex capture group should only contain pipe chars
  matched_pipes = m.groups()[0]

  return '\t' * len(matched_pipes)


# test string
s='"abc"|"2017-01-01"|"height: 5\' 7" (~180 cm) | weight: 80kg | in good health"|"2016-01-10"||||"EOR"'


# replace leading or trailing quotes
s = re.sub('^"|"$', '', s)

# replace quote pipe(s) quote 
# or      quote pipe(s) end-of-string
# with as many tabs as there were pipes
s = re.sub('"(\|+)("|$)', count_pipes_in_regex_match, s)

print repr(s) #repr to show the tabs

Try 在线 repl.it https://repl.it/FHCX/2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将文本文件中的重复分隔符替换为替代字符的相关文章

Pandas：GroupBy 到 DataFrame

参考这个关于 groupby 到 dataframe 的非常流行的问题 https stackoverflow com questions 10373660 converting a pandas groupby object to dat
在两次之间每分钟执行一次 Cronjob

我需要在 crontab 中每分钟运行一个 bash 脚本8 45am and 9 50am每天的 Code 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 8 home pull sh gt ho
Python 中的流式传输管道

我正在尝试使用 Python 将 vmstat 的输出转换为 CSV 文件因此我使用类似的方法转换为 CSV 并将日期和时间添加为列 vmstat 5 python myscript py gt gt vmstat log 我遇到的问题是
搜索多个字段

我想我没有正确理解 django haystack 我有一个包含多个字段的数据模型我希望搜索其中两个字段 class UserProfile models Model user models ForeignKey User unique
进程退出后 POSIX 名称信号量不会释放

我正在尝试使用 POSIX 命名信号量进行跨进程同步我注意到进程死亡或退出后信号量仍然被系统打开在进程打开它死亡或退出后是否有办法使其关闭释放早期的讨论在这里当将信号量递减至零的进程崩溃时如何恢复信号量 https sta
如果在等待“read -s”时中断，在子进程中运行 bash 会破坏 tty 的标准输出吗？

正如 Bakuriu 在评论中指出的那样这基本上与BASH 输入期间按 Ctrl C 会中断当前终端 https stackoverflow com questions 31808863 bash ctrlc during input b
Django send_mail SMTPSenderRefused 530 与 gmail

一段时间以来我一直在尝试使用 Django 从我正在开发的网站接收电子邮件现在我还没有部署它并且我正在使用Django开发服务器我不知道这是否会影响它这是我的 settings py 配置 EMAIL BACKEND djang
Python新式类和__subclasses__函数

有人可以向我解释为什么这有效在 Python 2 5 中 class Foo object pass class Bar Foo pass print Foo subclasses 但这不是 class Foo pass class Ba
在 Windows 上使用 apache mod_wsgi 运行 Flask 应用程序时导入冲突

我允许您询问我在 Windows 上使用您的 mod wsgi portage 托管 Flask 应用程序时遇到的问题我有两个烧瓶应用程序由于导入冲突只有一个可以同时存在 IE 如果请求申请 1 我有回复然后如果我请求应用程序 2
pytest：同一接口的不同实现的可重用测试

想象一下我已经实现了一个名为的实用程序可能是一个类 Bar在一个模块中foo 并为其编写了以下测试测试 foo py from foo import Bar as Implementation from pytest import ma
Geodjango距离查询未检索到正确的结果

我正在尝试根据地理位置的接近程度来检索一些帖子正如您在代码中看到的我正在使用 GeoDjango 并且代码在视图中执行问题是距离过滤器似乎被完全忽略了当我检查查询集上的距离时我得到了预期距离 1m 和 18km 但 18km 的帖
SMTP_SSL SSLError: [SSL: UNKNOWN_PROTOCOL] 未知协议 (_ssl.c:590)

此问题与 smtplib 的 SMTP SSL 连接有关当与 SMTP 无 ssl 连接时它正在工作在 SMTP SSL 中尝试相同的主机和端口时出现错误该错误仅基于主机 gmail 设置也工作正常请检查下面的示例如果 Out
如何在 pandas 中使用 read_fwf 跳过空行？

I use pandas read fwf http pandas pydata org pandas docs stable generated pandas read fwf htmlPython pandas 0 19 2 中的函数读
用 python 编写的数学语法检查器

我需要的只是使用 python 检查字符串是否是有效的数学表达式为了简单起见假设我只需要运算符也作为一元带有数字和嵌套括号为了完整性我还添加了简单的变量名称所以我可以这样测试 test 3 2 1 valid test 3
Python SSL X509：KEY_VALUES_MISMATCH

Python HTTPS server from http server import HTTPServer SimpleHTTPRequestHandler import ssl https stackoverflow com a 408
如何在c linux中收听特定接口上的广播？

我目前可以通过执行以下操作来收听我编写的简单广播服务器仅广播 hello int fd socket PF INET SOCK DGRAM 0 struct sockaddr in addr memset addr 0 sizeof ad
从 pandas DataFrame 中删除少于 K 个连续 NaN

我正在处理时间序列数据我在从数据帧列中删除小于或等于阈值的连续 NaN 时遇到问题我尝试查看一些链接例如标识连续 NaN 出现的位置以及计数 Pandas NaN 孔的游程长度 https stackoverflow com que
重复命名捕获组

我有一个带有如下字段的字符串 id ID 120 1 ID 141 5 ID 92 5 N A 我只想捕获命名捕获组的 ID 即没有 N A 或其他可能潜入的项目我认为这可能有效但没有运气 bid
多个对象以某种方式相互干扰[原始版本]

我有一个神经网络 NN 当应用于单个数据集时它可以完美地工作但是如果我想在一组数据上运行神经网络然后创建一个新的神经网络实例以在不同的数据集甚至再次同一组数据上运行那么新实例将产生完全错误的预测例如对 XOR 模式进行训练
Apache Beam Pipeline 写表后查询表

我有一个 Apache Beam Dataflow 管道它将结果写入 BigQuery 表然后我想查询该表以获取管道的单独部分但是我似乎无法弄清楚如何正确设置此管道依赖性我编写的新表然后想要查询与一个单独的表连接以进行某些过滤

随机推荐

session和cookie是同一个东西吗？

既然session和cookie都是用来存储临时数据的那么它们有什么区别呢至于可能的知识如果您将变量设置为 cookies 那么您的用户将不必在每次进入您的社区时登录 Cookie 将保留在用户浏览器中直到被用户删除但会话被广泛使
CSS 中的正向前瞻

我知道 Perl 正则表达式中积极前瞻的概念即q u 匹配后跟 u 的 q 但不使 u 成为匹配的一部分我正在寻找类似的CSS 我想匹配div 后面跟着一个兄弟姐妹div specialClass div div div class s
MethodExpression 未在 HtmlCommandLink 中触发

我有一个动态生成的数据表像这样 DataTable dataTable new DataTable dataTable setValue relatorioVOList dataTable setVar rVO Column checkB
使用 Visual Studio 调试时看不到 boost::可选内容

如果我尝试直接查看变量我会看到一个符号如果我创建一个手表调用is initialized函数我收到以下错误 CXX0033 错误 OMF 类型信息错误我没有找到太多与使用 Google Boost 相关的错误信息还有其他人经历过
一旦用户切换相机隐私设置，防止 AVCaptureSession 崩溃

一直使用AVCaptureSession来记录条形码效果很好我还遵循了有关堆栈溢出的建议如何正确释放AVCaptureSession https stackoverflow com questions 3741121 how to p
如何在 create-react-app 中以开发模式启用 Service Worker？

我知道我们可以在生产模式下测试我们的 Service Worker 但是重新构建和部署的过程非常烦人有什么方法可以在开发模式下启用服务工作者吗改变这个 window addEventListener load gt const swUr
拖动滑块时更新标签

我正在使用一个Slider在我的 javaFX 项目中我有一个Label当我移动滑块时它会更新我想要Label在我拖动时进行更新Slider不仅是当阻力被放下时这是我的代码 betSlider valueChangingPropert
使用 jpos api 打包 SUBFIELDS

我正在尝试编写一个主要的包和解压包ISO消息 using 初级职位框架问题是我的消息包含一些子字段例如field 48 并且我一直将其视为空值下面是我的配置主程序 Packager
线性模型函数 lm() 错误：外部函数调用中的 NA/NaN/Inf (arg 1)

假设我有 data framea I use m fit lt lm col2 col3 col4 na action na exclude col2有一些NA价值观 col3 and col4值小于 1 我不断得到 Error in lm
Mac os X PHP56 ApcU 通过 Brew - 未找到符号：_zend_signal_globals

当尝试通过brew 安装 APCu 时出现错误 PHP 警告 PHP 启动无法加载动态库 usr local opt php56 apcu apcu so dlopen usr local opt php56 apcu apcu so
boost随机数库，对不同的变量生成器使用相同的随机数生成器

似乎可以使用以下代码从特定的正态分布中生成随机数 float mean 0 variance 1 boost mt19937 randgen static cast
在条件 .js.erb 文件中使用控制器设置变量

我有一个控制器其动作被远程击中之后我的controller action js erb文件运行在我的控制器的操作中我设置一个变量 successful true false true false 基于函数的返回值在我的 javas
创建需要类型信息的 MVC3 ValueProviderFactories？

我正在尝试为 ASP MVC3 编写 Protobuf ValueProviderFactory 我已经成功锻炼了如何添加工厂 https stackoverflow com questions 6885538 adding custom
使用“npm install”的漏洞问题

我已经使用安装了一个快速服务器express coserver命令然后我使用 npm install 命令来安装其他节点包依赖项但我得到了这个结果 npm audit security report Manual Review Som
在 bash 脚本中提取 JSON 值的更好方法

任何人都可以建议一种比我到目前为止所得到的更好更简洁的方法来从 Json 对中提取值请我的 Json 对是 myKeyName myKeyValueVariableLength 存储在 myFile txt 中我只想要 KeyVal
如何在 libgdx scene2d 上拖放演员？

我正在使用 libGDX 开发游戏我想知道如何拖放 Actor 我已经搭建了舞台并绘制了演员但我不知道如何触发该事件请尝试帮助我使用我自己的架构 public class MyGame implements ApplicationLi
从 iPhone 应用程序发送邮件而不使用用户交互 iOS5？

我正在尝试在没有用户交互的情况下从 iPhone 应用程序向收件人发送邮件我努力了MFMailComposeViewController 但它出现在应用程序中如果用户只是点击了我不想向他们显示任何内容 Send Mail 按钮邮件将
如何检查特定的asp.net验证控件是否有效？

在 Web 表单中有不同的 ASP NET 验证控件是否可以检查特定的验证控件是否有效例如在离开文本框的焦点时首先我将检查 requiredFieldValidatorUserName 是否有效如果它有效那么我将使用 ajax
在 asp.net 5 中，是否可以在 approot 而不是 wwwroot 中存储和读取自定义文件？

当您部署 asp net5 mvc6 应用程序时有一个 wwwroot 文件夹其中包含 css js 图像等 Web 资源还有一个 approot 文件夹其中包含包和源代码例如 Microsoft Framework Config
将文本文件中的重复分隔符替换为替代字符

我正在尝试处理一个大管道带分隔符双引号限定的文本文件 gt 700 000 条记录每条记录 gt 3 000 个字符每条记录 28 个字段使用Python脚本我遇到了一个问题因为 csv 解析器由于文件中字段文本中嵌入的未转义

将文本文件中的重复分隔符替换为替代字符

将文本文件中的重复分隔符替换为替代字符 的相关文章

随机推荐

热门标签

将文本文件中的重复分隔符替换为替代字符的相关文章