删除虚假逗号

2023-12-26

一位白痴客户正在生成 csv 文件，但其中一个字段（描述字段）有时有多余的逗号。

是否有一个整洁的正则表达式来查找这些不良记录并用其他内容替换多余的逗号。 SED 命令行就可以了。

Example:

A,B,C,This is a description,D,E
F,G,H,This is a description with a comma (,) in it,D,E

我需要一个 SED 来判断该行中有太多逗号，并从字段 4 中删除多余的逗号。

我们没有能力告诉愚蠢的客户更改他们的代码。

Added

我不会反对仅删除的解决方案one我必须运行多次的虚假逗号。

方案一：单行，删除`,`

下面是 SED 的一句台词：

sed -r 's/([^,],[^,],[^,],)(.*)(,.+,.+)/\1'"$(sed -r 's/([^,],[^,],[^,],)(.*)(,.+,.+)/\2/' <<< $myInput | sed 's/,//g')"'\3/' <<< $myInput

你必须更换<<< $myInput无论您的实际输入是什么。
当您使用 CSV 时，您可能需要调整（两次出现）正则表达式以匹配 CSV 工作表的每一行。
如果您的前三个和最后两个字段大于一个字符，请替换[^,] with [^,]*.

解释:
我们使用这个正则表达式

/([^,],[^,],[^,],)(.*)(,.+,.+)/

它捕获第一个（F,G,H,），第二（.*）和最后一部分（,D,E）为我们提供了字符串。
第一和第三捕获组将保持不变，而第二捕获组将被替换。
对于我们所说的替换sed第二次（实际上是第三次）。首先我们只捕获第二组，其次我们替换每一个,什么都没有（仅在捕获组中！）。

Proof: enter image description here

Of course, if there is no unwanted comma, nothing gets replaced: enter image description here

## Solution 2: whole file, line-by-line, delete `,` ## If you want to specify only **a file** and the replacement should happen for each line of the file you can use

while read line; do sed -r 's/([^,],[^,],[^,],)(.*)(,.+,.+)/\1'"$(sed -r 's/([^,],[^,],[^,],)(.*)(,.+,.+)/\2/' <<< $line | sed 's/,//g')"'\3/' <<< $line; done < input.txt

where input.txt最后显然是你的文件。
我只是在a中使用上面的SED命令while-loop 读取文本的每一行。这是必要的，因为您必须在调用时跟踪正在读取的行sed在同一输入上两次。

## Solution 3: whole file, enclose field in `"` ## As [@Łukasz L.][4] pointed out in the comments to the OP, according to the [RFC1480][5], which describes the format for CSV-files it would be better to enclose fields which contain a comma in `"`. This is more simple than the other solutions:

sed -r 's/([^,],[^,],[^,],)(.*)(,.*,.*)/\1"\2"\3/' input.txt

我们再次拥有三个捕获组。这使我们可以简单地将第二组包装在"!

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

csv

删除虚假逗号的相关文章

除了使用正则表达式之外，在 Swift 中解析 HTML

下面是我想在 Swift 中解析的 HTML 代码 td class pinyin a href rsc audio voice pinyin pz yi1 mp3 span class mpt1 y span a a href rsc a
需要正则表达式帮助

我正在尝试替换两次或多次出现的 br like br br br 标签与两个一起 br br 具有以下模式 Pattern brTagPattern Pattern compile lt s br s s gt s 2 Pattern CA
为什么“script”命令会生成 ^[ 和 ^M 字符以及如何使用 vim 搜索和替换删除它们？

在linux上使用bash shell 当我使用script命令时生成的文件称为typescript 当我用 vim 打开该文件时每一行都包含 M字符并且有几行由于我的彩色命令提示符包含一个字符我想用任何东西替换这些字符从而
在 jQuery 选择器上使用正则表达式查找基于 ids 的所有元素

我有几个具有唯一 id 的元素如下所示 div div div div div div 我希望使用 jQuery 可以实现以下功能 item top each function this hide 我对正则表达式没有很好的掌握希望得到一
正则表达式仅匹配字母

如何编写仅匹配字母的正则表达式使用字符集 a zA Z 匹配 A Z 中的一个小写和大写字母 a zA Z 匹配一个或多个字母并且 a zA Z 仅匹配仅由一个或多个字母组成的字符串 and 分别标记字符串的开始和结束如果您想匹配除 A
降低计算精度以加快执行速度

我有一个数据采集系统可以进行几分钟的测量并生成一个包含 1000 万行和 10 列的 csv 文件然后我在Python csv reader 中导入这个csv文件对获取的数值数据执行一系列操作但一次只能 10000行否则计算机内
通过 Powershell 拆分 9 GB csv 文件时遇到问题

我有一个大约 9 GB 的大型 csv 文件在 Powershell 中我需要将其拆分为 10 MB 的块问题是我需要保持行完整因此每个分割文件在一行的末尾结束并在下一行的开头开始由于文件太大我需要一种拆分它的方法该方法不会
使用 JavaScript 正则表达式分割字符串但保留分隔符？

我收到如下输入 F12T213B1239T2F13T341F324 我必须按字母和后面的数字对其进行分组所以理想的输出是 F12 T213 B1239 T2 F13 T341 F324 然后根据数字所带有的字母对数字进行一些处理字母是固
sed 替换 json 对象中键的值

我想做什么给定一个 json 事件文件我想通过关键字定位特定事件然后将该事件中的键值替换为这必须使用 sed 来完成 Splunk 转发问题我不会用细节来烦你事件示例 message we have a response fro
将嵌入其他文本的长州名称转换为两个字母的州缩写

我的目标是识别以具有其他文本的字符向量写出的美国各州并将各州转换为缩写形式例如北卡罗来纳州到北卡罗来纳州如果向量只有长形式的状态名称那就很简单但是我的向量在随机位置有其他文本如示例 states 中所示 states l
计算列表中每个项目在 pandas 数据框列中出现的次数，并用逗号分隔值

我有一个清单 citylist New York San Francisco Los Angeles Chicago Miami 和带有这些值的 pandas Dataframe df1 first last city email John
\d 只匹配0-9位数字？

据我所知 d应该匹配非英文数字例如但它在 JavaScript 中不能正常工作看这个jsFiddle http jsfiddle net xZpam http jsfiddle net xZpam 这是正常行为吗 JavaScript
Mercurial .hgignore 负向前瞻

使用 Mercurial 我需要忽略除名为 keepers 的某个目录中的文件之外的所有文件从表面上看使用 Regex 和 Negative Lookahead 似乎很容易然而尽管我能够在 Regex Buddy 和其他工具中验证我
如何使用Shiny中的下载按钮？

我想下载一个csv使用 Shiny 中的下载按钮下载文件该文件将使用辅助 r 脚本中的参数创建 SERVER output downloadData lt downloadHandler filename function paste d
正则表达式匹配组，但组成员除外

因此有许多正则表达式可以匹配特定的组如下所示 Any character except a newline m Any character the m modifier enables multiline mode w A word c
使用 PHP 将 HTML 片段包裹在 div 中（并从 HTML 标签生成目录）

我原来的 HTML 看起来像这样 h1 Page Title h1 h2 Title of segment one h2 img src img jpg alt An image of segment one p Paragraph one
如何使用正则表达式（php）匹配这个单词

我有这个关键词3D DL1 现在我想从用户提交的数据中搜索 3D DL1 关键字该规则是只要句子中出现 3D 和 DL1 它就有效不区分大小写例如 BLASDHSDHD 3D 8qw9e08e2323 DL1 有效的 BLASDHSD
简单的正则表达式：匹配所有内容直到最后一个点

只想匹配直到但不包括最后一个句点的每个字符 dog jpg gt dog abc123 jpg jpg gt abc123 jpg 我努力了使用前瞻断言最后一个点字符现场演示 https regex101 com r rI4pQ1 1
使用重复模式捕获正则表达式

我试图捕获字符串的所有部分但我似乎无法正确处理该字符串具有以下结构 1 22 33 中间有运算符的数字可以有任意数量的术语我想要的是 1 22 33 1 22 33 但我得到 1 22 33 22 33 我尝试过各种正则表达式这是
Notepad++ 正则表达式代码提取行尾

我有一个需要捕获的源代码整个文件只有一行但我无法捕获我需要的数据 allow ok secret 4326dwsaddsafsd286435dsfs754 现在我需要捕获每次都会变化的数据 4326dwsaddsafsd286435ds

随机推荐

查找数组中最大值索引的最快方法是什么？

我有一个 2D 数组类型f32 from ndarray ArrayView2 我想找到每一行中最大值的索引并将索引值放入另一个数组中 Python 中的等价物类似于 import numpy as np for i in range 0
为什么我的双线性插值与内置的 matlab 函数有很大不同？

我一直在基于 matlab 中的 wiki 示例研究双线性插值我按照 T 的示例进行操作但是当比较我的函数和内置 matlab 函数的输出时结果有很大不同我无法弄清楚为什么会发生这种情况或如何发生 Using inbuilt mat
Rails 3 / HAML：如何从变量输出 haml raw？

我在 Rails 中有一些变量其中包含一些 div 如下所示 layout 1 box 1 column 4 br gutter br column 4 br gutter br column 4 br gutter br column
访问 JSF Managed Bean 中的动态 UIComponent

我有一个 JSF 页面我在其中迭代一个列表
我可以加密 PHP 源代码或编译它以便其他人看不到它吗？如何？ [复制]

这个问题在这里已经有答案了我需要加密一些已向公众发布的 PHP 源代码这可能吗 PHP可以编译吗你可以买Zend 守卫 http www zend com en products guard 对您的 PHP 源代码进行编码然后使
将mysql数据库数据插入html表单

我的 mysql 数据库中有产品记录我说的是使用 hibernate 的 spring MVC java 项目我有一个 html 和 css 形式的搜索屏幕下面是它的代码
更改程序集名称会出现错误

当我更改项目的程序集名称即从 Gui 到 Gui2 时我在构建过程中遇到许多错误大多数这些错误包含找不到 xxxx 您是否缺少 using 指令或程序集引用我究竟做错了什么您需要修复对该程序集的所有引用才能使用新名称根据您进行
Matlab imnoise 泊松什么都不做？

基本上我有 sourceImage im2double imread srcPath noiseImage imnoise sourceImage poisson 问题是sourceImage 和noiseImage 看起来都非常一样确实
如何将矩阵转换为字符串以便在 JTextArea 中输出

我是 Java 初学者我需要帮助我正在尝试在 JTextArea 中打印矩阵但我不知道如何将矩阵转换为字符串以便在 JTextArea 中打印它我正在尝试使用matrica get i 但我不知道如何将它用于矩阵或者还有其他的可能
Boost Python：在函数中通过引用传递变量时出错

我想了解为什么以下函数在 python 中不起作用 include
将 Haskell 程序作为 C 源代码分发

假设我有一个 Haskell 程序或库我想让非 Haskell 人员可能是 C 程序员访问它我可以使用 GHC 将其编译为 C 然后将其作为 C 源代码分发吗如果可能的话有人可以提供一个最小的例子吗例如 Makefile 是否
最好的积极维护的 Java XMPP 库？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我见过几个 Java 的 XMPP 库在过去几年中似乎很少有更新活动当前最好的 XMPP 库是什么支持基本聊天传输层安全 MUC
间歇性 ODBC 连接失败

我们正在开发一个内部 32 位应用程序该应用程序连接到 SQL Server 测试环境为SQL Server 2008 R2 上线环境为SQL Server 2014 SP2 使用以下 ODBC 字符串建立与数据库的连接 Driver S
使用 SciPy 最小化估计逆 Hessian 矩阵

我正在使用 SciPy 的最小化函数来最小化函数该函数返回最优值以及估计的雅可比矩阵和海森矩阵如下 fun 675 09792378630596 hess inv lt 8x8 LbfgsInvHessProduct with dt
Jackson 为具有多态类型的一个字段定制反序列化器

Update 我尝试在杰克逊源代码中进行调试并在方法中发现 deserialize JsonParser jp DeserializationContext ctxt of SettableBeanProperty java 当的时候 v
将带有回调的函数变成 Python 生成器？

Scipy 最小化函数仅用作示例可以选择在每个步骤添加回调函数所以我可以做类似的事情 def my callback x print x scipy optimize fmin func x0 callback my callback
Hibernate JPA：即使根本没有更改，更新查询（仅更新版本）也会被触发

假设我们有一个 User 一个用户可以有多个子级现在当我插入一个孩子时我打电话user addChild 这样位于 JVM 中的用户对象就会被更新尽管实际上用户的数据库记录没有任何变化因为它是 OneToMany 当我检查SQL
为什么用gcc和std=c99编译时找不到getaddrinfo

我有以下我试图编译的代码当我尝试使用 std c99 时它失败并出现有关 struct addrinfo 类型的隐式声明和函数 getaddrinfo 的隐式声明的警告它适用于 std gnu99 include
熊猫绘图，正值一种颜色，负值另一种颜色

我有一个 pandas 数据框在其中绘制 12 列中的两列一列作为 x 轴一列作为 y 轴 x 轴只是一个时间序列 y 轴的值是大约 5000 到 5000 之间的随机整数有没有办法只使用这两列来制作散点图其中 y 的正值是某种颜
删除虚假逗号

一位白痴客户正在生成 csv 文件但其中一个字段描述字段有时有多余的逗号是否有一个整洁的正则表达式来查找这些不良记录并用其他内容替换多余的逗号 SED 命令行就可以了 Example A B C This is a descript

删除虚假逗号

方案一：单行，删除,

删除虚假逗号 的相关文章

随机推荐

热门标签

方案一：单行，删除`,`

删除虚假逗号的相关文章