根据第一列中的字母数将行与上一行连接起来

2024-04-19

编码新手，试图弄清楚如何修复损坏的 csv 文件，以便能够正确使用它。

因此，该文件已从案例管理系统导出，并包含用户名、案例、花费时间、注释和日期字段。

问题在于，偶尔注释中会有换行符，并且在导出 csv 时，工具不包含引号来将其定义为字段内的字符串。

请参见下面的示例：

user;case;hours;note;date;
tnn;123;4;solved problem;2017-11-27;
tnn;124;2;random comment;2017-11-27;
tnn;125;3;I am writing a comment
that contains new lines
without quotation marks;2017-11-28;
HJL;129;8;trying to concatenate lines to re form the broken csv;2017-11-29;

我想连接第 3,4 行和第 5 行以显示以下内容： tnn;125;3;我正在写一条评论，其中包含不带引号的新行;2017-11-28;

由于每一行都以用户名开头（总是 3 个字母），我想我可以迭代这些行来查找哪些行不以用户名开头，并将其与上一行连接起来。但它并没有真正按预期工作。

这是我到目前为止所得到的：

import re

with open('Rapp.txt', 'r') as f:

 for line in f:
  previous = line #keep current line in variable to join next line
  if not re.match(r'^[A-Za-z]{3}', line): #regex to match 3 letters
   print(previous.join(line))

脚本没有显示任何输出只是默默地完成，有什么想法吗？

我想我会采取稍微不同的方式：

import re

all_the_data = ""

with open('Rapp.txt', 'r') as f:
    for line in f:
        if not re.search("\d{4}-\d{1,2}-\d{1,2};\n", line):
            line = re.sub("\n", "", line)
        all_the_data = "".join([all_the_data, line])
print (all_the_data)

有几种方法可以做到这一点，每种方法都有优点和缺点，但我认为这很简单。

像您所做的那样循环文件，如果该行不以日期和 ; 结尾去掉回车符，塞进all_the_data。这样您就不必再“查找”文件了。同样，有很多方法可以做到这一点。如果您更愿意使用以 3 个字母和 ; 开头的逻辑回顾过去，这是有效的：

import re

all_the_data = ""

with open('Rapp.txt', 'r') as f:
    all_the_data = ""
    for line in f:
        if not re.search("^[A-Za-z]{3};", line):
            all_the_data = re.sub("\n$", "", all_the_data)
        all_the_data = "".join([all_the_data, line])

    print ("results:")
    print (all_the_data)

要求的差不多了。逻辑是，如果当前行开头不正确，则从 all_the_data 中取出前一行的回车符。

如果您需要使用正则表达式本身的帮助，这个网站很棒：http://regex101.com http://regex101.com

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

python3x

csv

concatenation

根据第一列中的字母数将行与上一行连接起来的相关文章

为什么 Dash 在上传文件时会出现解析错误？

上传 Excel 或 CSV 会导致错误我遵循了 Dash 演示但是当我尝试扩展它来执行绘图之类的操作时它就不起作用了我不想只显示一张桌子 Dash Table 函数已更新因此之前使用 Dash Table Experiments
AWS Lambda - 在区域之间自动复制 EC2 快照？

我想创建一个 Lambda 函数 python 它将自动将已创建的快照复制到另一个区域我已联系 AWS Support 他们只向我发送了用于 RDS 数据库的 GitHub 脚本没有 EC2 快照复制脚本任何帮助都会很棒谢谢是的
使用自定义元素类在 Python 中解析 xml

我想使用 Python 的 xml etree ElementTree 模块解析 xml 文档但是我希望生成的树对象中的所有元素都具有我定义的一些类方法这建议创建我自己的 Python 元素类的子类但我无法告诉解析器在解析时使用我自
正则表达式匹配7-12位数字；可能包含空格或连字符

我已经尝试解决 PHP 正则表达式问题有一段时间了但我就是无法完全完成我需要编写一个匹配 7 到 12 位数字 0 9 的正则表达式并且可以选择在相邻数字之间有一个连字符或一个空格这就是我到目前为止所拥有的 match1 preg
在 AWS Elastic Beanstalk 中部署 Flask 应用程序

当我部署 Flask 应用程序时它显示成功但是当我检索日志时我看到错误找不到 Flask 我的需求文件中有烧瓶任何帮助 Sat Jan 11 06 51 50 503908 2020 error pid 3393 remote 1
如何将当前日期分配给 odoo v8 中的日期字段？

我想将当前日期分配给以下代码中的日期字段 start date calendar obj create cr uid name rec res act ion user id rec res asgnd to id start date l
使用Python mysql.connector远程连接MySQL

以下代码在同一 LAN 内与 mysql 服务器不同的机器上运行使用 Python3 和 mysql connector 本地连接到 MySQL 数据库 import mysql connector cnx mysql connecto
正则表达式删除2个字符串之间的所有内容

我的replaceAll 需要一个正则表达式来删除2 个字符串和字符串本身之间的所有内容例如如果我有类似的东西 stackoverflow is really awesome nremove123 n I love it 我试图做一个像
Python lmfit：拟合 2D 模型

我正在尝试将二维高斯拟合到一些灰度图像数据该数据由一个二维数组给出 lmfit 库实现了一个易于使用的模型类它应该能够做到这一点不幸的是文档 http lmfit github io lmfit py model html http
如何在 PyCharm 中启用 flake8 的自动代码格式化

我使用 Tox 运行单元测试并使用 flake8 命令检查代码格式错误每次我在 PyCharm 中编码时我都会运行 tox 然后意识到我有一堆烦人的格式错误我必须返回并手动修复我希望 PyCharm 自动格式化代码根据 flak
在用户提交的正则表达式中查找捕获组

我有一个 python 应用程序需要处理用户提交的正则表达式出于性能考虑我想禁止捕获组和反向引用我的想法是使用另一个正则表达式来验证用户提交的正则表达式不包含任何命名或未命名的组捕获如下所示 def validate user r
模拟导入失败

我该如何制作import pkg失败moduleA py 我可以打补丁pkg如果从中导入某些内容则会失败否则不会失败 test py import os import moduleA from unittest mock import p
为什么 rm 不能按我的预期工作？

我只想做一件简单的事我在目录中得到了以下文件 AppInterface h baa PEMsg h PluginInterface h 然后我发出命令 ls grep v h rm rf 令我非常沮丧的是 baa不会被删除但是这个 ls
在 Django 1.9 中使用信号

在 Django 1 8 中我能够使用信号执行以下操作一切顺利 init py from signals import 信号 py receiver pre save sender Comment def process hashtag
有没有更快的方法将数字转换为名称？

以下代码定义了映射到数字的名称序列它的设计目的是获取一个号码并检索一个特定的名称该类通过确保名称存在于其缓存中来进行操作然后通过索引到其缓存中来返回名称问题在这如何在不存储缓存的情况下根据数字计算出名称该名称可以被认为是一个以
Snakemake根据字典输入和输出

我正在尝试重命名 Snakemake 管道中的一些文件假设我有三个文件 FileA txt FileB txt FileC txt 我希望根据字典重新命名它们dict A 0 B 1 C 2 to get RenamedFile0 txt
交响二阶颂歌

我有一个简单的二阶 ODE 的齐次解当我尝试使用 Sympy 求解初始值时它返回相同的解它应该替代 y 0 和 y 0 并产生一个没有常数的解但事实并非如此这是建立方程的代码它是一个弹簧平衡方程 k 弹簧常数 m 质量我在其他
安装 confluence-kafka 时“文件名或扩展名太长”？

我在使用 pip install confluence kafka 安装 confluence kafka 时遇到一些问题但我收到此错误文件名或扩展名太长详细信息如下 Collecting confluent kafka Using
pentaho 从不同的 csv 中相互划分 2 列

在pentaho中我有2个csv文件我需要将列彼此分开并将结果写入新表中 1 csv No A B 1 10 14 2 8 20 2 csv No A B 1 2 7 2 4 10 输出应该是输出 csv No A B 1 5 2 2
Python list.extend() 是保序的吗？

我想知道扩展函数是否保留两个列表中的顺序 gt gt list 1 2 3 gt gt list extend 4 5 gt gt list 1 2 3 4 5 扩展总是这样工作吗 Yes list extend just extends给

随机推荐

FMDB ios 没有这个表

我正在做的 sqlite 项目有问题我正在使用 FMDB 我遵循一个简单的示例但不起作用而且我找不到错误我从终端创建了数据库模式并在上面放置了一些数据我对 ios 开发非常陌生所以我不知道我是否正确执行了这些步骤这就是我所做
Tkinter - 窗口焦点丢失事件

是否有事件触发tkinter窗口失去可以绑定到的焦点tkinter窗口使用 bind method 您正在寻找的活动是
r 中的循环问题： if (length[i] == 1) { 中的错误：缺少 TRUE/FALSE 需要的值

ann lt 1 2500 len lt sample 1 3 1000 replace TRUE df lt data frame col1 c 1 2500 col2 c 1 2500 for i in 1 length ann if
运行包含 Pipes 的命令行并将结果显示到 STDOUT

如何从 Python 调用包含管道的 shell 命令并捕获输出假设命令类似于 cat file log tail 1 我想做的 Perl 等效项是这样的 my string cat file log tail 1 使用 subproce
构建 nspredicate 时的 EXC_BAD_ACCESS

我正在计算生日和今天之间的月数利用这个数字我正在构建一个谓词来从核心数据中获取对象尽管月数计算正确如日志所示但在构建谓词时我得到了 EXC BAD ACCESS 这是我的代码 NSCalendar gregorian NSCale
隐藏网站文件夹/目录文件的最佳方法是什么[重复]

这个问题在这里已经有答案了如果我通过 www mysite com img 访问我的网站我会看到以下内容父目录 folder1 folder2 file1 file2 等等等等但什么是best如何阻止人们访问我的网站文件夹和文件结构
处理负整数的汇编 MASM

我被指示用汇编语言编写一个程序该程序将执行以下算术 A B C D A E 当没有负值发挥作用时我成功地做到了这一点但假设 A 5 B 4 C 3 D 2 和 E 1 这给了我们 5 4 3 2 5 1 或 6 这就是我需要帮助的地方
通过@PersitenceContext或@PersitenceUnit注入EntityManagerFactory？

我一直认为 PersistenceContext用于将EntityManager注入到容器管理的应用程序中而 PersistenceUnit用于注入EntityManagerFactory Javadoc 说对于持久性单元 http d
适用于 mac 的免费 c++ 编译器不使用 xcode

有没有适用于 Mac 且不需要 xcode 的免费 C 编译器如果您安装了开发人员工具包括 Xcode 那么您也会安装 GCC 您可以从命令行使用它 gcc o myprogram main cpp
更快的循环：foreach 与 some（jsperf 的性能与 Node 或 chrome 不同）

将数组的值恢复为简单的最佳方法是什么true or false values 我很困惑因为 jsperf 给了我VERY与 google chrome 控制台 nodejs 或任何其他 JS 引擎给我的结果不同 jsperf 片段在这里
Keycloak 20.0.2：我在用户角色映射中没有看到领域角色

当我在我的领域中创建用户并单击角色映射选项卡时根据我看到的每个 SO 帖子应该有一种方法来选择要应用的领域角色但就我而言我没有看到他们 This is what I see 我正在尝试添加manage users角色因此我可以
升级数据库

我已经在谷歌商店中有一个应用程序我正在使用一个有 3 个表的内置数据库并在第一次启动应用程序时复制它现在我想升级应用程序并添加另一个表下面是我的代码 public DataBaseHelper Context context sup
导入错误：没有名为 psycopg2 的模块

在 OpenERP 6 的安装过程中我想使用以下命令生成一个配置文件 cd home openerp openerp server bin openerp server py s stop after init c home opener
windows下如何设置keytool的密码？

我正在为 android 应用程序开发的 my hello mapview 程序添加 google maps api 参考网站 http developer android com guide tutorials views hello m
我需要处置 SemaphoreSlim 吗？

根据文档 a SemaphoreSlim不使用 Windows 内核信号量是否有任何特殊资源被使用SemaphoreSlim这使得打电话很重要Dispose当的时候SemaphoreSlim将不再使用如果您访问AvailableWai
Java中如何正确计算字符串的长度？

我知道有String length以及其中的各种方法Character它或多或少适用于代码单元代码点 Java 中实际返回 Unicode 标准指定的结果的建议方法是什么 UAX 29 http www unicode org repor
保持 UI 响应的 Thread.Sleep 替代方案？

我在 Visual Studio 2008 中使用 C 完成所有这些工作我想放慢算法的工作速度以便用户可以观看它的工作 GUI 上有可见的周期性变化所以我添加了Thread Sleep每次实例之后问题是Thread Sleep 当设
赋值运算符的参数必须是引用吗？

C 中重载类的赋值运算符时其参数必须是引用吗例如 class MyClass public MyClass operator const MyClass rhs 是真的吗 class MyClass public MyClass ope
如何在 if 语句中使用 fork()

有人可以向我解释一下是什么吗fork 0意思是据我了解我认为这意味着 fork 不是 false 吗或者如果 fork 是 true 那么我不明白 Fork 如何是 true 或 false 因为它只是将进程的副本创建到父进程和子进
根据第一列中的字母数将行与上一行连接起来

编码新手试图弄清楚如何修复损坏的 csv 文件以便能够正确使用它因此该文件已从案例管理系统导出并包含用户名案例花费时间注释和日期字段问题在于偶尔注释中会有换行符并且在导出 csv 时工具不包含引号来将其定义为字段内的

根据第一列中的字母数将行与上一行连接起来

根据第一列中的字母数将行与上一行连接起来 的相关文章

随机推荐

热门标签

根据第一列中的字母数将行与上一行连接起来的相关文章