处理用Python解析的csv文件中的额外换行符（回车符）？

2023-12-29

我有一个 CSV 文件，其中包含包含换行符的字段，例如：

A, B, C, D, E, F
123, 456, tree
, very, bla, indigo

（在本例中，第二行中的第三个字段是“tree\n”

我尝试了以下方法：

import csv
catalog = csv.reader(open('test.csv', 'rU'), delimiter=",", dialect=csv.excel_tab)
for row in catalog:
    print "Length: ", len(row), row

我得到的结果是这样的：

Length:  6 ['A', ' B', ' C', ' D', ' E', ' F']
Length:  3 ['123', ' 456', ' tree']
Length:  4 ['   ', ' very', ' bla', ' indigo']

有谁知道如何快速删除无关的换行符？

Thanks!

假设您有以下 Excel 电子表格：

Note:

C2 中的多行单元格；
C1 和 D3 中嵌入逗号；
空白单元格以及 D4 中带有空格的单元格。

在 Excel 中将其保存为 CSV，您将得到以下 csv 文件：

A1,B1,"C1,+comma",D1
,B2,"line 1
line 2",D2
,,C3,"D3,+comma"
,,,D4 space

想必，您会希望将其读入 Python，其中空白单元格仍然具有含义，并且嵌入的逗号得到正确处理。

所以这：

with open("test.csv", 'rU') as csvIN:
    outCSV=(line for line in csv.reader(csvIN, dialect='excel'))

    for row in outCSV:
        print("Length: ", len(row), row)

正确生成 Excel 中表示的 4x4 列表矩阵列表：

Length:  4 ['A1', 'B1', 'C1,+comma', 'D1']
Length:  4 ['', 'B2', 'line 1\nline 2', 'D2']
Length:  4 ['', '', 'C3', 'D3,+comma']
Length:  4 ['', '', '', 'D4 space']

您发布的示例 CSV 文件在字段周围缺少引号，并带有“额外换行符”，导致该换行符的含义不明确。是新行还是多行字段？

因此，你只能解释这个csv文件：

A, B, C, D, E, F
123, 456, tree
, very, bla, indigo

作为一维列表，如下所示：

with open("test.csv", 'rU') as csvIN:
   outCSV=[field.strip() for row in csv.reader(csvIN, delimiter=',') 
              for field in row if field]

这会产生这个一维列表：

['A', 'B', 'C', 'D', 'E', 'F', '123', '456', 'tree', 'very', 'bla', 'indigo']

然后可以根据需要对其进行解释并重新分组为任何子分组。

python中惯用的重组方法使用zip http://docs.python.org/library/functions.html#zip像这样：

>>> zip(*[iter(outCSV)]*6)
[('A', 'B', 'C', 'D', 'E', 'F'), ('123', '456', 'tree', 'very', 'bla', 'indigo')]

或者，如果您想要列表的列表，这也是惯用的：

>>> [outCSV[i:i+6] for i in range(0, len(outCSV),6)]
[['A', 'B', 'C', 'D', 'E', 'F'], ['123', '456', 'tree', 'very', 'bla', 'indigo']]

如果您可以更改 CSV 文件的创建方式，那么解释起来就不会那么含糊了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

newline

处理用Python解析的csv文件中的额外换行符（回车符）？的相关文章

如何在 AWS CDK 创建的 Python Lambda 函数中安装外部模块？

我在 Cloud9 中使用 Python AWS CDK 并且我部署简单的 Lambda 函数那应该是发送 API 请求到 Atlassian 的 API当对象上传到 S3 存储桶时也是由 CDK 创建的这是我的 CDK 堆栈代码 fr
python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
如何正确地将 MIDI 刻度转换为毫秒？

我正在尝试将 MIDI 刻度增量时间转换为毫秒并且已经找到了一些有用的资源 MIDI Delta 时间刻度到秒 http www lastrayofhope co uk 2009 12 23 midi delta time ticks
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
无法在 osx-arm64 上安装 Python 3.7

我正在尝试使用 Conda 创建一个带有 Python 3 7 的新环境例如 conda create n qnn python 3 7 我收到以下错误 Collecting package metadata current repoda
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

Eclipse 风格工具提示库？

Does anyone know of an open source swing tooltip library that works like eclipse s tooltips Specifically the functionali
在 WinForms 中，UI 中是否可以有多个线程？

我想答案是否定的我在 stackoverflow 上检查了类似的问题但它们似乎根据特定解决方案的需要走了不同的方向但可能错过了一些东西 WinForms 应用程序中是否可以有多个 UI 线程我正在重构并想知道是否应该使用 Concu
仅 WPF TabItem 标题样式

我正在编写一个 WPF 应用程序并尝试设置 TabItem 标头的样式仅在选择时显示背景颜色更改的边框问题是当我添加该样式时它会弄乱 TabItem 中 TextBlock 项目的样式我不是 WPF XAML 专家下面是我在
动态创建div时如何显示/隐藏div

我正在开发评论系统对评论进行两级重播我在如何显示和隐藏 div 方面遇到问题因为它的 id 不同我尝试了以下方法
构建定义——只有空队列

如果我正在创建构建定义则无法选择默认代理队列不久前我可以创建包含默认队列的构建定义我不知道改变是什么它不再起作用了如果我去编辑正确创建的构建定义然后再次尝试创建定义我可以选择默认队列这是什么原因呢在创建之前编辑现有的构建
正则表达式验证 UTC 日期时间格式

我想验证日期时间格式例如 2014 08 29T06 44 03Z 为此我正在寻找一个reg ex 尝试了几种组合但这些对我不起作用试试这个正则表达式 b 0 9 4 0 9 2 0 9 2 T 0 9 2 0 9 2 0 9 2 Z
在 word2vec Gensim 中获取二元组和三元组

我目前在我的 word2vec 模型中使用 uni gram 如下所示 def review to sentences review tokenizer remove stopwords False Returns a list of se
IndexError：索引超出范围：7

我正在使用名为财务数据质量管理企业版 FDMEE 的 Oracle EPM 产品我编写了一个 Jython 脚本来解析数据文件并将其推送到 FDMEE 产品架构中的自定义表当我推送数据文件的子集时它工作正常但是当我解析整个数据文件时
Git SVN 忽略路径如何工作（忽略每日构建标签）？

我正在尝试使用 git svn 克隆 svn 存储库该存储库具有我想忽略的每日构建标记我正在尝试使用 ignore paths 选项来执行此操作但我仍然将每日构建标签作为我的存储库中的分支最近有一个类似的但到目前为止尚未得到解答
连接一元参数的模板参数包

虽然说 std add pointer是一元的以下代码被 GCC 7 0 0 20160608 和 Clang 3 9 0 接受 template
在 Clojure 中测试对象是否为 Java 原始数组

Clojure 中检测对象是否为 Java 原始数组的最佳方法是什么我需要这个的原因是对原始数组进行一些特殊处理这可能看起来像 if byte array object handle byte array object 它是一段对性能相
Python 每个模块和包一个类

我正在尝试用 Python 构建我的应用程序从 C Java 背景回来后我喜欢每个文件一个类的方法我希望我的项目树看起来像这样 Service Database DbClass1 py DbClass2 py Model DbMode
用于保持您的网站被 Google Bing 等索引的 PHP 库

我需要一些能够对我的网址进行索引和描述的库所以我想对它说类似的话用一些关键词索引这个新网址 www bla bla com new url 或类似的东西我想确定的是如果我告诉我的库我的新 URL Google 和其他人将 100 尽
获取页面上所有 javascript 错误/javascript 错误处理

我希望能够向自己发送页面上的所有 javascript 错误我是一名扩展开发人员因此以下内容重点强调在调用 dom 之前确保 dom 已准备好我研究了添加一些功能throw还可以发送或邮寄例外情况但我发现这是不可能的 1 主要解决这
删除/避免向 URL 添加目标链接

对于这里的 jQuery JavaScript 专家来说这可能很简单但我在网络上找不到解决方案 Case 我在页面底部有一个链接上面写着Back to Top 该链接只是一个目标链接如下所示 a href top class sta
从 char 中减去字符“0”如何将其更改为 int？

此方法适用于 C C 和 Java 我想知道其背后的科学原理的值char可以是 0 255 其中不同的字符映射到这些值之一数字也是按顺序存储的 0 通过 9 但它们通常也不存储为前十个char价值观也就是说角色 0 没有 ASCII
绘图画布编辑器[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我面临着使用canvas标签和使用JavaScript绘制复杂图像的问题我需要一个工具或者我们可以
如何检查时间戳（纪元时间）是今天还是昨天的[android]

我想将时间戳纪元时间转换为人类可读的字符串为此我正在使用calendar setTimeInMillis timeSinceEpoch 函数创建日历对象并以人类可读的格式获取日期时间字符串我很困惑如何找出时间戳纪元时间是今天或
代码库中的浏览器功能检测 - 我正在使用...？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案 http caniuse com http caniuse com 是一个非常有用的工具可以确定哪些
处理用Python解析的csv文件中的额外换行符（回车符）？

我有一个 CSV 文件其中包含包含换行符的字段例如 A B C D E F 123 456 tree very bla indigo 在本例中第二行中的第三个字段是 tree n 我尝试了以下方法 import csv catalog

处理用Python解析的csv文件中的额外换行符（回车符）？

处理用Python解析的csv文件中的额外换行符（回车符）？ 的相关文章

随机推荐

热门标签

处理用Python解析的csv文件中的额外换行符（回车符）？的相关文章