删除 csv 文件中的字段内引号

2024-02-04

假设我们有一个逗号分隔的文件 (csv),如下所示:

"name of movie","starring","director","release year"
"dark knight rises","christian bale, anna hathaway","christopher nolan","2012"
"the dark knight","christian bale, heath ledger","christopher nolan","2008"
"The "day" when earth stood still","Michael Rennie,the 'strong' man","robert wise","1951"
"the 'gladiator'","russel "the awesome" crowe","ridley scott","2000"

从上面可以看出,第 4 行和第 5 行有引号内的引号。 输出应如下所示:

"name of movie","starring","director","release year"
"dark knight rises","christian bale, anna hathaway","christopher nolan","2012"
"the dark knight","christian bale, heath ledger","christopher nolan","2008"
"The day when earth stood still","Michael Rennie,the strong man","robert wise","1951"
"the gladiator","russel the awesome crowe","ridley scott","2000"

如何消除 csv 文件中出现的此类引号(单引号和双引号)。请注意,单个字段中的逗号是可以的,因为解析器会识别出它位于引号内并将其视为一个字段。这只是排列 csv 文件的预处理步骤,以便可以将其输入多个解析器以转换为我们想要的任何格式。 Bash、awk、python 都可以。请不要使用 Perl,我厌倦了那种语言:D 提前致谢!


怎么样

import csv

def remove_quotes(s):
    return ''.join(c for c in s if c not in ('"', "'"))

with open("fixquote.csv","rb") as infile, open("fixed.csv","wb") as outfile:
    reader = csv.reader(infile)
    writer = csv.writer(outfile, quoting=csv.QUOTE_ALL)
    for line in reader:
        writer.writerow([remove_quotes(elem) for elem in line])

产生

~/coding$ cat fixed.csv 
"name of movie","starring","director","release year"
"dark knight rises","christian bale, anna hathaway","christopher nolan","2012"
"the dark knight","christian bale, heath ledger","christopher nolan","2008"
"The day when earth stood still","Michael Rennie,the strong man","robert wise","1951"
"the gladiator","russel the awesome crowe","ridley scott","2000"

顺便说一句,您可能想检查其中一些名称的拼写。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

删除 csv 文件中的字段内引号 的相关文章

  • 使用 python 进行串行数据记录

    Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件 我在读取数据方面取得了一些进展 但尚未成功地将这些信息存储在新文件中 这是我的代码 from future import print function import se
  • 我怎样才能更多地了解Python的内部原理? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我使用Python编程已经有半年多了 我对Python内部更感兴趣 而不是使用Python开发应用程序
  • Python模块可以访问英语词典,包括单词的定义[关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我正在寻找一个 python 模块 它可以帮助我从英语词典中获取单词的定义 当然有enchant 这可以帮助我检查该单词是否存在于英语中
  • 通过列表理解压平列表列表

    我正在尝试使用 python 中的列表理解来展平列表 我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目 我编写了这个函数 def flat listoflist for item in listoflis
  • Django 模型在模板中不可迭代

    我试图迭代模型以获取列表中的第一个图像 但它给了我错误 即模型不可迭代 以下是我的模型和模板的代码 我只需要获取与单个产品相关的列表中的第一个图像 模型 py class Product models Model title models
  • Argparse nargs="+" 正在吃位置参数

    这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
  • 如何在 pytest 中将单元测试和集成测试分开

    根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
  • Pandas 中允许重复列

    我将一个大的 CSV 包含股票财务数据 文件分割成更小的块 CSV 文件的格式不同 像 Excel 数据透视表之类的东西 第一列的前几行包含一些标题 公司名称 ID 等在以下列中重复 因为一家公司有多个属性 而不是一家公司只有一栏 在前几行
  • 为什么Python的curses中escape键有延迟?

    In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
  • 以同步方式使用 FastAPI,如何获取 POST 请求的原始正文?

    在中使用 FastAPIsync not async模式 我希望能够接收 POST 请求的原始 未更改的正文 我能找到的所有例子都显示async代码 当我以正常同步方式尝试时 request body 显示为协程对象 当我通过发布一些内容来
  • 使用鼻子获取设置中当前测试的名称

    我目前正在使用鼻子编写一些功能测试 我正在测试的库操作目录结构 为了获得可重现的结果 我存储了一个测试目录结构的模板 并在执行测试之前创建该模板的副本 我在测试中执行此操作 setup功能 这确保了我在测试开始时始终具有明确定义的状态 现在
  • Hive:如何分解嵌入 CSV 文件中的 JSON 列?

    从 CSV 文件 带有标题和管道分隔符 中 我得到了以下两个内容 其中包含一个 JSON 列 内部有一个集合 如下所示 第一种情况 使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
  • 按元组分隔符拆分列表

    我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
  • 将 JSON 对象传递给带有请求的 url

    所以 我想利用 Kenneth 的优秀请求模块 https github com kennethreitz requests 在尝试使用时偶然发现了这个问题自由库API http wiki freebase com wiki API 基本上
  • 对重复的名称添加双引号

    我想从文件中找到重复的名称 如下所示 并用 标记它们 file James Miki 123 456 7890 Wang Tai 234 563 6879 James Miki 123 456 7890 输出希望看起来像 James Mik
  • Python 将日志滚动到变量

    我有一个使用多线程并在服务器后台运行的应用程序 为了无需登录服务器即可监控应用程序 我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态 执行远程关闭等 我还想添加一种查阅日志文件的方法 我可以使用以
  • python Soap zeep模块获取结果

    我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
  • 使用 NumPy 将非均匀数据从文件读取到数组中

    假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
  • 具有自定义值的 Django 管理外键下拉列表

    我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
  • 您可以使用关键字参数而不提供默认值吗?

    我习惯于在 Python 中使用这样的函数 方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

  • 跨集群访问日志

    我有一个包含 3 个节点的集群 我已经配置了应用程序服务器的数据库 我想知道集群中各主机生成的访问日志是否相同 或者每个主机都有一个单独的 访问日志 用于记录对其主机的请求 我知道集群中的每个主机都维护自己的审核日志文件 访问日志的工作方式
  • 列表视图中的所有内容都会扩展到屏幕宽度。我可以改变这一点吗?

    我正在尝试为我正在制作的应用程序设计聊天屏幕 为了使其可滚动 我将所有聊天消息放置在列表视图中 但是我放置在列表视图中的所有内容都会水平扩展以匹配屏幕宽度 Listview 小部件的宽度 我可以关闭此功能 以便可以将我的聊天消息排列到一侧
  • 强制元类的只读属性

    是的 还在继续有了这个 https stackoverflow com questions 70729700 enforcing single instances from the metamodel 我的印象是 Raku 有这个强大的功能
  • 如何在 php 中安装 posix

    当我运行时 POSIX 没有出现php m cmd 然而 我从phpinfo enable posix shared在装有 Plesk 9 的 Linux 上 基本上我无法使用posix 功能如所述http www php net manu
  • 如何扩展pyserial的输入缓冲区大小

    我想通过串口与手机通信 向手机写入一些命令后 我使用了ser read ser inWaiting 得到它的返回值 但我总是得到总数1020 bytes字符 实际上 期望的回报应该已经结束50KB 我尝试过设置ser read 50000
  • 检测由 Tab 键启动的焦点?

    我想检测元素的焦点事件 但前提是该事件是由用户按 Tab 键启动的 例如
  • 什么更快?运行空函数或检查函数是否未定义? [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 我正在编写一些代码 其中作为参数传入的函数有时可能是未定义的 我很好奇这是一种不好的 做法 我想知道什么实际上更快 给出一个空函数 或者让函数检
  • 显示“No Javascript”div,但不向 google / facebook 共享服务显示

    我想在网站顶部附近显示一个 div 以建议未启用 JavaScript 的访问者启用 JavaScript 我想我已经通过使用 noscript 标签找到了一个好方法 不幸的是 我发现这个解决方案不太理想 因为谷歌的索引器和 Faceboo
  • Oracle - 使用存储过程创建文本文件

    需要有关在 Oracle 10 中使用存储过程创建文本文件的帮助 我对此很陌生 所以请从头开始指导我 我找到了代码并将其创建为存储过程 我运行它并且它是有效的 但我执行了它 我得到了错误 INVALID FILE NAME AT SYS U
  • jQuery 动画 div 大小

    我有一个具有隐藏可见性的 div 我将数据库中的文本放入该 div 中 因此不知道它的高度 我想做的是制作一个动画 该动画会增加该 div 的大小 直到所有文本都可见 到目前为止我所拥有的是这样的 function display form
  • 每种方法的 ASP.NET WebAPI 支持的媒体类型

    给定控制器中的一个方法 public class CustomerController ApiController HttpGet public CustomerDto GetById FromUri int id return custo
  • 关于 iPhone 的 Cocoa/Objective-C 命名约定的问题(关于发布和自动发布)

    您能否描述返回为调用者分配的对象 调用者应释放的对象 的方法与返回自动释放对象的方法之间的命名约定差异 返回保留对象 调用者应释放该对象 的方法应包含单词copy new mutableCopy or alloc 如在alloc init一
  • Apache DBUtils - 存储过程

    apache dbutils库是否可以调用oracle存储过程 Yes QueryRunner run JDBCConnectionFactory getQueryRunner database Connection conn run ge
  • phantomjs exit() 不会终止进程

    我在 Windows 7 上使用 phantom js 已经有一段时间了 我认为 v1 4 0 是我使用的第一个版本 一切都很好 但由于某种原因 当调用 phantom exit 时 该进程不再正确终止 我绝对不知道为什么 这个问题从v1
  • Javascript - 提升的优先级

    在提升中 变量优先于函数定义还是反之亦然 请看下面的代码 function a var x 10 function x return 20 return x 这不是一个优先于另一个的问题 存在优先级 但这在很大程度上只是语义问题 这里重要的
  • 禁用 Android 日期选择器中的特定日期

    我正在使用 datePicker 我可以通过以下代码禁用今天的最后几天和 30 天后的几天 DatePickerDialog datePicker new DatePickerDialog Calendar calender Calenda
  • 自定义属性错误 - Android Studio 1.2

    在我的 Android 项目中 我有几个使用自定义属性的自定义组件 attrs xml 文件如下所示
  • SAVON是否支持客户端证书认证

    我正在评估 savon 的消费 Web 服务 但我没有找到任何信息 如果我可以使用 SSL 客户端证书对提供 SOAP Web 服务的服务器进行身份验证 我阅读了文档但没有找到任何相关内容 有谁知道SAVON是否支持客户端证书认证 问候 法
  • WCF 客户端端点压缩

    我正在尝试使用 netTCP 端点为我们的 WCF 服务实现压缩 我已经阅读了几乎所有开发者网络帖子以及 SO 上的帖子 但无济于事 如何配置客户端端点CompressionFormat 参见压缩和二进制编码器 http msdn micr
  • 删除 csv 文件中的字段内引号

    假设我们有一个逗号分隔的文件 csv 如下所示 name of movie starring director release year dark knight rises christian bale anna hathaway chri