如何从 csv 文件中删除重复项

2023-11-26

我从 Hotmail 下载了一个 CSV 文件,但其中有很多重复项。这些副本是完整的副本,我不知道为什么我的手机创建了它们。

我想摆脱重复项。

技术规格:



Windows XP SP 3
Python 2.7
CSV file with 400 contacts
  

更新:2016

如果您乐意使用有用的more_itertools外部库:

from more_itertools import unique_everseen
with open('1.csv', 'r') as f, open('2.csv', 'w') as out_file:
    out_file.writelines(unique_everseen(f))

@IcyFlame 解决方案的更高效版本

with open('1.csv', 'r') as in_file, open('2.csv', 'w') as out_file:
    seen = set() # set for fast O(1) amortized lookup
    for line in in_file:
        if line in seen: continue # skip duplicate

        seen.add(line)
        out_file.write(line)

要就地编辑同一文件,您可以使用它(旧的 Python 2 代码)

import fileinput
seen = set() # set for fast O(1) amortized lookup
for line in fileinput.FileInput('1.csv', inplace=1):
    if line in seen: continue # skip duplicate

    seen.add(line)
    print line, # standard output is now redirected to the file
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何从 csv 文件中删除重复项 的相关文章

  • 如何在 AWS CDK 创建的 Python Lambda 函数中安装外部模块?

    我在 Cloud9 中使用 Python AWS CDK 并且我部署简单的 Lambda 函数那应该是发送 API 请求到 Atlassian 的 API当对象上传到 S3 存储桶时 也是由 CDK 创建的 这是我的 CDK 堆栈代码 fr
  • Python模块可以访问英语词典,包括单词的定义[关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我正在寻找一个 python 模块 它可以帮助我从英语词典中获取单词的定义 当然有enchant 这可以帮助我检查该单词是否存在于英语中
  • 将数据帧行转换为字典

    我有像下面的示例数据这样的数据帧 我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典 但是当我使用 to dict 时 我得到了索引和列值 有谁知道如何将行转换为像所需输出那样的字典 任何提示都非常感激 Sample data pri
  • Pandas 中允许重复列

    我将一个大的 CSV 包含股票财务数据 文件分割成更小的块 CSV 文件的格式不同 像 Excel 数据透视表之类的东西 第一列的前几行包含一些标题 公司名称 ID 等在以下列中重复 因为一家公司有多个属性 而不是一家公司只有一栏 在前几行
  • 如何计算numpy数组中元素的频率?

    我有一个 3 D numpy 数组 其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素 我只显示了几个元素 array 136 129 130 103 102 101 我
  • 在Python中调整图像大小

    我有一张尺寸为 288 352 的图像 我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
  • 为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误,而在 2.7 中却不会?

    我有一个程序 当在 Python 2 7 中运行时 会生成正确的 Unicode 输出到标准输出 当在 Python 2 4 中运行时 我得到UnicodeEncodeError ascii codec can t encode chara
  • 更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

    theano base compiledir指编译后的文件存放的目录 有没有办法可以永久设置theano base compiledir到不同的位置 也许通过修改一些内部 Theano 文件的内容 http deeplearning net
  • python suds SOAP 请求中的名称空间前缀错误

    我使用 python suds 来实现客户端 并且在发送的 SOAP 标头中得到了错误的命名空间前缀 用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件 请参见下文 问题出在函数上GetRecord
  • 如何从Python中的字符串中提取变量名称和值

    我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量 更具体地说 我对字典变量感兴趣 这样我就可以获得变量的值 id和name python 这是由提供
  • 首先对列表中最长的项目进行排序

    我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
  • Pandas 根据 diff 列形成簇

    我正在尝试使用 Pandas 根据表示时间 以秒为单位 的列中的差异来消除数据框中的一些接近重复项 例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
  • 如何使用列表作为pandas数据框中的值?

    我有一个数据框 需要列的子集包含具有多个值的条目 下面是一个带有 运行时 列的数据框 其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
  • 使用 Firefox 绕过弹出窗口下载文件:Selenium Python

    我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
  • 使用yield 进行字典理解

    作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
  • 当鼠标悬停在上面时,intellisense vscode 不显示参数或文档

    我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展 它应该带有 Intellisense 但它只是部分更糟糕 我在输入句点后收到建议 但当将鼠标悬停在其上方
  • Ubuntu 上的 Python 2.7

    我是 Python 新手 正在 Linux 机器 Ubuntu 10 10 上工作 它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能 有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是 如
  • 无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

    我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求 到目前为止 这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
  • 迭代 pandas 数据框的最快方法?

    如何运行数据框并仅返回满足特定条件的行 必须在之前的行和列上测试此条件 例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1
  • Scrapy Spider不存储状态(持久状态)

    您好 有一个基本的蜘蛛 可以运行以获取给定域上的所有链接 我想确保它保持其状态 以便它可以从离开的位置恢复 我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

  • Apple 开发者帐户团队未出现在 VS Mac 上

    当我在 Visual Studio Mac Community 2017 上登录我的 Apple ID 帐户时 团队没有显示 我必须有付费的苹果开发者帐户才能使用它吗 没有显示任何团队 并且 查看详细信息 按钮没有执行任何操作 另外 帐户左
  • 如何设置 Gtk.ComboBox 的值?

    我能弄清楚的只是与 ComboBox GetEnumerator 或类似的东西有关 我想做这样的事情 System Collections IEnumerator e this task difficulty combobox GetEnu
  • 如何在不链接源代码的情况下调试 System.StackOverflowException?

    最近 我经常遇到以下类型的错误 System StackOverflowException 类型的未处理异常 发生在未知模块中 这种情况发生在一个具有相当大的代码库 C XNA 的游戏 我开发的 中 但通常该错误仅在游戏进行几分钟后才会发生
  • 标准化 pandas 中的数据

    假设我有一个 pandas 数据框df 我想计算数据框的列平均值 这很容易 df apply average 然后按列范围 max col min col 这又很容易 df apply max df apply min 现在 对于每个元素
  • 将参数传递给打包的电子应用程序

    我们正在使用电子包装机捆绑并分发我们的 Web 应用程序的前端 我们需要能够通过host and port服务器到电子前端进行连接 当我们通过以下方式启动时electron main js host blah port 8080有用 打包后
  • 可以用python编译c代码吗?

    我想构建一个 python 程序 将 c 文件的路径作为输入 然后对其进行编译 如果编译成功 程序将在屏幕上输出OK 否则输出BAD 我一直在尝试用谷歌搜索 但找不到任何东西 我也一直在尝试使用编译程序的参数在 python 中运行 cmd
  • 用于泽西岛使用的(哈希)映射的序列化器?

    我正在尝试将以下有效负载发布到我的基于 Jersey 的 Web 服务 firstname Jimmy lastname Johns addresses street 19 Mayberry Drive city Mayberry stat
  • Fortran OpenMP 程序显示 CPU_TIME() 没有加速

    使用并行性应该可以最大限度地减少程序的时间 但这并没有发生在我身上 当我使用 OpenMP 并行编程代码时 运行时间会增加 即并行时间 gt 串行时间 My code PROGRAM MAIN use omp lib implicit no
  • iPhone:如何将视图另存为图像??? (例如保存你画的东西)

    我找到了一些示例教你如何在 iPhone 上画画 但它没有说如何将视图保存为图像 有人知道吗 或者任何样本都会有帮助 实际上 我正在尝试将用户的签名保存为图像并将其上传到服务器 Thanks Webber UIView view your
  • 使用来自向量的列名称创建空 tibble/数据框

    我想创建一个空数据框 其中列名称来自字符向量 例如 如果这是我的向量 vec lt letters 1 3 我想创建一个空数据框 如下所示 df lt tibble a character b character c character 但
  • 编译 Java 类时禁用编译时依赖性检查

    考虑以下两个 Java 类 a class Test void foo Object foobar b class Test void foo pkg not in classpath FooBar foobar 此外 假设pkg not
  • 为未导出的打字稿参数创建类型

    我们使用的模块不导出其所有参数的类型 这意味着参数经过类型检查 但我们无法在方法调用之前定义所需类型的变量 Example library interface Internal foo number I want to have a nam
  • 在 Python 2 中,viewvalues()/viewitems() 相对于 itervalues()/iteritems() 的性能权衡是什么?

    显然 使用values items and keys在 Python 2 X 中 几乎在所有情况下这都是不好的做法 因为您将分配一个实际上并不需要的额外列表 因此 一段时间以来 推荐的最佳实践是使用iteritems itervalues
  • 转换数据框列类型的函数

    R 经常以 错误 格式理解数据框列 或者您只需将列类从因子更改为字符即可对其进行修改 我之前一直通过以下方式更改列类 set seed 1 df lt data frame x 1 10 y rep 1 2 5 k rnorm 10 5 2
  • .NET TCP 协议的可靠性如何?

    我对 C 还很陌生 所以请耐心等待 我正在用 C NET 4 0 编写一个相对简单的客户端服务器应用程序 更具体地说 我使用 TCP 协议 TCPListener 和 TCPClient 我知道 TCP 协议理论上是如何工作的 但我必须百分
  • 检查 NSString 是否包含特殊字符和数字

    我需要检查一个字符串是否包含一个大写字母 一个小写字母 一个整数和一个特殊字符 我该如何检查 没有任何额外的框架 NSCharacterSet set NSCharacterSet characterSetWithCharactersInS
  • 如何从包含数据库查询的 Node.js 函数返回值[重复]

    这个问题在这里已经有答案了 我正在学习 Node js 并且刚刚开始使用一些 MySQL 连接 我有一个函数应该从数据库中获取一组行 它做得正确 但是 我不知道之后如何返回该行集 我尝试了两个选项 都在下面的代码段中的注释中进行了解释 fu
  • 如何将版本控制 (Git) 合并到大型 Lotus Notes 项目中

    我们正在维护一个基于 Lotus Notes 的大型网站 在 Domino Server 8 5 3 上运行 最近 我们厌倦了项目中缺乏源代码控制 因此我们认为我们应该尝试使用 Git 进行一些改进 但如何正确地做到这一点呢 由于各种原因
  • 自定义配置文件 - 玩吧!框架2.0

    我有一个关于从自定义配置文件加载属性的问题 我努力了 两种不同的方法来加载我的oauth properties文件 但我不能 要么开始工作 所以我希望这里有人可以帮助我 我尝试的第一种方法是将文件添加到conf目录中 并这样引用它 Stri
  • 如何从 csv 文件中删除重复项

    我从 Hotmail 下载了一个 CSV 文件 但其中有很多重复项 这些副本是完整的副本 我不知道为什么我的手机创建了它们 我想摆脱重复项 技术规格 Windows XP SP 3 Python 2 7 CSV file with 400