如何对非常大的 CSV 文件进行排序?

2024-01-30

我有一个 294,000 行的大型 csv,其中第 1 列中包含 url,第 2 列中包含数字。

我需要将它们从最小数到最大数排序。我已将其加载到“CSVed”软件中,它可以正常处理,不会崩溃或发生任何问题,但是当我单击列顶部对其进行排序时,它不会按从小到大的顺序排列,而是一切都混乱了。

有人有主意吗?我找了一整天了,我想我可以在这里问一下。

Thanks.


如果你可以访问unix系统(并且你的url中没有逗号),这应该可以解决问题:

sort -t',' -n -k2 filename

Where -t表示列由逗号分隔,-n表示数据是数字,并且-k2表示根据第二列进行排序。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何对非常大的 CSV 文件进行排序? 的相关文章

  • 如何将包含多个字段的大型 csv 加载到 Spark

    新年快乐 我知道以前曾提出 回答过此类类似的问题 但是 我的问题有所不同 我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
  • 当有很多列时,使用 readr::read_csv() 导入数据时覆盖列类型

    我正在尝试使用 R 中的 readr read csv 读取 csv 文件 我导入的 csv 文件大约有 150 列 我只包含示例的前几列 我希望将第二列从默认类型 我执行 read csv 时为日期 覆盖为字符或其他日期格式 GIS Jo
  • 如何使用 R 将每个文件的数据添加为附加行,从而将不同的 .csv 文件合并为一个完整的文件?

    我有几个不同的文件夹 它们都包含一个 csv 文件 所有这些 csv 文件都有一个单独的列 其中包含实验的一种条件的数据 我想以将每个文件的数据添加为新列的方式合并这些 csv 文件 目前 它看起来像这样 C1 csv 102 106 15
  • Python-将标题写入csv

    目前我正在用 python 编写查询 将数据从 oracle dbo 导出到 csv 文件 我不知道如何在文件中写入标题 try connection cx Oracle connect user pass tns name cursor
  • 使用 dtypes read_csv 但列中没有值[重复]

    这个问题在这里已经有答案了 我使用以下代码来读取 csv 通过指定每个列的类型 clean pdf type pd read csv table updated csv usecols col names dtype col types 但
  • 如何让 Spring 控制器从 POJO 返回 CSV? [复制]

    这个问题在这里已经有答案了 给定一个简单的 Java 对象 public class Pojo private String x private String y private String z getters setters 是否有一些
  • 是否可以使用 csv.DictReader 保持列顺序?

    例如 我的 csv 有如下列 ID ID2 Date Job No Code 我需要以相同的顺序写回各列 这dict立即打乱了顺序 所以我相信这更多是读者的问题 蟒蛇的dicts 在 3 6 之前不维持顺序 但是 无论如何 在该版本中csv
  • 从 CSV 中去除额外的文本限定符

    我有一个 CSV 其中某些字段由 符号分隔作为文本限定符 参见下面的例子 请注意 每个整数 例如 1 2 3 等 都应该是一个字符串 合格的字符串被 符号包围 1 2 3 qualifiedString1 4 5 6 7 8 9 10 11
  • Nodejs 中的 tail-stream 模块不打印文件的最后一条记录

    我正在使用 tail stream 从 csv 文件获取数据 并将每个 csv 记录转换为 json 格式并打印它 但是尾流不会打印文件的最后一行 而是将其保留为缓冲区 如果我更新文件 则从上一个最后一行 缓冲的最后一行 到更新的最后一行
  • 从日志文件 python 创建 csv 标题

    我的日志文件每行都包含一些信息 如下所示 Info1 NewOrder key 123 Info3 10 Info5 abc Info3 10 Info1 OldOrder key 456 Info6 xyz Info1 NewOrder
  • 带有未转义引号的Java CSV解析器[关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • Papa Parse 在本地读取 CSV

    有人可以指出或向我展示 Papa Parse 读取 csv 文件的工作示例吗 当我尝试使用时 Papa parse file complete function results console log Finished results da
  • ruby CSV重复行解析

    我有一些需要处理的 CSV 数据 但无法找到匹配重复项的方法 数据看起来有点像这样 line id name item 1 item 2 item 3 item 4 1 251 john foo foo foo foo 2 251 john
  • Tweepy StreamListener 到 CSV

    我是 python 新手 我正在尝试开发一个应用程序 使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件 问题是此代码不会创建输出 CSV 文件 也许是因为我应该将代码设置为在实现例
  • 将 CSV 复制到 Amazon RDS 托管的 Postgresql 数据库

    我有一个使用 Amazon 的 RDS 服务托管的数据库 我正在尝试编写一个 Web 服务来更新所述数据库 我遇到的问题是它不允许我使用 COPY 命令 因为我收到此错误 错误 必须是超级用户才能复制到文件或从文件复制 我正在使用我为数据库
  • 在r中拆分数据并将所有拆分文件保存在csv中

    我有一个名为 data 的数据集 Model Garage City Honda C Chicago Maruti B Boston Porsche A New York Honda B Chicago Honda C New York 它
  • 在unix、bash中合并csv文件

    我有一些 csv 文件 其格式如下 测试1 csv field port1 a1 0 2 a2 0 3 a3 0 6 测试2 csv field port2 b1 0 5 b2 0 6 b3 0 7 b4 0 1 b5 0 5 测试3 cs
  • NumPy genfromtxt:正确使用filling_missing

    我正在尝试处理保存到 CSV 的数据 这些数据可能在未知数量的列 最多大约 30 列 中缺少值 我正在尝试使用将这些缺失值设置为 0 genfromtxt s filling missing争论 这是在 Win 7 上的 ActiveSta
  • 使用 PHP 代码和 HTML 表单将 Excel (.csv) 导入 MySQL

    我知道还有其他类似的帖子 但每个人都建议直接在 PHPMyAdmin 中将其导入 MySQL 这工作完美 但我需要通过 HTML 表单导入 PHP 到 MySQL 我想要一个收集文件的 HTML 表单 然后将该文件传递给 PHP 脚本 我想
  • 将 csv 中的选定列转换为字典

    我有一个名为 archive 的 csv 文件 它以读者身份打开 我希望创建一个字典 其值 k v 是由 row 0 row 2 row 7 对于 csv 文件中的每一行 必须有一种简单直接的方法可以将此 csv 转换为字典 其中k row

随机推荐

  • 从连续的数组切片或卷组成矩阵

    我有一个像这样的数组 10 20 30 40 我想建立一个矩阵M1像这样 10 0 0 0 20 10 0 0 30 20 10 0 40 30 20 10 我的方法是首先构建以下矩阵M2在数组的连续 卷 之外 10 20 30 40 20
  • phalcon 中的重定向和调度有什么区别?

    当我想从另一个页面切换到另一个页面时 我可以找到两个页面 this gt dispatcher gt forward and this gt response gt redirect 两者似乎都工作正常 它们之间有什么区别 什么时候应该使用
  • 如何在我的代码中触发按钮单击? [复制]

    这个问题在这里已经有答案了 如何在我的代码中直接触发按钮单击 我有这样的代码 namespace App1
  • Maven 可以重新签署依赖关系吗?

    我在用着maven jarsigner plugin签署我的一个阴影超级罐子 不过 我确实需要在自己的 jar 中分发一些依赖项 并且希望从 Maven 存储库中获取这些 jar 清除它们的任何现有签名 并使用我自己的证书对它们进行签名 是
  • 内联代码和内联 LaTeX、R Markdown Pandoc 错误 43

    我已经遇到这个问题好几次了 但是每当我尝试在 Rmd 文件中包含内联 LaTeX 和内联 R 代码时 我都会收到 Pandoc 错误 43 除了手动添加内容之外 从来没有找到解决方法R 代码本来就是 title HW4 date 2 23
  • “is”运算符对浮点数的行为异常

    在对模块进行单元测试时 我遇到了一个令人困惑的问题 该模块实际上正在转换值 我想比较这些值 相比之下还是有区别的 and is 部分地 我很注意其中的差异 gt gt gt 0 0 is 0 0 True as expected gt gt
  • 可扩展的TableView [关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 如何按类别显示表格视图 并且单击一行
  • Symfony3 - 实体不适用于关系(具有索引和约束的数据库)

    现在主演了几个小时 也许我错过了一些明显的事情 具有此数据库结构 带有索引和约束 CREATE TABLE exploit id bigint 20 NOT NULL AUTO INCREMENT edb id varchar 100 CO
  • 意外的''回应宁静的服务

    我正在尝试学习宁静的服务 作为其中的一部分 我正在设计一个示例请求和响应页面 看看我一切都正确 除了以下内容 资源名为 i package com tutorialspoint import java io BufferedReader i
  • 如何忽略javafx中的60fps限制?

    我需要创建一个 100fps 动画来显示每秒包含 100 帧的文件中的 3D 数据 但是javaFx中的AnimationTimer只允许我获得60fps 如何克服它 删除 JavaFX 帧速率上限 您可以通过设置系统属性来删除 60fps
  • 在两级子例程中传递假定形状数组 (Fortran 90)

    我在 Fortran 90 中使用假定形状数组调用连续子例程时遇到问题 更具体地说 我调用两级子例程 传递假定形状数组作为参数 但最终数组丢失了 为了演示它 可以按照下面的代码进行操作 program main INTERFACE subr
  • 如何从FTP读取文件而不下载它们? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 在我的索引文件程序代码中 我需要访问 FTP 文件并读取所有文件而不下载它们 我如何使用 org apache commons net
  • 当 Android 使用嵌套片段和 getSupportFragmentManager() 在方向更改时重新创建我的应用程序时,到底会发生什么?

    我查看了与此问题相关的其他线程 它们似乎都使用 getChildFragmentManager 但如果可能的话 我想使用 getSupportFragmentManager 问题是这样的 我有父片段 A 它包含子片段 B B 是一个选择器片
  • 在两个不同宽度的弹性项目之间水平居中弹性项目[重复]

    这个问题在这里已经有答案了 假设我有 3 个 div 水平显示flexbox div1 center div wider div 我希望中心 div 与父级的中间对齐 我怎样才能做到这一点 justify content将根据所有宽度的总和
  • React 服务器渲染 --> 用新的根组件替换 React 渲染的子组件

    我正在尝试同构渲染反应 它会渲染 但我在客户端中收到警告 错误 我使用 jspm 和 npm 作为包管理器 warning js 25 Warning render Replacing React rendered children wit
  • Kruskal - R 数据子集的 Wallis p 值矩阵

    考虑一个数据集Data它有几个因子和几个数值连续变量 其中一些变量 比方说slice by 1 有 男性 女性 类别 和slice by 2 具有 悲伤 中性 快乐 类 用于将数据 切片 为子集 对于每个子集 Kruskal Wallis
  • Git Stash 上的 Git PathSpec 问题

    当我运行新版本时2 13 0 windows 1其新命令stash p pathspec as git stash p AB Dir1 Dir2 DestinationHierarchyCreator cs 它报告错误 错误 路径规范 AB
  • 使用 Int64 进行位移位

    Int64 变量需要移位 我正在从数据库文件解析伪数学函数 变量是 uint32 或 int32 所以我确实将它们放入 Int64 中以平等地处理它们 而不会丢失任何内容 在我的一个树节点中 我需要对 Int64 进行位移位 不幸的是 移位
  • Python,用PIL画一个圆

    我正在寻找一个命令 可以使用 PIL 在现有图像上绘制一个圆圈 im Image open path 我想要一个可以绘制半径为彩色的圆圈的函数r和中心 x y image Image open x png draw ImageDraw Dr
  • 如何对非常大的 CSV 文件进行排序?

    我有一个 294 000 行的大型 csv 其中第 1 列中包含 url 第 2 列中包含数字 我需要将它们从最小数到最大数排序 我已将其加载到 CSVed 软件中 它可以正常处理 不会崩溃或发生任何问题 但是当我单击列顶部对其进行排序时