如何根据第一列的内容分割一个巨大的csv文件?

2024-04-19

  • 我有一个 250MB 以上的巨大 csv 文件要上传
  • 文件格式是group_id, application_id, reading数据可能看起来像
1, a1, 0.1
1, a1, 0.2
1, a1, 0.4
1, a1, 0.3
1, a1, 0.0
1, a1, 0.9
2, b1, 0.1
2, b1, 0.2
2, b1, 0.4
2, b1, 0.3
2, b1, 0.0
2, b1, 0.9
.....
n, x, 0.3(lets say)  
  • 我想根据group_id,所以输出应该是 n 个文件,其中n=group_id

Output

File 1

1, a1, 0.1
1, a1, 0.2
1, a1, 0.4
1, a1, 0.3
1, a1, 0.0
1, a1, 0.9

and

File2
2, b1, 0.1
2, b1, 0.2
2, b1, 0.4
2, b1, 0.3
2, b1, 0.0
2, b1, 0.9
.....

and

File n
n, x, 0.3(lets say)  

我怎样才能有效地做到这一点?


awk有能力:

 awk -F "," '{print $0 >> ("FILE" $1)}' HUGE.csv
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何根据第一列的内容分割一个巨大的csv文件? 的相关文章

随机推荐

  • 错误:未捕获(承诺中):TypeError:无法将属性“isAdmin”设置为 null

    firebase auth onAuthStateChanged user gt if user this isLoggedIn true Set user loggedIn is true this isAdmin false fireb
  • Java 编译错误:类版本不受支持

    我最近在 Eclipse 中完成了一个项目 它运行没有问题 然后最近我导入了一项新作业要在课堂上完成 但是当我完成旧项目时 其图标上突然出现一个 x 我查看了代码 没有任何改变 但它在控制台中抛出了这个错误 java lang Unsupp
  • JS 函数构造函数每次都要重新解析?

    在 MDN 中 关于功能及功能范围 https developer mozilla org en US docs Web JavaScript Reference Functions and function scope Function
  • Windows 10 内的 Ubuntu 中的 tkinter。错误:“没有显示名称,也没有 $DISPLAY 环境变量”

    我最近安装了适用于 Windows 10 的 Ubuntu 应用程序 以便我可以在课堂上使用它 我正在遵循一些神秘的作业指示来 尝试 tkinter 我按照位于 Ubuntu 终端窗口中的说明安装了包 python3 tk这里 如何在 ub
  • 上传 Zip 文件并解压

    我有一个表单 HTML 它将文件提交到 PHP 脚本 该脚本将文件重命名为 ZIP 将其存储在文件夹 随机名称 中 然后提取该文件 文件已上传 该文件夹已正确创建 文件被正确重命名 zip 提取失败 这是我的表格
  • 导入错误:无法导入名称 defaultdict

    我觉得这真的很奇怪ImportError跑步时from collections import defaultdict ImportError cannot import name defaultdict 我正在运行 python 2 7 奇
  • 如何在 Mac OS X 上为 Java 应用程序启用视网膜模式

    我想画完整的OSX 视网膜 http www apple com iphone features retina display html从 IDE 调试期间 Java Swing 应用程序中的解决方案 我怎样才能做到这一点 当我从 IDE
  • 直接将托管标识与 Azure B2C 或 KeyVault 结合使用

    Goal 在调用 Graph API 时防止使用客户端 ID 和密钥 以下任一情况可能吗 在使用 Azure B2C 进行身份验证的应用程序中使用 Azure 托管标识 已被授予 Microsoft Graph API 权限 从而避免使用客
  • 从流中收集连续的对

    给定一个流 例如 0 1 2 3 4 我怎样才能最优雅地将它转换成给定的形式 new Pair 0 1 new Pair 1 2 new Pair 2 3 new Pair 3 4 当然 假设我已经定义了类 Pair Edit 严格来说 这
  • 如何在导航栏 jqgrid 上添加第二个自定义删除按钮?

    我已经在使用默认删除按钮进行自定义操作 在服务器端它在删除之前复制行 我想知道如何创建第二个删除按钮 将删除操作发送到不同的 url 以便在数据库的表上删除 我不想更改当前服务器端代码上的任何内容 只想为从此按钮发送的删除操作创建新代码 我
  • 移动 Rigidbody 游戏对象的正确方法

    我刚刚开始学习Unity 我尝试使用此脚本进行简单的盒子移动 前提是 每当有人按下 w 时 盒子就会向前移动 public class PlayerMover MonoBehaviour public float speed private
  • 单场淘汰赛 - 可能的组合数量

    单场淘汰赛中 8 人参加的组合有多少种 比赛总数为 7 场 但我还需要这组比赛的组合数量 如果玩家在树中的哪个位置开始并不重要 而只关心他 她与哪些对手战斗以及他 她能坚持多久 我们可以说左边的玩家总是获胜 然后只需计算创建的方法数量最下面
  • AzureSearch-从数据源检测索引架构时出错

    我通过 REST API 在 Azure 搜索上创建了一个数据源 我使用 API 而不是门户 因为我有一个尚未在门户上处理的 rowversion 数据类型 我可以在门户上查看数据源 当我尝试将数据源导入索引时 出现以下错误 从数据源检测索
  • gzip.open().read() 的大小参数

    当与gzipPython 中的库 我经常遇到使用 read 函数的模式如下所示 with gzip open filename as bytestream bytestream read 16 buf bytestream read IMA
  • 如何将命名范围添加到 Google apps-script 中的子段落元素

    我想在 Google 文档中实现 类似于 html span 的功能 但是每当我尝试添加NamedRange对于 Google 文档内的文本子字符串 该范围将与同一段落中的先前文本合并 结果 NamedRange适用于整个段落 这是我的测试
  • 如何检查给定值是否是通用列表?

    public bool IsList object value Type type value GetType Check if type is a generic list of any type 检查给定对象是否是列表或可以转换为列表的
  • 关于 System.Linq.Lookup 类

    我在阅读一本 C 书籍时遇到了这个课程 并有一些问题 为什么将其添加到 System Linq 命名空间而不是通常的 Collections 命名空间中 这个类背后的意图是什么 为什么这个类不适合直接实例化 这只能通过 ToLookup 扩
  • 如何根据CPU能力实现渲染器

    我想知道在 JavaScript 中实现渲染器的最佳方法是什么 这里真正重要的并不是渲染的内容部分 我更想知道何时以及如何有效地运行渲染器代码 目前 我有window setInterval renderFunc 1000 20 每 50
  • 如何向 Linq 表达式添加排序规则?

    如何实现 IQuariable 的方法如下 var trash from a in ContextBase db Users orderby a FirstName select a ToCollatedList 我想看到的结果 SELEC
  • 如何根据第一列的内容分割一个巨大的csv文件?

    我有一个 250MB 以上的巨大 csv 文件要上传 文件格式是group id application id reading数据可能看起来像 1 a1 0 1 1 a1 0 2 1 a1 0 4 1 a1 0 3 1 a1 0 0 1 a