将 CSV 文件拆分为较小的文件但保留标题？

2024-04-24

我有一个巨大的 CSV 文件，有 100 万行。我想知道是否有一种方法可以将此文件拆分为较小的文件，但保留所有文件的第一行（CSV 标题）。

它似乎split速度非常快，但也非常有限。您不能向文件名添加后缀，例如.csv.

split -l11000 products.csv file_

有没有一种有效的方法来完成这项任务bash？一行命令就太好了。

这个问题的答案是yes，这可以通过 AWK 实现。

这个想法是记住标题并以表单的文件名打印所有其余部分filename.00001.csv:

awk -v l=11000 '(NR==1){header=$0;next}
                (NR%l==2) {
                   close(file); 
                   file=sprintf("%s.%0.5d.csv",FILENAME,++c)
                   sub(/csv[.]/,"",file)
                   print header > file
                }
                {print > file}' file.csv

其工作原理如下：

(NR==1){header=$0;next}:如果记录/行是第一行，则将该行保存为header.
(NR%l==2){...}: Every time we wrote l=11000 records/lines, we need to start writing to a new file. This happens every time the modulo of the record/line number hits 2. This is on the lines 2, 2+l, 2+2l, 2+3l,.... When such a line is found we do:
- close(file):也关闭您刚刚编写的文件。
- file=sprintf("%s.%0.5d.csv",FILENAME,++c); sub(/csv[.]/,"",file):将新文件名定义为FILENAME.00XXX.csv
- print header > file:打开文件并将标头写入该文件。
{print > file}：将条目写入文件。

note:如果您不关心文件名，可以使用以下较短版本：

awk -v m=100 '
    (NR==1){h=$0;next}
    (NR%m==2) { close(f); f=sprintf("%s.%0.5d",FILENAME,++c); print h > f }
    {print > f}' file.csv

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

bash

csv

awk

将 CSV 文件拆分为较小的文件但保留标题？的相关文章

在bash中将两个变量相除

我试图在 bash 中划分两个 var 这就是我得到的 var1 3 var2 4 echo var1 var2 我总是遇到语法错误有谁知道出了什么问题吗 shell 解析仅对整数除法有用 var1 8 var2 4 echo var1
将 CSV 文件上传到 SQL 服务器

上传大文件的最佳方式是什么csv使用 C 将数据文件导入 SQL Server 该文件包含大约 30 000 行和 25 列首先你不需要编程的东西您可以使用 SQL 管理工具直接将 CSV 文件上传到 SQL 数据库但是如果您确实
在 nohup 中使用别名

为什么以下不起作用 alias sayHello bin echo Hello world sayHello Hello world nohup sayHello nohup appending output to nohup out no
在闪亮的应用程序中选择文件夹或文件夹目录

我在使用闪亮时遇到问题我想选择保存我要在应用程序中使用的所有文件的文件夹方法是 1 将工作目录设置为该文件夹路径或 2 将此文件夹内的所有 csv 数据上传到我的应用程序以进行进一步处理 1 我找到了shinyFiles包但它非常非
从 bash 脚本返回值

我想创建一个返回值的 Bash 文件意思是在脚本 script a bash 中我有一定的计算脚本 script b bash 会调用它 script a bash return 1 5 script b bash a value s
安全地记住 bash 脚本中的 ssh 凭据[重复]

这个问题在这里已经有答案了假设我有一个 bash 脚本它通过 ssh 在远程计算机上执行命令 Do something here ssh otheruser host command1 Do something else ssh oth
bash 或 sh 中的“=”和“==”运算符有什么区别

我意识到和运算符都可以在 if 语句中使用例如 var some string if var some string then doing something fi if var some string then doing some
LOAD DATA LOCAL INFILE 给出错误：此 MySQL 版本不允许使用命令

我有一个调用 MySQL 的 PHP 脚本LOAD DATA INFILE从 CSV 文件加载数据但是在生产服务器上我最终遇到了以下错误用户访问被拒绝使用密码是作为快速解决方法我将命令更改为LOAD DATA LOCAL I
如何在 Bash 中将字符串转换为小写

有办法进去吗bash questions tagged bash将字符串转换为小写字符串例如如果我有 a Hi all 我想将其转换为 hi all 有多种方法 POSIX标准 https en m wikipedia org wiki
如何从 C 文件更改终端中的目录

如何从 C 程序更改将在终端上生效的目录实际上不要告诉 system 函数或 chdir 函数这些仅适用于 C 中的进程或子 shell 假设我正在从 bash shell 执行一个 C 程序其进程 ID 为 10223 那么我可以
在 python 中读取具有恶意字节 0xc0 的文件，导致 utf-8 和 ascii 出错

尝试将制表符分隔的文件读入 pandas 数据帧 gt gt gt df pd read table fn na filter False error bad lines False 它会出错如下所示 b Skipping line 58
envsubst 不能进行就地替换吗？

我有一个配置文件其中包含一些 ENV VARIABLE 样式的变量 This is my file It might contain EXAMPLES of text 现在我希望将该变量替换为保存在实际环境变量中的值所以我正在尝试这个
如何从脚本向 sudo 提供密码？

请注意这是在我的本地计算机上运行的来宾虚拟机 VBox 我不担心安全性我正在编写一个将在 Linux Ubuntu VM 上执行的脚本myuser用户该脚本将在下面创建一个非常大的目录树 etc myapp 目前我必须手动完成所有这些
Bash 中 $() 和 () 之间的区别

当我打字时ls l echo file 支架的输出这只是简单的回显被获取并传递到外部ls l命令就等于简单的ls l file 当我打字时ls l echo file 我们有错误因为不能嵌套内部外部命令有人可以帮助我理解之间的区
按行号和列号对文件进行子集化

我们想要按行和列对文本文件进行子集化其中行数和列数是从文件中读取的不包括标题第 1 行和行名称第 1 列输入文件 txt制表符分隔的文本文件 header 62 9 3 54 6 1 25 1 2 3 4 5 6 96 1 1
开始使用 Python 在 CSV 的特定行上读写

我有一个 CSV 文件如下所示 COL A COL B 12345 A 1 B 2 C 3 如何读取该文件并将其写回新文件但只写第二行行我希望输出文件包含 12345 A 1 B 2 C 3 Thanks 下面读取您的 csv 提取
将 CSV 文件读入 Java 作为数据库表

我发现了很多关于使用 Java 读取 CSV 的帖子并且他们所指向的 API 在读取 CSV 文件时都采用了面向行的方法就像当你得到一行时获取每一列的值我希望有一个更高级别的 API 比如在 Perl 中 DBI 允许您在 CSV
如何在flutter中从设备存储读取CSV文件

我想将数据从 flutter 中的 CSV 文件导入到 firebase 数据库中因此我使用文件选择器从设备中选择 CSV 文件现在我如何从该文件中读取数据首先从 dart 包导入 file picker 和 CSV 包比定义方法
shell 脚本：错误的解释器：使用 pwd 时没有这样的文件或目录

我想用 for 循环遍历目录中的文件但这出现了 echo bad interpreter No such file or directory code bin bash count 0 dir pwd echo dir FILES ls
从 csv 中读取 pandas 数据帧，以非固定标头开始

我有许多数据文件是由我的实验室中使用的一些相当黑客的脚本生成的该脚本非常有趣因为它在标头之前附加的行数因文件而异尽管它们具有相同的格式并具有相同的标头我正在编写一个批处理来将所有这些文件处理为数据帧如果我不知道位置如何让 pan

随机推荐

存储过程中的条件 WHERE 子句

这个问题可能归结为更简单的问题但我仍然很好奇 SQL Server TSQL 能有多接近条件WHERE条款以及为什么它们不存在背后的推理也很有趣我有一个存储过程对于一些参数它接受一个枚举数组它已相应地转换为用户定义的表类型它本
如果值包含逗号字符，如何使用 QSetting 读取值[重复]

这个问题在这里已经有答案了在我的 QT 项目中我使用 QSettings 从 ini 文件读取值如果该值包含逗号字符 QSettings 无法读取它我应该如何读取这些值逗号字符被视为列表分隔符QSettings 带逗号的 INI
将关系 R 分解为 1NF 后最少存在多少张表？

考虑具有以下属性类型的关系 R A B C D E F G 键总数 1 A 一组简单或原子或单值属性 B C 多值属性集 D E 复合属性集 F G 将关系 R 分解为 1NF 后存在的表的最小数量是多少 A 3 B 2 C 4
使用新文件名保存文件：附加到现有文件名

有没有一种简单的方法在 VIM 中使用当前名称加上附加短语保存当前打开的文件即来自 home affert type vim data folder file1 txt 然后将文件另存为 data folder file1 txt
在 Perl 中如何接受多个 TCP 连接？

我对 Linux 的 Perl 脚本有疑问它的主要目的是成为 3 个应用程序之间的中间人它应该做什么它应该能够等待 UDP 文本不带空格 udp port 当它收到 UDP 文本时它应该将其转发到连接的 TCP 客户端问题是我的
反序列化通用列表返回 null

我正在反序列化一个对象如下所示 public class myClass ISerializable public List
跨浏览器高度 100%（变换比例<1）

我似乎无法找到一种方法使子容器的高度为父容器的 100 并且只能看到滚动条相反我们看到高度的空白量增加了一倍这个问题与Javascript 放大缩小到鼠标 x y 坐标 https stackoverflow com questio
获取函数/类构造函数的参数类型

我正在尝试做一些我不确定在 TypeScript 中是否可行的事情从函数推断参数类型返回类型例如 function foo a string b number return a b type typeA
Visual Studio 2013 自动套用格式 (CTRL K D) cshtml 小写问题

我最近才更新到 VS 2013 当使用 MVC 3 应用程序时我遇到了自动格式化问题即使用 CTRL K D 快捷键或突出显示全部格式选择例如 model IEnumerable
pytesseract 无法按预期识别文本？

我正在尝试通过 opencv 和 pytesseract 运行一个简单的车牌图像来获取文本但我无法从中获取任何内容按照此处的教程进行操作 https Circuitdigest com microcontroller projects
如何从控制器调用构造函数中具有参数（接口）的属性

public class HMACAuthenticationAttribute Attribute IAsyncAuthorizationFilter public HMACAuthenticationAttribute IUser us
Couchbase 无法 MutateIn 多个带有 null 值的 upserts

我有一个 Couchbase 文档我想在一次调用中改变多个属性如果其中一个属性值为 null 则 mutate 会失败并显示以下消息 KV错误名称 EINVAL 描述无效数据包属性内部无效输入和状态 Couchbase IO
如何在滚动 iPhone 上向 tableview 添加元素？

我正在使用 UITableView 列出来自 Web 服务的元素我需要做的是首先从Web服务调用20个元素并显示在列表中当用户向下滚动时从Web服务调用另外20个记录并添加到表格视图这个怎么做您可以从 Web 服务加载 20 个项目
如何防止视图将其模型传递给部分视图，而是传递 null？

在 ASP NET MVC 和使用 Razor 中我有一个视图父视图调用另一个视图子视图作为部分视图两者都是强类型的但它们具有不同的模型类型通常在这些情况下我们会显式地将模型从父视图传递到子视图 Html Partial
光标在 Google 地图应用程序中消失

这确实很奇怪使用 API v3 创建 Google 地图应用程序后有时当我将光标悬停在地图上时鼠标光标会消失我需要与地图之外的几个控件进行交互当我点击其中一个并且地图失去焦点后问题就显现出来了这事发生在别人身上过吗我尝试将焦
如何在 Bootstrap 中水平居中表格

这是我的代码我想做的是将这张桌子放在容器的中心但相反当我使用容器类时它默认向左对齐并且当我对 div 使用容器流体类时它使用全宽度我想将桌子水平居中有人可以帮忙吗 div class container fluid
NaN 是假的吗？为什么 NaN === false 返回 false

Why NaN false gt false NaN 不是假吗 Why NaN NaN gt 错误但是 NaN NaN gt 正确我绞尽脑汁想弄清楚这个问题 Falsy并且严格等于false是非常不同的事情这就是为什么一个人有一个y而
条件“可浏览”属性

有没有办法使可浏览属性成为有条件的以便应用它的属性有时会出现在属性页中有时不会出现谢谢我不确定这是否适用于您的情况但您可以通过调用下面的函数在运行时调整可浏览装饰
Mysql 客户端使用 `docker-compose run` 与 `docker-compose exec` 调用

为什么调用时需要指定主机docker compose run e g docker compose run db container mysql uuser ppass db name h db container 似乎直接相当于 dock
将 CSV 文件拆分为较小的文件但保留标题？

我有一个巨大的 CSV 文件有 100 万行我想知道是否有一种方法可以将此文件拆分为较小的文件但保留所有文件的第一行 CSV 标题它似乎split速度非常快但也非常有限您不能向文件名添加后缀例如 csv split l1100

将 CSV 文件拆分为较小的文件但保留标题？

将 CSV 文件拆分为较小的文件但保留标题？ 的相关文章

随机推荐

热门标签

将 CSV 文件拆分为较小的文件但保留标题？的相关文章