Linux：在有限空间上使用分割

2024-03-14

我的 Linux 机器上有一个巨大的文件。该文件约为 20GB，我的盒子上的空间约为 25GB。我想将文件分成约 100mb 的部分。我知道有一个“分割”命令，但它保留了原始文件。我没有足够的空间来保存原件。关于如何实现这一点有什么想法吗？我什至会使用任何节点模块，如果它们使任务比 bash 更容易的话。

我的尝试：

#! /bin/bash

if [ $# -gt 2 -o $# -lt 1 -o ! -f "$1" ]; then
    echo "Usage: ${0##*/} <filename> [<split size in M>]" >&2
    exit 1 
fi

bsize=${2:-100}
bucket=$( echo $bsize '* 1024 * 1024' | bc )
size=$( stat -c '%s' "$1" )
chunks=$( echo $size / $bucket | bc )
rest=$( echo $size % $bucket | bc )
[ $rest -ne 0 ] && let chunks++

while [ $chunks -gt 0 ]; do
    let chunks--
    fn=$( printf '%s_%03d.%s' "${1%.*}" $chunks "${1##*.}" )
    skip=$(( bsize * chunks ))
    dd if="$1" of="$fn" bs=1M skip=${skip} || exit 1 
    truncate -c -s ${skip}M "$1" || exit 1 
done

上面假设bash(1)，以及 Linux 实现stat(1), dd(1), and truncate(1)。它应该尽可能快，因为它使用dd(1)复制初始文件的块。它还使用bc(1)确保 20GB 范围内的算术运算不会溢出任何内容。但是，该脚本仅在较小的文件上进行了测试，因此在针对您的数据运行它之前请仔细检查它。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux：在有限空间上使用分割的相关文章

将 .xls/.csv 文件中的数据读取到 iOS 中

我是 iOS 新手正在尝试将电子表格的内容读入 iOS 数组我使用的电子表格是一个简单的 3 x 2 数组第一列为数字第二列为文本我尝试在 xls xlsx cdv txt unicode 和分隔符但没有成功该文件称为资金
如何在 Docker 容器中运行 Nginx 而不停止？

我在 Docker 容器上安装了 Nginx 并尝试像这样运行它 docker run i t p 80 80 mydockerimage usr sbin nginx 问题是 Nginx 的工作方式是初始进程立即生成一个 Nginx 主
未找到神奇函数“bash”

我有一堆模拟想要在高性能集群上运行我应该在这些集群上进行预留以获得计算时间由于预订是有时间限制的我正在开发一个自动化脚本我可以scp进入集群并运行然后该脚本将下载相关的模拟文件运行它们并上传结果该自动化脚本的一部分位于ba
使用 grep 仅打印上下文

Using grep http www computerhope com unix ugrep htm 您可以打印与您的搜索查询匹配的行添加一个 C选项将打印两行周围的上下文如下所示 gt grep C 2 lorem some con
读写文本文件的最佳方法

我正在使用最新版本的 Lazarus IDE 并且我有一个Memo1在我的 TForm1 上我必须加载一个文本文件Memo1然后编辑备忘录的每一行我使用Memo1 Lines Strings i 最后我必须将编辑后的备忘录保存在特定路
更改通过表单上传的 tmp 文件的文件名

就像标题说我想更改用户通过表单上传的文件的文件名这是代码 HTML
调试神秘的git+ssh+proxy失败“bash：没有这样的文件或目录”的艰难方法

我正在尝试通过 SOCKS5 代理克隆 github 存储库在 ssh config I have Host github com github com ProxyCommand usr bin nc X 5 x 127 0 0 1 70
Shell 脚本对文件进行计数，然后删除最旧的文件

我是 shell 脚本新手所以我需要一些帮助我有一个充满备份的目录如果我有超过 10 个备份文件我想删除最旧的文件以便仅留下 10 个最新的备份文件到目前为止我知道如何计算文件数这看起来很简单但是如果计数超过 10 我该如
在文件夹之间移动文件

我想使用 R 将文件从一个文件夹复制粘贴到 Windows 中的另一个文件夹但它不起作用我的代码 gt file rename from C Users msc2 Desktop rabata txt to C Users msc2
如何在 C++ 中检查文件是否已被另一个应用程序打开？

我知道有is open C 中的函数但我希望一个程序检查文件是否尚未被另一个应用程序打开有没有办法使用标准库来做到这一点编辑在答案中澄清这是针对 Linux 应用程序的不仅标准库没有这个功能一般来说也是不可能的你可以在li
在 Alpine Docker 容器上安装 OpenSSH

第一次运行 alpine docker 容器并尝试 openssh 安装时会发生以下情况 ole T docker run it rm alpine bin ash apk add openssh WARNING Ignoring APK
如何在 Amazon Linux 上安装最新版本的 GDAL？

我想安装GDAL https gdal org 在运行 Amazon Linux 的 EC2 实例上我认为它基于 RHEL 6 如果可能的话我想避免从源代码编译 EPEL Yum 存储库中包含的 GDAL 版本对于我的目的来说太旧了 g
为什么当设置为 TLS 选择器时，ES 和 DS 在 64 位内核上最终会归零？

下面的 32 位程序调用set thread area 2 http linux die net man 2 set thread area在 GDT 中创建一个条目该条目旨在用于 TLS 通常将结果选择器放入FS or GS并成功使用
如何获取Linux中进程或端口的网络带宽使用情况

我想获取每个进程的网络带宽使用情况我找了很多这方面的资料比如iftop nethogs http nethogs sourceforge net Linux进程浏览器 http sourceforge net projects proc
在 bash 中传递多个数组作为参数

我已经成功地能够调用单个数组作为参数但在传递多个数组时遇到问题这是我到目前为止所拥有的 calling function array1 1 2 3 4 array2 a b c d array3 called function arra
无法从外部 bash 脚本正确设置 MySQL 密码

我有两个脚本主要的一个脚本执行一些不同的操作并调用第二个脚本第二个脚本安装 MySQL 从我的主脚本中我做了这样的事情 read p Set the password for the database min 4 characters
跳转到文件行c#

我如何跳到文件中的某些行例如 c text txt 中的第 300 行 using var reader new StreamReader c test txt for int i 0 i lt 300 i reader ReadLine
pthread_create 编译返回错误

我使用以下代码创建两个线程 header files include
Git 责备文件中的作者列表

有没有办法找到在 repo 中编辑 java 文件中的类的作者列表git blame 作者列表必须是唯一的我尝试使用以下命令但它没有删除重复项并且每行输出中都有作者一词不需要对输出进行排序但我希望获得没有任何重复的输出 git
将文件夹中结构化的预构建文件集添加到 android out 文件夹

我为arm编译了glibc 这与Android glibc或bionic C不同因为我编译的glibc环境将有助于提供更多api 现在我可以在 Android 运行时将 glibc 环境复制到 system 文件夹中并且在执行 chro

随机推荐

Sqoop Hive 退出，状态为 1

当我执行时 sqoop import connect jdbc mysql localhost testdb table test hive table test hive import m 1 我收到以下错误消息 13 04 21 16
从 url 中去除域名（字符串）

我正在像这样访问样式表集合 var css document styleSheets 0 它返回例如 http www mydomain com css main css 问题如何剥离域名才能获得 css main css 这个正则表达式
这些类和子类静态块何时执行（对于枚举）？

我正在尝试定义一个基类 SubStatus 为枚举什么时候static下面调用的块如果它们是类而不是枚举我相信它们会在调用类构造函数之后被调用但因为他们是Enums 这些不是更像吗static课程开始那么静态块可能是在容器加载静态
如何将List<>写入parcel中

public class Category implements Parcelable private int mCategoryId private List
tweepy 中的过滤

我是新来的tweepy并且遇到了问题我想下载带有特殊主题标签的推文但似乎 stream filter track word1 word2 word3 在推文中查找这些单词而不是在推文的主题标签中如何过滤主题标签您实际上可以根据您的
根据用户的 uid 生成 Firestore 文档的文档 ID

在我的聊天应用程序中我在两个用户之间进行私人聊天我打算使用这两个用户的 docId uid 设置聊天文档的 id 使其不依赖于它们组合的顺序并且我可以使用用户的 uid 确定聊天文档的 docId 而不管其顺序如何uid 我知道我也
使用 Azure 服务总线进行结构化流处理

如何为Azure服务总线设置Spark结构化流会话我目前正在使用 azure databricks 作为服务总线主题订阅之一的消费者我已经研究了几件事但看到了周围的问题 https github com elastacloud ser
如何在 Windows 上使用 Vim 编译 C++ 代码？

首先我安装Vim 文本编辑器 in Typical在这台 Windows 7 笔记本电脑上键入我正在使用的用户是这台计算机上的管理员但无法打开其中的文件程序文件使用 Vim 编写的位置所以我改变我的 cd当前目录到我的 HOME
如何在d3中加载geojson文件的geometryCollection

我使用 Mapshapers 成功将英国地图 shapefile 转换为 geojson 但我无法在 d3 js 中加载此 geojson 请帮忙脚本如下
如何用onclick确认并调用函数

我可以调用 JavaScript 函数吗return confirm 在 HTML onclick 事件中还是我需要执行包含确认和调用另一个函数的函数
将现有文件夹放入存储库

我认为直接在记事本中修改文件可能很危险是时候进行一些适当的源代码控制了我对源代码控制很陌生我已在我的服务器上安装了 VisualSVN 服务器并在我的客户端计算机上安装了 TortoiseSVN 我可以很好地创建新文件夹检查它们等
如何在Python中简单地计算时间序列的滚动/移动方差？

我有一个简单的时间序列我正在努力估计移动窗口内的方差更具体地说我无法弄清楚与实现滑动窗口函数的方式有关的一些问题例如当使用 NumPy 且窗口大小 20 时 def rolling window a window shape a
为什么我必须将 async 关键字添加到具有 wait 关键字的函数中？

我只想等待进程完成不想使函数异步请参阅下面的代码我必须使 getUserList 异步因为函数中有一个await 关键字因此我还必须编写 await UsersService getUserList 之类的内容来执行该方法并且
Git/Eclipse 工作流程

我使用 Eclipse 来编辑 Java 并使用 Git 作为我的 VCS 我应该将本地存储库放在工作区中还是工作区之外并在每次要提交时复制文件我知道我可以通过各种方式做到这一点但我是 Git 新手想知道哪种方式更好目前最好的做法
带默认子级的 Vue.js 嵌套路由

我对 Vue js 2 中的默认子路由有疑问当我最初访问 localhost listings 时它会正确加载 index vue 和 map vue 作为子项当我使用 router link 导航到 localhost listin
如何在加载网页之前运行内容脚本？

我想更改一些 dom 内容使所有输入字段值都是在用户可以看到网页之前先对其进行显示我该怎么做有什么办法可以做到这一点吗谢谢您需要一个运行于文档开始 https developer chrome com extensions co
如何查找具有相同字段的mongo文档

我有一个 mongo 集合我需要在该集合中查找文档其中字段名称和地址相等我找了很多只能找到MongoDb 比较 2 个字段的查询条件 https stackoverflow com questions 4442453 mongodb
dig (DNS Lookup) 指定 Windows 上的 DNS 服务器

在Linux中我会使用dig使用以下命令指定 DNS 服务器 127 0 0 1 dig google com 127 0 0 1 我安装了 Windows 的绑定工具 choco install bind toolsonly 我怎样才能
带 Spring Boot 项目的 Modbus 脉冲线圈

必须实施呼叫数字IO with Modbus协议 on 春季启动项目构建者Maven 它应该是在身体上有一定持续时间的脉冲呼叫例如 5 秒等以下是规范中的一个片段关于响应和错误的更多信息看来这个呼叫应用程序应该表现得像一个大师在这
Linux：在有限空间上使用分割

我的 Linux 机器上有一个巨大的文件该文件约为 20GB 我的盒子上的空间约为 25GB 我想将文件分成约 100mb 的部分我知道有一个分割命令但它保留了原始文件我没有足够的空间来保存原件关于如何实现这一点有什么想法吗

Linux：在有限空间上使用分割

Linux：在有限空间上使用分割 的相关文章

随机推荐

热门标签

Linux：在有限空间上使用分割的相关文章