更有效地查找和压缩数百万个文件

2024-02-28

我的服务器上有一个作业在命令行提示符下运行了两天:

find data/ -name filepattern-*2009* -exec tar uf 2009.tar {} ;

它正在采取forever, 然后还有一些。是的,目标目录中有数百万个文件。 (在经过良好哈希处理的目录结构中,每个文件只有区区 8 个字节。)但只是运行...

find data/ -name filepattern-*2009* -print > filesOfInterest.txt

……只需要两个小时左右。按照我的工作进展速度,几天之内都无法完成weeks..这似乎不合理。有没有更有效的方法来做到这一点?也许使用更复杂的 bash 脚本?

次要问题是“为什么我现在的手段这么慢?”


一种选择是使用cpio生成 tar 格式的存档:

$ find data/ -name "filepattern-*2009*" | cpio -ov --format=ustar > 2009.tar

cpio本机使用来自标准输入的文件名列表,而不是顶级目录,这使其成为这种情况的理想工具。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

更有效地查找和压缩数百万个文件 的相关文章

随机推荐

  • 如何在 Swift 中分配/释放不安全指针?

    在 Beta 4 中 我的代码运行良好 var red green blue alpha UnsafePointer
  • 仅当字符串中的第 n 个字符是 R 中的特定字符时才替换它

    我正在将一系列调查导入为 csv 文件并组合成一个数据集 问题在于七个文件之一的某些变量的导入略有不同 数据集很大 我想找到一种方法来编写一个函数来运行给我带来麻烦的数据集 在某些变量中 应该有点的时候却有下划线 并非所有变量都具有相同的格
  • 在我的 Flex 应用程序中获取数据的最佳方式是什么?

    我是 Flex 开发新手 在创建新的移动项目时 它询问我是否要将其连接到某些服务器 并给了我四个选项 ColdFusion PHP Java 和 blazeDS 我一直在 java 工作 而不是 PHP 人员 我会简单地选择Java并忽略了
  • 变量未在 PHP 循环中传递/更新

    所以基本上我正在做的是创建 php 脚本 该脚本打印表格并根据表单中输入的内容更新和计算值 所以我有一个单独的 HTML 文件 其中包含表单 它传递 3 个变量 tempStart tempEnd windSpeed 然后我创建了一个在表的
  • 在 Eclipse 帮助中搜索 RCP 未返回任何结果

    我有一个 RCP 应用程序 并在菜单上启用了帮助 我能够成功调出我创建的帮助 但是 当我输入搜索词时 没有返回结果 需要什么才能从 Eclipse 帮助引擎搜索我的帮助内容 解决方案是使用帮助内容更新插件的版本号以重建索引 我依赖 qual
  • VS2010 构建后事件,替换文件中的字符串。电源外壳?

    在 VS2010 中成功构建后 我需要替换缩小的 js 文件中的简单字符串 因此 我尝试从 构建后事件 窗口运行一个简单的命令行调用 这个例子 来自这里 https blogs technet com b heyscriptingguy a
  • Polymer 中的横向通信

    问题是这样的 任何两个聚合物元素都可能需要通信 没有假设这些元素可能位于 DOM 或影子 DOM 中的位置 这意味着一个事件不能简单地冒泡到另一个元素 实现这一点的好旧方法是让事件冒泡到根节点 然后触发播送根节点上的事件供其他元素监听 然而
  • 如何在sklearn中找到多个节点的最近邻居?

    所以基本上我正在开发一个推荐系统 其中用户可以选择多个电影 节点 并给出与用户选择的所有电影 节点 相似的推荐 为了做到这一点 我需要同时找到这些多个节点的最近邻居 即结果应该接近node1 and node2 我怎样才能做到这一点 X 0
  • 构建规则中的 Bazel 环境变量

    我想参考 DirectX SDKBUILD文件 问题是 据我所知 Bazel 仅支持通过 action env DXSDK DIRBazel 的参数 它应该在动作中使用 必须在插件中定义 bzl file 有没有更简单的方法通过将环境变量用
  • 如何从给定索引列表的 std::vector 中删除项目

    我有一个项目向量items 以及应该从中删除的索引向量items std vector
  • GIDSignIn 钥匙串错误 iOS 10 Xcode 8

    在 iOS 10 和 xcode 8 中 当我尝试登录 google 服务时 我得到 钥匙串错误 func sign signIn GIDSignIn didSignInFor user GIDGoogleUser withError er
  • 从 jQuery UI 对话框内部的元素关闭它?

    这是一个简单的问题 可能比我想象的要简单 我正在使用 ajax 调用生成的 html 填充 jQuery UI 对话框 在某些情况下 html 包含一个按钮 单击该按钮时 我想关闭包含的对话框 假设我对指定为对话框的元素一无所知 eleme
  • 从 Drools 6 中的数据库加载和更新规则

    如何在启动时从数据库表加载规则并从 Drools 6 2 0 中的同一个表更新它们 我找到了一个example http sujitpal blogspot com 2013 03 jboss rules in database take
  • 如何在 Mac 上从 ifconfig 获取格式为“接口:IP 地址”的输出

    我试图从 ifconfig 中获取以下格式化输出 en0 10 52 30 105 en1 10 52 164 63 我至少能够弄清楚如何使用以下命令获取 IP 地址 淘汰 localhost 但这不足以满足我的要求 ifconfig gr
  • JSON @属性

    我很难理解如何读取包含 attributes 的 JSON 对象 JavaScript ajax type GET dataType json url http script weather php r req success functi
  • 如何使用正则表达式过滤字符串中不需要的字符?

    基本上 我想知道是否有一个方便的类或方法来过滤字符串中不需要的字符 该方法的输出应该是 已清理 的字符串 IE String dirtyString This contains spaces which are not allowed St
  • 如何从 Pl/SQL 写入文本文件,PLS 错误 00363

    我正在尝试从过程写入文件 out File Utl File FOpen C test batotest txt W Utl File Put Line out file Hi this is text file Utl File FClo
  • 从 powershell 运行 SQL 脚本文件

    我正在尝试从 PowerShell 运行存储在文本文件中的查询 我使用以下方法来做到这一点 Invoke Expression sqlcmd d TestDB U user P pw i E SQLQuery1 sql 如果在执行查询时发生
  • equals 方法未在定义类的对象上使用[重复]

    这个问题在这里已经有答案了 抱歉 已经很晚了 所以我可能无法解释所有细节 但我一直在研究这个问题 但我无法理解为什么数组中的对象 Item 对象引用不使用它所给出的 Item 类的 equals 方法 我检查了函数内两个 Item 对象的类
  • 更有效地查找和压缩数百万个文件

    我的服务器上有一个作业在命令行提示符下运行了两天 find data name filepattern 2009 exec tar uf 2009 tar 它正在采取forever 然后还有一些 是的 目标目录中有数百万个文件 在经过良好哈