Bash 脚本将文本文件与文件名中的特定子字符串连接起来

2024-01-10

在某个目录中，我有许多包含一堆文本文件的目录。我正在尝试编写一个脚本，仅将每个目录中文件名中包含字符串“R1”的文件连接到该特定目录中的一个文件中，以及将那些文件名中包含“R2”的文件连接到另一个 .这是我写的，但它不起作用。

#!/bin/bash

for f in */*.fastq; do

    if grep 'R1' $f ; then
        cat "$f" >> R1.fastq
    fi

    if grep 'R2' $f ; then
        cat "$f" >> R2.fastq
    fi

done

我没有收到任何错误，文件是按预期创建的，但它们是空文件。谁能告诉我我做错了什么？

感谢大家快速而详细的回复！我认为我的问题不是很清楚，但我需要脚本仅连接每个特定目录中的文件，以便每个目录都有一个新文件（ R1 和 R2 ）。我尝试做

cat /*R1*.fastq >*/R1.fastq

但它给了我一个不明确的重定向错误。我还尝试了 Charles Duffy 的 for 循环，但循环遍历目录并执行嵌套循环来运行目录中的每个文件，如下所示

for f in */; do
   for d in "$f"/*.fastq;do
     case "$d" in
       *R1*) cat "$d" >&3
       *R2*) cat "$d" >&4
     esac
   done 3>R1.fastq 4>R2.fastq
done

但它给出了有关“）”的意外标记错误。

如果我错过了一些基本的东西，提前抱歉，我对 bash 还很陌生。

给读者的注释

请在考虑此答案时查看该问题的编辑历史记录；通过问题编辑，一些部分的相关性降低了。

One `cat`每个输出文件

出于当前的目的，您可能可以让 shell 通配符完成所有工作（如果R1 or R2将位于文件名中，而不是目录名中）：

set -x # log what's happening!
cat */*R1*.fastq >R1.fastq
cat */*R2*.fastq >R2.fastq

One `find`每个输出文件

相比之下，如果文件数量确实很大，您可能需要find:

find . -mindepth 2 -maxdepth 2 -type f -name '*R1*.fastq' -exec cat '{}' + >R1.fastq
find . -mindepth 2 -maxdepth 2 -type f -name '*R2*.fastq' -exec cat '{}' + >R2.fastq

...这是因为操作系统对命令行长度的限制；这find上面给出的命令将在每个命令上添加尽可能多的参数cat为了提高效率，尽可能使用命令，但仍将它们分成多个调用，否则将超出限制。

迭代和测试

如果您确实想迭代所有内容，然后测试名称，请考虑case作业的声明，这比使用要高效得多grep仅检查一行：

for f in */*.fastq; do
  case $f in
    *R1*) cat "$f" >&3
    *R2*) cat "$f" >&4
  esac
done 3>R1.fastq 4>R2.fastq

注意使用文件描述符 3 和 4 进行写入R1.fastq and R2.fastq分别——这样我们只打开输出文件一次（因此截断他们恰好一次）当for循环开始，并重用这些文件描述符，而不是在每个循环的开头重新打开输出文件cat。（也就是说，运行cat每个文件一次——其中find -exec {} +避免——总的来说可能是更多的开销）。

操作每个目录

上述所有内容都可以更新为在每个目录的基础上运行，非常简单。例如：

for d in */; do
  find "$d" -name R1.fastq -prune -o -name '*R1*.fastq' -exec cat '{}' + >"$d/R1.fastq"
  find "$d" -name R2.fastq -prune -o -name '*R2*.fastq' -exec cat '{}' + >"$d/R2.fastq"
done

只有两个重大变化：

我们不再指定-mindepth，以确保我们的输入文件仅来自子目录。
我们排除R1.fastq and R2.fastq来自我们的输入文件，因此我们从不尝试使用相同的文件作为输入和输出。这是先前更改的结果：以前，我们的输出文件不能被视为输入，因为它们不符合最小深度。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

bash

fastq