我正在尝试 cat 与 hadoop HDFS 中的以下模式不匹配的文件
hdfs dfs -cat /*.gz
如何捕获所有不以 .gz 结尾的文件?
编辑:抱歉,但我需要在 Hadoop 中管理文件,显然 hdfs 附带的命令非常少。
编辑2:所有文件都在根目录中。
hdfs
似乎不支持扩展的通配语法,因此您需要手动提取要连接的文件的名称。
你可以从列出根目录中的所有文件 https://stackoverflow.com/q/21569172/11082165 with
$ hdfs dfs -stat '%n" '/*'
然后,过滤掉以以下结尾的文件.gz
:
$ hdfs dfs -stat '%n" '/*' | grep -v '.gz$'
最后,将过滤后的文件名传递给hdfs dfs -cat
$ hdfs dfs -stat '%n" '/*' | grep -v '.gz$' | xargs hdfs dfs -cat
请注意,如果您传递到的文件路径的总长度,这可能会中断hdfs dfs -cat
超过您的环境支持的限制 https://stackoverflow.com/q/5772156/11082165.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)