我有一个大小为 31 GB 的 XML 文件。我需要找到该文件中的总行数。我知道命令wc -l
会给我同样的。但是执行此操作花费的时间太长。有没有更快的机制来查找大文件中的行数?
31 gigs 是一个非常大的文本文件。我打赌它会压缩到大约 1.5 GB。我首先会以压缩格式创建这些文件,然后您可以通过 wc 流式传输该文件的解压缩版本。这将大大减少用于处理该文件的 I/O 和内存量。 gzip 可以读取和写入压缩流。
但我还要发表以下评论:
- 对于 XML 来说,行号实际上并没有那么丰富的信息,因为元素之间的空格被忽略(混合内容除外)。关于数据集,您真正想了解什么?我敢打赌计算元素会更有用。
- 确保您的 xml 文件没有不必要的冗余,例如您是否在整个文档中重复相同的名称空间声明?
- 也许 XML 不是表示此文档的最佳方式,如果尝试查看类似的内容快速信息集 http://en.wikipedia.org/wiki/Fast_Infoset
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)