我有很多关于 Markdown 格式编程的文本。有一个构建过程能够将这些文本转换为 Word/HTML,并执行简单的验证规则,例如拼写检查或检查文档是否具有所需的标题结构。我想扩展该构建代码以检查所有文本中的复制粘贴或类似块。
是否有任何现有的 Java/Groovy 库可以帮助我进行该分析?
我的第一个想法是使用 PMD 的 CopyPasteDetector,但它过于面向分析真实代码。我不知道如何使用它来分析普通文本。
你可能想尝试Dude https://github.com/jopereira/dude,我自己的快速但肮脏的文本文件重复检测器。除了为您提供两个文本文件之间共享量的快速估计之外,它还可以确定一组文件之间的复制,绘制一个漂亮的共享关系图。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)