检测复制或相似的文本块

2024-01-03

我有很多关于 Markdown 格式编程的文本。有一个构建过程能够将这些文本转换为 Word/HTML,并执行简单的验证规则,例如拼写检查或检查文档是否具有所需的标题结构。我想扩展该构建代码以检查所有文本中的复制粘贴或类似块。

是否有任何现有的 Java/Groovy 库可以帮助我进行该分析?

我的第一个想法是使用 PMD 的 CopyPasteDetector,但它过于面向分析真实代码。我不知道如何使用它来分析普通文本。


你可能想尝试Dude https://github.com/jopereira/dude,我自己的快速但肮脏的文本文件重复检测器。除了为您提供两个文本文件之间共享量的快速估计之外,它还可以确定一组文件之间的复制,绘制一个漂亮的共享关系图。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

检测复制或相似的文本块 的相关文章

随机推荐

  • java.lang.NoClassDefFoundError: android/graphics/drawable/Icon

    到目前为止 我仅对一位使用 root 手机 SM G900R7 Android 4 4 2 的用户遇到此错误 错误是这样的 Fatal Exception java lang NoClassDefFoundError android gra
  • 在 C#/WPF 中获取 PathGeometry(行)的长度

    如果我有一条闭合路径 我可以使用Geometry GetArea 来近似我的形状的面积 这太棒了 节省了我很多时间 但是周围有什么东西可以帮助我找到一条未闭合路径的长度吗 我现在能想到的最好办法就是确保我正在使用PathGeometry并致
  • 如何使用 PCL 读取 .ply 文件

    我可以使用这个程序读取 pcd 数据 include
  • Python 字符串不区分大小写

    我知道您可以使用 ctypes 库对字符串执行不区分大小写的比较 但是我也想执行不区分大小写的替换 目前我知道做到这一点的唯一方法是使用正则表达式 通过它来做到这一点似乎有点糟糕 Replace 是否有不区分大小写的版本 您可以将标志 re
  • 使用 Python 的“子进程”运行“导出”命令不起作用

    subprocess run export FOO BAR shell True 这根本行不通 我不知道为什么 我想做的就是从 python 3 5 1 脚本中设置一个环境变量 当我运行上面的行时 什么也没有发生 没有引发任何错误 当我自己
  • 如何在Python中返回递归函数的列表

    我试图从函数返回一个字符串列表 该函数计算没有连续 0 的所有可能排列 为此 我正在运行一个有效的递归函数 但我需要创建一个包含结果的列表 Function to print all n digit binary strings witho
  • 如何在 C# 中将 HTML 设置为剪贴板?

    我想将 HTML 格式的富文本放在剪贴板上 这样当用户粘贴到 Word 时 它将包含源 HTML 格式 Using the Clipboard SetText method http msdn microsoft com en us lib
  • 过时的 Kotlin 运行时

    当我想更新 kotlin 运行时时收到此消息 kotlin stdlib 1 1 2 4 库中的 Kotlin 运行时版本是 1 1 2 4 而插件版本是 1 1 3 release Studio 3 0 2 应更新运行时库以避免兼容性问题
  • 在 matplotlib 中将图形尺寸设置为大于屏幕尺寸

    我正在尝试创建数字matplotlib这在期刊文章中读起来很好 我有一些较大的图形 带有子图形 我想在纵向模式下占据几乎整个页面 具体来说 6 5 x9 对于美国信纸上具有 1 边距的整页图形 我可以设置轻松调整图形尺寸figsize范围
  • R 中可以有多行注释吗? [复制]

    这个问题在这里已经有答案了 我找到了这个旧线程 http r 789695 n4 nabble com How to comment in R tt882882 html none 一年多前 这解释了为什么 R 不支持多行注释 例如 PHP
  • Entity Framework 4 加载并包含组合

    如果我有 3 张表 表1 表2 表3 并且Table3有一个针对Table2的FK 而Table2也有一个针对Table1的FK 然后我像这样加载我的对象 using Entities entities new Entities Table
  • 如何在 Safari 中使用 AJAX 调用之前的 WebShareAPI?

    当用户单击我们的付费网站上的共享按钮时 我们会通过异步调用生成一个令牌 该令牌允许人们单击共享链接绕过付费墙 我添加了对 Web Share API 的支持 在触发之前首先调用令牌navigator share 沿着这些思路 fetchCa
  • 如何从 Z 缓冲区获取 Z 值

    我在 OpenGL 中绘图时遇到问题 我需要准确查看深度缓冲区中放置的值 谁能告诉我如何检索这些值 谢谢 克里斯 Use glReadPixels http www opengl org sdk docs man xhtml glReadP
  • C# 建立从笔记本电脑内部蓝牙 4.0 到蓝牙低功耗 (BLE) 外设的流

    我正在尝试编写一个连接到蓝牙低功耗设备 BLE 的程序 然后在更新时或在给定的时间间隔读取特征 我的外设是 Texas Instruments CC2540 BLE 设备 我的出发点是查看 TI 的示例程序 它有一个心率监视器 http p
  • 我可以在 El Capitan 上安装 Xcode 8.3

    我可以在不更新 Mac 操作系统的情况下安装 xcode 8 3 即 OS X El Capitan 版本 10 11 6 我在苹果网站上找不到任何参考资料 但是 这个link https stackoverflow com a 10335
  • 使用 PdfDocument 在 Android 中生成自定义尺寸的 PDF

    Pdf文档 https developer android com reference android graphics pdf PdfDocument是一个可以从 Android 视图生成 PDF 的类 您只需添加一个视图即可PdfDoc
  • 如何将复选框标记为已签入角度4

    我对 Angular 2 很陌生 我需要在单击按钮时标记复选框 我在循环中有一些复选框 例如 tr td td tr
  • 节点在异步函数完成之前退出

    我有一个返回承诺的函数 我试图在异步函数中等待它 问题是程序立即完成 而不是等待承诺 异步测试 js function doItSlow const deferred new Promise setTimeout gt console lo
  • 最好将项目添加到集合中,或将最终列表转换为集合?

    我有一些数据看起来像这样 ID1 ID2 ID3 ID1 ID4 ID5 ID3 ID5 ID7 ID6 其中每一行都是一个组 我的目标是为每个 ID 建立一个字典 然后是与其共享 gt 1 个组的一组其他 ID 例如 此数据将返回 ID1
  • 检测复制或相似的文本块

    我有很多关于 Markdown 格式编程的文本 有一个构建过程能够将这些文本转换为 Word HTML 并执行简单的验证规则 例如拼写检查或检查文档是否具有所需的标题结构 我想扩展该构建代码以检查所有文本中的复制粘贴或类似块 是否有任何现有