在Python脚本中检测相似文档的算法[关闭]

2023-11-25

我需要编写一个模块来检测类似文档。我读过很多关于文档指纹技术等的论文,但我不知道如何编写代码或实现这样的解决方案。该算法应该适用于中文、日语、英语和德语,或者与语言无关。我怎样才能做到这一点?


贝叶斯过滤器正是有这个目的。这是您在大多数识别垃圾邮件的工具中都能找到的技术。

例如,检测一种语言(来自http://sebsauvage.net/python/snyppets/#bayesian) :

from reverend.thomas import Bayes
guesser = Bayes()
guesser.train('french','La souris est rentrée dans son trou.')
guesser.train('english','my tailor is rich.')
guesser.train('french','Je ne sais pas si je viendrai demain.')
guesser.train('english','I do not plan to update my website soon.')

>>> print guesser.guess('Jumping out of cliffs it not a good idea.')
[('english', 0.99990000000000001), ('french', 9.9999999999988987e-005)]

>>> print guesser.guess('Demain il fera très probablement chaud.')
[('french', 0.99990000000000001), ('english', 9.9999999999988987e-005)]

但它可以检测您要训练的任何类型:技术文本、歌曲、笑话等。只要您可以提供足够的材料,让工具了解您的文档是什么样子的。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在Python脚本中检测相似文档的算法[关闭] 的相关文章

  • 图中使用 K 个反向边的所有最短路径

    假设我有一个有向图 G V E 其边的权重为正整数 我需要做的是使用最多 K 整数 个反向边找到所有顶点之间的最短路径 我的意思是 如果我们在边 u 处 并且只有一条从 v 到 u 的有向边 只要我们没有在这条路径上使用 K 个反向边 我们
  • 从终端调用时 uvicorn 不工作

    我尝试通过 pip3 在系统上安装 uvicorn 这有效 但是我无法从命令行运行相同的命令 有关如何解决此问题的任何指示 Requirement already satisfied uvicorn in home vhawk19 loca
  • 出现导入错误:无法从“随机”导入名称“随机”[重复]

    这个问题在这里已经有答案了 我在我的计算机上多次运行我的代码 但没有出现此错误 但突然间这个来了 File e Python 3 8 0 lib site packages comtypes client code cache py lin
  • Python 按文件夹模块导入

    我有一个目录结构 example py templates init py a py b py a py and b py只有一个类 名称与文件相同 因为它们是猎豹模板 纯粹出于风格原因 我希望能够在中导入和使用这些类example py像
  • 地图与星图的性能?

    我试图对两个序列进行纯Python 没有外部依赖 逐元素比较 我的第一个解决方案是 list map operator eq seq1 seq2 然后我发现starmap函数来自itertools 这看起来和我很相似 但事实证明 在最坏的情
  • Pygame 玩家精灵没有出现

    我一直在为学校计算机课做这个项目 但无法让玩家精灵出现 有人可以帮忙吗 当我运行主游戏循环时 除了玩家精灵之外 所有内容都正确显示 它应该由于箭头输入而在屏幕上移动并受到重力的影响 当我删除图像并仅使用对象类和矩形时 该代码也有效 impo
  • 确定Python模块中的函数是否可用

    我正在研究一些使用Python套接字的代码socket fromfd http docs python org library socket html socket fromfd功能 但是 此方法并非在所有平台上都可用 因此我正在编写一些后
  • 将列表传递给 PyCrypto 中的 AES 密钥生成器

    我尝试使用 Pycrypto 生成 AES 密钥 但收到以下错误 类型错误 列表 不支持缓冲区接口 对于以下声明 aescipher AES new mykey AES MODE ECB mykey 属于类型list并包含 18854347
  • 字母表中的加密和解密 - Python GCSE

    我目前正在尝试为学校编写一个程序 以便加密和解密输入的消息 我需要加密或解密的消息仅在字母表中 没有其他符号或密钥 例如 使用消息车加密输入的偏移量为 5 我希望它输出 afs 有人可以帮忙吗 这是我目前的代码 def find offse
  • PyPI 项目页面中的“Py 版本”是什么意思?这有关系吗?

    我注意到 大多数在 PyPI 上发布的项目在其项目页面中都包含 Py 版本 元数据 但它们的值各不相同 如果包不是通用包或不是纯 python 包 那么它们的值是不同的 这是可以理解的 以便表示它们的目标平台 例如鼻页 https pypi
  • Python argparse store_true 并将可选选项存储在一个参数中[重复]

    这个问题在这里已经有答案了 我需要识别是否单独给出参数或带有可选字符串或两者都没有 parser add argument options parser parse args so prog py arg 应该存储 进入选项 arg pro
  • Cython:为什么 size_t 比 int 快?

    更改某些 Cython 变量的类型int输入size t可以显着减少某些功能的时间 30 但我不明白为什么 例如 cimport numpy as cnp import numpy as np def sum int cnp int64 t
  • Python3.1中的视图?

    Python3 1中的视图到底是什么 它们的行为方式似乎与迭代器类似 并且它们也可以具体化为列表 迭代器和视图有何不同 据我所知 视图仍然附加到创建它的对象上 对原始对象的修改会影响视图 来自docs http docs python or
  • 在 Docker 容器内运行时,如何自动在 API 路由文件中进行 FASTAPI 拾取更改?

    我通过 docker 运行 FastApi 在 docker compose 中创建一个名为 ingestion data 的服务 我的 Dockerfile FROM tiangolo uvicorn gunicorn fastapi p
  • Python 类方法的示例用例是什么?

    我读了Python 中的类方法有什么用 https stackoverflow com questions 38238 what are class methods in python for但那篇文章中的例子很复杂 我正在寻找 Pytho
  • 安排 Asyncio 任务每 X 秒执行一次?

    我正在尝试创建一个 python 不和谐机器人 它将每隔 X 秒检查一次活跃会员 并根据会员的在线时间奖励积分 我正在使用 asyncio 来处理聊天命令 这一切都正常 我的问题是找到一种方法来安排每隔 X 秒异步检查一次活动成员 我已经阅
  • 使用 Pandas 和 Group By 绘制堆叠直方图

    我正在使用如下所示的数据集 Gender Height Width Male 23 4 4 4 Female 45 4 4 5 我想可视化高度和宽度的堆叠直方图 我希望每个图有两个堆叠的直方图 每个性别一个 这是文档中的堆叠直方图 如果存在
  • Python pip 安装错误 [SSL: CERTIFICATE_VERIFY_FAILED]

    我已经尝试解决这个问题有一段时间了 由于某种原因 我陷入了 ssl 问题 并且不知道发生了什么 问题 我已经安装了 python2 7 和 easy install2 7 但是当尝试使用 easy install2 7 安装 pip 时 出
  • 将 pandas 数据框中的多列更改为日期时间

    我有一个 13 列和 55 000 行的数据框 我正在尝试将其中 5 行转换为日期时间 现在它们返回类型 对象 我需要转换这些数据以进行机器学习 我知道如果我这样做 data birth date pd to datetime data b
  • PyQt QFileDialog exec_ 很慢

    我正在使用自定义QFileDialog因为我想选择多个目录 但是exec 功能非常慢 我不明白为什么 我正在使用最新版本的 PyQt 代码片段 from PyQt4 import QtGui QtCore QtNetwork uic cla

随机推荐

  • C 中 ASCII 字符串的压缩

    我有一些 C 代码 将 ASCII 字符串作为四字节长度存储在内存中 后跟字符串 字符串长度范围为 10 250 字节 为了减少占用 我想动态地单独压缩每个字符串 仍然存储 压缩字符串的 长度 后跟压缩字符串 我不想在比单个字符串更大的范围
  • Spring @Transactional 注解属性优先级/继承

    如果是REQUIRED当调用方方法本身是事务性的时 如果它们不同 当前方法是否会覆盖封闭的事务属性 例如 rollbackFor 插图 Class A Transactional propagation Propagation REQUIR
  • mPDF 中的自定义字体无法加载

    我正在使用 mPDF 7 x 版本并尝试遵循此文档 https mpdf github io fonts languages fonts in mpdf 7 x html 我就是无法让它发挥作用 没有错误 但字体仍然是默认的 mPDF 字体
  • T4 用于夏普架构/Northwind 问题

    我刚刚下载了 Sharparchitecture Northwind 我正在尝试 让粗脚手架开始工作 除了添加之外我什么也没改变 缺少对该类库的引用 我试着跑 ScaffoldingGeneratorCommand tt 和我遇到了以下 3
  • 如何将 nohup 输出重定向到指定文件?

    我从其他示例中尝试过的所有内容似乎都不起作用 我正在尝试使用 nohup 运行我的应用程序 但将应用程序的输出附加到文件中 我尝试过以下一些方法 这些似乎都不起作用 nohup dotnet application dll gt out l
  • WCF 中的 HttpContext

    为了使用 httpContext 我更改了 app config 并添加了
  • PHP字典类?或者替代方案?

    基本上 我正在寻找的是某种在 PHP 中实现字典的类或方法 例如 如果我正在构建一个单词解密器 假设我使用了字母 a e l p p 排列的可能性是巨大的 我如何只显示那些实际的单词 苹果 苍白等 Thanks 经典的单词查找问题可以使用以
  • 实体框架创建空迁移,但坚持认为我的模型不同

    今天是悲伤的一天 今天我看到的第一件事是 EF 异常说 自数据库创建以来 支持 DomainContext 上下文的模型已发生变化 已经接近午夜了 我仍然看到这个错误 这是我职业生涯的终结 我很确定模型中没有任何变化 但错误却出现了 我尝试
  • 如何阻止 Apache 中的特定用户代理

    我正在配置我的 Django 应用程序以通过电子邮件向我发送错误 异常 通常没有问题 但我的电子邮件托管在 Office 365 上 并且 Microsoft 似乎会自动扫描和加载电子邮件中的 URL 结果是它命中了我的 Django 应用
  • PHP 检测文件系统编码/保存具有非拉丁文件名的文件

    我需要使用 PHP 将非拉丁文件名的文件保存在文件系统上 我想让这个工作跨平台 我如何知道可以使用什么编码来写入文件 我知道许多现代文件系统都是基于 UTF 8 的 这是正确的吗 但我怀疑 Windows XP 是基于 UTF 8 的 那么
  • 为什么setContextClassLoader()方法要放在Thread上呢?

    为什么是setContextClassLoader 方法置于Thread 什么不同的线程有不同的类加载器 问题是如果我延长一个ClassLoader 加载了一些新类 到我的自定义类加载器 现在 我希望它成为上下文类加载器 所以我调用该方法T
  • AtomicInteger 等原子包类如何工作

    我读过 使用原子包类使我们能够进行线程安全 无锁编码 但我不太确定原子包类中的方法在不使用锁或任何同步关键字的情况下如何提供线程安全性 任何帮助都将不胜感激 他们使用非常低级的指令 例如比较和交换 以及来自的多种其他方法sun misc 不
  • CONNECTIVITY_ACTION 的 BroadcastReceiver 始终在intent.getExtras() 中返回 null

    我正在尝试接收来自 CONNECTIVITY ACTION 的广播消息 register BroadcastReceiver on network state changes final IntentFilter mIFNetwork ne
  • python 以什么顺序显示字典键? [复制]

    这个问题在这里已经有答案了 gt gt gt D a 1 b 2 c 3 gt gt gt D a 1 c 3 b 2 我刚刚在 Python shell 中执行了此操作 我只是想知道为什么键 c 会在键 b 之后 该顺序与它们内部的工作方
  • jQuery.validator.unobtrusive.adapters.addMinMax 往返,在 MVC3 中不起作用

    我正在使用 DataAnnotations jQuery validate 和 jquery validate unobtrusive 创建一个日期范围验证器 我已经阅读了以下内容 http bradwilson typepad com b
  • 观察类中静态变量的值?

    我有一堂课 有一个static var存储当前在线连接状态的位置 我想观察的价值ConnectionManager online通过其他课程 我想这样做KVO 但声明一个static变量为dynamic导致错误 class Connecti
  • 如何完全更改 tkinter.ttk Treeview 上的背景颜色

    我一直在尝试为我最近使用 tkinter 在 python 3 4 4 中开发的一个项目制作一个目录浏览器 我不希望背景成为默认颜色 因此我已经开始更改大多数小部件的背景 直到到达Treeview 之前我没有遇到任何麻烦 我不太擅长 ttk
  • 如何使用 CSS 轻松地将

    这个问题在这里已经有答案了 我正在尝试水平居中 div 页面上的块元素并将其设置为最小宽度 最简单的方法是什么 我想要 div 元素与页面的其余部分内联 我将尝试画一个例子 page text page text page text pag
  • JavaScript:“文档”和“HTML”之间有什么区别

    Example document click function blah and html click function blah 我将分几个部分来回答这个问题 在 JavaScript 不仅仅是 jQuery 而是所有 JavaScrip
  • 在Python脚本中检测相似文档的算法[关闭]

    很难说出这里问的是什么 这个问题模棱两可 含糊不清 不完整 过于宽泛或言辞激烈 无法以目前的形式合理回答 如需帮助澄清此问题以便重新打开 访问帮助中心 我需要编写一个模块来检测类似文档 我读过很多关于文档指纹技术等的论文 但我不知道如何编写