使用 python nltk 查找两个网页之间的相似性?

2023-11-22

我想知道两个网页是否相似。有人可以建议带有 wordnet 相似性函数的 python nltk 是否有帮助以及如何帮助?在这种情况下使用的最佳相似度函数是什么?


The spotsigs提到的论文乔伊塞斯坎解决了内容重复检测问题,其中包含大量值得深思的内容。

如果您正在寻找关键术语的快速比较,nltk标准功能可能就足够了。

With nltk您可以通过查找来提取术语的同义词synsets包含于WordNet

>>> from nltk.corpus import wordnet

>>> wordnet.synsets('donation')
[Synset('contribution.n.02'), Synset('contribution.n.03')]

>>> wordnet.synsets('donations')
[Synset('contribution.n.02'), Synset('contribution.n.03')]

它理解复数形式,还告诉您同义词对应于哪个词性

Synsets存储在树中,更具体的术语位于叶子,更通用的术语位于根部。根项称为上位词

您可以通过术语与常见术语的接近程度来衡量相似性hypernym

注意不同的词性,根据 NLTK 食谱,它们没有重叠的路径,所以你不应该尝试测量它们之间的相似性。

比如说,你有两个学期donation and gift,你可以从synsets但在这个例子中我直接初始化它们:

>>> d = wordnet.synset('donation.n.01')
>>> g = wordnet.synset('gift.n.01')

食谱推荐Wu-Palmer相似度方法

>>> d.wup_similarity(g)
0.93333333333333335

这种方法为您提供了一种快速方法来确定所使用的术语是否对应于相关概念。看一眼使用 Python 进行自然语言处理看看您还可以做些什么来帮助您分析文本。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 python nltk 查找两个网页之间的相似性? 的相关文章

  • 在 Clojure 中处理两个序列中的值对

    我正在尝试加入 Clojure 社区 我经常使用 Python 我广泛使用的功能之一是 zip 方法 用于迭代值对 在 Clojure 中是否有一种 聪明且简短的 方法可以实现相同的目标 另一种方法是简单地将 map 与一些按顺序收集其参数
  • Pandas 中的索引如何工作?

    我是Python新手 这似乎是一个需要问的基本问题 但我真的很想了解这里发生了什么 import numpy as np import pandas as pd tempdata np random random 5 myseries on
  • Pandas groupby:根据另一列中的值更改一列中的值

    我会尽力解释我的问题 但我是 Pandas 新手 所以请耐心等待 我有一个 Pandas 数据框df Random ID Seq ID Type Seq Token 0 8 1 User First 1 8 2 Agent Second 2
  • 加快 pandas groupby 中的滚动总和计算

    我想按组计算大量组的滚动总和 但我很难快速地完成它 Pandas 内置了滚动和展开计算器的方法 这是一个例子 import pandas as pd import numpy as np obs per g 20 g 10000 obs g
  • Flask / Werkzeug - 套接字卡在 CLOSE_WAIT 中

    我遇到过一种情况 API 构建于Flask 宁静 https github com flask restful flask restful间歇性变得无反应 目前它从 Werkzeug 运行 我知道它仅用于非生产用途 并且是单线程的 让事情变
  • Python 的贝叶斯垃圾邮件过滤库

    我正在寻找一个可以进行贝叶斯垃圾邮件过滤的 Python 库 我查看了 SpamBayes 和 OpenBayes 但两者似乎都没有维护 我可能是错的 谁能推荐一个好的 Python 或 Clojure Common Lisp 甚至 Rub
  • 确定 TCP Listen() 队列中当前积压的连接数

    有没有办法找出currentLinux 上 TCP 套接字上等待 Accept 的连接尝试次数 我想我可以在每个事件循环上点击 EWOULDBLOCK 之前计算成功的 Accept 数量 但我使用的是隐藏这些细节的高级库 Python Tw
  • 从 DST 感知日期时间对象在 Dataframe 中创建 pandas DatetimeIndex

    我从在线 API 收集了一系列数据点 每个数据点都有一个值和一个 ISO 时间戳 不幸的是我需要循环它们 所以我将它们存储在临时的dict然后从中创建一个 pandas 数据帧并将索引设置为时间戳列 简化示例 from datetime i
  • SyntaxError:创建类实例时语法无效[关闭]

    Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案 我在 Python shell 3 3 2 中运行这段代码 但它给了我SyntaxError invalid syntax cla
  • 使用 Keras 时,验证集中未见的类别会出现错误

    我有由数值变量和分类变量组成的数据 分类变量有很多类别 因此我使用嵌入来表示这些类别 我的模型是一个简单的神经网络 我知道当你定义嵌入层时你需要通过input dim number of categories 1为了解释训练中看不见的类别
  • 使用 cv2 在 python 中创建多通道零垫

    我想用 cv2 opencv 包装器在 python 中创建一个多通道 mat 对象 我在网上找到了一些例子 其中 c Mat zeros 被 numpy zeros 替换 这看起来不错 但似乎没有多通道类型适合 看代码 import cv
  • 无法使用 pandas 获取平均日期

    我有一个时间序列数据集 我想从中获取平均日期 这是一个人为的示例 显示 pandas datetime64 对象的溢出错误 import pandas as pd import numpy as np rng pd date range 2
  • 从 Keras 检查点加载

    我正在 Keras 中训练一个模型 我使用以下代码保存了所有内容 filepath project model hdh5 checkpoint ModelCheckpoint project model hdf5 monitor loss
  • 将人员分配到床位 - 自动化方法[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我每年都会帮助举办青年营 将与会者分配到卧室是一项艰巨的任务 有 92 个卧室 活动持续一周 与会者停留的时间长短不一 而且床需要重复
  • 异常:AttributeError:使用 Azure Function 和 Python 的“DefaultAzureCredential”对象没有属性“signed_session”

    我编写了一个运行 Python3 的 Azure 函数来简单地打开 Azure VM 该函数应用程序具有系统分配的托管标识 我已为其授予 VM 贡献者角色 为了让该函数使用托管标识 我使用了 DefaultAzureCredential 类
  • 在 Django 1.7 中使用 html 发送电子邮件

    In 发送邮件 我们有一个新参数 html message Docs https docs djangoproject com en dev topics email send mail I have 电子邮件 html文件 我想发送我的消
  • 为文件中的每个单词创建字典并计算其后面的单词的频率

    我正在尝试解决一个难题 却迷失了方向 这就是我应该做的 INPUT file OUTPUT dictionary Return a dictionary whose keys are all the words in the file br
  • 需要FTP文件而不存储解释器文件通过Python保存在本地

    我正在尝试做一些图像解释器并尝试将它们直接存储到 FTP 服务器 但我的步骤是从本地文件夹上传图像 然后将其转换为蒙版图像 然后它将获得最终输出 但是在我的蒙版和最终输出场景中 临时图像被保存在本地 这是我不想要的 但如果不将图像存储在本地
  • Django ALLOWED_HOSTS 与 CORS(django-cors-headers)

    ALLOWED HOSTS 和 CORS 之间有什么区别 如果我定义了 ALLOWED HOSTS 我还需要定义 CORS 吗 我没有使用 django 模板 我也有可能动态定义这两个吗 我认为没有 我使用 django 作为后端 并在不同
  • Bokeh 中的相关图问题

    当我通过绘制数据时rect 来自 Bokeh 我在可视化中得到了一条由水平块组成的单行 数据打印正确 据我所知格式正确 type 验证它们都是列表 谁能诊断这个吗 如果问题不在这里 那么我可以附加更多代码 如果需要 在 Ubuntu 14

随机推荐

  • `exec':字符串包含空字节(ArgumentError)

    cmd snv co rep username svn user password pxs puts cmd this code wotks and prints all vars values normally exec cmd xpto
  • 无法为 Android 教程构建 GStreamer

    我在尝试构建 GStreamer Android 教程时遇到了许多问题 我的环境是 Mac OS X 7 Android SDK 版本 17 安卓NDK 8d 我能够在 Eclipse 中和命令行中构建和运行 NDK 示例 我已经下载了ht
  • YAML 预处理器/宏处理器

    有没有一种简单的方法可以将预处理器 宏处理器与 YAML 文件一起使用 即我正在考虑类似于 C 预处理器的东西 我们有很多描述各种数据结构的平面文本文件 它们目前采用我们自己的内部格式 并使用内部解析器读取 我想切换到 YAML 文件以利用
  • SQLCLR 和 DateTime2

    使用 SQL Server 2008 Visual Studio 2005 net 2 0 SP2 支持新的 SQL Server 2008 数据类型 我正在尝试编写一个 SQLCLR 函数 该函数将 DateTime2 作为输入并返回另一
  • 如何正确处理UnsafeMutablePointer

    我有点困惑 我什么时候必须调用 free 以及何时 destroy dealloc 我正在编写一个学习核心音频的简短代码片段 我想如果我打电话UnsafeMutablePointer
  • iPhone-Twitter API 获取用户关注者/正在关注

    我希望能够使用适用于 ios 5 的 Twitter API 将所有用户关注者和关注用户名放入NSDictionary 但我遇到了障碍 我不知道如何使用 Twitter API 来执行此操作 但我的主要问题是首先获取用户的用户名 当我什至不
  • 为什么 PHP 的自动加载功能在 CLI 模式下不起作用?

    这更多的是为了我自己的个人启发 但是 这是一直困扰我的事情 为什么 PHP 在 CLI 模式下不能执行 自动加载 我多年来一直在阅读此免责声明 但我从未读过任何涉及原因的内容 http php net manual en language
  • 如何创建简单的 Typescript 元数据注释

    我有一些字段需要在发送到服务器端之前进行格式化 所以 我想使用自定义序列化器序列化我的打字稿类的一些字段 这样的事情是理想的 export class Person serializeWith MyDateSerializer privat
  • 使用带有一个附加参数的函数的 map() 的 JS 回调[重复]

    这个问题在这里已经有答案了 我正在尝试找到一种使用 JS 的方法Array prototype map 具有一个附加参数的函数的功能 如果可能的话 我想avoid必须重写内置的Array prototype map 该文档非常好 但没有涵盖
  • JavaScript 中 new Boolean() 的用途是什么?

    有什么用 var flag new Boolean false 相比 var flag false 你什么时候真正使用new Boolean 全局函数Boolean 可以在没有调用时用于类型转换new eg var foo Boolean
  • 实现 GetHashCode [重复]

    这个问题在这里已经有答案了 可能的重复 重写 System Object GetHashCode 的最佳算法是什么 怎样才是 GetHashCode 方法的良好实现 我做了一些谷歌搜索 发现了一些好话 MSDN 但似乎逻辑只是操作存储为类中
  • 打印其源代码的 Python 脚本

    是否可以 不一定使用 python 自省 打印脚本的源代码 我想执行一个简短的 python 脚本 它还可以打印其源代码 这样我就可以看到执行了哪些命令 脚本是这样的 command1 command2 command3 print som
  • 在 Neo4j 中,当粒度级别可以不受限制时,应该使用什么级别的特异性?

    使用图形数据库时最难理解的事情是选择粒度级别 假设我有一个图表 显示一周中某些日子发生的事情 垃圾日 周二炸玉米饼 周五自带酒水等 我可以将每一天设为一个节点 周一 周二 周三 这样 查询特定日期的速度很快 我可以创建一个名为 Day 的节
  • 通过 NativeActivity NDK 访问(更快的轮询)加速度计

    我已经搜索了有关使用 NDK 更快地轮询加速度计的教程 答案 但尚未找到求解器 刚刚找到了 androiddevelopers 文档here 我需要的是每秒大约 100 个样本 100Hz 的轮询加速度 默认情况下我的设备 带有姜饼 2 3
  • iOS8中如何在UIAlertController中添加UIDatePicker?

    我正在开发一个已经在 iOS 7 上发布的项目 但现在由于操作表出现问题 所以我现在正在实现 UIAlertController 以下是我用于通过 UIPicker 显示 UIAlertController 的代码 alertControl
  • 无法通过 Composer 安装包:缺少 PHP 扩展 zip

    我尝试在 Ubuntu PC 上使用 Composer 安装 laravel 安装程序 但在安装过程中出现此错误 您的要求无法解决为一组可安装的软件包 Problem 1 laravel installer v1 4 1 requires
  • 如何使用 C 在 Unix 上复制文件?

    我正在寻找 Win32 的 Unix 等效项CopyFile 我不想通过编写自己的版本来重新发明轮子 无需调用不可移植的 API 例如sendfile 或向外部公用事业提供资金 70 年代有效的方法现在仍然有效 include
  • 如何在 MongoDB 聚合中使用 $lookup 作为 INNER JOIN?

    我用过 lookup在我的聚合查询中 但正如我所见 它的工作原理是LEFT OUTER JOIN 我想获取完全匹配的文档 INNER JOIN lookup 有什么办法可以完成吗 这是我的inventory收藏 1 id 1 sku abc
  • 我想在运行时获取变量的类型

    我想在运行时获取变量的类型 我该怎么做呢 因此 严格来说 变量的类型 始终存在 并且可以作为类型参数传递 例如 val x 5 def f T v T v f x T is Int the type of x 但取决于你想要什么do
  • 使用 python nltk 查找两个网页之间的相似性?

    我想知道两个网页是否相似 有人可以建议带有 wordnet 相似性函数的 python nltk 是否有帮助以及如何帮助 在这种情况下使用的最佳相似度函数是什么 The spotsigs提到的论文乔伊塞斯坎解决了内容重复检测问题 其中包含大