使用 WordNet 确定两个文本之间的语义相似度？

2024-01-19

如何使用 WordNet 确定 python 中两个文本之间的语义相似度？

明显的预处理是删除停用词和词干，但是然后呢？

我能想到的唯一方法是计算两个文本中每个单词之间的 WordNet 路径距离。这是一元语法的标准。但这些都是大型（400 个单词）文本，是自然语言文档，其中的单词没有任何特定的顺序或结构（英语语法强加的顺序或结构除外）。那么，您会比较文本之间的哪些单词？你会如何在Python中做到这一点？

您可以做的一件事是：

杀死停用词
找到尽可能多的与同一文档中其他单词的同义词和反义词有最大交集的单词。我们称这些为“重要的话”
检查每个文档的重要单词集合是否相同。它们越接近，您的文档在语义上就越相似。

还有另一种方法。根据每个文档中的句子计算句子树。然后比较两个森林。很久以前，我在一门课程中做了一些类似的工作。这是代码 https://github.com/inspectorG4dget/Semantic-Document-Comparison（请记住，这是很久以前的事了，而且是为了课堂。所以至少可以说，代码非常hacky）。

希望这可以帮助

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 WordNet 确定两个文本之间的语义相似度？的相关文章

使用 scipy.signal.spectrogram 在 pyqtgraph 中绘制 wavfile 的频谱

我有一个用于音乐和语音分析的 PyQt 加 pyqtgraph 程序我想绘制 wav 文件的频谱使用 scipy python 包计算我可以在 matplotlib 中完成但由于 matplotlib 的性能我需要切换到 pyqt
反转 Python 整数的位

给定一个十进制整数例如 65 如何反转 Python 中的底层位即以下操作 65 01000001 10000010 130 看来这个任务可以分为三步将十进制整数转换为二进制表示形式反转位转换回十进制第 2 步和第 3 步看起来
Python：os.remove 不起作用

为什么不是os remove string 为我工作我的代码写如下 try os remove a output current time trmv successful message message n output message
如何将二维数组作为 multiprocessing.Array 传递给 multiprocessing.Pool？

我的目标是将父数组传递给mp Pool并填充它2s 同时将其分发到不同的进程这适用于一维数组 import numpy as np import multiprocessing as mp import itertools def wor
代码终止后保持 matplotlib / pyplot 窗口打开

我希望 python 绘制一个图在不阻塞控制流的情况下显示它并在代码退出后使图保持打开状态这可能吗这个以及相关的主题存在于许多其他线程中见下文但我无法让情节保持开放且非阻塞例如如果我使用pyplot ion before p
xlwt 可以在单元格中创建一个包含标题和链接变量的超链接吗？

例如如何更改以下行使 test 为变量 T 且 http google com http google com 是变量L ws write 0 0 xlwt Formula test HYPERLINK http google com
无法启动 Windows 快捷方式

我正在尝试使用 python 启动 Windows 我已经尝试了 os system subprocess call os startfile 等多种方法但总是收到错误消息指出路径不存在我知道路径是正确的因为我尝试在 CMD EXE
通过 beautiful soup python 找到所有字体大小大于最常见字体的跨度样式

我了解如何从特定的位置获取文本div or span这个问题的风格如何找到最常见的跨度样式 https stackoverflow com questions 40762692 is there a way to find the mos
将 Python 列表（JSON 或其他）插入 MySQL 数据库

所以我在Python中有一堆数组数据嗯相反我有一个清单我试图将此数组存储到 MySQL 数据库中的单个单元格中我尝试使用 JSON 来序列化我的数据但也许我不明白 JSON 是如何工作的因此在连接到我的数据库后我尝试了上游
初始化整数变量以进行比较

我正在学习麻省理工学院的开放课件课程计算机科学和 Python 编程简介 https ocw mit edu courses electrical engineering and computer science 6 0001 introd
谷歌colab录音，如何实现更精确的方式告诉用户开始对着麦克风说话

我正在尝试创建一个为机器学习项目录制音频的程序我想使用 google colab 这样人们就不必在他们的系统上安装或运行任何东西我在网上找到了这个录制和播放音频的示例单元格 1 包含用于录制音频的 js 代码和用于将其转换为字节对象的
使用 Django 添加额外 \\ 字符的 JSON 编码

我正在尝试创建一个函数将包含消息和 Django 模型实例的字典转换为 JSON 然后我可以将其传回客户端例如我在 models py 中定义了模型 Test from django db import models class Te
Python列表错误还是我错了？

我构建了一个 3 级嵌套列表 run on Python 3 2 3 32 bit on Win 7 L2 list 0 for i in range 2 L3 list L2 for i in range 3 L4 list L3 for
Django Rest框架Json解析

我想解析传入的POSTdjangoviews py 文件中的数据发布数据 number 17386372 data banana apple grapes 这是我尝试读取上述传入数据的方法request views py class Fr
Django Admin Media 前缀 URL 问题

我有以下文件夹结构 src BAT templates admin base html src BAT media base css src BAT media admin media base css 设置 py MEDIA ROOT o
DataFrame 对象没有属性“sort_values”

dataset pd read csv dataset csv fillna 100 dataset Id 0 dataset i 0 dataset j 0 entries dataset dataset Id 0 print type
仅将唯一行插入 SQLite (python)

我在用着cursor executemany将 CSV 文件中的批量行插入到 SQLite 表中根据主键字段其中一些行预计会重复当我执行该命令时可以预见的是我会收到完整性错误并且不会插入任何内容如何有选择地仅插入非重复行而无
与仅调用依赖函数/类相比，在 FastAPI 中使用 Depends 有哪些优点？

FastAPI 提供了way https fastapi tiangolo com tutorial dependencies 通过其自己的依赖关系解析机制来管理依赖关系例如数据库连接它类似于一个pytest夹具系统简而言之您在函数
pyodbc 无法正确处理 unicode 数据

我确实使用 pyodbc 成功连接了 MySQL 数据库并且它可以很好地处理 ascii 编码的数据但是当我打印使用 unicode utf8 编码的数据时它引发了错误 UnicodeEncodeError ascii codec c
gis计算点和多边形/边界之间的距离

我想使用 python 计算一个点到一个国家边界之间的距离shapely 它应该工作得很好 point distance poly 例如在这里展示查找多边形形状上最近点的坐标 https stackoverflow com question

随机推荐

Git 克隆代替

git克隆不支持insideOf吗我尝试过 git v1 8 3 1 和 v2 16 5 我的 gitconfig 包含 url home USER pub insteadOf GITPUB 添加遥控器时替换效果很好但克隆时则不然 gi
Python 多处理退出错误

当我按 Ctrl C 退出我的应用程序时我看到了这一点 Error in atexit run exitfuncs Traceback most recent call last File usr lib python2 6 atexit
星级评定，实施 Wilson 评分区间

class Rating public static function ratingAverage positive total power 0 05 if total 0 return 0 z Rating pnormaldist 1 p
DOS.h 中的 C/C++ REGS 联合不再可用。还有其他选择吗？

我不得不使用大约二十年前编写的一个非常古老的库除了使用 REGS 联合的部分之外我几乎完全编译了它从我所做的Google搜索来看 REGS是DOS h文件中中断处理的一部分好吧看看现代版本的 DOS h 我们看不到任何 REGS
Java 线程和同步块

假设我正在执行一个synchronized某个线程内和内的代码块synchronized我调用一个方法该方法生成另一个线程来处理需要与第一个方法相同的锁的同步代码块所以在伪 Java 代码中 public void someMethod
是否可以使用媒体查询将一个 CSS 文件包含到另一个 CSS 文件中？

我有一个很大的 CSS 文件我想在使用媒体查询的特殊情况下包含其他 CSS 文件使用安全吗 import在 CSS 中是这样的 media only screen and max width 480px import url css s
如何在 Windows 中运行 makefile

我有包含文件的文件夹如何运行makefile 在控制台中我输入 make它说没有找到 makefile 尝试使用 MSYS http www mingw org wiki MSYS http www mingw org wiki MSYS
如何使 Bootstrap 弹出窗口与单独元素中的 HTML 内容一起使用

我正在将 Bootstrap 面板与 Bootstrap 弹出框功能相结合目标是当用户将鼠标悬停在面板标题上时显示弹出窗口我已经让这个工作了除了data content 当其中包含大量 HTML 时该部分会变得非常难以管理下面是我
将服务器端事件添加到扩展器控件

我有一个扩展控件可以提升文本框的OnTextChanged用户完成输入后 500 毫秒发生事件问题在于OnTextChanged当文本框失去焦点时引发这会导致问题因为回发我想做的是给扩展器控件它自己的服务器端事件比如说 OnDe
如何使用 ggplot2 剪切、裁剪或白色填充紧紧包围多边形外部的矩形

我只是想用白色填充简单多边形之外的区域出于某种原因它在中心画了一根奇怪的木桩就像它认为这是一个吸血鬼杀手或其他什么东西一样搞砸了我尝试跟随这个帖子 https stackoverflow com questions 2128664
Vue.js 路由器：历史模式和 AWS S3 (RoutingRules)

我有一个使用 Amazon S3 和 Cloudflare 启动并运行的 Vue js 应用程序当我打开索引并浏览到 dashboard 时一切正常但是当我直接在新选项卡中打开仪表板之类的路线或刷新页面时我从 S3 收到以下错误
RoR 设计：sign_in 总是返回无效的电子邮件/密码

每次登录时我都会收到错误消息表明电子邮件密码无效 routes devise for users devise scope users do get users sign out gt devise sessions destroy
最好的异常处理策略应该是什么

我正在开发用户从 UI 调用方法的应用程序在此我从业务类调用一个方法该方法调用另一个方法用户界面 gt 方法1 gt 方法2 gt 方法3 如果任何方法中发生任何异常我想向用户显示错误消息我应该直接向调用者方法抛出异常吗在 UI
Discord JS - 如何对同一个嵌入多次做出反应？

我只拿到了第一个钱袋子表情符号对频道中的最新消息做出反应这是机器人发送的嵌入但是我希望机器人对新嵌入做出反应钱袋子 and ticket 表情符号到目前为止它会与钱袋子表情符号但是当它尝试与 ticket 表情符号如
Angular 6 Firebase 快照返回未定义

我正在将对象上传到我的数据库然后尝试检索所有项目在第二步中我遇到错误我的对象类 export class Data key string name string address string address2 string pscod
Sublime Text 2：如何在不移动光标的情况下向上/向下翻页

我使用的是 OS X 10 8 4 ST2 当我使用 Home 和 End 键时视口移动并且光标保持不变这是标准的 Mac 行为也是我所期望的但是当我使用 Page Up pageup pgup 和 Page Down paged
Python3 shebang 线未按预期工作

我在 Solaris 环境中运行 Python 脚本时遇到以下问题看来我在 shebang 线上做了一些不正确的事情但我无法判断这是 Python 3 问题还是命令行问题但我怀疑它与 shebang 行有某种关系因为当我在命令行上显
“砰”或“！”是什么意思？在 git 命令之前？

正如您从这段摘录中看到的有一个在 git 命令之前重点是什么 alias commitx git add git commit https stackoverflow com a 8956546 1354543 https stack
如何每 10 秒发出一次 Ajax 请求（长轮询除外）？

我尝试使用以下命令每 10 秒从服务器请求一个 json 对象 setInterval function ajax url success function data do stuff with data 10000 但这不是很有效我了解
使用 WordNet 确定两个文本之间的语义相似度？

如何使用 WordNet 确定 python 中两个文本之间的语义相似度明显的预处理是删除停用词和词干但是然后呢我能想到的唯一方法是计算两个文本中每个单词之间的 WordNet 路径距离这是一元语法的标准但这些都是大型 400 个

使用 WordNet 确定两个文本之间的语义相似度？

使用 WordNet 确定两个文本之间的语义相似度？ 的相关文章

随机推荐

热门标签

使用 WordNet 确定两个文本之间的语义相似度？的相关文章