如何匹配单词而不考虑时态或形式?

2023-12-02

我目前正在编写一个脚本,该脚本运行整个文档,提取所有关键字,然后尝试将这些关键字与其他文档中找到的关键字进行匹配。有一些细节使这个问题变得复杂,但它们与我的问题不太相关。基本上我希望能够匹配单词,无论它们出现的时态如何。

例如:如果给定字符串“swim”、“swam”和“swimming”,我想要一个程序能够识别这些都是同一个单词,尽管它是否会将单词存储为“swim”、“swam”或“swimming”对我来说并不重要。

我知道这个问题可以通过包含所有这些单词形式的词典来解决,但我不知道有任何以这种方式映射的词典对此有用。我更喜欢与 Python 兼容的解决方案或库,因为这就是我目前用于此脚本的解决方案,但我可以使用几乎任何语言的解决方案(保存 haskell 或 eiffel 或类似晦涩/难以理解的东西)与)一起工作


查看pywordnet.

>>> N['dog']
dog(n.)
>>> N['dog'].getSenses()
('dog' in {noun: dog, domestic dog, Canis familiaris},
 'dog' in {noun: frump, dog}, 'dog' in {noun: dog},
 'dog' in {noun: cad, bounder, blackguard, dog, hound, heel},
 'dog' in {noun: pawl, detent, click, dog},
 'dog' in {noun: andiron, firedog, dog, dogiron})
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何匹配单词而不考虑时态或形式? 的相关文章

随机推荐

  • 为什么这个 Less 表达式根据数学运算而成为语法错误?

    我有以下 Less 片段 Foo 50px someClass width calc 100 Foo 5px 这很好用 但是 如果我将其更改为 Foo 50px someClass width calc 100 Foo 5px 我们现在有一
  • 如何测试是否已获得管理员同意

    我们正在开发一个 Office 加载项 可使用 Azure AD 的组织帐户进行身份验证 该加载项需要管理同意 因此 如果管理员登录 应引导他表达管理同意 我们使用 OAuth 进行身份验证 https login microsoftonl
  • Mysql事务:提交和回滚

    我将 PhpMyAdmin 数据库引擎从 MyISAM 更新为 INNODB 以允许回滚 这是我的 SQL 查询 START TRANSACTION UPDATE jkm content SET state 0 WHERE title IN
  • 在 Android 中动态加载 .dex 文件时出现“ClassNotFound”异常

    我正在尝试学习在 Android 中动态加载类 dex jar 我从教程和 Stack Overflow 问题中收集了基本想法 tutorial this and this 但我未能实现动态加载类文件并不断给出的目的ClassNotFoun
  • 我应该设置什么 COLLATE 才能使用所有可能的语言?

    我有一个专栏叫username 我希望用户能够插入日语 罗马语 阿拉伯语 韩语以及所有可能的文本 包括特殊字符 https en wiktionary org wiki Index All languages what COLLATE我应该
  • 在 Lua 中使用 32 位按位运算比较有符号的 64 位数字

    我在 Redis 上使用 Lua 想要比较两个有符号的 64 位数字 它们存储在两个 8 字节 字符的字符串中 如何使用 Redis 中可用的库来比较它们 http redis io commands EVAL available libr
  • 为什么在 asp.net mvc 中先映射特殊路由,然后再映射普通路由?

    来自www 路由引擎将采用与所提供的 URL 匹配的第一个路由 并尝试使用该路由中的路由值 因此 应首先将不太常见或较专业的路由添加到表中 而应稍后添加更通用的路由 为什么要先绘制专门的路线 有人可以给我一个例子 我可以在哪里看到 首先映射
  • 如何从输入流重新打开文件

    我想重新打开一个文件 我在输入流中有一个文件 我尝试过使用 Scanner 和 BufferedReader 但使用 close 方法关闭文件后我无法再次打开该文件 请帮助如何再次打开文件 我写了下面的代码 InputStream file
  • MySql。单击 HTML 按钮后 - TRUNCATE 数据库表

    所以我需要简单的事情 我需要在我的网站中创建按钮 单击按钮后 它应该截断数据库表 但我自己无法成功完成 那么你能帮我一下吗 我在这里尝试创建按钮
  • 在 Ruby 中生成符合概率分布的数字数组?

    假设我有 100 条记录 我想模拟出created at日期 以便它适合某些曲线 有没有一个库可以做到这一点 或者我可以使用什么公式 我认为这是沿着同一条轨道 生成具有概率分布的随机数 我不太了解它们在数学中是如何分类的 但我正在研究以下内
  • 将 Django 项目从 MySQL 迁移到 PostgreSQL 的最简单方法

    我想将 Django 项目的数据库从 MySQL 转换为 PostgreSQL 不幸的是 我不能只使用 Django 的 dumpdata 和 loaddata 管理命令 因为我的数据库表太大了 我已经读过这篇文章了http www ofb
  • 如何找到源代码中的所有注释?

    注释有两种风格 C风格和C 风格 如何识别它们 comments comments 我可以随意使用任何方法和第三个库 为了可靠地查找 Java 源文件中的所有注释 我不会使用正则表达式 而是使用真正的词法分析器 又名分词器 Java 的两个
  • 通过jquery获取浏览器名称

    我使用 jquery v1 9 1 我知道 jquery browser 在 1 9 中被删除 但我必须使用它 我使用迁移插件来获取浏览器类型 它工作正常 但对于 IE 11 和 firefox 25 jquery browser 显示相同
  • Discord.py 用户昵称更改

    我一直在努力让自己成为一个机器人ArmA 3单元 在此过程中我尝试创建一个Enlisting命令 该命令将服务器中用户现有的昵称更改为他们登记时使用的昵称 他们的昵称 ArmA士兵姓名 但我在弄清楚如何做到这一点时遇到了一些困难 我将在下面
  • Xcode 调试器:蓝色斜体文本是什么意思?

    这是一个屏幕截图 显然 它表明我的结构的 x 坐标与 y 坐标不同 但它们的值是相同的 它们有何不同 当我们这样做时 这个应该更容易 大写的 L 图标表示什么 蓝色斜体文本表示该变量 或表达式 的值自上次程序暂停以来已更改 绿色方块中的 L
  • 如何计算熊猫的重叠并找到重叠的伙伴?

    我很困惑如何最有效地做到这一点pandas 我有以下熊猫DataFrame 当前包含两列starts and ends 代表区间 1 10 5 15 and 3 8 import pandas as pd dict1 start 1 5 3
  • 了解纬度/经度/航向/速度找到下一个位置

    会心 A小数纬度 十进制经度 速度 公里 小时 heading如何找到下一个位置60秒后汽车 有什么算法可以做到这一点吗 这可能有帮助 distance traveled speed time 然后 使用航向作为角度 三角学 计算速度的 x
  • 使用 POSTMAN 时 Box.api oauth2 访问令牌请求错误“无效的 grant_type 参数或参数丢失”

    文档 http developers box com oauth 建议使用POSTMAN或curl 在此示例中 clientID 为 123 密码为 456 依此类推 我正在使用邮递员 在之前的步骤中 我通过以下方式获得了访问代码 假设响应
  • 哪些元素支持 ::before 和 ::after 伪元素?

    我正在尝试想出一些好的默认样式
  • 如何匹配单词而不考虑时态或形式?

    我目前正在编写一个脚本 该脚本运行整个文档 提取所有关键字 然后尝试将这些关键字与其他文档中找到的关键字进行匹配 有一些细节使这个问题变得复杂 但它们与我的问题不太相关 基本上我希望能够匹配单词 无论它们出现的时态如何 例如 如果给定字符串