生成拼写错误的单词（打字错误）

2023-12-28

我已经实现了模糊匹配算法，我想使用一些带有测试数据的示例查询来评估其召回率。

假设我有一个包含文本的文档：

{"text": "The quick brown fox jumps over the lazy dog"}

我想看看是否可以通过测试诸如“sox”或“hazy drog”而不是“fox”和“lazydog”之类的查询来检索它。

换句话说，我想向字符串添加噪音以生成拼写错误的单词（拼写错误）。

自动生成有拼写错误的单词的方法是什么用于评估模糊搜索？

我只是创建一个程序来随机改变你的话中的字母。我想你可以详细说明你的案例的具体要求，但总体思路是这样的。

假设你有一个短语

phrase = "The quick brown fox jumps over the lazy dog"

然后定义一个单词改变的概率（比如 10%）

p = 0.1

然后循环遍历短语中的单词，并从每个单词的均匀分布中进行采样。如果随机变量低于您的阈值，则随机更改单词中的一个字母

import string
import random

new_phrase = []
words = phrase.split(' ')
for word in words:
    outcome = random.random()
    if outcome <= p:
        ix = random.choice(range(len(word)))
        new_word = ''.join([word[w] if w != ix else random.choice(string.ascii_letters) for w in range(len(word))])
        new_phrase.append(new_word)
    else:
        new_phrase.append(word)

new_phrase = ' '.join([w for w in new_phrase])

就我而言，我得到了以下有趣的短语结果

print(new_phrase)
'The quick brown fWx jumps ovey the lazy dog'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

fuzzysearch

生成拼写错误的单词（打字错误）的相关文章

将 transaction.commit_manually() 升级到 Django > 1.6

我继承了为 Django 1 4 编写的应用程序的一些代码我们需要更新代码库以使用 Django 1 7 并最终更新到 1 8 作为下一个长期支持版本在一些地方它使用旧风格 transaction commit manually and
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0
PHP 和 NLP：嵌套括号（解析器输出）到数组？

想要将带有嵌套括号的文本转换为嵌套数组以下是 NLP 解析器的输出示例 TOP S NP PRP I VP VBP love NP NP DT a JJ big NN bed PP IN of NP NNS roses 原文我喜欢一大床
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

二进制补码转换

我需要将二进制补码格式的字节转换为正整数字节范围 128 到 127 映射到 0 到 255 Examples 128 10000000 gt 0 127 01111111 gt 255 etc EDIT为了消除混淆输入字节当然是
Java-将数组中的字符串转换为双精度

我被这件愚蠢的事情困住了我有一个像这样的文本文件你好 140 0 再见我使用将其拆分为字符串数组 LS line split 然后我尝试将包含数字的数组值转换为双精度值如下所示 Double number Double parseD
日期时间转换

我得到的日期时间为 1 2 2010 11 29 30 我正在网格视图中显示它我想将其转换为 2010 年 2 月 1 日 11 29 请让我知道如何像这样转换它提前致谢注意我使用的是 asp net 和 C Use the ToS
FileHelpers 字段中的引号和逗号

我有一个 csv 文件正在使用 FileHelpers 进行解析并且我遇到了引号和逗号都可以出现在字段中的情况 Comma 323 PC 28 02 2014 UNI001 5000 0 Return Returned Goods da
iCloud 无处不在的容器在应用程序删除时没有被清理？

我正在将带有 Core Data 的 iCloud 添加到应用程序商店中已存在的应用程序中因此我需要测试升级方案然而当我从设备中删除应用程序并从 Xcode 重新安装它时我注意到设备上普遍存在的容器文件夹中的所有内容都被保留了这非
将从 C 例程分配的数组传递给 Ada

将结构记录数组从 Ada 传递到 C 例程是一回事在本例中内存管理是在 Ada 中完成的但是在与第三方库接口时经常会出现这样的问题内存管理是在C部分完成的例如对于 C 结构 typedef struct MYREC int n
如何将流星的速度测试与詹金斯集成？

On Velocity 的 GH 页面 https github com xolvio velocity benefits它提到简单的 CI 集成是其中的好处之一但我还没有看到任何有关它的文档如何将 Velocity 与 Jenki
在 Go 中如何处理没有日期的挂钟时间？

我想知道 Golang 中是否有任何现有的包可以处理没有日期的日期时间问题如下想象一下我想存储有关公司轮班的信息包括轮班开始和结束的时间我会创建如下内容 import time type Shift struct StartTim
删除 XML 字符串中的空格

如何删除 Python 2 6 中 XML 字符串中的空格和换行符我尝试了以下软件包 etree 此片段保留原始空格 xmlStr
在 F# 中将 seq 转换为 string[]

示例来自这个帖子 https stackoverflow com questions 6144274 string replace utility conversion from python to f有一个例子 open System I
安装 SQL Server 2008 Developer 时要使用哪些帐户

我在这里安装 SQL Server 2008 Developer 在安装的服务器配置步骤中它询问我有关服务帐户的信息我在这里选择什么我可以在屏幕截图中看到可用的选项尽管在大多数选项中我只能选择其中的两到三个当我点击对所有 SQL
如何防止 Tkinter 窗口在被调用之前打开？

当我运行此脚本时会出现两个窗口一个用于文件选择另一个窗口用于 Tkinter 窗口如何更改此设置以便 Tkinter 窗口仅在选择文件后打开谢谢 def main my file askopenfilename stage1 d
在通过桥接的 docker 容器中时无法访问 SSL IP。获取 SSL_ERROR_SYSCALL

我在通过 IP TLS 连接到任何服务器时遇到问题但仅在默认网桥中运行时从 Docker 容器内连接我总是得到 OpenSSL SSL connect SSL ERROR SYSCALL in connection to W X Y
C# 中的 IPC，将文本从一个 exe 发送到另一个 exe

我想将消息从 WPF 应用程序的文本框发送到打开的记事本我的意思是单击文本框旁边的按钮后我希望将内容写入记事本如何在两个不同的应用程序之间发送消息 DllImport user32 dll EntryPoint FindWindow
有没有办法在运行时加载类 jar 和包？

我想知道是否有办法在运行时加载类和jar 绝对创建一个合适的ClassLoader实例例如使用URL类加载器 http java sun com javase 6 docs api java net URLClassLoader htm
Pandas - Python - 如何减去两个不同的日期列

尝试用今天的日期减去created date列来填充列但出现以下错误 TypeError unsupported operand type s for str and str import datetime now datetime da
连接 Haskell 和 C++

我想在 C 程序中调用一些 Haskell 函数为此我已申请these https github com jarrett cpphs说明并将其调整为我的代码和系统我目前所掌握的内容如下主程序 cpp 共享头文件和cpp文件 make
在 setup.cfg 中嵌套或组合 setuptools 的 extras_require

是否可以重用已在中指定的依赖项 options extras require 对于其他条目 options extras require 举例来说一个开发团队正在使用mypy在开发过程中检查它们的类型注释以及black自动格式化他们的代
我在哪里可以获得 VB6 IDE [重复]

这个问题在这里已经有答案了可能的重复如何编译旧版 VB6 代码 https stackoverflow com questions 229868 how to compile legacy vb6 code 在哪里可以找到 VB6 的
生成拼写错误的单词（打字错误）

我已经实现了模糊匹配算法我想使用一些带有测试数据的示例查询来评估其召回率假设我有一个包含文本的文档 text The quick brown fox jumps over the lazy dog 我想看看是否可以通过测试诸如 sox

生成拼写错误的单词（打字错误）

生成拼写错误的单词（打字错误） 的相关文章

随机推荐

热门标签

生成拼写错误的单词（打字错误）的相关文章