如何检测文本是否可读？

2024-05-09

我想知道是否有一种方法可以告诉给定的文本是人类可读的。我所说的人类可读的意思是：它有一些含义，格式就像某人写的文章，或者至少是由软件翻译器生成的供人类阅读的文章。

这是背景故事：最近我正在制作一个应用程序，允许用户将短文本上传到数据库。在部署的早期阶段，我注意到由于编码问题，一些用户总是上传损坏的文本。这个问题稍后得到解决，但让我想知道是否有一种方法可以在将文本返回给用户之前获取非人类可读的文本。

任何建议将被认真考虑。范围可能太大而无法包括其他语言，因此目前我们将讨论仅限于英语。

您可以尝试语言识别工具或类似的工具。

基本上，您必须计算字符或字符组（字符 n 元语法），并将提交的文本的字母分布与用良好英语编写的文本集合的字母分布进行比较。（确保此类文本集合能够代表预期的输入）。

在 N 元语法方法的连续性中，您可能需要尝试基于字典的方法并检查输入文本中是否存在“停用词”（例如“the”、“a”、“an”、“of”）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Android

ios

NLP

如何检测文本是否可读？的相关文章

如何知道 TTS 何时完成？

我正在 Android 上实现交互式语音响应应用程序我想知道如何确定何时tts speak 函数已完成通话因此我可以调用我的语音识别器函数 public class TTSActivity extends Activity implem
无法将 (Timer!) -> Void 转换为 ((CFRunLoopTimer?) -> Void)！ - 将 NSTimer 扩展转换为 Swift 3

我正在尝试将我在项目中使用的 Pod 转换为 Swift 3 它不是我编写的但原作者尚未更新它所以我将它分叉为我自己尝试的任何内容但我在尝试将扩展名转换为NSTimer到斯威夫特 3 Cannot convert value of
TypeError：cli.init 不是 React Native 的函数

在 MacBook Air M1 芯片中运行 npx react native init appName 时 TypeError cli init is not a function at run opt homebrew lib node
Android 时间选择器在分钟滚动时自动更改小时

例如当我在 TimePicker 上滚动分钟时在将分钟滚动到 59 后小时会自动滚动到 7 因此新时间将为 07 59 同样的方式如果我有 07 59 并且我将分钟滚动到 00 小时将自动滚动到 8 所以时间将是 08 00 此逻辑
iOS 9.3 出现新的 UIPDFPageRenderOperation 错误？

我正在向 UIWebView 添加一些 PDF 链接每次加载并做出滚动手势时都会收到此错误 objc 910 UIPDFPageRenderOperation 对象 0x14acaca10 过度释放当已经解除分配时打断 objc o
对超类方法的调用应该是第一个语句吗？

语音识别的结果可以在onActivityResult int requestCode int resultCode Intent data 方法如图这个例子 http developer android com resources sam
如何从我的android联系人列表中的人名获取电话号码

我想从我的联系人列表中的人名中获取他的电话号码我已经使用了下面的代码但它不能正常工作告诉我我哪里错了 try cursor company getContentResolver query ContactsContract Data
WebView 未绘制，WARN/webcore(5336)：第一次布局后无法获取 viewWidth

我的应用程序有一个视图可以使用以下代码以编程方式添加到活动中 RelativeLayout LayoutParams layoutParams new RelativeLayout LayoutParams 480 75 Relative
如何让android BottomAppBar圆角化

我正在使用BottomAppBar来自谷歌这样的
如何在具有多种字体大小的 TextView 中调整行高？

我有一个包含 Spannable 字符串的 TextView 该字符串包含一堆文本其中第一个单词的字体大小是字符串其余部分的两倍问题在于由于第一个字的大小增加第一行和第二行之间的行间距比后续行之间的行间距大得多 http img s
Osmdroid：如何从我自己的位图（图块）创建和加载地图？

我开始使用 Osmdroid 我想使用这项技术来显示有关 F1 赛道的地图我有一张大图片我可以将它切割成更小的图块我可以修改osmdroid库来上传这些图片吗我想将这些位图图块保存在我的资产文件夹中我非常不知道如何做到这一点
如何使用特定选项卡启动活动？

我已经浏览了许多示例问题和教程但我从未见过使用特定选项卡启动活动启动新意图我知道可以使用 setCurrentTab切换到选项卡但这只能从父活动选项卡内部完成从另一个活动启动一个活动中包含的特定选项卡怎么样是否可以如果是这样
NSLocale 货币符号，显示金额值之前或之后

我在用StoreKit在我的应用程序中实现应用程序内购买商店我有一个自定义设计这意味着价格的值应该是白色的且较大的货币符号较小较暗并与价格值的顶部对齐我可以使用以下命令毫无问题地获取货币符号NSLocale in SKproduc
在 Android KitKat 中接收彩信

所以这个视频Android 4 4 短信 API http www youtube com watch v mdq0R2WQssQ DevBytes 解释了 KitKat 中 SMS API 的最新变化他们还提供了示例项目的链接 http
如何在android上使用xamarin表单执行脚本

我正在尝试在 Android Mono 上使用 Xamarin Forms 运行 C 脚本当我运行脚本时我收到错误 System IO FileNotFoundException 找不到文件 mscorlib dll 这是我试图执行的代
UIView 子类中使用的 CAShapeLayer 不起作用

我尝试了几个小时用 CAShapeLayer 在 UIView 周围获得虚线边框但我没有显示它 ScaleOverlay h import
如何使用 UISlider 以及如何将滑块设置为特定值？

我是第一次使用 UIslider 首先我想知道如果值的范围是 0 到 10 如何获取滑块位置的值其次我希望我的滑块设置为 5 个不同的值如 1 2 3 4 5 slider should not set between the lab
NumberFormatException：无效的整数：“8.0dip”仅在 Galaxy Tab 2 上

我目前面临 Galaxy Tab 10 1 2 GT P5110 的故障该故障给我带来了该错误但仅在该设备上我尝试了不同的模拟器我使用 genymotion Nexus 5 7 10 Galaxy S3 4 5 Galaxy Not
无法使用 Alarmmanager 定期在后台进行工作

我想按小时在后台调用一项服务第一个问题是警报管理器工作不顺利计时器很糟糕有时早有时晚第二个问题是 RemoteServiceException Context startForegroundService 然后没有调用 Servic
nltk 标记化和缩写

我用 nltk 对文本进行标记只是将句子输入到 wordpunct tokenizer 中这会拆分缩写例如 don t 到 don t 但我想将它们保留为一个单词我正在改进我的方法以实现更精确的文本标记化因此我需要更深入地研究

随机推荐

Selenium Python 使用代理运行浏览器[重复]

这个问题在这里已经有答案了我正在尝试编写一个非常简单的脚本该脚本从 txt 文件获取代理不需要身份验证并用它打开浏览器然后沿着代理列表循环此操作一定次数我确实知道如何打开 txt 文件并使用它我的主要问题是让代理正常工作我见
Google 地图 api 中的 infoWindow 数组

我寻找错误但找不到它由于某种原因任何谷歌地图信息窗口总是显示相同的信息这是一个咖啡脚本代码 infowindow new google maps InfoWindow for company in companiesData mar
使用 OpenLayers 动态添加自定义标记到地图

我想让用户在地图上添加自定义标记以及每个标记的描述任何提示任何教程的链接都会非常有用您可以注册一个函数来在地图上点击事件当用户单击它时会自动添加该标记尝试这样的事情 map is your map created using
使用 PowerShell 检查 AD 中是否存在组

我想为该组创建代码来检查该组是否存在但是我无法开始工作因为它成功地将用户和组的部分成员仅添加到一个组中而不是其他组因为我设法在活动目录中创建一个组并从 csv 中读取这是我的代码和结果似乎在成功添加用户并添加组成员后我总是收到
新的 .NET 6 控制台模板中的 C# 函数重载不起作用

我在尝试重载该函数时遇到错误Print object in the 新的 NET 6 C 控制台应用程序模板 https learn microsoft com en us dotnet core tutorials top level t
git stash 和编辑帅哥

我完全喜欢git add p and git stash但我偶尔会遇到以下问题该问题是通过以下命令序列重现的 git add p my file 然后我手动编辑大块 using e 因为 git 建议的分割不适合我 git stash k
如何在 yii 中设置 cron 作业

我是 yii 的新手我正在做一个项目我写了一个向客户发送自动提醒的功能假设这个函数位于 url http somedomain com index php somecontroller someaction 我想为此网址设置 cron
python中匹配3个或更多相同的字符

我正在尝试使用正则表达式在字符串中查找三个或更多相同的字符例如你好不匹配噢会的我尝试过做类似的事情 re compile 1 3 a zA Z re compile w 1 5 但似乎都不起作用 w 1 2 是您正在寻找的正则表
Android 使用非公历

我正在创建一个DatePickerDialogFragment用户将在其中选择出生日期我想确保我可以处理非公历日期我无法更改在我的设备上使用的日历类型 Android 是否允许用户切换日历类型如果是的话步骤是什么到目前为止我还没有
如何在运行时更改 UIMenu 内 UIAction 的状态？

如何更改 UIAction 的状态目标是切换 UIMenu 内 UIAction 旁边的状态复选标记更改 UIAction 的state通过存储在视图控制器中的引用似乎根本不会改变状态我错过了什么吗 View Controller i
PDO 返回不正确但重复的数据。密钥不在数据库中。

我刚开始使用 pdo 语句所以可能是一些简单的东西我还没有在 php net 上读过查询数据库时我收到重复的结果 Result 0 gt Array umeta id gt 31 0 gt 31 user id gt 2 1 gt 2
在Java的System.out中以表格格式输出

我正在从数据库获取结果并希望将数据作为 Java 标准输出中的表输出我尝试过使用 t 但我想要的第一列的长度变化很大有没有办法将其显示在类似输出的漂亮表格中 Use System out format http java sun co
Shap - 颜色条不显示在摘要图中

显示summary plot时不显示颜色条 shap summary plot shap values X train 我尝试过改变plot size 当绘图较高时会出现颜色条但它非常小看起来不应该 shap summary plo
将元素添加到 D3 圆包节点

我正在尝试制作一个可缩放的圆形包装图我希望每个子圆圈包含一个较小的图表该图表始终具有相同的结构即 4 列只有条形的高度会改变我尝试添加一个简单的rect到目前为止我的图表但矩形没有添加到圆圈中并且是静态的 JS var marg
FindAsync 很慢，但是延迟加载很快

在我的代码中我曾经使用加载相关实体await FindAsync 希望我能更好地遵守 C 异步指南 var activeTemplate await exec DbContext FormTemplates FindAsync exec
Javascript：修改原型不会影响现有实例[重复]

这个问题在这里已经有答案了我创建了原型的 2 个实例更改了原型中的函数更改反映在两个实例中很棒但是当我通过删除该函数来修改原型时该函数对于现有实例仍然存在 function A this name cool A prototy
截断段落前 100 个字符并隐藏段落的其余内容，以通过更多/更少链接显示/隐藏其余内容

我有一个超过 500 个字符的段落我只想获取最初的 100 个字符并隐藏其余部分我还想在 100 个字符旁边插入更多链接单击更多链接时整个段落应显示并编辑文本更多到更少单击更少时它应切换行为段落是动态生成的我无
jvm 如何以及何时何地更改 Linux 的最大打开文件值？

在linux中每个登录用户的每个进程的最大打开文件数有限制如下所示 ulimit n 1024 当我学习java nio时我想检查这个值因为channel在Linux中也是一个文件所以我编写了一个客户端代码来不断创建socketC
同时有两个操作栏（底部和向上）？

我需要制作两个操作栏顺便说一下我正在使用actionBarSherlock 所以我真正需要的是在正常操作栏上放置一个欢迎屏幕开关并添加两个正常的 ActionBar 操作选项与我需要的类似的是 Gmail 和地图如下所示 htt
如何检测文本是否可读？

我想知道是否有一种方法可以告诉给定的文本是人类可读的我所说的人类可读的意思是它有一些含义格式就像某人写的文章或者至少是由软件翻译器生成的供人类阅读的文章这是背景故事最近我正在制作一个应用程序允许用户将短文本上传到数据库在部署

如何检测文本是否可读？

如何检测文本是否可读？ 的相关文章

随机推荐

热门标签

如何检测文本是否可读？的相关文章