我想知道是否有一种方法可以告诉给定的文本是人类可读的。我所说的人类可读的意思是:它有一些含义,格式就像某人写的文章,或者至少是由软件翻译器生成的供人类阅读的文章。
这是背景故事:最近我正在制作一个应用程序,允许用户将短文本上传到数据库。在部署的早期阶段,我注意到由于编码问题,一些用户总是上传损坏的文本。这个问题稍后得到解决,但让我想知道是否有一种方法可以在将文本返回给用户之前获取非人类可读的文本。
任何建议将被认真考虑。范围可能太大而无法包括其他语言,因此目前我们将讨论仅限于英语。
您可以尝试语言识别工具或类似的工具。
基本上,您必须计算字符或字符组(字符 n 元语法),并将提交的文本的字母分布与用良好英语编写的文本集合的字母分布进行比较。 (确保此类文本集合能够代表预期的输入)。
在 N 元语法方法的连续性中,您可能需要尝试基于字典的方法并检查输入文本中是否存在“停用词”(例如“the”、“a”、“an”、“of”) 。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)