我正在构建一个涉及自然语言处理的项目,由于nlp模块目前只处理英文文本,所以我必须确保用户提交的内容(不长,只有几个单词)是英文的。是否有既定的方法来实现这一目标?首选 Python 或 Javascript 方式。
如果内容足够长我会推荐一些频率分析 http://en.wikipedia.org/wiki/Frequency_analysis在字母上。
但对于几个单词,我认为最好的选择是将它们与英语词典进行比较,如果其中一半匹配,则接受输入。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)