我正在编写一个脚本来检测语言 A 中来自语言 B 的单词。这两种语言非常相似,并且可能具有相同单词的实例。
如果您对我目前掌握的内容感兴趣,代码就在这里:https://github.com/arashsa/language-detection.git https://github.com/arashsa/language-detection.git
我将在这里解释我的方法:
我创建了 B 语言的二元组列表和 A 语言的二元组列表(B 语言的小语料库,A 语言的大语料库)。然后我删除所有常见的二元组。然后我浏览 A 语言的文本,并使用二元组检测 A 语言中的这些文本并将它们存储在文件中。然而,这种方法发现了许多两种语言共有的单词,并且还发现了奇怪的二元组,例如彼此相邻的两个国家的名称,以及其他异常情况。
你们有什么建议、阅读材料、我可以使用的 NLP 方法吗?
如果您的方法返回两种语言中存在的单词,并且您只想返回一种语言中存在的单词,则您可能需要创建一个列表一克语言 A 中的单词和语言 B 中的一元语法,然后删除两者中的单词。然后,如果您愿意,您可以继续进行二元分析。
也就是说,Python 中有一些很好的语言识别工具。我发现了lang-id
成为最好的之一。它预先训练有超过 90 种语言的语言分类器,并且如果您愿意的话,可以很容易地训练其他语言。这里有docs https://github.com/saffsd/langid.py。还有猜测语言 https://pypi.python.org/pypi/guess-language,但在我看来它的表现并不好。根据外语位的本地化程度,您可以尝试以适当的粒度级别对文本进行分块,并通过(例如)langid 的分类器运行这些分块。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)