我需要使用 MOSES 创建一个印地语到英语的翻译系统。我有一个平行语料库,包含大约 10000 个印地语句子和相应的英语翻译。我按照中描述的方法进行操作基线系统创建页面 http://www.statmt.org/moses/?n=Moses.Baseline。但是,就在第一阶段,当我想标记我的印地语语料库并尝试执行时
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi
,标记器给了我以下输出:
Tokenizer Version 1.1
Language: hi
Number of threads: 1
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version...
我什至尝试过'hin'
但它仍然无法识别该语言。谁能告诉我制作翻译系统的正确方法。
摩西不支持印地语标记化,tokenizer.perl
使用nonbreaking_prefix.*
文件(来自https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl#L516 https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl#L516)
带有来自 Moses 的不间断前缀的可用语言有:
- ca:加泰罗尼亚语
- CS:捷克语
- de:德语
- el:希腊语
- en: 英语
- es: 西班牙语
- fi:芬兰语
- 法语:法语
- hu: 匈牙利语
- 是:冰岛语
- 它: 意大利语
- lv: 拉脱维亚语
- nl: 荷兰语
- 波兰语
- pt:葡萄牙语
- ro:罗马尼亚语
- ru:俄语
- sk: 斯洛伐克语
- sl: 斯洛文尼亚
- sv:瑞典语
- ta: 泰米尔语
from https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonwriting_prefixes https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonbreaking_prefixes
然而,我们并没有失去所有希望,在使用 Moses 训练机器翻译模型之前,您肯定可以使用其他标记器对文本进行标记,尝试使用 Google 搜索“Hindi Tokenziers”,周围有很多这样的标记。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)