使用 MOSES 将印地语翻译成英语的统计机器

2024-01-08

我需要使用 MOSES 创建一个印地语到英语的翻译系统。我有一个平行语料库，包含大约 10000 个印地语句子和相应的英语翻译。我按照中描述的方法进行操作基线系统创建页面 http://www.statmt.org/moses/?n=Moses.Baseline。但是，就在第一阶段，当我想标记我的印地语语料库并尝试执行时

~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi

，标记器给了我以下输出：

Tokenizer Version 1.1
Language: hi
Number of threads: 1
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version...

我什至尝试过'hin'但它仍然无法识别该语言。谁能告诉我制作翻译系统的正确方法。

摩西不支持印地语标记化，tokenizer.perl使用nonbreaking_prefix.*文件（来自https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl#L516 https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl#L516)

带有来自 Moses 的不间断前缀的可用语言有：

ca：加泰罗尼亚语
CS：捷克语
de：德语
el：希腊语
en: 英语
es: 西班牙语
fi：芬兰语
法语：法语
hu: 匈牙利语
是：冰岛语
它：意大利语
lv: 拉脱维亚语
nl: 荷兰语
波兰语
pt：葡萄牙语
ro：罗马尼亚语
ru：俄语
sk: 斯洛伐克语
sl: 斯洛文尼亚
sv：瑞典语
ta: 泰米尔语

from https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonwriting_prefixes https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonbreaking_prefixes

然而，我们并没有失去所有希望，在使用 Moses 训练机器翻译模型之前，您肯定可以使用其他标记器对文本进行标记，尝试使用 Google 搜索“Hindi Tokenziers”，周围有很多这样的标记。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 MOSES 将印地语翻译成英语的统计机器的相关文章

为特定密码启用 TLS 1.2

我们有一个 NET 应用程序调用仅允许 TLS 版本 1 2 的 API 服务器 2008 SP2 我们在服务器上运行以下脚本 Copyright 2016 Alexander Hass http www hass de content s
Google PHP 客户端不会验证代码，invalid_request

我正在使用 Google PHP 客户端 4ae272683e18888362e1f935b813e345b99e23b8 该客户端于 8 月 9 日从 github 中提取我觉得我的代码太简单了不会出错 require once Go
Set 如何检查重复项？ Java哈希集

对于下面的代码它输出 1 第二个代码输出 2 我不明白为什么会发生这种情况是因为我添加了相同的对象吗我应该如何实现所需的输出2 import java util public class maptest public static v
自定义检查器将值恢复为 Unity 中 Play 上之前的值

所以在我的游戏中我有一个需要平滑移动的对象Vector3 fromPosition to Vector3 toPosition高速float speed 然后返回到开始的地方一切都非常简单但是为了在设置关卡时尝试让生活变得更轻松我决定

随机推荐

如何使用 Python 3.6 发送电子邮件附件

你介意帮我一下吗我使用此页面中的所有代码如何使用Python发送电子邮件附件 https stackoverflow com questions 3362600 how to send email attachments with pyt
如何使用http header发送http请求

提前致谢我使用此代码在 http 请求中设置 http 标头来验证 url 但我认为缺少一些东西这就是为什么我无法得到回复回应仍然是需要授权 httpParameters new BasicHttpParams String aut
为 iFrameExtractor 编译 ffmpeg 时出现问题

我正在尝试使用 make 和 build 文件来编译 ffmpegiFrameExtractor 示例 https github com lajos iFrameExtractor 首先我尝试遵循 github 上的自述文件该文件只说运行
识别并描述 Scala 的泛型类型约束

我见过 lt gt
从 Dropbox 目录中提取图像并在网站库中显示

我正在与一位摄影师客户合作创建一个简单的网站我希望建立一个从 Dropbox 文件夹中提取的照片库因此每当她想要更新图库中的图像时她只需将照片从 Dropbox 文件夹中交换出来很简单对吧有没有办法使用 jQuery 或 PHP
如何将控制台应用程序转换为 .dll？

我正在尝试将用 C 编写的应用程序转换为 DLL 控制台应用程序接收用户的输入并通过调用我在项目中导入的服务的方法来重置密码如何将控制台应用程序转换为 DLL 以便每当用户希望更改密码时就调用我的 DLL 右键单击项目 gt 属性 gt
Azure 是否为“cloudapp.net”提供 https？

使用的一大优点Azure Websites是我无需执行任何操作即可获得安全的 HTTP HTTPS 我只需键入https xyz azurewebsites net它有效我不必担心证书因为我使用 Azure 提供的子域在示例中它将是x
在更新中使用通配符？

我想浏览一个表并将 notify4 N 的所有实例更改为 notify5 N 其中 N 是 1 9 之间的数字有没有办法在 SQL 中做到这一点在 Perl 中这会很容易但我不确定客户的服务器上是否有 Perl 您可能正在寻找REG
控制选择框中所选值的外观：有没有办法单独渲染所选项目？

我正在与antd 选择框 https ant design components select 我尝试自定义里面的内容Option其中包含常规的text与一些 JSX 它看起来如下这也是我在沙箱上准备的小演示由于我已经自定义了里面的内容
TeamCity 构建步骤 - MSBuild 中失败

该解决方案在我的计算机上成功构建但在构建服务器上失败有项目的解决方案解决方案中的项目 https i stack imgur com mEaCH png 这是 MSBuild 输出 13 42 17 Step 2 5 MSBuild
FFmpeg 阻塞管道直到完成？

我目前正在开发一个 C 程序在 Linux 上运行该程序应该运行 FFmpeg 作为外部实用程序以使用以下命令将视频文件的音频流编码为 AC3popen 并通过管道捕获输出这是我如何尝试实现此目标的示例代码 int bufferSi
使用 PyYaml 将 Python 字典转换为 yaml 文档

我有两个 python 字典我想将它们写入一个 yaml 文件其中包含两个文档 definitions one 1 two 2 three 3 actions run yes print no report maybe yaml 文件应
如何将 Express 路由别名设置为 html 文件？

我正在尝试使用更好的 url 端点来提供一些静态文件例如 home将服务 public home html 我大概可以用res sendfile 在路由配置中但 sendfile 不会在生产模式下缓存文件输出所以我不太确定这是否是一个
如何在 Graph Api 中使用 appRoleAssignment

我正在尝试利用 beta api 将 azure 用户分配给应用程序我查看了文档并在 C 控制台应用程序中尝试了各种尝试使用HttpClient and WebClient并且无法成功然后我去了微软图形浏览器https develop
iframe后退按钮问题（不希望后退按钮影响iframe）

我有一个非常简单的问题我无法自己解决我在操作 iframe 时遇到问题基本上就是说这个页面 http andrew koallo ca new 393NelsonSt JordanFisher http andrew koallo c
可以从 Azure 网站使用新的 Azure 文件服务吗？

标题基本概括了所有内容微软刚刚在 Azure 上推出了新的文件服务 http blogs msdn com b windowsazurestorage archive 2014 05 12 introducing microsoft az
可空引用类型和构造函数警告

我正在尝试在我的项目中采用 C 8 的可为空引用类型并使其与 EF Core 顺利配合下列的本指南 https learn microsoft com en us ef core miscellaneous nullable refer
Spring Boot：Thymeleaf 打包后无法解析片段

我使用这样的片段 RequestMapping value fragment nodeListWithStatus method RequestMethod GET public String nodeListWithStatus Mode
SQL 查询登录信息

选择所有 MSSQL Server 登录名的 SQL 查询是什么谢谢你们中不止一位得到了我一直在寻找的答案 SELECT FROM syslogins 这就是你所追求的吗 select from master syslogins
使用 MOSES 将印地语翻译成英语的统计机器

我需要使用 MOSES 创建一个印地语到英语的翻译系统我有一个平行语料库包含大约 10000 个印地语句子和相应的英语翻译我按照中描述的方法进行操作基线系统创建页面 http www statmt org moses n Moses

使用 MOSES 将印地语翻译成英语的统计机器

使用 MOSES 将印地语翻译成英语的统计机器 的相关文章

随机推荐

热门标签

使用 MOSES 将印地语翻译成英语的统计机器的相关文章