使用 MOSES 将印地语翻译成英语的统计机器

2024-01-08

我需要使用 MOSES 创建一个印地语到英语的翻译系统。我有一个平行语料库,包含大约 10000 个印地语句子和相应的英语翻译。我按照中描述的方法进行操作基线系统创建页面 http://www.statmt.org/moses/?n=Moses.Baseline。但是,就在第一阶段,当我想标记我的印地语语料库并尝试执行时

~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi

,标记器给了我以下输出:

Tokenizer Version 1.1
Language: hi
Number of threads: 1
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version...

我什至尝试过'hin'但它仍然无法识别该语言。谁能告诉我制作翻译系统的正确方法。


摩西不支持印地语标记化,tokenizer.perl使用nonbreaking_prefix.*文件(来自https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl#L516 https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl#L516)

带有来自 Moses 的不间断前缀的可用语言有:

  • ca:加泰罗尼亚语
  • CS:捷克语
  • de:德语
  • el:希腊语
  • en: 英语
  • es: 西班牙语
  • fi:芬兰语
  • 法语:法语
  • hu: 匈牙利语
  • 是:冰岛语
  • 它: 意大利语
  • lv: 拉脱维亚语
  • nl: 荷兰语
  • 波兰语
  • pt:葡萄牙语
  • ro:罗马尼亚语
  • ru:俄语
  • sk: 斯洛伐克语
  • sl: 斯洛文尼亚
  • sv:瑞典语
  • ta: 泰米尔语

from https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonwriting_prefixes https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonbreaking_prefixes


然而,我们并没有失去所有希望,在使用 Moses 训练机器翻译模型之前,您肯定可以使用其他标记器对文本进行标记,尝试使用 Google 搜索“Hindi Tokenziers”,周围有很多这样的标记。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 MOSES 将印地语翻译成英语的统计机器 的相关文章

  • 为特定密码启用 TLS 1.2

    我们有一个 NET 应用程序调用仅允许 TLS 版本 1 2 的 API 服务器 2008 SP2 我们在服务器上运行以下脚本 Copyright 2016 Alexander Hass http www hass de content s
  • Google PHP 客户端不会验证代码,invalid_request

    我正在使用 Google PHP 客户端 4ae272683e18888362e1f935b813e345b99e23b8 该客户端于 8 月 9 日从 github 中提取 我觉得我的代码太简单了 不会出错 require once Go
  • Set 如何检查重复项? Java哈希集

    对于下面的代码 它输出 1 第二个代码输出 2 我不明白为什么会发生这种情况 是因为我添加了相同的对象吗 我应该如何实现所需的输出2 import java util public class maptest public static v
  • 自定义检查器将值恢复为 Unity 中 Play 上之前的值

    所以在我的游戏中我有一个需要平滑移动的对象Vector3 fromPosition to Vector3 toPosition高速float speed 然后返回到开始的地方 一切都非常简单 但是为了在设置关卡时尝试让生活变得更轻松 我决定

随机推荐

  • 如何使用 Python 3.6 发送电子邮件附件

    你介意帮我一下吗 我使用此页面中的所有代码如何使用Python发送电子邮件附件 https stackoverflow com questions 3362600 how to send email attachments with pyt
  • 如何使用http header发送http请求

    提前致谢 我使用此代码在 http 请求中设置 http 标头来验证 url 但我认为缺少一些东西 这就是为什么我无法得到回复 回应仍然是 需要授权 httpParameters new BasicHttpParams String aut
  • 为 iFrameExtractor 编译 ffmpeg 时出现问题

    我正在尝试使用 make 和 build 文件来编译 ffmpegiFrameExtractor 示例 https github com lajos iFrameExtractor 首先我尝试遵循 github 上的自述文件 该文件只说运行
  • 识别并描述 Scala 的泛型类型约束

    我见过 lt gt
  • 从 Dropbox 目录中提取图像并在网站库中显示

    我正在与一位摄影师客户合作创建一个简单的网站 我希望建立一个从 Dropbox 文件夹中提取的照片库 因此每当她想要更新图库中的图像时 她只需将照片从 Dropbox 文件夹中交换出来 很简单 对吧 有没有办法使用 jQuery 或 PHP
  • 如何将控制台应用程序转换为 .dll?

    我正在尝试将用 C 编写的应用程序转换为 DLL 控制台应用程序接收用户的输入 并通过调用我在项目中导入的服务的方法来重置密码 如何将控制台应用程序转换为 DLL 以便每当用户希望更改密码时就调用我的 DLL 右键单击项目 gt 属性 gt
  • Azure 是否为“cloudapp.net”提供 https?

    使用的一大优点Azure Websites是我无需执行任何操作即可获得安全的 HTTP HTTPS 我只需键入https xyz azurewebsites net它有效 我不必担心证书 因为我使用 Azure 提供的子域 在示例中它将是x
  • 在更新中使用通配符?

    我想浏览一个表 并将 notify4 N 的所有实例更改为 notify5 N 其中 N 是 1 9 之间的数字 有没有办法在 SQL 中做到这一点 在 Perl 中这会很容易 但我不确定客户的服务器上是否有 Perl 您可能正在寻找REG
  • 控制选择框中所选值的外观:有没有办法单独渲染所选项目?

    我正在与antd 选择框 https ant design components select 我尝试自定义里面的内容Option其中包含常规的text与一些 JSX 它看起来如下 这也是我在沙箱上准备的小演示 由于我已经自定义了里面的内容
  • TeamCity 构建步骤 - MSBuild 中失败

    该解决方案在我的计算机上成功构建 但在构建服务器上失败 有项目的解决方案 解决方案中的项目 https i stack imgur com mEaCH png 这是 MSBuild 输出 13 42 17 Step 2 5 MSBuild
  • FFmpeg 阻塞管道直到完成?

    我目前正在开发一个 C 程序 在 Linux 上运行 该程序应该运行 FFmpeg 作为外部实用程序 以使用以下命令将视频文件的音频流编码为 AC3popen 并通过管道捕获输出 这是我如何尝试实现此目标的示例代码 int bufferSi
  • 使用 PyYaml 将 Python 字典转换为 yaml 文档

    我有两个 python 字典 我想将它们写入一个 yaml 文件 其中包含两个文档 definitions one 1 two 2 three 3 actions run yes print no report maybe yaml 文件应
  • 如何将 Express 路由别名设置为 html 文件?

    我正在尝试使用更好的 url 端点来提供一些静态文件 例如 home将服务 public home html 我大概可以用res sendfile 在路由配置中 但 sendfile 不会在生产模式下缓存文件输出 所以我不太确定这是否是一个
  • 如何在 Graph Api 中使用 appRoleAssignment

    我正在尝试利用 beta api 将 azure 用户分配给应用程序 我查看了文档并在 C 控制台应用程序中尝试了各种尝试 使用HttpClient and WebClient并且无法成功 然后我去了微软图形浏览器https develop
  • iframe后退按钮问题(不希望后退按钮影响iframe)

    我有一个非常简单的问题 我无法自己解决 我在操作 iframe 时遇到问题 基本上就是说这个页面 http andrew koallo ca new 393NelsonSt JordanFisher http andrew koallo c
  • 可以从 Azure 网站使用新的 Azure 文件服务吗?

    标题基本概括了所有内容 微软刚刚在 Azure 上推出了新的文件服务 http blogs msdn com b windowsazurestorage archive 2014 05 12 introducing microsoft az
  • 可空引用类型和构造函数警告

    我正在尝试在我的项目中采用 C 8 的可为空引用类型 并使其与 EF Core 顺利配合 下列的本指南 https learn microsoft com en us ef core miscellaneous nullable refer
  • Spring Boot:Thymeleaf 打包后无法解析片段

    我使用这样的片段 RequestMapping value fragment nodeListWithStatus method RequestMethod GET public String nodeListWithStatus Mode
  • SQL 查询登录信息

    选择所有 MSSQL Server 登录名的 SQL 查询是什么 谢谢 你们中不止一位得到了我一直在寻找的答案 SELECT FROM syslogins 这就是你所追求的吗 select from master syslogins
  • 使用 MOSES 将印地语翻译成英语的统计机器

    我需要使用 MOSES 创建一个印地语到英语的翻译系统 我有一个平行语料库 包含大约 10000 个印地语句子和相应的英语翻译 我按照中描述的方法进行操作基线系统创建页面 http www statmt org moses n Moses