机器翻译的数据预处理

2023-11-16

主要分为三大块：

1.数据筛选：去除那些训练集中不对齐、质量差的句对。相关的技巧有很多：

去重：重复的数据会使训练过程有偏。可以简单地去除完全相同的句对，也可以计算每两个句子之间的局部哈希值，把相似度小于某个阈值的句对都去除；
去空行：空行不能提供任何信息，而且可能会引起BUG；
特殊符号处理：这个就需要通过肉眼来观察，然后确定一个特殊符号列表了。常见的，包含控制字符、转义字符、URL符号等的都需要处理，至于处理方式是删除符号、还是删除句对，就得人为确定了；

上面几步不需要tokenize就可以做，下面几步要在tokenize之后再进行。

长度筛选：长度太短的句对，对训练没有帮助；长度太长的句对，在送入模型后也会进行截断，所以也没有必要保留；
长度比筛选：长度比偏离3倍标准差的句对，基本上都是有问题的句对，可以删去；
对齐筛选：计算对齐得分，前向和后向相加，得分太低的句对都可以删除；
语言模型筛选：计算语言模型得分，源端和目标端相加，得分太低的句对都可以删除；

2.tokenization：对输入的文本进行分词、大小写转换等操作。注意，因为翻译是生成式任务，所以很多操作需要保证是可恢复的，也就是说，切分完了之后，还得有能力还原，最后送给用户的是未经过切分的语句。

全半角转换：有些时候输入文本中存在全角的符号、数字等，这个都需要

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器翻译的数据预处理的相关文章

TCP/IP网络江湖——揭秘数据链路层的内功心法（数据链路层上篇：数据链路层的基础与本质）

目录 0 引言一数据链路层的任务与功能 1 1 数据的封装与解封装 1 2 媒介访问控制 MAC
如何快速找到期刊文献的期卷号

在我们撰写论文时不论是查找下载期刊文献资料还是编辑参考文献都会需要知道该期刊论文的期卷号那么期刊论文的期卷号怎么找呢下面小编就介绍几种论文期卷号的查找方法注文中所用的检索工具是文献党下载器一最常见的就是论文的期卷号在参考文献
Presto查询Hive无数据解决方法

1 是否使用了TEZ引擎 2 是否配置好了presto 如果是TEZ引擎则加上一条配置即可在hive properties中增加 hive recursive directories true
“Required request body is missing”请求体缺失

昨天遇到一个报错是这样的有一个接口后端和我说是get请求带两个参数在body里传递过去我当时明明带着参数一起发给后端了但是一直报错显示请求体缺失关键的是我用postman测试了接口是通的我就以为是前端的问题就在那改传
伪代码格式

伪代码描述应该保持简洁并且不应该超过一页的3 4 关键字和函数名字用粗体字所有的变量使用小写字母数组名称大写元素采用A i 这样的表示形式伪代码的意图是描述条件语句和循环语句例如伪代码计算两个最近点的距离 BruteForce
Web自动化 —— Selenium元素定位与防踩坑

1 基本元素定位一 from selenium import webdriver from selenium webdriver chrome service import Service from selenium webdriver c
Mac系统编译Spring源码

下载Spring源码 Spring源码托管在GitHub 点击进去之后选择一个版本然后下载下载完成后解压压缩包然后打开spring framework 5 2 x gradle wrapper gradle wrapper pro
ARM学习系列 ---- ARM NEON

ARM学习系列 ARM NEON 1 NEON概述 1 1 简介 NEON是指适用于Arm Cortex A系列处理器的一种高级SIMD 单指令多数据扩展指令集可执行并行数据处理 1 2 发展历史 arm v6 SIMD扩展 arm v
计算器ajax实现代码,用JQuery写一个计算器

因为觉得segment fault的markdown界面比CSDN漂亮一些所以最近正在把博客迁移到这边来这几天多发了两篇作为一个学习中练手的小demo 选了一个计算器原因大概只是因为早就想做比较简单又确实有很多地方不太清楚所以
PAT 1011 A+B 和 C

给定区间 2 31 2 31 内的 3 个整数 A B 和 C 请判断 A B 是否大于 C 注意本题数字的范围是 2 31 2 31 因此要用long long 类型刚开始用了int 类型一直提示有错误注意int 32位可以包括
开发规范-java代码注释及IDEA配置代码注释模板

引阿里巴巴开发规范注释规约强制类类属性类方法的注释必须使用 Javadoc 规范使用内容格式不得使用 xxx 方式说明在 IDE 编辑窗口中 Javadoc 方式会提示相关注释生成 Javadoc 可以正确输出相应
python正则表达式从字符串中提取数字的思路详解(转载)

python从字符串中提取数字使用正则表达式用法如下总结匹配字符串的开始匹配字符串的结尾 b 匹配一个单词的边界 d 匹配任意数字 D 匹配任意非数字字符 x 匹配一个可选的 x 字符换言之它匹配 1 次或者 0 次 x 字符
Unity - 无限循环列表

效果和UI结构效果 Tips 免费的视频转GIF网站 UI结构父节点为一个Panel Panel的Vertical Layout Group方便快捷调整Panel下的Image子物体的位置使用时取消组件 Image是列表的子物体只有
CSS文字自动换行

word break属性 normal 只在允许的断字点换行浏览器保持默认处理 break word 在长单词或 URL 地址内部进行换行 white space属性 normal 默认空白会被浏览器忽略 pre 空白会被浏览器保留其
Java编程那些事儿88——文件操作之写文件

Java编程那些事儿88 文件操作之写文件陈跃峰出自 http blog csdn net mailbomb 11 3 1 4 写文件如前所述将程序内部的数据输出到程序外部的数据源应该使用IO类体系中的输出流在实际的编程中将程
MATLAB设计滤波器之新版filterDesigner使用

一引言本篇内容主要介绍新版Matlab的滤波器设计filterDesigner工具的使用并以设计两个带通滤波器为使用的例子使用的MATLAB软件版本为MATLAB R2022a 二 filterDesigner设计滤波器 1 在命令
C++责任链模式：Chain of Responsibility Pattern

当你想要让一个以上的对象有机会能够处理某个请求的时候就可以使用责任链模式责任链模式将请求的发送和接收解耦让多个接收对象都有机会处理这个请求将这些接收对象串成一条链并沿着这条链传递这个请求直到链上的某个接收对象能够处理它为止通
Ubuntu18.04装Miniconda后终端出现base环境

在 Ubuntu18 04LTS DELL 台式机中安装 Pytorch 由于没有 GPU 只能下载仅使用 CPU 版的 Pytorch 去 Pytorch 官网按照文档 Start Locally PyTorch 一步步下载相应的环境 P
tomcat8下启动 jsp报错

The method getDispatcherType is undefined for the type HttpServletRequest java lang ClassNotFoundException org apache js
PLSQL中的FOR循环

游标的FOR循环循环体是查询的表游标的for循环 PL SQL 语言提供了游标 FOR 循环语句自动执行游标的 OPEN FETCH CLOSE 语句和循环语句的功能当进入循环时游标 FOR 循环语句自动打开游标并提取

随机推荐

LCD调试流程

本来想学的更深入一些再来写这些总结但想想边学边写记录成长过程也挺好的下面自底向上了解LCD的整个工作流程一 LCD的组成结构和各结构的功能 1 背光板模组提供光的来源 2 上下偏光板 TFT Glass Substrate 液
【C/C++学习笔记】c++ 回调函数

1 介绍回调函数就是一个通过函数指针调用的函数如果你把函数的指针地址作为参数传递给另一个函数当这个指针被用来调用其所指向的函数时我们就说这是回调函数回调函数不是由该函数的实现方直接调用而是在特定的事件或条件发生时由另外的一方
Maven自动化构建工具详解

一 Maven概述 1 使用Maven原因我们先通过企业开发中的实际需求来看一看哪些方面是我们现有技术的不足 1 第三方Jar包添加在今天的JavaEE开发领域有大量的第三方框架和工具可以供我们使用要使用这些jar包最简单的方法就是
win7+ubuntu20.04双系统安装，以及pointnet2_pytorch编译记录

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一 win7 ubuntu20 04双系统安装二 Ubuntu安装相关 1 Anaconda 2 Nvidia Driver 3 编译pointnet2 p
SSM框架-SpringMVC详解

springmvc概述 Springmvc是spring框架的一个模块 spring和springmvc无需中间整合层整合 Springmvc是一个基于mvc的web框架表现层的三大任务 URL到controller的映射 http请求参
【MySQL】20个经典面试题，全部答对月薪10k+

欢迎加入QQ群讨论更多内容群号 835870546 原文链接 http bbs 51cto com thread 1470880 1 html Part2 经典题目 1 MySQL的复制原理以及流程基本原理流程 3个线程以及之间的关联
IntelliJ Idea 常用快捷键列表

IntelliJ Idea 常用快捷键列表 Alt 回车导入包自动修正 Ctrl N 查找类 Ctrl Shift N 查找文件 Ctrl Alt L 格式化代码 Ctrl Alt O 优化导入的类和包 Alt Insert 生成代码
c++/c混合编程

一前言代码从编写到能执行之前需要经过编译链接阶段通常编译每一个单元文件会生成目标文件然后链接器会把各个目标文件链接起来生成可执行性文件链接器之所以能把目标文件相互之间链接起来就是通过查找目标文件中的唯一函数符号即经过编译
飞行管理计算机哪个公司,波音737-700的FMC（飞行管理计算机的讲解） VLN081

该楼层疑似违规已被系统折叠隐藏此楼查看此楼 DEP ARR 进离场页面第一行是你的起始机场左1 右1 XXXX ARR gt 右2 HOLD 等待点设置叶面等待点必须在航路上设置的一个点并已经如入到LEGS 左1 XX 点的名称
初识设计模式：单例模式

设计模式是一种思想解决一个问题的方法有很多种编程实现一个解决方法也有很多种设计模式是一种针对不同问题设计适合该问题的代码在保证解决问题的基础上还要保证能有好的扩展性再有新需求的时候可以便捷的添加新模块而非大动干戈的改变整个
cocos2d Sprite混合达到水流动效果

使用Sprite混合setBlendFunc方式达到流动效果 void MainHomeLayer updateWaterFall float dt static float offset 0 if NULL waterFall water
Qt获取CPU编号和硬盘序列号

windows下执行命令除了用cmd之外还有个东西叫WMIC 非常强大可以通过他获取很多信息包括硬件信息 QString frmMain getWMIC const QString cmd 获取cpu名称 wmic cpu get N
Pandas中DataFrame数据合并、连接（concat、merge、join）

最近在工作中遇到了数据合并连接的问题故整理如下供需要者参考一 concat 沿着一条轴将多个对象堆叠到一起 concat方法相当于数据库中的全连接 union all 它不仅可以指定连接的方式 outer join或inner
sql注入万能密码总结

select from admin where username and password 第一种当你已知管理员账号名为admin时可以直接尝试 admin select from admin where username admin a
QT/PyQT/PySide 通过富文本形式实现关键词高亮

因为本质上都是QT 所以我标题带了QT 这个思路是没问题的就是用C 得换个语言最开始想根据之前一篇博客的思路进行高亮 PyQT PySide 文本浏览器跳转到指定行并高亮指定行 qt 指定行高亮 Toblerone Wind的博客 C
归一化互相关匹配

设待匹配图像I的像素大小为MxN 模板T的像素大小为mxn 从图像I中任意选取一块像素大小为mxn的子图Ix y 其左上角在图像I中的坐标为 x y 可知坐标范围为其中 M N分别为待匹配图像像素的行数和列数 m n分别为模板像素的行数和
[USF-XSim-62] ‘elaborate‘ step failed with errors.[Vivado 12-4473] Detected error while running sim

USF XSim 62 elaborate step failed with error s Please check the Tcl console output and Vivado 12 4473 Detected error whi
linux中shell变量$#,$@,$0,$1,$2的含义解释/Shell中的${}、##和%%使用范例/export

linux中shell变量 0 1 2的含义解释变量说明 Shell本身的PID ProcessID Shell最后运行的后台Process的PID 最后运行的命令的结束代码返回值使用Set命令设定的Flag一览所有参数列表如用
【开集识别论文解读】Classification-Reconstruction Learning for Open-Set Recognition——CVPR2019

论文原文 https arxiv org pdf 1812 04246v2 pdf 本文提出的CROSR利用潜在表示进行重建并在不损害已知类别分类精度的情况下实现鲁棒未知检测开集分类器可以检测不属于任何训练类的样本通常它们将概率分布
机器翻译的数据预处理

主要分为三大块 1 数据筛选去除那些训练集中不对齐质量差的句对相关的技巧有很多去重重复的数据会使训练过程有偏可以简单地去除完全相同的句对也可以计算每两个句子之间的局部哈希值把相似度小于某个阈值的句对都去除去空行空行不能提

机器翻译的数据预处理

机器翻译的数据预处理 的相关文章

随机推荐

热门标签

机器翻译的数据预处理的相关文章