n-gram模型中的平滑方法

2023-11-19

当使用n-gram模型对测试语料中的句子进行评估时,如果句子中包含在训练集中未出现的n元语法,则计算出来句子出现的概率为0。例如上一篇博客语言模型和n元语法中的例子,此时用该模型来计算下面句子的概率:

因此,必须分配给所有可能出现的字符串一个非零的概率值来避免这种错误的发生。 平滑技术(smoothing)就是用来解决此类问题,基本思想是“劫富济贫",即提高低概率,降低高概率。常见的有加1法(additive smoothing)、减值法/折扣法(discounting)和插值法。

  • 加1法(additive smoothing)

         这是最简单直观的一种平滑算法,假设每个n元语法出现的次数比实际出现(训练集)的次数多一次。如下面式子,

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

n-gram模型中的平滑方法 的相关文章

随机推荐

  • unity数学函数mathf.PinPong的实现原理

    mathf这个库十分强大 基本上封装了 游戏数学方面的函数 先介绍一个Mathf pingpong 官方api Mathf PingPong 乒乓 static function PingPong t float length float
  • 《高效能程序员的修炼》目录及部分精彩章节

    高效能程序员的修炼 本书已上市 各大书店均有销售 谢谢支持 目 录 1 入门须知 1 1 你想当一个程序员 1 2 程序员的八种境界 1 3 如何培养写作习惯 2 把一堆烂事搞定的艺术 2 1 学海无边 2 2 磨刀不误砍柴工 2 3 一路
  • 深入探索透视纹理映射(下)

    在上一篇文章中 我们探讨了学习透视纹理映射所需要的基础知识 我们知道了顶点在通过透视投影变换之后 是如何一步一步通过流水线进入屏幕空间的 也知道了一个非常简单的三角形扫描线转换算法 以及通过线性插值实现的仿射纹理映射 尽管我们使用的这个流程
  • 图片自动填充单元格_Excel合并单元格后进行快编号填充,你还为这个操作苦恼吗?...

    我们在工作中常常会遇到这样的情况 经常需要对某些行进行合并 但是 这个时候可能就会遇到一个问题 合并了行以后如何进行自动序号填充呢 使用Excel自带的向下拉填充序列的方式是不能正确填充的 今天 给大家介绍一种能够对合并单元格进行序号填充的
  • Clion中单行注释、多行注释及取消注释快捷键示例

    添加注释 单行注释 光标定位到指定代码行 Ctrl 多行注释 光标选定多行代码 Ctrl shift 取消注释 取消注释与添加注释快捷键相同 单行注释 光标定位到指定代码行 Ctrl 多行注释 光标定位到多行注释中 或选定全部被注释的内容
  • feignclient发送get请求,传递参数为对象。

    feignclient发送get请求 传递参数为对象 此时不能使用在地址栏传递参数的方式 需要将参数放到请求体中 第一步 修改application yml中配置feign发送请求使用apache httpclient 而不是默认的jdk
  • 做什么副业比较赚钱,这五个项目现在入行可能比上班挣得还多

    还有2个月不到的时间 2022就要过去了 这一年太魔幻了 而普通人的生活也的确太难了 这一年 各行各业都在萎缩 制造业急剧萎缩 要么不能静态生产 要么生产了就送不出去 因为可能是疫区 也可能是收货地 这样老板和员工都赚不到钱 中小商户和商铺
  • 我们无法设置移动热点_Win10 校园拨号连接情况下开热点

    win10校园网下开启热点 本段文字用以解决win10下无法建立移动热点 错误提示为 我们无法设置移动热点 因为你的电脑未建立以太网 WIFI或手机网络连接 这个问题可能出现在拨号上网连接的设备上 这也就是说我们的电脑现在无法识别出我们所用
  • java 读取resource下的文件

    目录 一 普通main代码里使用 1 假设有如下结构的代码 1 main方法里复制resource下的文件 2 main方法里读取resource下的文件 2 假设有如下结构的代码 二 对于springboot项目读取resource下的资
  • JDBC数据源连接池(4)---自定义数据源连接池

    JDBC数据源连接池 4 自定义数据源连接池 续上文 JDBC数据源连接池 3 Tomcat集成DBCP 我们已经 了解了DBCP C3P0 以及Tomcat内置的数据源连接池 那么 这些数据源连接池是如何实现的呢 为了究其原理 我在这里写
  • Bootstarp入门教程(5) 排版(2)

    3 缩略语 当鼠标悬停在缩写和缩写词上时就会显示完整内容 Bootstrap实现了对HTML的
  • 如何理解和解决高并发

    如何理解高并发 高并发指的两方面 提升硬件 负载均衡 使用缓存 缓存一致性如何保证 限流 DNS负载均衡 线程池和分布式锁 总结 高并发指的两方面 同一时刻有大量的请求访问系统 有大量的请求并行访问系统 当大量请求短时间内涌入系统的时候 我
  • 2018中国汽车企业排行榜TOP10

    看排名 懂中国汽车 Aming 汽车行业变化很快 但是从上市车企的情况来看 可以看到具体的财报数字 因而可以知道一个更具体的发展情况 不过这次的排行榜主要针对2018年上半年中国已经上市的汽车企业 特别推出利润排行榜与销量排行榜 同时还有利
  • Dockerfile讲解和案例分享

    目录 dockerfile是在容器外部 构建三部曲 dockerfile基本知识 dockerfile执行流程 dockerfile 常用保留字 FROM MAINTAINER RUN EXPOSE WORKDIR USER ENV ADD
  • 40个学术网站

    40个学术网站 满足你的科研需求 2018 03 06 美国留学那点事 文 中外学术情报 微信号 Academic Information 科研工作者每天日常莫过于看文献 做实验 写论文 人生最郁闷的事情不过于是导师说 那个XX 帮我下载下
  • java secretkey用法_Java SecretKeyFactory.generateSecret方法代码示例

    本文整理汇总了Java中javax crypto SecretKeyFactory generateSecret方法的典型用法代码示例 如果您正苦于以下问题 Java SecretKeyFactory generateSecret方法的具体
  • Rust- 类型转换

    Rust is a statically typed language which means that it emphasizes on knowing the types of all variables at compile time
  • Python全栈开发【基础-05】基本数据类型

    专栏介绍 本专栏为Python全栈开发系列文章 技术包括Python基础 函数 文件 面向对象 网络编程 并发编程 MySQL数据库 HTML JavaScript CSS JQuery bootstrap WSGI Django Flas
  • LeetCode 124. 二叉树中的最大路径和 Python

    给定一个非空二叉树 返回其最大路径和 本题中 路径被定义为一条从树中任意节点出发 达到任意节点的序列 该路径至少包含一个节点 且不一定经过根节点 示例 1 输入 1 2 3 1 2 3 输出 6 示例 2 输入 10 9 20 null n
  • n-gram模型中的平滑方法

    当使用n gram模型对测试语料中的句子进行评估时 如果句子中包含在训练集中未出现的n元语法 则计算出来句子出现的概率为0 例如上一篇博客语言模型和n元语法中的例子 此时用该模型来计算下面句子的概率 因此 必须分配给所有可能出现的字符串一个