Laplace smoothing in Naïve Bayes algorithm（拉普拉斯平滑）

2023-11-18

在这里转载只是为了让不能够科学搜索的同学们看到好文章而已，个人无收益只是分享知识（顺手做个记录罢了）

原网址：https://towardsdatascience.com/laplace-smoothing-in-na%C3%AFve-bayes-algorithm-9c237a8bdece

Naïve Bayes is a probabilistic classifier based on Bayes theorem and is used for classification tasks. It works well enough in text classification problems such as spam filtering and the classification of reviews as positive or negative. The algorithm seems perfect at first, but the fundamental representation of Naïve Bayes can create some problems in real-world scenarios.

This article is built upon the assumption that you have a basic understanding of Naïve Bayes. I have written an article on Naïve Bayes. Feel free to check it out.

Understanding Naïve Bayes algorithm

A probabilistic classifier

towardsdatascience.com

Example

Let’s take an example of text classification where the task is to classify whether the review Is positive or negative. We build a likelihood table based on the training data. While querying a review, we use the Likelihood table values, but what if a word in a review was not present in the training dataset?

Query review = w1 w2 w3 w’

We have four words in our query review, and let’s assume only w1, w2, and w3 are present in training data. So, we will have a likelihood for those words. To calculate whether the review is positive or negative, we compare P(positive|review) and P(negative|review).

In the likelihood table, we have P(w1|positive), P(w2|Positive), P(w3|Positive), and P(positive). Oh, wait, but where is P(w’|positive)?

If the word is absent in the training dataset, then we don’t have its likelihood. What should we do?

Approach1- Ignore the term P(w’|positive)

Ignoring means that we are assigning it a value of 1, which means the probability of w’ occurring in positive P(w’|positive) and negative review P(w’|negative) is 1. This approach seems logically incorrect.

Approach 2- In a bag of words model, we count the occurrence of words. The occurrences of word w’ in training are 0. According to that

P(w’|positive)=0 and P(w’|negative)=0, but this will make both P(positive|review) and P(negative|review) equal to 0 since we multiply all the likelihoods. This is the problem of zero probability. So, how to deal with this problem?

Image by Pixabay, from Pexels

Laplace Smoothing

Laplace smoothing is a smoothing technique that handles the problem of zero probability in Naïve Bayes. Using Laplace smoothing, we can represent P(w’|positive) as

Here,
alpha represents the smoothing parameter,
K represents the number of dimensions (features) in the data, and
N represents the number of reviews with y=positive

If we choose a value of alpha!=0 (not equal to 0), the probability will no longer be zero even if a word is not present in the training dataset.

Interpretation of changing alpha

Let’s say the occurrence of word w is 3 with y=positive in training data. Assuming we have 2 features in our dataset, i.e., K=2 and N=100 (total number of positive reviews).

Case 1- when alpha=1

P(w’|positive) = 3/102

Case 2- when alpha = 100

P(w’|positive) = 103/300

Case 3- when alpha=1000

P(w’|positive) = 1003/2100

As alpha increases, the likelihood probability moves towards uniform distribution (0.5). Most of the time, alpha = 1 is being used to remove the problem of zero probability.

Conclusion

Laplace smoothing is a smoothing technique that helps tackle the problem of zero probability in the Naïve Bayes machine learning algorithm. Using higher alpha values will push the likelihood towards a value of 0.5, i.e., the probability of a word equal to 0.5 for both the positive and negative reviews. Since we are not getting much information from that, it is not preferable. Therefore, it is preferred to use alpha=1.

Thanks for reading!

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Laplace smoothing in Naïve Bayes algorithm（拉普拉斯平滑）的相关文章

【需求响应】改进连续时间控制方法用于分散式需求响应的恒温负荷研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码及文章
关于整型提升与截断的一道题目

关于整型提升与截断可以看我的博客 C语言整型提升 c语言整形提升 CSDN博客 C语言截断整型提升算数转换练习 c语言unsigned CSDN博客一题目二题解 char a 101截断由于101是整型数据需要32比特
J2EE常见面试题（一）

StringBuilder和StringBuffer的区别 String 字符串常量不可变使用字符串拼接时是不同的2个空间 StringBuffer 字符串变量可变线程安全字符串拼接直接在字符串后追加 StringBuilder
【状态估计】【卡尔曼-加权最小二乘(KEWLS)和KEWLS-KF(KKF)】采用低维线性卡尔曼滤波器将单个传感器测量外推/预测到单个估计瞬间，用于WLS多点定位方法的新方法（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
华为OD机试2024年最新题库（C++）

我是一名软件开发培训机构老师我的学生已经有上百人通过了华为OD机试学生们每次考完试会把题目拿出来一起交流分享重要 2024年1月 5月考的都是OD统一考试 C卷题库已经整理好了命中率95 以上这个专栏使用 C 解法问1 考
【状态估计】【卡尔曼-加权最小二乘(KEWLS)和KEWLS-KF(KKF)】采用低维线性卡尔曼滤波器将单个传感器测量外推/预测到单个估计瞬间，用于WLS多点定位方法的新方法（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
2024年华为OD机试真题-手机App防沉迷系统-Java-OD统一考试（C卷）

题目描述智能手机方便了我们生活的同时也侵占了我们不少的时间手机App防沉迷系统能够让我们每天合理的规划手机App使用时间在正确的时间做正确的事它的大概原理是这样的 1 在一天24小时内可注册每个App的允许使用时段 2 一个时
2024年华为OD机试真题-转盘寿司-Java-OD统一考试（C卷）

题目描述寿司店周年庆正在举办优惠活动回馈新老客户寿司转盘上总共有n盘寿司 prices i 是第i盘寿司的价格如果客户选择了第i盘寿司寿司店免费赠送客户距离第i盘寿司最近的下一盘寿司 j 前提是prices j lt prices
矩阵基本操作2

题目描述问题描述将方阵 n 行n列 n lt 100 置成下三角矩阵主对角线右上角数字全部清零输入格式第一行输入n 接下来的n行每行n列表示矩阵的数值用空格隔开输出格式 n行n列下三角矩阵每个数字3个占位符左对齐输入样
基于卡尔曼的混合预编码技术用于多用户毫米波大规模MIMO系统研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
「优选算法刷题」：移动零

嗨这个假期罗根开始接触了算法在为今年的蓝桥杯做准备所以开个新专栏记录记录自己做算法题时的心得一题目给定一个数组 nums 编写一个函数将所有 0 移动到数组的末尾同时保持非零元素的相对顺序请注意必须在不复制数组的情况下
『力扣刷题本』:逆波兰表达式求值

大家好久不昂最近 1 个多月罗根一直在备考期末文章发的很少现在已经放寒假啦学习自然也不能拉下毕竟 4 月份就要去参加蓝桥杯了先给自己定个小目标日更 2 篇咳咳下面马上开始讲题一题目给你一个字符串数组 tokens 表
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

详情点击链接 GPT4 Python近红外光谱数据分析及机器学习与深度学习建模第一 GPT4 入门基础 1 ChatGPT概述 GPT 1 GPT 2 GPT 3 GPT 3 5 GPT 4模型的演变 2 ChatGPT对话初体验注册与
高精度运算合集，加减乘除，快速幂，详细代码，OJ链接

文章目录零前言一加法高精度加法步骤 P1601 A B 二减法高精度减法步骤
最大流-Dinic算法，原理详解，四大优化，详细代码

文章目录零前言一概念回顾可略过 1 1流网络 1 2流 1 3最大流 1 4残留网络 1 5增广路

随机推荐

python实现广义线性模型

广义线性模型核心就是最小二乘法最小二乘法简而言之就是求较小值在极小值的时候值最小一阶导数为0 import matplotlib pyplot as plt import numpy as np from sklearn impor
Stream流体系

员工属性类 package Java project 1 public class Employee private String name 姓名 private char sex 性别 private double salary 薪水 p
CTF练习WP(week1)之二

目录 1 flag in your hand1 2 HCTF 2018 WarmUp 1 flag in your hand1 题目链接题目 xctf org cn 打开附件里的html 在网页上输入token获取flag 会发现每次输入
[Vue warn]: Error in render: “TypeError: Cannot read properties of undefined（reading“toString“）

描述在我们写了大量的标签但是实际上却出现了无任何东西一查看控制台就出现了这样的错误提示解决思路渲染错误 TypeError 无法读取未定义的属性读取 toString 全局搜友toSrtring 无变量toString 但是有一个
数据链路层相关协议

网络类型根据数据链路层协议进行划分 MA 多点接入网络 BMA广播型 NBMA非广播型 P2P 点到点的网络以太网协议需要使用MAC地址对不同的主机设备进行区分和标识主要因为利用以太网组件的二层网络可以包含两个和两个以上的接口
学完责任链之后，逻辑思维上升了一个段位，我马上写了一个月薪3万的简历，HR看了让我去上班

经过上一篇的文章我们学习了责任链模式和策略模式设计模式相对重要对架构项目拓展性移植性要求比较高下面我会说到简历对于开发来说简历是程序员的第二生命技术是第一生命简历第二生命学历第三生命简历到底是什么简历是你的第二生命
js密码验证

js密码验证
Paper Reading：《LISA: Reasoning Segmentation via Large Language Model》

目录简介目标创新点方法训练实验总结简介 LISA Reasoning Segmentation via Large Language Model 基于大型语言模型的推理分割日期 2023 8 1 v1 单位香港中文大学
python函数参数里面带*是什么意思

文章参考 https blog csdn net jiangkejkl article details 121346940 1 函数参数定义中使用独立的符号在函数定义时使用了一个独立的符号这表示在符号后面的参数调用函数时必须使用k
NAPI机制分析

NAPI机制分析 NAPI 的核心在于在一个繁忙网络每次有网络数据包到达时不需要都引发中断因为高频率的中断可能会影响系统的整体效率假象一个场景我们此时使用标准的 100M 网卡可能实际达到的接收速率为 80MBits s 而此
解决 IDEA中springboot项目修改页面无法生效问题

解决 IDEA中springboot项目修改页面无法生效问题之前网上找了很多解决办法都是无效的所以找到解决办法后先发个博客说一下至此就完成了springboot 无需重启则对html修改生效如出现偶尔无效时请刷新浏览器之前
Linux下使用Git上传和更新代码

一上传代码 1 去github上根据网站的提示来创建自己的远程Repository 仓库 2 建立本地git仓库 git init 注意此指令本地源码根目录执行执行成功后会在当前目录生成一个隐藏的名字为 git 的目录所有对本地仓
【ClickHouse数据库】如何在Win10的Ubuntu上通过ClickHouse存取行情数据

如何在Win10的Ubuntu上通过ClickHouse存取行情数据前言一 ClickHouse是什么二如何在Ubuntu上安装ClickHouse 三添加用户并设置密码四使用 1 使用DBeaver操作数据库 2 向Clic
计算机图形学方向和前景&&3D

我是刚入坑计算机图形学的小菜鸟在百度上搜索计算机图形学方向和前景和3D 几乎不能搜到什么有用的东西 google还能搜到些有用的但是需要翻墙恰好前几天山大承办的games 北京大学陈宝权老师提出了图形学的新疆界 10个左右的国内图形学
vue 如何获取input中光标位置，并且点击按钮在当前光标后追加内容

1 第一步监听输入框的鼠标失焦事件
(原创)c++11中的日期和时间库

c 11提供了日期时间相关的库chrono 通过chrono相关的库我们可以很方便的处理日期和时间 c 11还提供了字符串的宽窄转换功能也提供了字符串和数字的相互转换的库有了这些库提供的便利的工具类我们能方便的处理日期和时间相关的转换
linux服务器管理与维护,linux服务器管理与维护速训..ppt

linux服务器管理与维护速训入门级命令 1990年秋天 Linus在芬兰首都赫尔辛基大学学习操作系统课程因为上机需要排队等待 Linus买了台PC机开发了第一个程序程序包括两个进程分别向屏幕上写字母A和B 然后用定时器来切换进程
mysql必考知识_可能是全网最好的MySQL重要知识点！面试必备

标题有点标题党的意思但希望你在看了文章之后不会有这个想法这篇文章是作者对之前总结的 MySQL 知识点做了完善后的产物可以用来回顾MySQL基础知识以及备战MySQL常见面试问题 Python资源共享群 484031800 什么是My
在GPU上实现光线跟踪

include cuda h include book h include cpu bitmap h define DIM 1024 生成图像的大小 DIM DIM define SPHERES 20 生成的图像中球体的个数 define
Laplace smoothing in Naïve Bayes algorithm（拉普拉斯平滑）

在这里转载只是为了让不能够科学搜索的同学们看到好文章而已个人无收益只是分享知识顺手做个记录罢了原网址 https towardsdatascience com laplace smoothing in na C3 AFve bayes