sklearn机器学习：多项式朴素贝叶斯MultinomialNB

2023-11-19

多项式朴素贝叶斯MultinomialNB

多项式贝叶斯可能是除了高斯之外，最为人所知的贝叶斯算法了。它也是基于原始的贝叶斯理论，但假设概率分布是服从一个简单多项式分布。多项式分布来源于统计学中的多项式实验，这种实验可以具体解释为：实验包括n次重复试验，每项试验都有不同的可能结果。在任何给定的试验中，特定结果发生的概率是不变的。
举个例子，比如，一个特征矩阵表示投掷硬币的结果，则得到正面的概率为P(X=_正面|Y) = 0.5，反面的概率为P(X=_反面|Y) = 0.5，只有这两种可能，并且两种结果互不干涉，两个随机事件的概率加和为1，这就是二项分布。这种情况下，适合于多项式朴素贝叶斯的特征矩阵应该长这样：
在这里插入图片描述
假设另一个特征X’表示投掷骰子的结果，则 i 就可以在[1,2,3,4,5,6]中取值，六种结果互不干涉，且只要样本量足够大，概率都为1/6，这就是一个多项分布。多项分布的特征矩阵应该长这样：

可以看出：

多项式分布擅长的是分类型变量，在其原理假设中，P(x_i|Y)的概率是离散的，并且不同x_i下的P(x_i|Y)相互独立，互不不影响。虽然sklearn中的多项式分布也可以处理连续型变量，但现实中，
如果我们真的想要处理连续型变量，应当使用高斯朴素贝叶斯。
多项式实验中的实验结果都很具体，它所涉及的特征往往是次数，频率，计数，出现与否这样的概念，这些概念都是离散的正整数，因此，sklearn中的多项式朴素贝叶斯不接受负值的输入。

由于这样的特性，多项式朴素贝叶斯的特征矩阵经常是稀疏矩阵（不一定总是稀疏矩阵），并且它经常被用于文本分类。我们可以使用著名的TF-IDF向量技术，也可以使用常见并且简单的单词计数向量手段与贝叶斯配合使用。这两种手段都属于常见的文本特征提取的方法，可以很简单地通过sklearn来实现。
从数学的角度来看，在一种标签类别Y=c下，有一组分别对应特征的参数向量 θ c = ( θ c 1 , θ c 2 , . . . , θ c n , ) \theta_c=(\theta_{c1},\theta_{c2},...,\theta_{cn},) θc=(θc1,θc2,...,θcn,)，其中n表示特征的总数。一个 θ c i \theta_{ci} θci表示这个标签类别下的第i个特征所对应的参数。这个参数被我们定义为：

θ c i = 特征 X i 在 Y = 特征在 c 这个分类下的所有样本的取值总和所有特征在 Y = 特征在 c 这个分类下的所有样本的取值总和 \theta_{ci}=\large\frac{特征{X_i}在Y=特征在c这个分类下的所有样本的取值总和}{所有特征在Y=特征在c这个分类下的所有样本的取值总和} θci=所有特征在Y=特征在c这个分类下的所有样本的取值总和特征Xi在Y=特征在c这个分类下的所有样本的取值总和

记作P(X_i|Y=c)，表示当Y=c这个条件固定的时候，一组样本X_i在这个特征上的取值被取到的概率。
对于一个在标签类别下，结构为(m, n)的特征矩阵来说，我们有：
X y = [ x 11 x 12 … x 1 n x 21 x 22 … x 2 n ⋮ ⋮ ⋱ x m 1 x m 2 … x m n ] X_y =\left[ \begin{array}{c} x_{11} & x_{12} & \ldots & x_{1n} \\ x_{21} & x_{22} & \ldots & x_{2n} \\ \vdots & \vdots & \ddots\\ x_{m1} & x_{m2} & \ldots & x_{mn} \\ \end{array} \right] Xy=⎣⎢⎢⎢⎡x11x21⋮xm1x12x22⋮xm2……⋱…x1nx2nxmn⎦⎥⎥⎥⎤
其中每个x_ji都是特征X_i发生的次数。基于这些，通过平滑后的最大似然估计来求解参数 θ y \theta_y θy:
在这里插入图片描述
对于每个特征， ∑ y j = c x j i \mathbf{\sum_{y_j=c}x_{ji}} ∑yj=cxji是特征X_i下所有标签为c的样本的特征取值之和，其实就是特征矩阵中每一列的和。 ∑ i = 1 n ∑ y j = c x j i \mathbf{\sum_{i=1}^n\sum_{y_j=c}x_{ji}} ∑i=1n∑yj=cxji是所有标签类别为c的样本上，所有特征的取值之和，其实就是特征矩阵X_y中所有元素的和。 λ \lambda λ被称为平滑系数，令 λ \lambda λ>0来防止训练数据中出现过的一些词汇没有出现在测试集中导致的0概率，以避免让参数 θ \theta θ为0的情况。如果 λ \lambda λ=1，则这个平滑叫做拉普拉斯平滑， λ \lambda λ<1，叫做利德斯通平滑。两种平滑都属于自然语言处理中比较常用的用来平滑分类数据的统计手段。
之前提到，系数 θ c i \theta_{ci} θci其实就是P(X_i|Y=c)，这是对于每⼀一个特征而言，在Y=c取值下的概率。
在这里插入图片描述
且
P(Y=1|X)+P(Y=0|X)=1
但在最大后验估计中需要的是P(x_i|Y=c)，这是对于一个样本来说取到Y=c时的概率，那么，如何将一个特征上的概率变成一个样本在一个特征取值下的概率呢？其实很简单：
P(x_i|Y=c)= θ c i x i \theta_{ci}x_i θcixi
对于像掷骰子或者抛硬币这样的“是否发生”类型的实验而言，特征取值x_i往往只有0和1两种选择，如果为0，则这个样本在这个特征下的概率取值就为0，如果为1，则这个样本在这个特征取值下的概率就为 θ c i x i \theta_{ci}x_i θcixi。
在sklearn中，用来执行多项式朴素贝叶斯的类MultinomialNB包含如下的参数和属性：
class sklearn.naive_bayes.MultinomialNB (alpha=1.0,fit_prior=True, class_prior=None)
其中：
alpha : 浮点数, 可不填 (默认为1.0)
拉普拉斯或利德斯通平滑的参数 λ \lambda λ，如果设置为0则表示完全没有平滑选项。但是需要注意的是，平滑相当于人为给概率加上一些噪音，因此 λ \lambda λ设置得越大，多项式朴素贝叶斯的精确性会越低（虽然影响不是非常大）。
fit_prior : 布尔值, 可不填 (默认为True)
是否学习先验概率P(Y=c)。如果设置为false，则所有的样本类别输出都有相同的类别先验概率。即认为每个标签类出现的概率是 1 n _ c l a s s e s \frac1{n\_classes} n_classes1。
class_prior：形似数组的结构，结构为(n_classes, )，可不填（默认为None）
类的先验概率P(Y=c)。如果没有给出具体的先验概率则自动根据数据来进行计算。
布尔参数fit_prior表示是否要考虑先验概率，如果是False，则所有的样本类别输出都有相同的类别先验概率。否则，可以用第三个参数class_prior输入先验概率，或者不输入第三个参数class_prior让
MultinomialNB自己从训练集样本来计算先验概率，此时的先验概率为P(Y=C_k)=m_k/m。其中m为训练集样本总数量，m_k为输出为第k个类别的训练集样本数。总结如下：
在这里插入图片描述
通常，在实例化多项式朴素贝叶斯的时候，会让所有的参数保持默认。先来简单建一个多项式朴素贝叶斯的例子试试看：

#导⼊入需要的模块和库
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_blobs
from sklearn.metrics import brier_score_loss

#建立数据集
class_1 = 500 
class_2 = 500 #两个类别分别设定500个样本
centers = [[0.0, 0.0], [2.0, 2.0]] #设定两个类别的中心
clusters_std = [0.5, 0.5] #设定两个类别的方差
X, y = make_blobs(n_samples=[class_1, class_2],
                  centers=centers,
                  cluster_std=clusters_std,
                  random_state=0, shuffle=False)

Xtrain, Xtest, Ytrain, Ytest = train_test_split(X,y
                                                ,test_size=0.3
                                                ,random_state=420)

np.unique(Ytrain)

array([0, 1])

(Ytrain==1).sum()/Ytrain.shape[0]

0.49857142857142855

#归一化，确保输入多项式朴素贝叶斯的特征矩阵不带有负数
mms = MinMaxScaler().fit(Xtrain)
Xtrain_ = mms.transform(Xtrain)
Xtest_ = mms.transform(Xtest)

#建立一个多项式朴素贝叶斯分类器
mnb = MultinomialNB().fit(Xtrain_, Ytrain)
#重要属性：调⽤用根据数据获取的，每个标签类的对数先验概率log(P(Y))
#由于概率永远是在[0,1]之间，因此对数先验概率返回的永远是负值
mnb.class_log_prior_

array([-0.69029411, -0.69600841])

#可以使用np.exp来查看真正的概率值
np.exp(mnb.class_log_prior_)

array([0.50142857, 0.49857143])

#重要属性：返回一个固定标签类别下的每个特征的对数概率log(P(Xi|y))
mnb.feature_log_prob_

array([[-0.76164788, -0.62903951],
       [-0.72500918, -0.6622691 ]])

'''重要属性：在fit时每个标签类别下包含的样本数。
当fit接口中的sample_weight被设置时，
该接口返回的值也会受到加权的影响'''
mnb.class_count_

array([351., 349.])

分类器的效果如何呢？用一些传统的接口试试：

mnb.predict(Xtest_)

array([1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       ...
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

mnb.predict_proba(Xtest_)

array([[0.49847128, 0.50152872],
       [0.50065987, 0.49934013],
       [0.50122363, 0.49877637],
       ...
       [0.50156107, 0.49843893],
       [0.50078711, 0.49921289],
       [0.50197128, 0.49802872]])

mnb.score(Xtest_,Ytest)

0.5433333333333333

效果不太理想，思考一下多项式贝叶斯的性质，我们能够做点什么呢？来试试看把Xtiain转换成分类型数据吧：注意我们的Xtrain没有经过归一化，因为做哑变量之后自然所有的数据就不会有负数了

'''KBinsDiscretizer()是将连续型变量划分为分类变量的类,
能够将连续型变量排序后按顺序分箱后编码'''
from sklearn.preprocessing import KBinsDiscretizer
kbs = KBinsDiscretizer(n_bins=10, encode='onehot').fit(Xtrain)
Xtrain_ = kbs.transform(Xtrain)
Xtest_ = kbs.transform(Xtest)
mnb = MultinomialNB().fit(Xtrain_, Ytrain)
mnb.score(Xtest_,Ytest)

0.9966666666666667

可以看出，多项式朴素贝叶斯的基本操作和代码都非常简单。同样的数据，如果采用哑变量方式的分箱处理，多项式贝叶斯的效果会突飞猛进。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sklearn机器学习：多项式朴素贝叶斯MultinomialNB 的相关文章

合并数据框中的值以写入 Excel

我有一个看起来像的数据框 column1 column2 column3 colum4 column5 1 r n 1 r s 1 r n 2 r s 3 r n 3 2 r n 1 r s 1 r n 4 r s 4 r n 5 3 r
sphinx 中的分组方法文档字符串

是否可以使用 sphinx 的 autodoc 功能将多个方法文档字符串分组以便将它们列在一起 class Test object def a self A method of group foo def b self A method
如何在 kubernetes 上使多个 pod 相互通信

我是 Kubernetes 新手我正在尝试通过 microk8s 将应用程序部署到 Kubernetes 该应用程序包含Python Flask后端 Angular前端 Redis和MySQL数据库我将映像部署在多个 Pod 中状态显
HoughLinesP后如何合并线？

My task is to find coordinates of lines startX startY endX endY and rectangles 4 lines Here is input file 我使用下一个代码 img c
Python Pandas 从宽到长的格式更改以及列标题拆分

我有一个包含以下列标题和行示例的表 Subject Test1 Result1 Test1 Result2 Test2 Result1 Test2 Result2 0 John 10 0 5 20 0 3 我想将其改造成 Subject l
修复类以在 Flask 会话中启用对象存储[重复]

这个问题在这里已经有答案了我有一个自定义类 Passport 其中包含活动用户身份和权限我曾经将它存储在会话中如下所示 p Passport p do something fancy session passport p 它就奏效了
[python]没有属性“TessBaseAPI”

当我编译代码时出现错误 import tessercat api tesseract TessBaseAPI 错误是 AttributeError 模块对象没有属性 TessBaseAPI 我已经安装了tesseract via pip
在Python中迭代文件对象不起作用，但readlines()可以，但效率低下

在下面的代码中如果我使用 for line in fin 它只对 a 执行但如果我使用 wordlist fin readlines for line in wordlist 然后它执行 a thru z But readlines 立
SQLAlchemy：检查给定值是否在列表中

问题在 PostgreSQL 中检查某个字段是否在给定列表中是使用IN操作员 SELECT FROM stars WHERE star type IN Nova Planet SQLAlchemy 的等价物是什么INSQL查询我尝试过
如何充分释放函数中使用的GPU内存

我在用着cupy在接收一个函数numpy数组将其推到 GPU 上对其进行一些操作并返回cp asnumpy它的副本问题函数执行后内存没有被释放如ndidia smi 我知道内存的缓存和重用cupy 但是这似乎仅适用于每个用户当
为什么我在将数据上传到数据库时不断看到“正在重置断开的连接”？

我正在通过 REST API 将数亿个项目从 Heroku 上的云服务器上传到 AWS EC2 中的数据库我正在使用 Python 并且经常在日志中看到以下 INFO 日志消息 requests packages urllib3 conn
将查询参数添加到 URL

我正在尝试自动从网站下载数据我需要将动态参数传递到每天更改的站点 html 的结构是表格而不是表单如何传递参数并从 url 获取结果这是我尝试过的它需要在 python 2 7 中 import urllib url https d
Python Flask应用程序无法被网络中的远程计算机访问

我在本地主机上的 python 上运行了一个简单的 Flask Web 应用程序 Web 应用程序在 127 0 0 1 8000 上运行但我无法使用 myHostComputerIPaddress 8000 从网络中的远程计算机访问它
如何将列表中的每个项目转换为字符串，以便连接它们？ [复制]

这个问题在这里已经有答案了我需要加入一个项目列表列表中的许多项目都是从函数返回的整数值 IE myList append munfunc 我应该如何将返回的结果转换为字符串以便将其加入列表我是否需要对每个整数值执行以下操作 myLis
让 TensorFlow 在 ARM Mac 上使用 GPU

我已经安装了TensorFlow在 M1 上 ARM Mac 根据这些说明 https github com apple tensorflow macos issues 153 一切正常然而模型训练正在进行CPU 如何将培训切换到GPU
Docker Build 找不到 pip

尝试关注一些 1 https aws amazon com blogs aws run docker apps locally using the elastic beanstalk eb cli 2 http docs aws amazo
在Python中打开网站框架或图像

所以我对 python 相当熟练并且经常使用 urllib2 和 Cookies 来实现网站自动化我刚刚偶然发现了 webbrowser 模块它可以在默认浏览器中打开一个网址我想知道是否可以从该 url 中仅选择一个对象并打开它具
Matplotlib 渲染日期、图像的问题

我在使用 conda forge 的 Matplotlib v 3 1 3 和 python 3 7 时遇到问题我拥有 Matplotlib 所需的所有依赖项当我输入这段代码时它应该可以工作我得到了泼溅艺术它基于此 YouTube
需要一个从 yaml 文件中提取内容并输出为 csv 文件的脚本

我对 python 很陌生但我很感激您帮助指导我创建一个简单的脚本该脚本读取一堆 yaml 文件同一目录中的大约 300 个文件并从 yaml 文件并将其转换为 csv yaml 文件中内容的示例 code 9313 degrees
将自定义属性添加到 Tk 小部件

我的主要目标是向小部件添加隐藏标签或字符串之类的内容以在其上保存简短信息我想到创建一个新的自定义 Button 类在本例中我需要按钮它继承所有旧选项这是代码 form tkinter import class NButton Bu

随机推荐

创业的真谛是顺势而为，借船过海！

追寻成功的路上顺势最易借势稍难造势境界最高创业者或者创业团队积极争取优惠政策打造自身适宜环境努力营造外在氛围最大化有效使用身边各种资源懂得聚合放大顺势是为了为顺势而为最终是为了顺势大为一顺势而为无论商场战场
Python opencv学习-13 直方图反向投影（用于图像分割）

代码和图片大量参考https blog csdn net tengfei461807914 article details 77075567 自己跑了下验证了下个人理解直方图反向投影用来做图像分割或者说知道了一个目标的图片的一部分去
利用Redis bitmap签到功能

1 简介 BitMap 存储的是连续的二进制数字 0 和 1 通过 bitmap 只需要一个 bit 位来表示某个元素对应的值或者状态 key 就是对应元素本身我们知道 8 个 bit 可以组成一个 Byte 所以bitmap 本身会极大
为什么程序员都喜欢安静？

大家回顾一下上学期间你在上晚自习想完成今天老师布置的作业但是你的班级却非常的吵闹跟置身在菜市场一样你能专心完成作业吗不受周围吵闹环境的影响吗相信大部分的人都难以静下心来认真完成作业有时候好不容易想到一个思路结果旁边的人拍你一
Windows系统常用命令

Windows常用命令 1 echo 用法输出一个字符到终端当加上 gt 后就可输出到文本文件例如 echo 1 在终端显示一个1 echo 20 gt gt 1 txt 在当前目录下的1 txt文件后面追加一行数据值20 如果没有1
AT24C02芯片使用介绍

AT24C02简介 AT24C02是一个2K位串行CMOS E2PROM 内部含有256个8位字节有一个16字节页写缓冲器该器件通过IIC总线接口进行操作有专门的写保护功能应用于AT24C02制造过程的先进CMOS技术实质上减少了器
咬牙切齿的按钮

先看效果再看代码查看更多 import url https fonts googleapis com css2 family Roboto wght 500 display swap root sz 9vmin on 4CAF50 of
ftp服务器性能对比,ftp服务器软件性能对比

ftp服务器软件性能对比内容精选换一换 Java性能分析是鲲鹏性能分析工具的子工具本章节以openEuler离线环境安装工具登录创建Guardian和分析任务卸载工具为例指导您快速上手Java性能优分析由于root用户拥有
机器学习毕设题目有哪些_毕设开源了，126个star，39个fork

毕设题目我是去年毕业的软件工程专业学校给的毕设题目是实现一个电影院订票系统如图嗯题目一看很简单其实就是实现一个web版的影票在线订票系统罢了因此当天接到毕设后的我就大刀阔斧的准备开干了技术方案选择先说个大前提我们学校评
c++动态数组（二）之allocator类

new在灵活性上面一些局限性以方便它将内存分配和对象构造组合在了一起 delete将内存释放和对象析构组合在一起当分配一大块内存时我们通常计划在这块内存上面按需构造对象在这种情况下我们希望内存分配和对象构造分离这意味着我们可以分
Python学习之cookies及session用法

当想利用Python在网页上发表评论的时候需要一些账号密码登录的信息这个时候用requests get 请求的话账号密码全部会显示在网址上这显然不科学这个时候需要用post请求可以这么理解 get是明文显示 post是非明文显示
cad等比例缩放快捷键_终于领会CAD缩放(放大与缩小)快捷键

终于领会CAD缩放放大与缩小快捷键日期 2019 10 09 19 15 01 浏览 9 核心提示 CAD缩放放大与缩小快捷键这个非常简单鼠标的中键也就是滚轮双击两下中键图形会适合平面显示全部滚轮前后滚动是缩放不需要什么快
error: “自定义函数XXX” must take exactly one argument

主要问题在于类里面的重载的二元运算符时只需要一个参数另一个参数由this指针传入这里如果需要传入两个参数需要放到类外定义声明友元访问私有数据和函数如下 class myTask public myTask int a int
windbg remote stub方式远程调试

windbg远程调试时有两种方式一种为remote session 另一种为remote stub 具体详情请google 我下面说说我在使用remote stub方式时遇到的一些困惑按照教程我在target machine启动了s
.NET C# 世界日期格式转换为yyyyMMdd

本文分享了一个按照不同国家的语言生成相应时间格式的案例有需要做国外网站或者多国语言网站的朋友可以参考一下本文在引用 C DateTime ToString根据不同语言生成相应的时间格式基础上做了一个Demo测试旨在给更多有需要的人能
C++设计模式-State状态模式

State状态模式作用当一个对象的内在状态改变时允许改变其行为这个对象看起来像是改变了其类 UML图如下 State类抽象状态类定义一个接口以封装与Context的一个特定状态相关的行为 ConcreteState类具体状态每一
Nodejs-Express框架

1 认识Web框架目前在Node中比较流行的Web服务器框架是express koa express早于koa出现并且在Node社区中迅速流行起来可以基于express快速方便的开发自己的Web服务器并且可以通过一些实用工具和中间
HttpResponse响应、render 响应、redirect 响应、JsonResponse 响应

目录 HttpResponse介绍常用属性 content 返回的内容编辑 content type 返回给数据的MIME类型 status code 返回的HTTP响应状态码 render 返回网页给网页传值 1 指名道姓方式传值
Mysql推荐书籍

一初级 1 MySQL必知必会这本书英文原版名是很标题党的 Teach Yourself SQL in 10 Minutes 却是最好的数据库入门书在Amazon上长期排在数据库销售榜首建议想快速了解数据库原理和MySQL的新手阅读
sklearn机器学习：多项式朴素贝叶斯MultinomialNB

多项式朴素贝叶斯MultinomialNB 多项式贝叶斯可能是除了高斯之外最为人所知的贝叶斯算法了它也是基于原始的贝叶斯论但假设概率分布是服从一个简单多项式分布多项式分布来源于统计学中的多项式实验这种实验可以具体解释为实验包括

sklearn机器学习：多项式朴素贝叶斯MultinomialNB

多项式朴素贝叶斯MultinomialNB

sklearn机器学习：多项式朴素贝叶斯MultinomialNB 的相关文章

随机推荐

热门标签