使用朴素贝叶斯分类器对推文进行分类：一些问题

2024-01-23

除了其他来源之外，我还使用 Stackoverflow 上的各种帖子，尝试实现自己的 PHP 分类器，将推文分为正面、中性和负面类别。在编码之前，我需要理清流程。我的思路和例子如下：

                                  p(class) * p(words|class)
 Bayes theorem: p(class|words) =  ------------------------- with
                                           p(words)

 assumption that p(words) is the same for every class leads to calculating
 arg max p(class) * p(words|class) with
 p(words|class) = p(word1|class) * p(word2|topic) * ... and
 p(class) = #words in class / #words in total and

                 p(word, class)                       1
 p(word|class) = -------------- = p(word, class) * -------- =
                    p(class)                       p(class)

 #times word occurs in class    #words in total  #times word occurs in class
 --------------------------- * --------------- = ---------------------------
       #words in total          #words in class        #words in class

 Example: 

 ------+----------------+-----------------+
 class | words          | #words in class |
 ------+----------------+-----------------+
 pos   | happy win nice | 3               |
 neu   | neutral middle | 2               |
 neg   | sad loose bad  | 3               |
 ------+----------------+-----------------+

 p(pos) = 3/8
 p(neu) = 2/8
 p(meg) = 3/8

 Calculate: argmax(sad loose)

 p(sad loose|pos) = p(sad|pos) * p(loose|pos) = (0+1)/3 * (0+1)/3 = 1/9
 p(sad loose|neu) = p(sad|neu) * p(loose|neu) = (0+1)/3 * (0+1)/3 = 1/9
 p(sad loose|neg) = p(sad|neg) * p(loose|neg) =     1/3 *     1/3 = 1/9

 p(pos) * p(sad loose|pos) = 3/8 * 1/9 = 0.0416666667
 p(neu) * p(sad loose|neu) = 2/8 * 1/9 = 0.0277777778
 p(neg) * p(sad loose|neg) = 3/8 * 1/9 = 0.0416666667 <-- should be 100% neg!

正如你所看到的，我用积极的（“快乐获胜很好”）、中性的（“中性中间”）和消极的（“悲伤的松散的坏”）推文“训练”了分类器。为了防止由于所有类中缺少一个单词而导致概率为零的问题，我使用拉普拉斯（或“添加一”）平滑，请参阅“(0+1)”。

我基本上有两个问题：

这是正确的实施蓝图吗？还有改进的空间吗？
对推文（“sad loes”）进行分类时，预计它 100% 属于“neg”类，因为它只包含否定词。然而，拉普拉斯平滑使事情变得更加复杂：类 pos 和 neg 具有相同的概率。有解决方法吗？

推理中有两个主要元素需要改进。

首先，你应该改进你的平滑方法：

应用拉普拉斯平滑时，应将其应用于所有测量，而不仅仅是分母为零的测量。
此外，这种情况下的拉普拉斯平滑通常由 (c+1)/(N+V) 给出，其中 V 是词汇量（例如，参见维基百科 http://en.wikipedia.org/wiki/Additive_smoothing).

因此，使用您定义的概率函数（这可能不是最合适的，见下文）：

p(sad loose|pos) = (0+1)/(3+8) * (0+1)/(3+8) = 1/121

p(sad loose|neu) = (0+1)/(3+8) * (0+1)/(3+8) = 1/121

p(sad loose|neg) = (1+1)/(3+8) * (1+1)/(3+8) = 4/121 <-- would become argmax

此外，首先计算概率的更常见方法是：

(number of tweets in class containing term c) / (total number of tweets in class)

例如，在上面给出的有限训练集中，不考虑平滑，p(sad|pos) = 0/1 = 0，并且 p(sad|neg) = 1/1 = 1。当训练集大小增加时，数字将变得更有意义。例如如果您有 10 条属于负面类别的推文，其中 4 条出现“悲伤”，那么 p(sad|neg) 将为 4/10。

关于朴素贝叶斯算法输出的实际数字：您不应该期望算法为每个类别分配实际概率；相反，类别顺序更重要。具体来说，使用 argmax 将为您提供算法对该类的最佳猜测，但不是它的概率。为 NB 结果分配概率是另一回事；例如，参见article http://www.bradblock.com/Transforming_Classifier_Scores_into_Accurate_Multiclass_Probability_Estimates.pdf讨论这个问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用朴素贝叶斯分类器对推文进行分类：一些问题的相关文章

PHP日期时间“下周星期三”给我星期一

我正在尝试使用以下方法获取下周星期三的日期new DateTime next week wednesday 然而它返回2016 12 19 00 00 00 000000今天是星期一为什么会这样呢如何得到正确的结果我尝试在在线 PH
PHP - 从图像创建一张图像

我有 n 张图像想用 php 代码创建一张我使用 imagecopymerge 但无法成功请举一些例子 Code numberOfImages 3 x 940 y 420 background imagecreatetruecolor
PDOException SQLSTATE[HY000] [2002] 我的本地计算机上的连接超时

最近我从服务器导入了代码但本地代码无法连接到远程 mysql 数据库所以我有两个问题我可以访问我的远程数据库吗如果是为什么我的代码不起作用如果没有有没有办法绕过这个问题我不想复制在本地计算机上运行的 mysql 数据库我的
PHP7 返回类型为 JSON

PHP 7 有一个新功能即返回类型声明我们可以返回一个字符串类型例如 function myFunction a string 我们还可以返回一个数组类型例如 function myFunction a array 但是我们
在 WooCommerce 订单和电子邮件中添加并显示自定义购物车项目数据

我有一个名为彩票的自定义 woocommerce 产品类型我需要在其上添加一个自定义选择字段因为它不是可变产品所以我添加了一个一切工作正常我在购物车和结帐中也获得了价值但我无法在管理订单或订单邮件客户和管理员中获得价值这是
Laravel 5 Eloquent 关系：无法修改/覆盖关系表属性

我正在使用 Laravel 5belongsToMany使用中间数据透视表定义相关表的方法我的应用程序正在使用雄辩的模型Tour and 旅游类别在游览模型中我有 namespace App use Illuminate Databas
在php中的字符串数组中查找字符串的开头[重复]

这个问题在这里已经有答案了我知道我们有 php in array 函数但我正在寻找一种方法来查找以特定字符串开头的字符串数组中的值例如找到 search string div 1 div 在这样的数组中 array sample gt
使用 with 的热切加载模型，但给它起了另一个名字 - Laravel 5.2

是否可以使用 with 方法来使用预加载但给它另一个名称就像是 gt with documents as product documents documents as categories 我有一个可以是产品或类别的文档表急切加载可以
Python 小数.InvalidOperation 错误

当我运行这样的东西时我总是收到此错误 from decimal import getcontext prec 30 b 2 3 Decimal b Error Traceback most recent call last File Te
将 PHP 变量保存到文本文件

我想知道如何将 PHP 变量保存到 txt 文件然后再次检索它们 Example 有一个输入框提交后写的东西输入框将被保存到文本文件中稍后需要结果作为变量带回假设变量是 text I 需要将其保存到文本文件并能够将其检索回来
生成 CloudFront 签名 URL 时性能缓慢

我正在按照此示例使用 PHP 在 CloudFront 上创建签名 URLhttp docs aws amazon com AmazonCloudFront latest DeveloperGuide CreateURL PHP html
MPDF 未定义索引错误

我正在使用 MPDF 库将 HTML 转换为 PDF 这是我的代码 HTML HTML CONTENT GOES HERE HTML STRING MPDF gt WriteHTML html Converting MPDF gt Outp
PHP 和 ASP.Net 可以在 IIS 7.5 中的同一网站中一起运行吗？

我们网站的一部分是用 PHP 完成的而我们网站的一部分是用 ASP Net 完成的我们刚刚使用 Windows Server 2008 R2 设置了一个新的 Web 服务器其中安装了 IIS 7 5 我知道 IIS 7 支持 PHP
如何使用 wpf webbrowser 将数据发布到 Web 服务器

我想从数据库获取数据并使用它来让用户登录到网站我有一个包含 Web 浏览器控件的 wpf 页面我有这样的代码用于将用户登录到用 php 编写的网站
Laravel 雄辩的 withCount() 应该比 with() 慢

所以我问这个的原因是在我当前的应用程序中withCount 与仅通过以下方式获取关系的所有数据相比响应时间几乎增加了三倍with 并只是从前端获取长度 javascript 我认为使用的要点withCount 是为了加快查询速度但也许我
PHP 中 while (true){ 是什么意思？

我看过这段代码但不知道这意味着什么 while true echo Hello world 我知道什么是 while 循环但是 while true 是什么意思会执行多少次这不是无限循环吗虽然是无限循环但您可以使用以下命令退出它
按度数在圆上找到一个点？

假设我们有一个 100x100 坐标系如下所示 0 0 是它的左上角 50 50 是它的中心点 100 100 是它的右下角等等现在我们需要从中心向外画一条线我们知道线的角度但需要计算其终点的坐标您认为最好的方法是什么例如如
Curl 和 Php 5.3.3 中的 SSL 连接错误

我的网站自 3 年来一直运行良好代码如下现在突然从 2 天开始出现以下错误 SSL 连接错误在 Curl error 中下面是我的代码
CKEditor TypeError：c[a] 在 CodeIgniter 中未定义

我正在尝试在基于 codeigniter 的网站中安装 CKEditor 并且我已按照本教程进行操作 Codeigniter 教程中的 CKEditor http nukium com developpement php framework
在 Laravel 视图中使用 CSS？

我刚刚开始学习 Laravel 并且可以掌握控制器和路由的基础知识我的操作系统是 Mac OS X Lion 它位于 MAMP 服务器上我的routes php代码 Route get function return View make

随机推荐

是否可以在不使用助手的情况下在车把模板中分配参数值？

我正在尝试在模板中分配值想法是执行以下操作 if author className classA lt trying to implement this line else className classB if div class di
如何在 HTML 中嵌入流媒体视频 (rtmp)

如何在 HTML 中嵌入流媒体视频 rtmp 链接rtmp http 42 116 119 44 4022 udp 225 1 2 244 30120 http 42 116 119 44 4022 udp 225 1 2 244 3012
将 (u)int64_t 转换为 NSNumber

所以本质上我的问题是这样的我正在使用 uint64 t 对象作为键创建一个 NSMutableDictionary 还有比这样做更好的方法来创建它们吗 uint64 t bob 7 NSNumber bobsNumber if LP64
Android Studio 插件 Fabric 中出现异常

我已经安装了最新的面料插件 https get fabric io beta对于 Android Studio 它运行良好一段时间更新到 Android Studio 1 1 0 后我在事件日志中看到以下内容以及 NullPointe
括号：如何使自动完成/自动缩进工作？

括号看起来不错但我在使用它时遇到两个问题 First 我通常这样自动完成标签 div class PRESS TAB becomes div class class div 我无法实现这一点我尝试下载一堆插件但没有任何作用 Secon
使用 ActiveMQ/Stomp 在 PHP 和 Java 之间进行通信

背景我有两个服务需要通过消息队列相互通信一种是用 PHP 编写的遗留服务另一种是用 Java 编写的迟早 PHP 服务将被 Java 重写它们当前相互通信的方式是写入共享数据库由其他服务轮询这就是我试图摆脱并用消息队列替换的内
仅限 AJAX 的 Javascript 库

我正在寻找一个只有 AJAX 没有其他功能的 Javascript 库例如一个小型的简单 XMLHttp 包装器微贾克斯 http code google com p microajax 这是我决定的
如何让 Material-UI 选项卡与 React-router 一起使用？

我正在尝试让 Material UI 选项卡与路由一起使用当路由正在工作并显示所选选项卡时选项卡之间导航的流畅动画不再起作用如何将 React Router 与 Material UI 选项卡一起使用以保持选项卡动画正常工作截至目
最快重合矩阵

我有两个数组我想计算一个巧合列表数组即所有索引 i j 的列表使得 a i b j 这是我现在的代码 b np array 3 5 6 4 a np array 1 2 3 4 np array i j for i in range
如何获取每个权限的保护级别？

我试图列出所选应用程序中每个权限的保护级别对于下面给出的代码但我不知道如何完成它 ArrayList
根据另一个依赖项的版本使用不同的代码

以下情况库 X 由我维护依赖于库 Y 版本 2 0 对于库 Y 存在较新的主要版本 3 该版本通常更好将基于 Y 2 构建的代码升级到 Y 3 非常简单但仍然需要对现有代码进行一些调整 Y 是 X 的依赖项因此升级它会迫使 X 的
还有人知道这是什么意思吗？

static final boolean assertionsDisabled java util TaskQueue desiredAssertionStatus 在源文件中看到的java util TaskQueue java Quot
Kotlin：公共获取私有设置变量

在 kotlin 中定义具有公共 getter 和私有仅内部可修改 setter 的 var 的正确方法是什么 var setterVisibility String abc Initializer required not a null
该证书的颁发者无效：钥匙串将所有证书标记为“无效颁发者”[重复]

这个问题在这里已经有答案了钥匙串突然将我的钥匙串中的所有证书显示为无效因为它在 2 天前工作我还检查了开发人员门户它在那里显示有效它将钥匙串中的每个证书标记为该证书的颁发者无效正如消息表明这一定是发行人方面的问题而我们的发
InternalResourceViewResolver 与 UrlBasedViewResolver 有何不同

我刚刚开始使用Spring 我遇到了很多教程我看到了更多使用的例子InternalResourceViewResolver than UrlBasedViewResolver 我查看了 Spring 文档但我无法弄清楚使用其中之一的好处
尝试使用 FragmentActivity 时无法访问 ActivityCompat Api 23

我尝试在我的智能手表上使用 ViewPager 但在尝试重建运行调试我的应用程序时不断收到错误我正在使用 FragmentActivity 这就是发生错误的地方我搜索了 stackoverflow 和教程网站来看看可能是什么问题很
为什么没有“国外进口原药不安全”？

这是我之前问题的后续here https stackoverflow com questions 41213378 using foreign import prim with a c function using stg calling
在现有的 Ruby on Rails 应用程序中创建博客

我有兴趣向我的 Ruby on Rails 应用程序添加博客我不想浪费时间在 Rails 中编写 bloggin 应用程序我可以做到但我只是更喜欢更强大的东西我研究过 Wordpress 它似乎是最好的博客平台之一我的问题是如何将
实体框架返回旧数据

我遇到了 EF 无法在 3 层 WPF 应用程序中返回最新数据的问题我怀疑这与我处理上下文生命周期的方式有关这是场景 UnitOfWork 内包含多个存储库还有一项服务 MyService 它使用 UnitOfWork 此 UnitO
使用朴素贝叶斯分类器对推文进行分类：一些问题

除了其他来源之外我还使用 Stackoverflow 上的各种帖子尝试实现自己的 PHP 分类器将推文分为正面中性和负面类别在编码之前我需要理清流程我的思路和例子如下 p class p words class Bayes t

使用朴素贝叶斯分类器对推文进行分类：一些问题

使用朴素贝叶斯分类器对推文进行分类：一些问题 的相关文章

随机推荐

热门标签

使用朴素贝叶斯分类器对推文进行分类：一些问题的相关文章