在 NLTK 中实现词袋朴素贝叶斯分类器

2024-01-24

我基本上有和这个人有同样的问题 https://stackoverflow.com/questions/2162718/python-nltk-code-snippet-to-train-a-classifier-naive-bayes-using-feature-frequ.. The NLTK书中的例子 http://nltk.googlecode.com/svn/trunk/doc/book/ch06.html#document-classify-all-words对于朴素贝叶斯分类器，仅考虑单词是否作为特征出现在文档中。它不考虑单词的频率作为要查看的特征（“词袋”）。

答案之一 https://stackoverflow.com/a/2226115/378622似乎表明这不能用内置的 NLTK 分类器来完成。是这样吗？如何使用 NLTK 进行频率/词袋 NB 分类？

scikit学习 http://scikit-learn.org has 多项式朴素贝叶斯的实现 http://scikit-learn.org/stable/modules/naive_bayes.html#multinomial-naive-bayes，这是这种情况下朴素贝叶斯的正确变体。不过，支持向量机 (SVM) 可能会工作得更好。

正如 Ken 在评论中指出的那样，NLTK 已经scikit-learn 分类器的一个很好的包装器 https://github.com/nltk/nltk/blob/master/nltk/classify/scikitlearn.py。根据文档修改，这里有一个有点复杂的模型，它执行 TF-IDF 加权，根据 chi2 统计选择 1000 个最佳特征，然后将其传递到多项式朴素贝叶斯分类器。（我敢打赌这有点笨拙，因为我对 NLTK 或 scikit-learn 都不太熟悉。）

import numpy as np
from nltk.probability import FreqDist
from nltk.classify import SklearnClassifier
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

pipeline = Pipeline([('tfidf', TfidfTransformer()),
                     ('chi2', SelectKBest(chi2, k=1000)),
                     ('nb', MultinomialNB())])
classif = SklearnClassifier(pipeline)

from nltk.corpus import movie_reviews
pos = [FreqDist(movie_reviews.words(i)) for i in movie_reviews.fileids('pos')]
neg = [FreqDist(movie_reviews.words(i)) for i in movie_reviews.fileids('neg')]
add_label = lambda lst, lab: [(x, lab) for x in lst]
classif.train(add_label(pos[:100], 'pos') + add_label(neg[:100], 'neg'))

l_pos = np.array(classif.classify_many(pos[100:]))
l_neg = np.array(classif.classify_many(neg[100:]))
print "Confusion matrix:\n%d\t%d\n%d\t%d" % (
          (l_pos == 'pos').sum(), (l_pos == 'neg').sum(),
          (l_neg == 'pos').sum(), (l_neg == 'neg').sum())

这为我打印：

Confusion matrix:
524     376
202     698

不完美，但还不错，考虑到这不是一个超级简单的问题，而且它只在 100/100 上进行训练。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 NLTK 中实现词袋朴素贝叶斯分类器的相关文章

Python Popen 与 psexec 挂起 - 不良结果

我对 subprocess Popen 和我认为是管道的问题有疑问我有以下代码块从 cli 运行时 100 都不会出现问题 p subprocess Popen psexec serverName get cmd c ver echo
django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
TensorFlow的./configure在哪里以及如何启用GPU支持？

在我的 Ubuntu 上安装 TensorFlow 时我想将 GPU 与 CUDA 结合使用但我却停在了这一步官方教程 http www tensorflow org get started os setup md 这到底是哪里 con
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel

随机推荐

Delphi 的 VCL 中的命名空间兼容性

如何最好地保持 Delphi 7 到 Delphi XE7 之间使用的命名空间的兼容性 Delphi 7 使用 SysUtils 而 Delphi XE7 使用 System SysUtils 它使用许多 ifdef 使代码变得混乱所以我
如何从 wsdl 生成 Web 服务

客户端向我提供了 wsdl 来生成 Web 服务但是当我使用 wsdl exe 命令时它生成了 cs 类我在 Web 服务中使用了该类当我向客户端提供 wsdl 时它与他们的架构不匹配实际上我希望从 wsdl 自动生成 asm
在 MySQL 中将 dd/mm/yyyy 字符串转换为 Unix 时间戳

在我的表中我有一个名为的 varchar 列date包含 dd mm yyyy 格式的日期字符串表示形式如何在 SELECT 查询中将它们转换为 Unix 时间 select unix timestamp str to date 30
NSURLRequest 到 NSString

如何将 NSURLRequest 转换为 NSString NSString urlRequestToString NSURLRequest urlRequest NSString requestPath urlRequest URL ab
使用 CloudKit 共享私有数据

有没有一种简单的方法可以使用 CloudKit 在两个或多个用户之间共享私有数据公共和私人日期是显而易见的但似乎没有一种方法可以允许一组用户组织自己的孤岛以在彼此之间共享数据而不将其提供给系统的所有其他用户和应用程序开发人员我想到了
DAX 测试整数

我有一个实际值列如下所示 ID Airport A 98 4 B 98 0 C 95 3 我正在尝试将上面的数字格式化为前端报告的百分比我将其写在 switch 语句中为了方便起见我将逻辑编写为 IF 布尔值 example mea
Yii2：从 URL 中删除控制器

我正在使用高级模板我在 SiteController 上创建了所有操作因此我所有的 url 都是domain com site something 并且我需要从 url 中删除 site 一词这样它将是domain com somet
在 XAML 中显示窗口内的页面

我的窗口中有一个选项卡控件在每个选项卡项内我想要有一个不同的页面我可以通过在 TabItem 内创建一个 Frame 并在后面的代码中使用来实现此目的例如 frame1 Content new Pages MyPage 我怎样才能在
为什么 Facebook 调试器工具无法抓取我的网站？

我有一个网站http predictstat com http predictstat com 它由 Django 提供支持我想确保当用户将此网站的链接发布到 Facebook 时那里会显示一个漂亮的预览图像标题和描述也可以使用不同
BitBucket 和合并冲突

我有一个代码源有 3 个分支 master Branch 1 Branch 2 我正在尝试Branch 2当另一个程序员正在工作时Branch 1 在本地提取任何更改后我最近将更改推送到了我的分支然后我将我的分支与主分支合并我现在正
如何创建一个自动让用户登录到 devise/rails 的链接？

我正在尝试让注册用户在我的网站上执行某些操作因此我想通过电子邮件向他们发送直接指向此操作的链接问题是我希望他们在单击此链接时自动登录我可以做一些显而易见的事情例如创建一个唯一的令牌并通过 url 传递它mysite com my f
使用不同的最终分隔符连接字符串数组

一般来说如何连接字符串数组以使最后一个分隔符与其他分隔符不同具体来说 iOS消息应用程序如何构建群组对话的默认名称即联系人姓名列表 Example class User var name String init name String
C++ boost asio Windows 文件句柄 async_read_until 无限循环 - 无 eof

我在 VS2010 中使用 boost 1 50 使用 aWindows 文件句柄与使用套接字的 asio 相比这似乎相对不常见 Problem The handle read回调到达第 8 行并返回第一位并附加第 1 行的所有内容
Laravel - Artisan 给出了错误的基本 url

我的 app config app php 有 url gt http dev domain com something somethingElse 然后我有一个可以从应用程序和 artisan 命令调用的函数但URL route myR
Laravel 5 列出 htmlentities() 期望参数 1 为字符串

我有以下内容 App Models Finance FinanceAccount lists name id 在我的一个观点的顶部但它一直给我错误 htmlentities expects parameter 1 to be string
关于如何在 GoDaddy 服务器中使用 PHPMailer 设置 SMTP 的问题

我已经研究了 3 周如何使用 PHPMailer for GoDaddy 配置 SMTP 但没有任何效果尝试联系 GoDaddy 支持但他们尚未回复我还没有看到任何关于如何在他们的服务器上设置 SMTP 的文档我已经多次更改主机并进
Google 地图地理编码器从 MySQL 数据库查找附近的地点

我有一个网站我将位置存储在 MySQL 数据库中并使用数据库提供的地址进行地理编码现在我想添加一个功能它将找到距离指定点最近的位置例如他们现在站立或打字的位置我正在使用 JavaScript 和 jQuery 编写地理编码器和谷
更改 ruby 变量/引用的值

我只是偶然发现了一些我不太明白的事情我知道 ruby 中的变量是引用所以那些很棒的事情是可能的但是当我将变量传递给方法时它的行为很奇怪 my var a nothing happend to me my var b nothing
install_github是否递归安装依赖项？

R 包devtools似乎是直接从 github 存储库安装 R 包的方法使用install github 功能这样做时不仅会安装所寻址的 github 包还会安装其直接的 CRAN 依赖项即包的描述命名空间文件中定义的依赖项和
在 NLTK 中实现词袋朴素贝叶斯分类器

我基本上有和这个人有同样的问题 https stackoverflow com questions 2162718 python nltk code snippet to train a classifier naive bayes usi

在 NLTK 中实现词袋朴素贝叶斯分类器

在 NLTK 中实现词袋朴素贝叶斯分类器 的相关文章

随机推荐

热门标签

在 NLTK 中实现词袋朴素贝叶斯分类器的相关文章