使用经过训练的分类器进行 NLTK 分类接口

2024-01-10

我找到了一小块代码here http://streamhacker.com/2010/05/10/text-classification-sentiment-analysis-naive-bayes-classifier/:

import nltk.classify.util
from nltk.classify import NaiveBayesClassifier
from nltk.corpus import movie_reviews
from nltk.corpus import stopwords

def word_feats(words):
    return dict([(word, True) for word in words])

negids = movie_reviews.fileids('neg')
posids = movie_reviews.fileids('pos')

negfeats = [(word_feats(movie_reviews.words(fileids=[f])), 'neg') for f in negids]
posfeats = [(word_feats(movie_reviews.words(fileids=[f])), 'pos') for f in posids]

negcutoff = len(negfeats)*3/4
poscutoff = len(posfeats)*3/4

trainfeats = negfeats[:negcutoff] + posfeats[:poscutoff]
testfeats = negfeats[negcutoff:] + posfeats[poscutoff:]
print 'train on %d instances, test on %d instances' % (len(trainfeats), len(testfeats))

classifier = NaiveBayesClassifier.train(trainfeats)
print 'accuracy:', nltk.classify.util.accuracy(classifier, testfeats)
classifier.show_most_informative_features()

但是我如何对语料库中可能存在的随机单词进行分类。

classifier.classify('magnificent')

不起作用。它需要某种物体吗？

非常感谢。

编辑：感谢@unutbu的反馈和一些挖掘here http://nltk.googlecode.com/svn/trunk/doc/api/nltk.probability.ProbDistI-class.html#samples并阅读原始帖子的评论，以下代码会产生“pos”或“neg”（这是一个“pos”）

print(classifier.classify(word_feats(['magnificent'])))

这会产生单词“pos”或“neg”的评估

print(classifier.prob_classify(word_feats(['magnificent'])).prob('neg'))

print(classifier.classify(word_feats(['magnificent'])))

yields

pos

The classifier.classify方法本身不对单个单词进行操作，它基于dict of features。在这个例子中，word_feats将句子（单词列表）映射到dict的功能。

Here is 另一个例子 http://nltk.org/book/ch06.html（来自 NLTK 书）它使用NaiveBayesClassifier。通过比较该示例与您发布的示例之间的相似点和不同点，您可能会更好地了解如何使用它。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLTK

使用经过训练的分类器进行 NLTK 分类接口的相关文章

为什么 Python zipfile 不提供与命令行 zip 相同的输出 .zip 文件大小？

这是生成的文件的大小zip seq 10000 gt 1 txt zip 1 1 txt adding 1 txt deflated 54 ls og 1 zip rw r r 1 22762 Aug 29 10 04 1 zip 这是一个
使用 pycharm 进行交互式 shell 调试

我是 PyCharm 新手我已经使用 IDLE 很长时间了在IDLE中执行脚本后使用Python对象非常方便有没有办法在使用 PyCharm 与交互式 python shell 执行后使用脚本对象例如我们有一个测试项目其中包
LSTM - 一段时间后预测相同的常数值

我有一个变量我想预测未来 30 年的情况不幸的是我没有很多样品 df pd DataFrame FISCAL YEAR 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 199
为什么 takewhile() 会跳过第一行？

我有一个这样的文件 1 2 3 TAB 1 2 3 TAB 我想将 TAB 之间的行作为块读取 import itertools def block generator file with open file as lines for li
AttributeError：模块“tensorflow.python.summary.summary”没有属性“FileWriter”

我收到此错误尽管我到处都看过file writer tf summary FileWriter path to logs sess graph 被提到为正确的实施this https github com tensorflow tenso
Redis 队列工作程序在 utcparse 中崩溃

我正在尝试按照以下教程获得基本的 rq 工作 https blog miguelgrinberg com post the flask mega tutorial part xxii background jobs https blog m
Flask-admin 内联建模传递表单参数会抛出 AttributeError

Flask 开发者们大家好在 Flask admin 中我目前尝试在模型视图中实现内联模型编辑在模型方面我有一个简单的树结构表示一组内容页面每个节点都有多个子节点以及与其关联的多个内容数据模型模型被命名为ContentNode
pandas dataframe 对列进行排序会引发索引上的 keyerror

我有以下数据框 df peaklatency snr 0 52 99 0 0 1 54 15 62 000000 2 54 12 82 000000 3 54 64 52 000000 4 54 57 42 000000 5 54 13 7
如何将 MP3 音频文件读入 numpy 数组/将 numpy 数组保存到 MP3？

有没有办法从 MP3 音频文件中读取写入 MP3 音频文件numpy具有类似 API 的数组scipy io wavfile read https docs scipy org doc scipy 0 14 0 reference gen
如何检测斑点并将其裁剪成 png 文件？

我一直在开发一个网络应用程序我陷入了一个有问题的问题我会尝试解释我想要做什么在这里您看到第一个大图像其中有绿色形状我想要做的是将这些形状裁剪成不同的 png 文件并使它们的背景透明就像大图像下面的示例裁剪图像一样第一张图像将
python中的unicode错误[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 在下面的代码中我收到错误mailSe
使用 matplotlib 在 python3 中对多个形状进行动画处理

尝试在 python3 中使用 matplotlib 动画函数同时对多个对象进行动画处理下面写的代码是我到目前为止的位置我能够创建多个对象并将它们显示在图中我通过使用包含矩形补丁函数的 for 循环来完成此操作从这里开始我希望通过
使用Python构建caffe（找不到-lboost_python3）

我正在尝试用 python 构建 caffe 但它一直这样说 CXX LD o python caffe caffe so python caffe caffe cpp usr bin ld cannot find lboost pytho
数据框更新后如何刷新绘图？

假设您已经使用以下方法构建了一个图形px line 使用数据框数据框稍后会添加新数据用新数据刷新数据的好方法是什么一个例子可以是px data stocks 从列的子集开始 GOOG AAPL AMZN FB NFLX MSFT 例如
在keras自定义损失中使用层输出

我正在 Keras 中开发自定义损失函数我需要第一层输出我怎样才能取回它 def custom loss y true y pred cross K mean K binary crossentropy y true y pred ax
为什么Python安装程序不断弹出？

每当我尝试运行 Python 文件时都会自动弹出此窗口虽然我可以关闭它但有时它会连续打开 7 10 个窗口这令人恼火谁能告诉我为什么会发生这种情况 None
从由空格分隔的单个输入整数列表创建二维数组

我正在解决一些问题geeksforgeeks我遇到了一个特定的问题其中在测试用例中提供了输入如下所示 2 2 denotes row column of the matrix 1 0 0 0 all the elements of th
加入语音频道（discord.py）

当我尝试让我的机器人加入我的语音频道时出现以下错误 await client join voice channel voice channel 产生错误的行 Traceback most recent call last File usr
pandas - 组合行的字符串

我有一个像这样的数据框 id text 1 DM HTN Enlarged prostate 2 hypertensive and on regular treatment 2 LBP 3 DM HTN Enlarged prostate
Python 单元测试：Nose 失败时重试？

我有一个随机失败的测试我想让它在发送错误消息之前重试多次我将 python 与 Nose 一起使用我写了以下内容但不幸的是即使使用 try except 处理当第一次尝试测试失败时 Nose 也会返回错误 def test so

随机推荐

为什么人们在 C++ 中的头文件名中不使用大写字母？

我想知道为什么人们不在头文件名称中使用大写字母我看到许多头文件的名称仅是小写的但我认为如果他们用大写字母写比如 BaseClass h SubClass h 而不是 baseclass h subclass h 会更容易阅读这是为什
Django - 更改内联表单集文本输入大小属性

我有一个内联表单集只有三个字段 class Estimate Product Details models Model proposalID models ForeignKey Estimate Construction verbose
v11.4.2 中的 FirebaseAuth signInWithEmailAndPassword() 没有响应

我已升级到 Firebase Android 库 v11 4 2 以便在我的 Android 应用程序上试用 Firestore 但是当我尝试使用 FirebaseAuth 通过 signInWithEmailAndPassword 登录
如何使用 iOS 应用程序在 iPad/iPhone 中打开 PDF 文件？

如何使用我自己的应用程序打开存储在 iPad iPhone 中的 PDF 文件您可以使用 UIwebview 来加载它这很简单如果您想要更大的灵活性您应该使用 Quartz 框架类 EDIT 要查看下载的 PDF 您可以在应用程序中
SubSonic 3 和 MySQL，在 CleanUp() 方法中从列名中删除下划线会导致在 linq-query 中使用属性时出现异常

我在使用 SubSonic 3 0 0 3 ActiveRecord 和 MySQL 时遇到了问题由于 MySQL 不允许您在表名或列名中使用大写字母或者如果您这样做则忽略它我决定使用下划线分隔单词例如entity id 然后使用
如何将一个数字分成n组

我需要将一个数字分成几组数字然后将这些数字放入一个数组中然后我将对这些数字进行一些简单的数学运算然后将它们插入到文本框中到目前为止我只找到了如何将数字拆分为单独的数字如下所示 var number 12354987 output
python Fabric是否支持动态设置env.hosts？

我想动态更改 env hosts 因为有时我想先部署到一台机器检查是否正常然后部署到多台机器目前我需要先设置 env hosts 如何在方法中设置 env hosts 而不是在脚本启动时全局设置是的你可以设置env hosts动态
MySQL > 表不存在。但它确实（或者应该）

我更改了 MySQL 安装的数据目录除了一个之外所有库都正确移动我可以连接并且USE数据库 SHOW TABLES还正确返回所有表并且每个表的文件都存在于 MySQL 数据目录中然而当我尝试SELECT表中的某些内容我收到一条
内存分配问题

这个问题是在面试的笔试中被问到的 include
使用 FileProvider 从图库中选取图像文件

编译 Android N 我遇到了一个问题FileProvider 我需要让用户从图库中选择图像用相机拍照然后将其裁剪为正方形我已经成功实现了FileProvider用于用相机拍摄图像但我在从图库中选取图像时遇到严重问题问题是在
线段树、区间树、二叉索引树和范围树有什么区别？

线段树区间树二叉索引树和范围树之间有什么区别关键思想定义应用领域更高维度的性能秩序空间消耗请不要仅仅给出定义所有这些数据结构都用于解决不同的问题线段树存储间隔并针对这些区间中的哪一个包含给定点查询区间树也存储间
配置 Rails 以输出 HTML 输出而不是 XHTML

使用助手表单 javascript css 等时如何配置 Ruby on Rails 输出标准 HTML 代码而不是 XHTML I don t想要在末尾有斜线
如何压缩两个不同大小的列表，重复较短的列表？

我想压缩两个不同长度的列表例如 A 1 2 3 4 5 6 7 8 9 B A B C 我期待这个 1 A 2 B 3 C 4 A 5 B 6 C 7 A 8 B 9 C 但内置的zip不会重复与较大尺寸的列表配对是否存在任何内置方法可
如何动态更改引导模式数据目标点击

我有一个网站日历其作用类似于预订请求我在 Bootstrap 2x 中可以使用此功能但已将应用程序转换为 3 0 一切似乎都正常但我试图找出如何动态更改数据目标如果日期可用日历中的一天可能如下所示 div class NotRe
我应该使用 YUI 压缩机还是新的 Google Closure 编译器来压缩 JavaScript？

YUI Compressor 是公认的最佳最小化工具但 Closure 似乎还可以更好无论你找到最适合你的那个我认为这是目前的普遍答案 YUI 已经推出了更长的时间因此毫无疑问将是目前公认的最佳工具然而 Closure 对我们来说
如何让 gvim 与 Visual Studio 2010 完美配合？

在我的上一份工作中他们使用 Visual Studio 2005 有时也使用 Visual Studio 97 为了方便使用命令行我使用 vim 来编辑 Mercurial 版本控制配置文件如 hgrc 和 hgignore 然而我
更改 HTML POST 端口

我在 HTML 文档中有一个表单我想将其内容作为 POST 请求提交到服务器但是我想将 POST 请求发送到服务器上除端口 80 之外的端口这可能吗只需将其附加到操作中即可
5xx 或 4xx 错误，“不存在‘Access-Control-Allow-Origin’标头”

我的浏览器在 devtools 控制台中记录以下消息请求的资源上不存在 Access Control Allow Origin 标头响应的 HTTP 状态代码为 503 背景我有两个应用程序一种是连接到 Mongo 数据库的 Exp
Android模拟低数据信号强度

我在使用某个应用程序时遇到了一些问题我们的用户抱怨在信号强度较低的情况下他们在使用该应用程序时遇到了问题有什么办法可以在模拟器上模拟这个吗 Thanks Teja 我知道在 DDMS 的模拟器控制选项卡中顶部有一个部分您可以在
使用经过训练的分类器进行 NLTK 分类接口

我找到了一小块代码here http streamhacker com 2010 05 10 text classification sentiment analysis naive bayes classifier import nltk

使用经过训练的分类器进行 NLTK 分类接口

使用经过训练的分类器进行 NLTK 分类接口 的相关文章

随机推荐

热门标签

使用经过训练的分类器进行 NLTK 分类接口的相关文章