如何从 nltk 分类器获得精度和召回率？

2024-04-24

import nltk
from nltk.corpus import movie_reviews
from nltk.tokenize import word_tokenize

documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]


all_words = []

for w in movie_reviews.words():
    all_words.append(w.lower())

all_words = nltk.FreqDist(all_words)

word_features = list(all_words.keys())[:3000]

def find_features(document):
    words = set(document)
    features = {}
    for w in word_features:
        features[w] = (w in words)

    return features

featuresets = [(find_features(rev), category) for (rev, category) in documents]

training_set = featuresets[500:1500]
testing_set = featuresets[:1500]

classifier = nltk.DecisionTreeClassifier.train(training_set)

print "Classifier accuracy percent:",(nltk.classify.accuracy(classifier, testing_set))*100 , "%"

string = raw_input("Enter the string: ")
print (classifier.classify(find_features(word_tokenize(string))))

此代码将显示分类器的准确性，然后获取用户的输入。它返回用户输入的字符串的极性。

但这是我的问题：因为我可以通过使用获得准确性nltk.accuracy()，是否也能得到它的精确率和召回率？

如果您使用的是 nltk 软件包，那么您似乎可以使用recall and precision函数来自nltk.metrics.scores (请参阅文档 http://www.nltk.org/api/nltk.metrics.html).

调用后函数应该可用

from nltk.metrics.scores import (precision, recall)

然后你需要打电话给他们reference（已知标签）和test（测试集上分类器的输出）集。

像下面的代码这样的东西应该产生这些集合refsets and testsets

refsets = collections.defaultdict(set)
testsets = collections.defaultdict(set)

for i, (feats, label) in enumerate(testing_set):
    refsets[label].add(i)
    observed = classifier.classify(feats)
    testsets[observed].add(i)

然后，您可以使用类似的内容查看正面预测的精确度和召回率

print( 'Precision:', nltk.metrics.precision(refsets['pos'], testsets['pos']) )
print( 'Recall:', nltk.metrics.recall(refsets['pos'], testsets['pos']) )
# `'pos'` is for the "positive" (as opposed to "negative") label

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

NLTK

如何从 nltk 分类器获得精度和召回率？的相关文章

python http 客户端卡在 100 continue

我在 python 中有一个简单的 http 服务器它使用 100 continue 实现 PUT class TestHandler SimpleHTTPRequestHandler def do PUT self length int
Python数据框将列表列分解为多行[重复]

这个问题在这里已经有答案了我有一个像这样的数据框 desc id info a b c 2 type u v w 18 tail 三列 desc id info desc 是一个列表我想要这个 des id info a 2 type
有没有办法使用 Mayavi 填充陀螺仪表面的一侧？

我正在使用 Mayavi 绘制陀螺仪的等值面我的问题是我需要通过填充两个生成区域的一侧来获得更坚固的结构在下面的图片中您可以看到我生成的等值面的外观以及填充一侧后的外观我生成的等值面它应该是什么样子等值面可以通过以下方程生成 U
使用 scikit 确定每个特征对特定类别预测的贡献

我正在使用 scikit 额外的树分类器 model ExtraTreesClassifier n estimators 10000 n jobs 1 random state 0 一旦模型拟合并用于预测类别我想找出每个特征对特定类别预测
SQLAlchemy 闭包表关系定义

我最近开始使用 SQL Alchemy 开展一个涉及攀岩区域和路线的项目区域是分层的因为单个区域可以包含多个区域而多个区域又可以包含其他区域路线直接与单个区域关联但也与该区域的父区域关联等等为了实现这一点我选择使用Bill
pandas 使用查询功能检查列是否为空

我有 pandas 数据框我想在它的查询函数上执行 isnull 或 not isnull 条件如下所示 In 67 df data pd DataFrame a 1 20 None 40 50 In 68 df data Out 68
Django：如何从管理界面调用管理自定义命令执行？

参考从代码执行管理命令 https stackoverflow com questions 907506 how can i call a custom django manage py command directly from a t
Python - 重写 print()

我正在使用 mod wsgi 想知道是否可以覆盖 print 命令因为它没用这样做是行不通的 print myPrintFunction 因为这是一个语法错误 Print 不是 Python 2 x 中的函数因此这不能直接实现但是
在 Spark-submit 上的 _find_and_load 中获取文件“”，第 991 行

我目前使用的是Python 3 7 9 spark spark 2 4 6 bin hadoop2 6 在这个项目 venv 中我的设置为 kafka python 2 0 2 pip 21 2 4 py4j 0 10 9 pyspark
对seaborn图中的分类x轴进行排序

我正在尝试使用 seaborn 散点图绘制数据框中前 30 的值如下所示同一图的可重现代码 import seaborn as sns df sns load dataset iris function to return top 30
Pandas 无法读取使用 h5py 创建的 hdf5 文件

当我尝试读取使用 h5py 创建的 HDF5 格式文件时出现 pandas 错误我想知道我是否只是做错了什么 import h5py import numpy as np import pandas as pd h5 file h5py
如何以编程方式关闭wx.DirDialog？

我有 wxpython 应用程序可以在单击按钮时打开 wx DirDialog dlg wx DirDialog self Choose a directory style wx DD DEFAULT STYLE if dlg ShowM
在pycharm中使用多处理时如何调试

我正在 pycharm 社区版中使用 anaconda2 调试多进程程序它有几个后台工作进程工作进程将检查输入队列以检索任务而不会休眠直到收到任务事实上我只对主要流程感兴趣但是pycharm调试器总是单步进入子进程看起来主进
Pandas 数据框列总和并收集结果

给定以下数据框 import pandas as pd p1 name willy age 11 interest Lego p2 name willy age 11 interest games p3 name zoe age 9 int
Python：从字符串访问变量[重复]

这个问题在这里已经有答案了这可能是非常基本和简单的事情我可能只是在谷歌上搜索错误的术语但希望这里有人可以帮助我我仍然是编程的初学者这从这个问题中可能是显而易见的我正在寻找一种从字符串访问变量的方法像这样 A1 B1 C1 my
PyCharm 可以列出项目中的所有 Python 错误吗？

我在虚拟环境中使用 python 2 7 和 PyCharm 2 7 2013 年 2 月 7 日的新版本每当我打开其中有明确错误的Python文件相当于其他语言中的编译错误例如使用未声明的变量调用不存在的函数时它会在文件的装订
单个函数的 Numpy 均值和方差？

使用 Numpy Python 是否可以从单个函数调用返回均值 AND 方差我知道我可以单独做它们但是计算样本标准差需要平均值因此如果我使用单独的函数来获取均值和方差则会增加不必要的开销我尝试在这里查看 numpy 文档 htt
随机数生成器每次仅返回一个数字

Python 是否有一个随机数生成器每次只返回一个随机整数next 函数被调用数字不应该重复并且生成器应返回区间内的随机整数 1 1 000 000 这是独一无二的我需要生成超过一百万个不同的数字这听起来好像非常消耗内存以防所有数
在 matplotlib 中添加新的导航模式

我正在编写一个 wx matplotlib 应用程序并且在向 matplotlib 导航工具栏添加新工具时遇到相当大的困难基本上我想添加选择工具选取框套索等以切换受控子图的鼠标模式到目前为止我还没有找到任何功能可以让我轻松地做
Python二进制数据读取

urllib2 请求接收二进制响应如下所示 00 00 00 01 00 04 41 4D 54 44 00 00 00 00 02 41 97 33 33 41 99 5C 29 41 90 3D 71 41 91 D7 0A 47 0

随机推荐

php 访问 json 中的属性

我已将以下已解码的 json 存储在 response result gt response object stdClass 6 5 EmailAddress gt string 18 email protected cdn cgi l e
从 HashRouter 中删除 #

我在用着react router dom对于我的路由由于我也在使用 GitHub Pages 所以我需要使用HashRouter in my Router jsx like so import React from react impor
如何制作一条曲线来连接 HTML 和 CSS 中的两个节点？

我有两个 div 我想使用曲线图连接它们知道我怎样才能实现这一目标吗如果运行下面提到的代码您会看到有一个名为命令序列启动的标签和两个 div 分别是 W SCMadl refresh 和 WIN64 MCCMon 现在我想使用曲
NSBundle pathForResource 为 NULL

我正在使用 xcode 和 objc 创建一个简单的应用程序我需要从文件加载 NSDictionary 但我无法使用 NSBundle 获取文件的路径 NSString l NSBundle mainBundle pathForResou
在 T-SQL 中将日期时间截断为秒（删除毫秒）

缩短包含毫秒的日期时间以仅包含秒的最佳方法是什么例如2012 01 25 17 24 05 784 to 2012 01 25 17 24 05 这将截断毫秒 declare X datetime set X 2012 01 25 17
如何通过 terraform 将 alb 注册为目标组的目标

我有一个目标组想通过 terraform 将 alb 注册为目标组的目标 https aws amazon com blogs networking and content delivery application load balanc
1071 - 指定的密钥太长；最大密钥长度为 1000 字节 [重复]

这个问题在这里已经有答案了当我导入 Sqlbackup 时出现以下错误 SQL Befehl CREATE TABLE jos hikashop zone link zone parent namekey VARCHAR 255 NOT
我遇到“文件无法写入磁盘”的情况。文件大小为 2MB 及以上时，ExpressionEngine 中出现错误

有人遇到过这个问题吗文件无法写入磁盘 ExpressionEngine v2 9 2 上出现错误我注意到我只在 2MB 及以上的文件中遇到此问题并且在下面的其他帖子中我已经关闭了 XSS 过滤而没有任何帮助如果这意味着什么的话我在
将 PHP 的不同变量输入接收到 C++ 中

我有一个程序需要发送以下变量 Bool int string vector
升级到 Ubuntu 13.10 后，Apache 不再使用 DocumentRoot（使用显示“It Works！”的默认页面）

我有各种虚拟主机用于我的网络开发工作包括 cnm 这 sites available cnm 我的文件说得很简单
Web 服务器可以处理多少个套接字连接？

假设我要获得共享虚拟或专用托管我在某处读到服务器计算机一次只能处理 64 000 个 TCP 连接这是真的吗无论带宽如何任何类型的托管可以处理多少个我假设 HTTP 通过 TCP 工作这是否意味着只有 64 000 个用户可
如何合并两个 Git 存储库？

考虑以下场景我在自己的 Git 存储库中开发了一个小型实验项目 A 它现在已经成熟了我希望 A 成为更大的项目 B 的一部分该项目有自己的大存储库我现在想将 A 添加为 B 的子目录如何将 A 合并到 B 中而不丢失任何一方的历史
Django：简单的速率限制

我的许多视图都获取外部资源我想确保在重负载下我不会炸毁远程站点和或被禁止我只有 1 个爬行器所以有一个中央锁就可以了我希望每秒最多允许对主机进行 3 次查询并让其余的块最多持续 15 秒我怎样才能做到这一点简单 Use d
Jquery Onchange 事件没有被触发 - Primefaces - inputText

未调用以下事件 inputTxt的代码如下
commit失败是否需要回滚？

这似乎是一个足够简单的问题但我找不到任何特定于 MySQL 的明确答案看这个 mysqli gt autocommit false Start the transaction success true do a bunch of ins
MS Access 和 ODBC。过滤器对话框不显示

我的 Microsoft Access 数据库有问题通过 ODBC 连接到 Postgresql 数据库过滤器对话框用于使用多个可选复选框过滤数据不起作用编辑不起作用我的意思是没有可供选择的复选框仅提供用于 A Z 和 Z A
作为后台进程/服务运行命令

我有一个 Shell 命令我想在后台运行并且我读到这可以通过添加后缀来完成到导致它作为后台进程运行的命令但我需要一些更多的功能并且想知道如何去做我希望每次系统重新启动时该命令都在后台启动并运行我希望能够像人们一样在需要时启动和
停止 Intellij / Android Studio Preview 在格式化匿名内部类参数时添加换行符

我试图阻止 Android Studio Preview 即 IntelliJ 在匿名内部类定义为方法参数时在其后添加换行符回车符它改变了这一点 runOnUiThread new Runnable Override public vo
Service Worker 是否持续向服务器请求、响应？

我正在使用服务器发送事件来显示通知我创建了一个服务工作线程并在运行项目后使用 EventSource 与服务器连接在我的例子中我使用了 servlet 一切正常但事件内的内容会被多次执行我想知道为什么我的另一个问题是一旦我关
如何从 nltk 分类器获得精度和召回率？

import nltk from nltk corpus import movie reviews from nltk tokenize import word tokenize documents list movie reviews w

如何从 nltk 分类器获得精度和召回率？

如何从 nltk 分类器获得精度和召回率？ 的相关文章

随机推荐

热门标签

如何从 nltk 分类器获得精度和召回率？的相关文章