IOB 准确度和精密度之间的差异

2024-04-21

我正在使用命名实体识别和分块器对 NLTK 进行一些工作。我使用重新训练了分类器nltk/chunk/named_entity.py为此，我采取了以下措施：

ChunkParse score:
    IOB Accuracy:  96.5%
    Precision:     78.0%
    Recall:        91.9%
    F-Measure:     84.4%

但我不明白在这种情况下 IOB 精度和精度之间的确切区别是什么。实际上，我在文档中找到了（here http://nltk.googlecode.com/svn/trunk/doc/book/ch07.html）以下为具体示例：

IOB 标签准确度表明超过三分之一的单词是用 O 标记，即不在 NP 块中。然而，由于我们的标记器做了没有找到任何块，它的精度、召回率和f-measure都是零。

那么，如果 IOB 准确度只是 O 标签的数量，那么为什么我们没有块，并且 IOB 准确度同时不是 100%（在该示例中）？

先感谢您

维基百科上有关于精度和准确度之间差异的非常详细的解释（参见https://en.wikipedia.org/wiki/Accuracy_and_ precision https://en.wikipedia.org/wiki/Accuracy_and_precision），简单来说：

accuracy = (tp + tn) / (tp + tn + fp + fn)
precision = tp / tp + fp

回到NLTK，有一个模块调用块分数 http://nltk.googlecode.com/svn-/trunk/doc/api/nltk.chunk.util-pysrc.html#ChunkScore计算出accuracy, precision and recall您的系统的。这是 NLTK 计算方式的有趣部分tp,fp,tn,fn for accuracy and precision，它以不同的粒度进行。

For accuracy，NLTK计算令牌总数（不是大块！！），用 POS 标签和 IOB 标签猜对，然后除以金句中的 token 总数。

accuracy = num_tokens_correct / total_num_tokens_from_gold

For 精确 and recall，NLTK 计算：

True Positives通过计算块的数量（不是代币！！！) 猜对了
False Positives通过计算块的数量（不是代币！！！）是猜测的，但它们是错误的。
True Negatives通过计算块的数量（不是代币！！！）是系统无法猜测的。

然后计算精度和召回率，如下所示：

precision = tp / fp + tp
recall = tp / fn + tp

为了证明以上几点，请尝试以下脚本：

from nltk.chunk import *
from nltk.chunk.util import *
from nltk.chunk.regexp import *
from nltk import Tree
from nltk.tag import pos_tag

# Let's say we give it a rule that says anything with a [DT NN] is an NP
chunk_rule = ChunkRule("<DT>?<NN.*>", "DT+NN* or NN* chunk")
chunk_parser = RegexpChunkParser([chunk_rule], chunk_node='NP')

# Let's say our test sentence is:
# "The cat sat on the mat the big dog chewed."
gold = tagstr2tree("[ The/DT cat/NN ] sat/VBD on/IN [ the/DT mat/NN ] [ the/DT big/JJ dog/NN ] chewed/VBD ./.")

# We POS tag the sentence and then chunk with our rule-based chunker.
test = pos_tag('The cat sat on the mat the big dog chewed .'.split())
chunked = chunk_parser.parse(test)

# Then we calculate the score.
chunkscore = ChunkScore()
chunkscore.score(gold, chunked)
chunkscore._updateMeasures()

# Our rule-based chunker says these are chunks.
chunkscore.guessed()

# Total number of tokens from test sentence. i.e.
# The/DT , cat/NN , on/IN , sat/VBD, the/DT , mat/NN , 
# the/DT , big/JJ , dog/NN , chewed/VBD , ./.
total = chunkscore._tags_total
# Number of tokens that are guessed correctly, i.e.
# The/DT , cat/NN , on/IN , the/DT , mat/NN , chewed/VBD , ./.
correct = chunkscore._tags_correct
print "Is correct/total == accuracy ?", chunkscore.accuracy() == (correct/total)
print correct, '/', total, '=', chunkscore.accuracy()
print "##############"

print "Correct chunk(s):" # i.e. True Positive.
correct_chunks = set(chunkscore.correct()).intersection(set(chunkscore.guessed()))
##print correct_chunks
print "Number of correct chunks = tp = ", len(correct_chunks)
assert len(correct_chunks) == chunkscore._tp_num
print

print "Missed chunk(s):" # i.e. False Negative.
##print chunkscore.missed()
print "Number of missed chunks = fn = ", len(chunkscore.missed())
assert len(chunkscore.missed()) == chunkscore._fn_num
print 

print "Wrongly guessed chunk(s):" # i.e. False positive.
wrong_chunks = set(chunkscore.guessed()).difference(set(chunkscore.correct()))
##print wrong_chunks
print "Number of wrong chunks = fp =", len(wrong_chunks)
print chunkscore._fp_num
assert len(wrong_chunks) == chunkscore._fp_num
print 

print "Recall = ", "tp/fn+tp =", len(correct_chunks), '/', len(correct_chunks)+len(chunkscore.missed()),'=', chunkscore.recall()

print "Precision =", "tp/fp+tp =", len(correct_chunks), '/', len(correct_chunks)+len(wrong_chunks), '=', chunkscore.precision()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

IOB 准确度和精密度之间的差异的相关文章

Python Tweepy：Twitter Api 说 /users/lookup 不存在

我正在制作一个研究应用程序研究具有高权威的 Twitter 用户之间的交互其中一部分是提取有关用户的信息我使用 Tweepy for Python 构建了一个应用程序过去 2 天我一直在提取用户信息没有出现任何问题突然提出这样的
OutOfRangeError（请参阅上面的回溯）：FIFOQueue '_1_batch/fifo_queue' 已关闭并且元素不足（请求 32，当前大小 0）

我在使用队列中张量流读取图像时遇到问题请让我知道我犯了什么错误下面是代码 import tensorflow as tf slim tf contrib slim from tensorflow python framework imp
keras 层教程和示例

我正在尝试编码和学习不同的神经网络模型我对输入维度有很多复杂性我正在寻找一些教程显示层的差异以及如何设置每个层的输入和输出 Keras 文档 https keras io layers core 向您展示所有input shape每层
导入错误：无法导入名称“PandasError”

我对在 Mac 上运行的 Python 3x 非常陌生当前使用 python 金融的 senddex 教程尝试运行以下脚本 import datetime as dt import matplotlib pyplot as plt fr
将预训练的手套词嵌入与 scikit-learn 结合使用

我已经使用 keras 来使用预先训练的词嵌入但我不太确定如何在 scikit learn 模型上执行此操作我也需要在 sklearn 中执行此操作因为我正在使用vecstack集成 keras 序列模型和 sklearn 模型这就
通过 rpy 将 SPSS 文件（.sav）导入 pandas 时如何保留标签？

我正在寻找使用 SPSS 文件 sav pandas 在没有 SPSS 程序的情况下典型文件转换为 csv 后的样子如下在调查前两行的含义时我不知道 SPSS 似乎第一行包含Labels 而第二行包含VarNames 当我将文件带入
用定点迭代求解该方程

我怎样才能解这个方程 x3 x 1 0 使用定点迭代有没有定点迭代我可以在网上找到代码尤其是Python 吗 Using scipy optimize fixed point http docs scipy org doc scipy
使用DockerOperator时如何同时使用xcom_push=True和auto_remove=True？

Problem 跑步时DockerOperator with xcom push True xcom all True and auto remove True 任务会引发错误就好像容器在读取其内容之前被删除一样STDOUT Exampl
VS Code Pylint 在缺失的函数/类文档字符串上用蓝色下划线突出显示整个函数

这种情况突然开始发生当出现缺少函数文档字符串警告时 python pylint 会用蓝色波浪线突出显示整个函数我怎样才能让它只突出显示函数定义或在定义行上制作一个小指示器在开发时突出显示整个文件是非常烦人的这是缺少类文档字符串的示例
从另一个文件覆盖函数中的变量

一总结我不知道如何从另一个文件覆盖函数中的变量 2 示例 2 1 配置 I use logbook http logbook pocoo org and pyfancy https github com ilovecode1 Pyfan
Emacs：在缓冲区求值期间将参数传递给下级 Python shell

最近我开始使用 Emacs 作为 Python IDE 它不太直观我现在遇到的问题是当使用 C c C c 评估缓冲区时如何将命令行参数传递给下级 python shell 感谢帮助这似乎并不容易实现管理的劣质流程python el模
如何在 iPython 中获取最后分配的变量的值？

我是一个完全的 iPython 新手但我想知道是否有办法获取最后分配的变量的值 In 1 long variable name 333 In 2
Tkinter：通过多处理启动进程会创建不需要的新窗口

我计划围绕数值模拟编写一个小型 GUI 这就是我现在使用 Tkinter 的原因模拟应在单独的进程中从 GUI 启动为了玩一下我定义了一个函数 random process 来生成成对的 randn 数字这应该是一个真正的模拟过程
将 Selenium 与 PyCharm CE 结合使用

我正在尝试将 Selenium 与 PyCharm CE 一起使用我已经使用 pip install Selenium 安装了 Selenium 并且可以通过终端使用它但是当我尝试将它与 PyCharm 一起使用时出现导入错误 Imp
我无法设置顶级标题

我想为 TopLevel 设置标题但 TopLevel 显示 Root 的标题我认为我的下一个脚本与 TkInter 文档中的示例相对应但给了我不好的结果你能解释一下为什么我的设置master title 顶部 in 应用程序顶部
Python 上每个系数具有特定约束的多元线性回归

我目前正在数据集上运行多元线性回归起初我没有意识到我需要限制自己的体重事实上我需要有特定的正权重和负权重更准确地说我正在做一个评分系统这就是为什么我的一些变量应该对音符产生积极或消极的影响然而当运行我的模型时结果不符合我
(venv) (base) 都在 python 项目上活跃，我如何只进入 venv？

所以我将 vscode 与 conda 对于 django 项目一起使用并尝试激活名为 venv 的虚拟环境它来自 base C Users User Desktop pfa master pfa master venv Script
将索引数组转换为 NumPy 中的 one-hot 编码数组

给定一个一维索引数组 a array 1 0 3 我想将其一次性编码为二维数组 b array 0 1 0 0 1 0 0 0 0 0 0 1 创建归零数组b有足够的列即a max 1 然后对于每一行i 设置a i 第列至1 gt
有没有比 Python 内置 == 运算符更快的方法来测试两个列表是否具有完全相同的元素？

如果我有两个列表每个列表有 800 个元素长并填充整数有没有比使用内置元件更快的方法来比较它们具有完全相同的元件如果没有则短路操作员 a 6 2 3 88 54 486 b 6 2 3 88 54 486 a b gt gt gt
*Python 内的 Kaggle API 文档？

我想写一个python从 Kaggle com 下载公共数据集的脚本 Kaggle API 是用 python 编写的但是我能找到的几乎所有文档和资源都是关于如何在命令行中使用该 API 的而关于如何使用kaggle图书馆内python

随机推荐

MariaDB 未启动：“插件‘反馈’已禁用。”

我在 CentOS 7 上安装了 MariaDB 10 2 10 但它停止运行如果我做 If I do systemctl restart mariadb service I get mariadb service main proces
解析 WSDL 时出错，出现异常 use="encoded"

每次我跑步wsimport 我收到此错误错误不支持使用 SOAP 编码 file dummy wsdl 中第 65 行的 SOAP 扩展元素具有 use encoded 无法解析 WSDL WSDL 错误块
SBT 插件：如何将编译器插件添加为不向下游传播的依赖项？

我正在编写一个 SBT 插件我想使用 Circe JSON 库但它需要 Scala 2 10 上的 Macro Paradise 编译器插件通常你添加编译器插件build sbt和 SBT 插件project plugins sbt
初始化 ADB 时出错：无法创建调试桥：无法启动 ADB 服务器

当这些问题都无法帮助我时这意味着我需要删除并重新安装 Android Studio 这是错误初始化 ADB 时出错无法创建调试桥无法启动 ADB 服务器 adb 服务器版本 36 与此客户端不匹配杀无法从 ADB 服务器读取 O
我可以在同一个 catch 子句中捕获多个 Java 异常吗？

在Java中我想做这样的事情 try catch code to catch IllegalArgumentException SecurityException IllegalAccessException and NoSuchFiel
Spring - 手动创建组件时 @Async 不起作用

我正在使用 Async我使用以下命令在另一个类中手动实例化的组件上的注释AutowireCapableBeanFactory AutowireCapableBeanFactory factory applicationContext get
将图像加载到 localStorage 并将图像 src 设置到该位置

我已成功允许用户将图像上传到本地存储但我希望能够获取该图像并用它填充页面上的图像元素 h3 Please upload the image you wish to use h3
如何获取复杂数组的重新计算副本

我需要计算一个未知的复杂数组并获得它的完美重新计算副本但我不知道该数组的外观为了例子 MyArray array 15 22 array 1 array 7 3 9 or MyArray Range A1 B17 or a fille
地图功能中的条件

Scala 有没有类似的东西 condition first expression second expression 我可以在scala中的map函数中使用它吗我希望能够写出这样的东西 val statuses tweets map s
Git pull 创建了不需要的合并提交

当我将工作提交给分支时A并推送到 repo git 抱怨我需要更新我的项目我通过更新了我的项目git pull并完成了自动合并现在合并后有两次提交一次提交是我的更改另一次提交来自合并后的自动合并git pull 我注意到合并提交已经
从 matplotlib 中给定的颜色图创建颜色生成器

我有一系列线条每条线条都需要用单独的颜色绘制每条线实际上由多个数据集正区域负区域等组成因此我希望能够创建一个生成器在整个光谱中一次提供一种颜色例如gist rainbow map 此处显示 http www scipy or
使用 clang 的 ThreadSanitizer 和 TBB 避免误报

有没有人尝试过clang 的 ThreadSanitizer http clang llvm org docs ThreadSanitizer html with 英特尔线程构建模块 TBB http en wikipedia org wi
在 CSS 中组合 :not() 选择器

我正在尝试选择全部tra 内的元素table 除了第三个和第四个我设法通过使用以下方法来做到这一点 table tr not nth child 3 not nth child 4 我想组合这些选择器因为我还有更多 nth child条
使用 paypal api 时无法建立 SOAP 连接

我正在尝试使用 Paypal Soap 客户端并执行 setExpressCheckout 方法使用 Java 进行 Paypal 快速结账 http www integratingstuff com 2010 07 17 paypal
Tomcat 和 TomEE、TomEE 和 TomEE Plus 之间有什么区别

我想在服务器中部署 EJB Ear 但我对选择服务器感到非常困惑tomcat TomEE and TomEE Plus 两者有什么区别Tomcat and TomEE 其中有哪些新功能TomEE and TomEE Plus 在什么情况下才
Android 屏幕坐标到画布视图坐标

我正在尝试将屏幕 x 和 y 坐标转换为用于在屏幕上绘制的坐标因此我从触摸侦听器触发的 MotionEvent 获取屏幕 X 和 Y 坐标我认为它应该像将它们乘以用于在画布上绘制的矩阵一样简单所以我在创建视图时创建了 Matrix
如何在 Windows 上的 Apache 服务器上运行我的 Asp.net Core 应用程序？

Asp net core 是开源的可以在 Linux Windows 和 Mac 等任何操作系统上运行我的问题是是否可以在 Windows 操作系统上的 apache 服务器上运行而不是在 IIS 服务器上运行 asp net cor
从 S3 上传 AWS Lambda python zip 后权限被拒绝

将 python zip 包从 S3 上传到 AWS Lambda 时出现以下神秘错误 module initialization error Errno 13 Permission denied var task lambda func
执行程序时调用任何 cURL 函数都会导致“找不到入口点”

在 Visual Studio 2012 SP4 中如果我创建一个新的 Windows EXE 解决方案请使用 Nuget 命令行安装包curl 构建解决方案程序正确执行并按预期显示简单窗口如果我添加一个电话curl versio
IOB 准确度和精密度之间的差异

我正在使用命名实体识别和分块器对 NLTK 进行一些工作我使用重新训练了分类器nltk chunk named entity py为此我采取了以下措施 ChunkParse score IOB Accuracy 96 5 Precisi

IOB 准确度和精密度之间的差异

IOB 准确度和精密度之间的差异 的相关文章

随机推荐

热门标签

IOB 准确度和精密度之间的差异的相关文章