用于估计（一元）困惑度的 NLTK 包

2024-05-02

我正在尝试计算我所拥有的数据的困惑度。我正在使用的代码是：

 import sys
 sys.path.append("/usr/local/anaconda/lib/python2.7/site-packages/nltk")

from nltk.corpus import brown
from nltk.model import NgramModel
from nltk.probability import LidstoneProbDist, WittenBellProbDist
estimator = lambda fdist, bins: LidstoneProbDist(fdist, 0.2)
lm = NgramModel(3, brown.words(categories='news'), True, False, estimator)
print lm

但我收到错误，

File "/usr/local/anaconda/lib/python2.7/site-packages/nltk/model/ngram.py", line 107, in __init__
cfd[context][token] += 1
TypeError: 'int' object has no attribute '__getitem__'

我已经对我拥有的数据执行了潜在狄利克雷分配，并且生成了一元组及其各自的概率（它们被归一化为数据的总概率之和为 1）。

我的一元词组及其概率如下所示：

Negroponte 1.22948976891e-05
Andreas 7.11290670484e-07
Rheinberg 7.08255885794e-07
Joji 4.48481435106e-07
Helguson 1.89936727391e-07
CAPTION_spot 2.37395965468e-06
Mortimer 1.48540253778e-07
yellow 1.26582575863e-05
Sugar 1.49563800878e-06
four 0.000207196011781

这只是我拥有的一元语法文件的一个片段。大约 1000 行遵循相同的格式。总概率（第二列）相加得出 1。

我是一名初露头角的程序员。这个 ngram.py 属于 nltk 包，我对如何纠正这个问题感到困惑。我这里的示例代码来自 nltk 文档，我不知道现在该怎么做。请帮助我做什么。提前致谢！

困惑度是测试集的逆概率，按单词数量标准化。对于一元组：

现在你说你已经构建了一元模型，这意味着对于每个单词你都有相关的概率。那么你只需要应用公式即可。我假设你有一本大字典unigram[word]这将提供语料库中每个单词的概率。您还需要有一个测试集。如果您的一元模型不是字典的形式，请告诉我您使用的数据结构，以便我可以相应地使其适应我的解决方案。

perplexity = 1
N = 0

for word in testset:
    if word in unigram:
        N += 1
        perplexity = perplexity * (1/unigram[word])
perplexity = pow(perplexity, 1/float(N))

UPDATE:

当您要求一个完整的工作示例时，这是一个非常简单的示例。

假设这是我们的语料库：

corpus ="""
Monty Python (sometimes known as The Pythons) were a British surreal comedy group who created the sketch comedy show Monty Python's Flying Circus,
that first aired on the BBC on October 5, 1969. Forty-five episodes were made over four series. The Python phenomenon developed from the television series
into something larger in scope and impact, spawning touring stage shows, films, numerous albums, several books, and a stage musical.
The group's influence on comedy has been compared to The Beatles' influence on music."""

下面是我们首先构建一元模型的方法：

import collections, nltk
# we first tokenize the text corpus
tokens = nltk.word_tokenize(corpus)

#here you construct the unigram language model 
def unigram(tokens):    
    model = collections.defaultdict(lambda: 0.01)
    for f in tokens:
        try:
            model[f] += 1
        except KeyError:
            model [f] = 1
            continue
    N = float(sum(model.values()))
    for word in model:
        model[word] = model[word]/N
    return model

我们这里的模型是平滑的。对于超出其知识范围的单词，它会分配较低的概率0.01。我已经告诉过你如何计算困惑度：

#computes perplexity of the unigram model on a testset  
def perplexity(testset, model):
    testset = testset.split()
    perplexity = 1
    N = 0
    for word in testset:
        N += 1
        perplexity = perplexity * (1/model[word])
    perplexity = pow(perplexity, 1/float(N)) 
    return perplexity

现在我们可以在两个不同的测试集上进行测试：

testset1 = "Monty"
testset2 = "abracadabra gobbledygook rubbish"

model = unigram(tokens)
print perplexity(testset1, model)
print perplexity(testset2, model)

您将得到以下结果：

>>> 
49.09452736318415
99.99999999999997

请注意，在处理困惑时，我们会尽力减少它。对于某个测试集而言，困惑度较小的语言模型比困惑度较大的语言模型更受欢迎。在第一个测试集中，单词Monty包含在一元模型中，因此相应的困惑度数也较小。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

NLP

NLTK

NGram

languagemodel

用于估计（一元）困惑度的 NLTK 包的相关文章

openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
python执行列表和函数列表[重复]

这个问题在这里已经有答案了我正在将 Python 2 7 与 Autodesk Maya 结合使用这是我的问题的一个例子 import maya cmds as m def a passedString print this passe
需要 python 接口将机器移动到另一个文件夹

我正在尝试寻找代码支持python为了在数据中心的文件夹之间移动机器但没有成功我看到pysphere您可以在克隆阶段定义文件夹而不是在机器克隆之后定义文件夹 This https jackiechen org 2011 11 01 mo
阻止斯坦福核心 NLP 服务器输出它收到的文本

我正在运行一个斯坦福核心自然语言处理 http stanfordnlp github io CoreNLP server java mx4g cp edu stanford nlp pipeline StanfordCoreNLPServe
AWS Lambda python API 调用方法不返回 JSON - 不可序列化？

我有一个 Lambda 函数它是对 API 的基本 Python GET 调用它在本地运行良好但是当我上传到 Lambda 以及请求库时它不会从 API 调用返回 JSON 响应我只是希望它将整个 JSON 对象返回给调用者我
bool() 和operator.truth() 有什么区别？

bool https docs python org 3 library functions html bool and operator truth https docs python org 3 library operator htm
缩短文本并仅保留重要句子

德国网站 nandoo net 提供了缩短新闻文章的可能性如果使用滑块更改百分比值文本会发生变化并且某些句子会被遗漏您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
计算目录和子目录中的文件夹数量

我有一个脚本可以准确地告诉我一个目录中有多少个文件以及其中的子目录但是我也在研究确定同一目录及其子目录中有多少个文件夹我当前的脚本 import os getpass from os path import join getsize
python 2.7.6 if/elif/else 语句中的 isupper 函数

我需要 str isupper 函数的帮助我试图在 if elif else 语句中使用它程序是这样的 String raw input Please enter a string if String 1 isupper print T
Python脚本将特定文件从一个文件夹移动到另一个文件夹

我正在尝试编写一个脚本 python 2 7 它将使用正则表达式来识别文件夹中的特定文件并将它们移动到另一个文件夹但是当我运行脚本时源文件夹将移动到目标文件夹而不仅仅是其中的文件 import os shutil re src C
Fine-Tuning DistilBertForSequenceClassification：不是学习，为什么loss没有变化？权重没有更新？

我对 PyTorch 和 Huggingface transformers 比较陌生并对此尝试了 DistillBertForSequenceClassificationKaggle 数据集 https www kaggle com c
py2neo 引发完成（自我）错误

使用 py2neo 时我在尝试附加事务时收到以下错误 statement MERGE a Person name actorName n MERGE b Series title actorsFields 3 year actorsFie
matplotlib xkcd 无法在 Mac 上运行

我在可视化 matplotlib xkcd 图时遇到小问题通过简单地尝试执行上找到的示例matplotlib org http matplotlib org examples showcase xkcd html 当我执行 xkcd py
如何在Python中选择要写入(.csv)的列

import csv f csv reader open lmt csv r open input file for reading Date Open Hihh mLow Close Volume zip f s plit it into
Django Admin DateTimeField 显示 24 小时格式时间

我尝试了谷歌但没有找到解决方案在Django管理端我正在显示开始日期 and end date随着时间的推移但时间已在24 hr格式我想显示它12 hr format class CompanyEvent models Model
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
Python 2 的 `exceptions` 模块在 Python3 中丢失了，它的内容到哪里去了？

一位朋友提到对于 Python 2 假设您在命令行上的路径环境变量中有它 pydoc exceptions 非常有用知道它应该可以为他每周节省几分钟的网络查找时间我自己每周都会用谷歌搜索一次例外层次结构所以这对我来说也是一个有用的提
wavfile.read python 文件意外结束

我正在尝试通过以下代码读取 wav 音频文件 from scipy io import wavfile file PC1 20090513 050000 0010 wav rate audio wavfile read file 但它显示以
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
PHP 和 NLP：嵌套括号（解析器输出）到数组？

想要将带有嵌套括号的文本转换为嵌套数组以下是 NLP 解析器的输出示例 TOP S NP PRP I VP VBP love NP NP DT a JJ big NN bed PP IN of NP NNS roses 原文我喜欢一大床

随机推荐

vue.js keyup, keydown 事件落后一个字符

我正在使用 keydown keyup 事件它调用一个 javascript 函数该函数将输入框的值打印到控制台以及事件的 currentTarget 字段的值并且我注意到它晚了一个字符例如如果我输入hello进入输入框我只看
在 Visual Studio 中模拟 GCC 的 __builtin_unreachable？

我见过this https stackoverflow com q 6031819 10147399关于模仿的问题 builtin unreachable在旧版本的 GCC 中我的问题正是如此但针对的是 Visual Studio 20
Silverlight 默认 ContentPresenter 内容

为什么这不起作用 In 通用 xaml对于自定义控件在应用于自定义控件的样式中
显示当前单击的 div 隐藏先前单击的 div

下面的代码可以工作但有一个我不明白的问题当我单击第一个导航链接时它显示 div 这就是我想要的但是当我单击另一个导航链接时它确实按预期显示下一个 div 但我需要隐藏之前的 div 任何帮助表示赞赏类似于如果这不是单击隐藏的导
DSC 推送模式 - 复制 DSC 资源的最佳方式

我正在探索 DSC 想知道将 DSC 资源复制到目标主机的最佳方法是什么当我尝试将配置推送到目标主机时它抱怨缺少 DSC 资源 The PowerShell DSC resource xWebAdministration does no
iOS 上的 OpenCV - GPU 使用情况？

我正在尝试开发一个 iOS 应用程序可以对来自相机的视频执行实时效果就像 iPad 上的 Photobooth 一样我熟悉 OpenCV 的 API 但如果大多数处理是在 CPU 上完成而不是在 GPU 上完成我担心 iOS 上的性
具有有界扩展枚举参数的通用方法 - 无法访问values()方法

我想编写一个通用方法它采用扩展 Enum 的有界参数例如如果我有一个枚举如下 public enum InputFlags ONE 0000001 TWO 0000002 THREE 00000004 public final int
C# vb：System.Func 占用多少内存？

System Func 究竟拥有多少内存 System Func 是 1 行还是 1000 行有什么区别吗 Func是委托类型一个实例在x86抖动中占用32字节存储对象头 8 个字节 4 个字节用于 Delegate methodBas
Braintree PayPal 结帐组件抛出“e.client.getVersion 不是函数”

我正在努力理解我在这里做错了什么 braintree client create authorization res clientToken this is the token I know it is correct err client
jUnit 中的 CollectionAssert？

是否有与 NUnit 并行的 jUnit 使用 JUnit 4 4 您可以使用assertThat 与Hamcrest http hamcrest org JavaHamcrest 代码不用担心它是随 JUnit 一起提供的不需要额外
在目标 API 级别 29 的 AndroidQ 中不需要 WRITE_EXTERNAL_STORAGE 权限，这是否会破坏安全性？

我已通过媒体存储将图像文件存储到外部目录中但它不需要 AndroidQ 的权限即使我没有在清单中提及权限 compileSdkVersion 29 defaultConfig minSdkVersion 21 targetSdkVers
如何在跨度上使用 CSS3 变换？ [复制]

这个问题在这里已经有答案了我有一个行内元素 a span 嵌套在 h1 标签我申请了一个转换财产给h1 skew所以它看起来像一个平行四边形我需要转换 the span 标记以矫正它及其文本但这似乎只适用于 IE Here is
bash fork 炸弹的另一个版本是如何工作的？

我大致了解如何这个通用版本 https stackoverflow com questions 991142 how does this bash fork bomb work bash fork 炸弹的工作原理然而我见过另一个版本特
是否可以更新 Service Fabric 群集清单？

我发现了以下API await fabricClient ClusterManager ProvisionFabricAsync null testMani xml 但还没有弄清楚在哪里存储新的manifest xml文件按照此处列出的方
Emacs 23.1.50.1 在 Windows XP 上随机挂起 6-8 秒

我的 Windows XP 机器上有 EmacsW32 23 1 50 1 emacs 运行它随机挂起 5 到 8 秒非常令人沮丧有人有解决办法吗我什至尝试使用来自 gnu ftp 站点的 emacs win32 二进制文件 23
无法在代理后面使用量角器运行 Angular > 2 e2e

将不胜感激任何帮助我在windows上运行我在全球安装了量角器版本5 3 0 在更新网络驱动程序之前我运行 webdriver manager clean 并更新版本如下 webdriver manager 更新 ie32 proxyh
同步通过 LAN 电缆连接的两台 Windows 7 计算机之间的时间

我有许多笔记本电脑它们运行我们的应用程序同时通过以太网电缆成对连接但未连接到任何外部网络或互联网时间我需要连接对来同步其系统时间但由于每台计算机都需要能够与任何其他计算机同步因此我无法将一台计算机定义为时间服务器而另一台计算
您如何继续使用旧代码和新代码开发大型（长期）软件系统？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我负责一个拥有大量用户安装基础的大型代码库该代码最初是用 vb6 编写的带有一些用于低级工作的 C COM 模块重写所有已经用 vb6 编
Groovy 中 Null Object 类的用途是什么？

我已经使用 Groovy 五个小时了刚刚发现Groovy NullObject http groovy codehaus org api index html org codehaus groovy runtime NullObject
用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co

用于估计（一元）困惑度的 NLTK 包

用于估计（一元）困惑度的 NLTK 包 的相关文章

随机推荐

热门标签

用于估计（一元）困惑度的 NLTK 包的相关文章