如何在 python nltk 中获取 n-gram 搭配和关联？

2024-03-10

In 本文档 http://nltk.googlecode.com/svn/trunk/doc/howto/collocations.html，有一个例子使用nltk.collocations.BigramAssocMeasures(), BigramCollocationFinder,nltk.collocations.TrigramAssocMeasures(), and TrigramCollocationFinder.

有一个基于 pmi 的二元组和三元组查找 nbest 的示例方法。例子：

finder = BigramCollocationFinder.from_words(
...     nltk.corpus.genesis.words('english-web.txt'))
>>> finder.nbest(bigram_measures.pmi, 10)

我知道BigramCollocationFinder and TrigramCollocationFinder继承自AbstractCollocationFinder. While BigramAssocMeasures() and TrigramAssocMeasures()继承自NgramAssocMeasures.

我如何使用这些方法（例如nbest()) in AbstractCollocationFinder and NgramAssocMeasures对于 4-gram、5-gram、6-gram、....、n-gram（例如轻松使用二元语法和三元语法）？

我应该创建继承的类吗AbstractCollocationFinder?

Thanks.

如果您想找到超过 2 或 3 克的克数，您可以使用scikit 包 http://scikit-learn.org/stable/Freqdist 函数用于获取这些克的计数。我尝试使用 nltk.collocations 执行此操作，但我认为我们无法找到超过 3-grams 的分数。所以我决定选择克数。我希望这可以帮助你一点点。谢谢

这是代码

from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer
from nltk.collocations import *
from nltk.probability import FreqDist
import nltk

query = "This document gives a very short introduction to machine learning problems"
vect = CountVectorizer(ngram_range=(1,4))
analyzer = vect.build_analyzer()
listNgramQuery = analyzer(query)
listNgramQuery.reverse()
print "listNgramQuery=", listNgramQuery
NgramQueryWeights = nltk.FreqDist(listNgramQuery)
print "\nNgramQueryWeights=", NgramQueryWeights

这将使输出为

listNgramQuery= [u'to machine learning problems', u'introduction to machine learning', u'short introduction to machine', u'very short introduction to', u'gives very short introduction', u'document gives very short', u'this document gives very', u'machine learning problems', u'to machine learning', u'introduction to machine', u'short introduction to', u'very short introduction', u'gives very short', u'document gives very', u'this document gives', u'learning problems', u'machine learning', u'to machine', u'introduction to', u'short introduction', u'very short', u'gives very', u'document gives', u'this document', u'problems', u'learning', u'machine', u'to', u'introduction', u'short', u'very', u'gives', u'document', u'this']

NgramQueryWeights= <FreqDist: u'document': 1, u'document gives': 1, u'document gives very': 1, u'document gives very short': 1, u'gives': 1, u'gives very': 1, u'gives very short': 1, u'gives very short introduction': 1, u'introduction': 1, u'introduction to': 1, ...>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 python nltk 中获取 n-gram 搭配和关联？的相关文章

在PyGI中获取窗口句柄

在我的程序中我使用 PyGObject PyGI 和 GStreamer 在 GUI 中显示视频该视频显示在Gtk DrawingArea因此我需要获取它的窗口句柄realize 信号处理程序在 Linux 上我使用以下方法获取该句
Flask中使用的路由装饰器是如何工作的

我熟悉 Python 装饰器的基础知识但是我不明白这个用于 Flask 路由的特定装饰器是如何工作的以下是 Flask 网站上的代码片段 from flask import Flask escape request app Flask
LibreOffice 并行将 .docx 转换为 .pdf 效果不佳

我有很多 docx 文件需要转换为 pdf 将它们一一转换需要很长时间所以我编写了一个 python 脚本来并行转换它们 from subprocess import Popen import time import os os chdi
为什么我的混淆矩阵只返回一个数字？

我正在做二元分类每当我的预测等于事实时我发现sklearn metrics confusion matrix返回单个值难道没有问题吗 from sklearn metrics import confusion matrix print
Tkinter 菜单删除项

如何删除任何菜单项例如我想删除播放 self menubar Menu self root self root config menu self menubar self filemenu2 Menu self menubar self
尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup
指示电子邮件的类型

我有以下自动化程序它将电子邮件发送给我自己并添加了特定的链接 import win32com client as win32 import easygui import tkinter as to from tkinter import
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
将 C++ 指针作为参数传递给 Cython 函数

cdef extern from Foo h cdef cppclass Bar pass cdef class PyClass cdef Bar bar def cinit self Bar b bar b 这总是会给我类似的东西 Can
python celery -A 的无效值无法加载应用程序

我有一个以下项目目录 azima init py main py tasks py task py from main import app app task def add x y return x y app task def mul
如何在 Python 中的函数入口、内部和退出处进行日志记录

我希望能够使用 Python 日志记录工具在我的代码中进行简单且一致的日志记录我能够执行以下操作我希望所有现有未来的模块和函数都有输入和完成日志消息我不想添加相同的代码片段来定义日志记录参数如下所示don t want t
更改QLineEdit的ClearButton图标

我想在Windows 10 1909 64位上的Python 3 8和PyQt5 5 15 0 上更改我的QLineEdit的ClearButton图标稍后我想在Linux上运行代码我尝试应用此处找到的代码如何在 QLineEdit
Jupyter 笔记本中未显示绘图图表

我已经尝试解决这个问题几个小时了我按照上面的步骤操作情节网站 https plot ly python getting started start plotting online并且图表仍然没有显示在笔记本中这是我的情节代码 color
使用标签或 href 传递 Django 数据

我有一个包含链接的表当单击该链接进行更多操作时我想将一些数据传递给我的函数 my html table tbody for query in queries tr td value a href internal my func que
Python 2 的 `exceptions` 模块在 Python3 中丢失了，它的内容到哪里去了？

一位朋友提到对于 Python 2 假设您在命令行上的路径环境变量中有它 pydoc exceptions 非常有用知道它应该可以为他每周节省几分钟的网络查找时间我自己每周都会用谷歌搜索一次例外层次结构所以这对我来说也是一个有用的提
numpy：如何连接数组？（获得多个范围的并集）

我使用Pythonnumpy 我有一个 numpy 索引数组a gt gt gt a array 5 7 12 18 20 29 gt gt gt type a
确定分割形状几何体的“左”侧和“右”侧

我的问题是我怎样才能确定哪一个Aside and Bside的侧面已经分割的旋转矩形几何体 http nbviewer jupyter org urls dl dropbox com s ll3mchnx0jwzjnf determine
PyInstaller“ValueError：源代码字符串不能包含空字节”

我得到了一个ValueError source code string cannot contain null bytes执行命令时pyinstaller main py在具有和不具有管理员权限的cmd中 Traceback most re
根据多个阈值将 SciPy 分层树状图切割成簇

我想将 SciPy 的树状图切割成多个具有多个阈值的簇我尝试过使用 fcluster 但它只能削减一个阈值例如这是我从另一个问题中摘取的一段代码 import pandas data pandas DataFrame total ru
使用 paramiko 运行 Sudo 命令

我正在尝试执行sudo使用 python paramiko 在远程计算机上运行命令我尝试了这段代码 import paramiko ssh paramiko SSHClient ssh set missing host key polic

随机推荐

SSDT 项目中带有 UDF 和视图的数据库参考

遇到一个奇怪的问题假设一个空解决方案中有两个数据库项目 Bart 和 Homer 巴特已被添加为荷马的数据库参考 Bart项目定义了一个函数 CREATE FUNCTION dbo Message RETURNS NVARCHAR 255
Git 分离头问题

我今天读了很多与此问题相关的帖子这里有一篇有用的帖子修复 Git 分离头 https stackoverflow com questions 10228760 how to fix a git detached head 为什么我的 G
如何在 Bootstrap 4 中将卡片居中？

我正在使用 bootstrap 4 alpha 3 我想将卡片水平居中在页面中间 Preview link http codepen io vaibhavsingh97 full VjRAXW http codepen io vaibhav
获取 BorderPane 中中心空间的宽度和高度 (JavaFX 2)

我有一个简单的BorderPane实例是我的根节点Scene 边框窗格的右侧有一个面板带有一些 GUI 控件包括一个按钮当我单击此按钮时我创建了一个类的实例 Foo 延伸StackPane我把这个实例作为边框窗格的中心节点我想获取
检查小部件级别的错误和其他值 - 可能使用自定义表单字段

如果某个字段在小部件级别出现错误我该如何访问使用默认值我尝试过 if widget attributes has errors or if widget has errors 但不工作我使用自定义小部件模板我正在考虑使用自定义表单字
.htaccess 中的条件 SetEnv？

是否可以根据主机名在 htaccess 文件中设置不同的 SetEnv 变量例如我需要我的 htaccess文件具有以下值 SetEnv PYRO ENV production 在生产盒上以及 SetEnv PYRO ENV stag
PHP $_SERVER[‘SERVER_ADDR’] 变量始终返回 127.0.0.1

我们有多个负载平衡的 Web 服务器机器运行相同的 PHP Web 应用程序 LAMP http en wikipedia org wiki LAMP software bundle 并且我想在每个服务器上运行稍微不同的代码用于测试目的
Ajax post serialize() 不包含按钮名称和值

我的 ajax 没有序列化按钮名称和值我有一个非常简单的表格它有一个按钮和一个文本框
超时已过。操作完成前超时时间已过或服务器未响应

我不确定这是 VB NET 错误还是 SQL Server 错误但我通过以下堆栈跟踪得到上述错误 SqlException 0x80131904 超时已到期超时时间已过在操作完成之前或者服务器没有响应 System Data Sq
Java Swing JTextArea 不工作

我正在开发一款游戏在此部分中将打开一个新窗口来显示游戏说明唯一的问题是当 txt 文件超过 20 行时 JTextArea 只显示一行我是这方面的新手所以我不确定我错过了什么谢谢 class Instruction exten
如何使用 MediaRecorder 在 Android 中录制原始 AAC 音频文件？ AAC_ADTS 不起作用

我正在使用 Android MediaRecorder 录制 AAC 编码的音频文件将输出格式设置为 MPEG 4 效果很好但由于我的音频播放器既不支持 MPEG 4 也不支持 3GP 我尝试使用输出格式获取原始 AAC 文件AAC A
如何在 REPL 中重新加载 clojure 文件

无需重新启动 REPL 即可重新加载 Clojure 文件中定义的函数的首选方法是什么现在为了使用更新的文件我必须 edit src foo bar clj 关闭 REPL 打开 REPL load file src foo bar
为什么 ViewController 内的 tableView 的 reloadData 显示错误？

我在视图控制器中有一个 tableView 但是 reloadData 不适用于 tableView Xcode 显示错误 thread1 exc bad instruction 我尝试将 reloadData 分配给其他方法但结果是相同
JavaScript 中的 Number.sign()

想知道是否有任何重要的方法可以找到数字的符号符号函数 http en wikipedia org wiki Signum function 可能比明显的解决方案更短更快更优雅 var sign number gt 0 1 number
如何使用Phonegap 3.0浏览并选择SD卡中的文件？

通过Phonegap 3 0的API 当我使用 UI 单击链接或按钮时我想浏览 SD 卡中的文件例如 p Upload p 假设 browserFile 函数包含浏览功能但需要 UI 实现 Or
使用 AngularJS 指令嵌入 Vimeo 视频

我在 AngularJS 应用程序中有一个部分 HTML 页面我正在尝试向其中添加 vimeo 视频该模板有一个图像和播放按钮单击时会淡出以显示底层 iFrame 我还想要这个点击触发器来播放视频这样就不必按两个播放按钮我的部分页
如何使用新值填充对象列表

抱歉我很好菜鸟我有一个项目类 class item ind Int freq Int gap Int 我有一个有序的整数列表 val listVar a toList 其中 a 是一个数组我想要一个称为指标的项目列表其中 ind
iOS7上如何设置NSString的背景cornerRadius

我想在iOS7上设置NSString的背景cornerRadius 但是 NSString 没有层请告诉我如何在iOS7上设置NSString的背景cornerRadius example 您可以使用UITextView其子类为NSLa
Laravel 5 中 all() 和 toArray() 之间的区别

当我管理需要转换为数组的集合时我通常使用toArray 但我也可以使用all 我不知道这两个功能的区别有人知道吗如果它是 Eloquent 模型的集合模型也会被转换为数组toArray col gt toArray 总之它将返回
如何在 python nltk 中获取 n-gram 搭配和关联？

In 本文档 http nltk googlecode com svn trunk doc howto collocations html 有一个例子使用nltk collocations BigramAssocMeasures Bigra

如何在 python nltk 中获取 n-gram 搭配和关联？

如何在 python nltk 中获取 n-gram 搭配和关联？ 的相关文章

随机推荐

热门标签

如何在 python nltk 中获取 n-gram 搭配和关联？的相关文章