NLTK(python)中的语料库和词典有什么区别[关闭]

2023-12-29

有人可以告诉我 a 和 a 之间的区别吗Corpora ,corpus and lexicon在NLTK?

是什么电影数据集 ?

what is Wordnet ?


Corpora is the plural对于语料库。

Corpus基本上意味着主体,在自然语言处理(NLP)的上下文中,它意味着文本主体。

(来源:https://www.google.com.sg/search?q=corpora https://www.google.com.sg/search?q=corpora)


Lexicon是一个词汇表、一个单词列表、一本字典(来源:https://www.google.com.sg/search?q=lexicon https://www.google.com.sg/search?q=lexicon)

在 NLTK 中,任何词典都被视为语料库,因为单词列表也是正文。例如。停用词列表可以在 NLTK 语料库 API 中找到:

>>> from nltk.corpus import stopwords
>>> print stopwords.words('english')
[u'i', u'me', u'my', u'myself', u'we', u'our', u'ours', u'ourselves', u'you', u'your', u'yours', u'yourself', u'yourselves', u'he', u'him', u'his', u'himself', u'she', u'her', u'hers', u'herself', u'it', u'its', u'itself', u'they', u'them', u'their', u'theirs', u'themselves', u'what', u'which', u'who', u'whom', u'this', u'that', u'these', u'those', u'am', u'is', u'are', u'was', u'were', u'be', u'been', u'being', u'have', u'has', u'had', u'having', u'do', u'does', u'did', u'doing', u'a', u'an', u'the', u'and', u'but', u'if', u'or', u'because', u'as', u'until', u'while', u'of', u'at', u'by', u'for', u'with', u'about', u'against', u'between', u'into', u'through', u'during', u'before', u'after', u'above', u'below', u'to', u'from', u'up', u'down', u'in', u'out', u'on', u'off', u'over', u'under', u'again', u'further', u'then', u'once', u'here', u'there', u'when', u'where', u'why', u'how', u'all', u'any', u'both', u'each', u'few', u'more', u'most', u'other', u'some', u'such', u'no', u'nor', u'not', u'only', u'own', u'same', u'so', u'than', u'too', u'very', u's', u't', u'can', u'will', u'just', u'don', u'should', u'now']

The 电影评论数据集在 NLTK 中(规范称为Movie Reviews Corpus) is a 具有情感极性分类的 2k 电影评论文本数据集(来源:http://www.nltk.org/book/ch02.html http://www.nltk.org/book/ch02.html)

它通常用于教程目的,介绍 NLP 和情感分析,请参阅http://www.nltk.org/book/ch06.html http://www.nltk.org/book/ch06.html and 用于情感分析的 nltk NaiveBayesClassifier 训练 https://stackoverflow.com/questions/20827741/nltk-naivebayesclassifier-training-for-sentiment-analysis


WordNet is 英语词汇数据库(它就像一个具有词与词关系的词典/词典)(来源:https://wordnet.princeton.edu/ https://wordnet.princeton.edu/).

在 NLTK 中,它结合了开放多语言 WordNet (http://compling.hss.ntu.edu.sg/omw/ http://compling.hss.ntu.edu.sg/omw/),允许您查询其他语言的单词。

由于它也是一个单词列表(在本例中还包括许多其他内容,如关系、引理、词性等),因此它也可以使用以下方式调用nltk.corpus在NLTK中。

在 NLTK 中使用 wordnet 的规范习惯用法如下:

>>> from nltk.corpus import wordnet as wn
>>> wn.synsets('dog')
[Synset('dog.n.01'), Synset('frump.n.01'), Synset('dog.n.03'), Synset('cad.n.01'), Synset('frank.n.02'), Synset('pawl.n.01'), Synset('andiron.n.01'), Synset('chase.v.01')]

理解/学习 NLP 术语和基础知识的最简单方法是阅读 NLTK 书中的这些教程:http://www.nltk.org/book/ http://www.nltk.org/book/

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

NLTK(python)中的语料库和词典有什么区别[关闭] 的相关文章

随机推荐

  • 为什么用“to_excel”保存时pandas数据框样式丢失?

    Per 这个例子 https pandas pydata org pandas docs stable user guide style html Export to Excel the to excel方法应保存带有背景颜色的 Excel
  • 显示“页面加载”消息

    我试图在 html 页面中显示用于 页面加载 的图像 gif 直到显示 my script py 的输出 但我不知道该怎么做 This http jsfiddle net 9X4gW 这是我到目前为止所得到的 提前谢谢了 HTML div
  • 使用反射从字符串获取属性值

    I am trying implement the Data transformation using Reflection https web archive org web 20210122135227 http geekswithbl
  • 最后的手段/万能的/后备模板过载

    正如我之前提出的一个问题所示 重载解析 模板和继承 https stackoverflow com questions 28405921 overload resolution templates and inheritance 28406
  • 组织我的 Python 项目

    我正在启动一个 Python 项目 预计其中有 20 个或更多类 作为良好的做法 我想将它们分别放入一个单独的文件中 然而 项目目录很快就会被文件淹没 或者当我这样做时 如果我将要导入的文件放入文件夹中 我将无法再导入它 如何从另一个文件夹
  • FastAPI 中的可选查询参数

    我不明白可选查询参数 https fastapi tiangolo com tutorial query params optional parameters在 FastAPI 中 它与什么不同默认查询参数 https fastapi ti
  • 在Java中读取IDX文件类型

    我已经用 Java 构建了一个图像分类器 我想针对此处提供的图像进行测试 http yann lecun com exdb mnist http yann lecun com exdb mnist 不幸的是 如果您下载 train imag
  • Jasper 报告导出到 pdf 时出现字体大小问题

    我正在使用 Jaspersoft Studio 5 6 它在 Jaspersoft Studio 的设计视图中正确显示 在预览视图中 它也可以正确显示 使用 java 或 pdf 当我从 Java 应用程序执行报告时 三个文本以相同的大小显
  • jQuery 自动完成中未定义的结果

    所以我已经运行了最新版本的 jQuery 和 UI 我正在使用基本的自动完成调用并返回有效的 JSON 通过 JSONLint 验证 input cust id autocomplete source yoda app base asset
  • 为什么我没有 keras.applications 模块?

    from scipy misc import imsave import numpy as np import time from keras applications import vgg16 from keras import back
  • Android:当我启动新活动并按返回返回到它时,列表视图会自我复制

    我有两个列表视图 它们是视图寻呼机选项卡中的片段 当您单击列表视图中的项目时 它会启动一个新活动 但是 当我按后退按钮返回到选项卡式列表视图时 列表视图已加倍 如果我打开活动并再次返回 它会再次加倍 并且它将继续这样做 另外 我还有另一个带
  • Python括号约定[关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 应用程序提交:无效的二进制文件 - 无效的签名

    我正在尝试向 iOS 应用商店提交更新 我将从 Buzztouch 应用程序转到 Sprite Kit 应用程序 我能够存档 Xcode 项目并提交 该应用程序进入 上传已接收 状态 但大约一分钟后 它更改为 无效二进制文件 我收到一封电子
  • 如何使用 ggplotly - R 使散点图点打开超链接

    我想让我的散点图点可单击 并在单击时打开每个点各自的超链接 我正在尝试使用 ggplotly 来做到这一点 使用plotly 构建绘图时有一个简单的方法可以做到这一点 请参见下面的第一个示例 但是 当我在 ggplotly 上运行它时 单击
  • 用于报告和日常交易的数据库

    我有一个保存大量数据的系统 使用的数据库是SQL Server 其中一张表大约有 300000 行 而且这种大小的表数量相当多 该表会定期更新 我们将其称为发生事务的 事务数据库 现在 我们需要实现报告功能 一些架构师提出了一个不同的数据库
  • ggplot2:在绘图顶部添加辅助变换的 x 轴

    2016 年 4 月编辑 该线程中的解决方案不再正确显示添加的轴 关于此问题的新线程已在以下位置打开ggplot2 2 1 0 破坏了我的代码 辅助变换轴现在显示不正确 https stackoverflow com questions 3
  • 如何解决 Git 存储库中的合并冲突?

    如何解决 Git 存储库中的合并冲突 Try git mergetool 它会打开一个 GUI 引导您解决每个冲突 然后您可以选择如何合并 有时事后需要进行一些手动编辑 但通常本身就足够了 这肯定比手工完成整个事情要好得多 As per 乔
  • 使用 EF Core 填充 DropdownList(来自另一个模型)

    我有2节课 Photos and Albums我需要在我的照片 创建视图中包含相册名称 并为相册名称创建下拉菜单 我的查看照片 创建中的模型是 ImageViewModel 我怎么才能得到它 public class Album publi
  • Python类继承调用顺序

    有一个著名的Python例子 class A object def go self print go A go class B A def go self super B self go print go B go class C A de
  • NLTK(python)中的语料库和词典有什么区别[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 有人可以告诉我 a 和 a 之间的区别吗Corpora corpus and lexicon在NLTK 是什么电影数据集 what i