需要在NLTK和Python中设置分类语料阅读器，语料文本在一个文件中，每行一个文本

2023-12-13

我通过 Jacob Perkins 的书“Python Text Handling with NLTK 2.0 Cookbook”逐渐熟悉了 NLTK 和文本分类。

我的语料库文档/文本每个都包含一段文本，因此每个文本都位于单独的文件行中，而不是单独的文件中。这些段落/行的数量大约为200万。因此，机器学习实例大约有 200 万个。

我的文件中的每一行（文本段落 - 域名、描述、关键字的组合）都是特征提取的主题：标记化等，使其成为机器学习算法的实例。

我有两个这样的文件，其中包含所有正面和负面信息。

如何将其加载到 CategorizedCorpusReader 中？是否可以？

我之前尝试过其他解决方案，例如 scikit，最后选择了 NLTK，希望能有一个更简单的起点来获得结果。

假设您有两个文件：

file_pos.txt、file_neg.txt

from nltk.corpus.reader import CategorizedCorpusReader
reader = CategorizedCorpusReader('/path/to/corpora/', \
                                 r'file_.*\.txt', \
                                 cat_pattern=r'file_(\w+)\.txt')

之后，您可以对其应用常用的语料库函数，例如：

>>> reader.categories()
['neg', 'pos']
>>> reader.fileids(categories=['neg'])
['file_neg.txt']

以及 tagged_sents、tagged_words 等。

您可能会喜欢本关于创建自定义语料库的教程：https://www.packtpub.com/books/content/python-text-processing-nltk-20-creating-custom-corpora

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

Text

NLTK

corpus

categorization

需要在NLTK和Python中设置分类语料阅读器，语料文本在一个文件中，每行一个文本的相关文章

Pycharm 中的 Traitlets.traitlets.TraitError

我是Python的初学者我面临以下问题每当我启动 pycharm 社区版版本 5 0 3 时 Python 控制台无法启动并显示以下错误 usr bin python2 7 usr lib pycharm community help
如何在 Python 中使这个随机文本生成器更加高效？

我正在研究一个随机文本生成器不使用马尔可夫链目前它的工作没有太多问题首先这是我的代码流程输入一个句子作为输入这称为触发字符串被分配给一个变量获取触发字符串中最长的单词在所有古腾堡计划数据库中搜索包含该单词的句子无论大写还
如何在 html 画布上使文本适合精确的宽度？

如何在 html5 画布上将单行文本字符串调整为精确的宽度到目前为止我尝试过的是以初始字体大小编写文本测量文本的宽度measureText my text width 然后根据我想要的文本宽度和实际文本宽度之间的比例计算新的字体大小它
python 根据日期创建目录结构

我使用以下函数根据今天的日期创建目录 usr bin python import time datetime os today datetime date today todaystr today isoformat os mkdir to
Windows 上的 NLTK MEGAM Max Ent 算法

我一直在 Python 上使用 NLTK 但无法使用 MEGAM Max Ent 算法因为缺少任何版本的 MEGAM 库等于或高于 0 3 的 Windows 64 位可执行文件需要包含 NLTK 的 nobias 选项工作在 v 0
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
使用 Pyinstaller 打包：PyQt4.QtGui.setStyle 被忽略？

问题如何在 Ubuntu 14 04 上使用 Pyinstaller 为我的应用程序设置 PyQt 样式 Details 我在 Windows 上使用 pyinstaller 打包了一个 PyQt4 Python 应用程序它似乎工作正常
Python Flask应用程序无法被网络中的远程计算机访问

我在本地主机上的 python 上运行了一个简单的 Flask Web 应用程序 Web 应用程序在 127 0 0 1 8000 上运行但我无法使用 myHostComputerIPaddress 8000 从网络中的远程计算机访问它
在Python中确定句子中2个单词之间的邻近度

我需要确定 Python 句子中两个单词之间的接近度例如在下面的句子中 the foo and the bar is foo bar 我想确定单词之间的距离foo and bar 确定之间出现的单词数foo and bar 请注意该词
使用 pyttsx 包时没有名为 Win32com.client 的模块错误

今天上网冲浪的时候Quora 我碰到answers https www quora com What amazing things can Python do关于 python 可以做的令人惊奇的事情我尝试使用pyttsx 文本到语音转换
python类型中的__flags__有什么用

我最近阅读了pickle源代码以下代码在copy reg让我很困惑 HEAPTYPE 1 lt lt 9 def reduce ex self proto assert proto lt 2 for base in self class
如何在 Heroku 中安装 NLTK 模块

嘿我想在我的 Heroku 服务器上安装 NLTK pos tag 我该怎么办呢请给我一些步骤因为我是 Heroku 服务器系统的新手我刚刚添加了官方nltk支持构建包只需添加一个nltk txt文件包含要安装的语料库列表一切都
.NET：如何判断编码是否支持字符串中的所有字符？

我需要输出大量文本其中包括多种语言的各种字符有时我需要以 Unicode 以外的字符编码例如 Shift JIS 或 ISO 8859 2 输出文本以便匹配它要访问的页面如果文本中包含编码无法处理的字符例如 ISO 8859 2
rpy2 在从 R 到 Python 的数据帧中处理 NA/缺失值时出现问题

我在使用rpy2包进行转换时遇到问题dataframe将 R 中的内容保存到 Python 中 import os os environ R HOME Library Frameworks R framework Resources imp
在Python中，如何将“datetime”对象转换为秒？

我有一堆日期时间对象我想计算每个对象自过去固定时间以来的秒数例如自 1970 年 1 月 1 日以来 import datetime t datetime datetime 2009 10 21 0 0 这似乎只是区分具有不同日期的日期
IndexError：布尔索引与维度 0 上的索引数组不匹配

在我将 Numpy 更新到 1 13 1 之前我的代码工作正常现在我收到以下错误 IndexError boolean index did not match indexed array along dimension 0 dimens
如何从嵌套字典中获取键？

我在字典中的字典中有一个列表 FirmA ProductA Color1 Color2 Color3 我想构建第一公司字典级别的键列表然后我需要根据公司密钥访问第二级产品字典最后我需要根据字典级别 2 产品中的产品密钥访问颜色列表
PyMC3-自定义 theano Op 进行数值积分

我使用 PyMC3 进行参数估计使用必须定义的特定似然函数我用谷歌搜索了一下发现我应该使用densitydist实现用户定义的似然函数的方法但它不起作用如何在 PyMC3 中合并用户定义的似然函数并找出最大 aposteriori
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows

随机推荐

Java中如何比较int数组？ [复制]

这个问题在这里已经有答案了当我尝试比较两个 int 数组时即使它们完全相同里面的代码if one two 仍然没有被执行为什么是这样 Object one 1 2 3 4 5 6 7 8 9 Object two 1 2 3 4 5
循环遍历集合中的 jQuery 对象，而不为每次迭代初始化新的 jQuery 对象

我发现自己一直在这样做 myElements each function index currentHtmltmlElement var currentJqueryElement currentHtmltmlElement Working
在 Lisp 中打印 defstruct

我在 Lisp 中定义了一个非常简单的数据结构 Data structure for a person defstruct person name nil age 0 siblings nil type list Siblings is a
寻找特定顶点最短路径的好算法

我正在解决下面描述的问题并且想不出比尝试每个组的每个顶点的每个排列更好的算法我得到了一张顶点图以及一组特定顶点组的列表目标是找到从特定起始顶点到特定结束顶点的最短路径并且该路径必须从每个顶点至少经过一个顶点指定的顶点组图中还存在
使用 python 请求登录 Facebook

我正在尝试找到一种使用 Python 无需浏览器即可自动登录 Facebook 的方法我尝试了请求库尝试了几种方法 URL http m facebook com requests get URL auth email protec
带有自定义图片的 Facebook API 帖子链接

我可以为链接设置自定义图片和标题现在v2 9已经不可能了是否有某种不指定 og 标签的解决方法使用 Facebook Graph v2 8 时您可以发布链接并显示自定义图像而不是 og image 这是通过将图片参数添加到挂钩来完
如何在编译时提取没有路径和后缀的源文件名？

同时使用带 std c11 的 gcc 和带 std c 14 的 g 例如对于名为src dir Hello cxx它应该扩展到类似以下内容 const char basename Hello or const char basenam
C# 静态变量 - 范围和持久性

我刚刚做了一个小实验 public abstract class MyClass private static int myInt 0 public static int Foo return myInt public static int
iOS/Cocoa - 数据模型 <-> 控制器的设计模式

我读过很多关于此的 stackoverflow 文章以及一般的 Cocoa MVC 但大多数都与视图控制器之间的信息共享有关鉴于以下情况一个 DataModel 类负责下载解析验证和存储 XML 或 JSON 派生的数据一个
symfony 4 webpack + encore 处理模板中的图像更多信息

Like 这个问题使用 Symfony 4 和 Webpack Encore Yarn 我想处理图像在我的模板中我并不知道如何实现这一点我将图像放在 assets img logo png 文件夹中并在我的 webpack con
使用 Java 将数据从 Google Cloud Storage 加载到 BigQuery

我想将数据从 Google Cloud Storage 上传到 BigQuery 但我找不到任何描述如何执行此操作的 Java 示例代码有人可以给我一些关于如何执行此操作的提示吗我真正想做的是将数据从 Google App Engine
文件 res/drawable/abc_ic_ab_back_material.xml 来自可绘制资源 ID #0x7f020016 [重复]

这个问题在这里已经有答案了最近android support library已更新为23 2 0 下载android sdk并更新android设计支持库后23 2 0 这个错误反复发生我的项目甚至无法编译完整的错误日志显示 03 0
EJS 包含在单独的 ejs 文件中定义的函数

我试图包含一个 ejs 文件其中包含用于设置我的视图的函数这些函数被定义为用作助手我尝试过使用但是当我尝试使用该文件中的函数时我收到错误 Reference Error module start is not defined 当我
Cordova iOS 本地文件上的“Access-Control-Allow-Origin 不允许 Origin null”

我在 Cordova CLI 上开发一个项目并在物理 iPhone 上编译应用程序但在控制台中出现访问控制源错误这是消息 Error Origin null is not allowed by Access Control Allow
连接两个表并获取它们的输出[重复]

这个问题在这里已经有答案了可能的重复 SQL 查询与表连接如果这是TestingTable1中的数据 BUYER ID ITEM ID CREATED TIME 1345653 151851771618 2012 07 09 19 57
Django Postgresql Heroku：操作错误 - '角色“用户名”的致命连接太多'

我正在 Heroku 上使用 Django 和 Django Rest Framework 以及 postgresql 和 redis 数据存储运行一个 Web 应用程序我使用免费的 postgresql 层该层仅限 20 个连接这在
Android Twitter 连接？

哪个是最好的 Twitter 连接Library对于安卓有可用的例子吗要共享内容请使用 Social Auth Android 库该库还可以帮助您集成 facebook twitter 和 myspace 这是链接 http cod
Heroku-22 堆栈上的 .NET 5 中“未找到可用的 libssl 版本”

我的应用程序在 Heroku0 20 堆栈上运行良好但当我升级到堆栈 22 时我收到找不到可用版本的 libssl 我正在使用 NET Core 5 这可能意味着我需要 libssl 如何将其安装在 Heroku dyno 上您可以
C# WCF：WCF 服务在发送项目数组时返回 (404) 错误请求

我正在尝试将大约 50 个元素的数组发送到 WCF 服务方法但我总是收到 404 Bad Request error 我认为这与消息大小或类似的东西有关因为如果我发送一个空数组它就会起作用我做了一些研究并在 WCF 的 web co
需要在NLTK和Python中设置分类语料阅读器，语料文本在一个文件中，每行一个文本

我通过 Jacob Perkins 的书 Python Text Handling with NLTK 2 0 Cookbook 逐渐熟悉了 NLTK 和文本分类我的语料库文档文本每个都包含一段文本因此每个文本都位于单独的文件行中而

需要在NLTK和Python中设置分类语料阅读器，语料文本在一个文件中，每行一个文本

需要在NLTK和Python中设置分类语料阅读器，语料文本在一个文件中，每行一个文本 的相关文章

随机推荐

热门标签

需要在NLTK和Python中设置分类语料阅读器，语料文本在一个文件中，每行一个文本的相关文章