使用 NLTK 和 Python 创建自定义分类语料库

2023-12-24

我遇到了一些与正则表达式有关的问题CategorizedPlaintextCorpusReader在Python中。

我想创建一个自定义分类语料库并在其上训练朴素贝叶斯分类器。我的问题如下：我想要两个类别，“pos”和“neg”。正片文件都在一个目录下，main_dir/pos/*.txt，负数位于单独的目录中，main_dir/neg/*.txt.

我怎样才能使用CategorizedPlaintextCorpusReader加载并标记 pos 目录中的所有正面文件，并对负面文件执行相同的操作？

注意：设置与Movie_reviews语料库（~nltk_data\corpora\movie_reviews).

这是我的问题的答案。由于我正在考虑使用两个案例，因此我认为最好涵盖这两个案例，以防将来有人需要答案。如果您具有与 movie_review 语料库相同的设置 - 多个文件夹以相同的方式标记，您希望调用标签并包含训练数据，您可以使用它。

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'(\w+)/*')

我正在考虑的另一种方法是将所有内容放在一个文件夹中并将文件命名为 0_neg.txt、0_pos.txt、1_neg.txt 等。您的阅读器的代码应类似于：

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'\d+_(\w+)\.txt')

我希望这对将来的人有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 NLTK 和 Python 创建自定义分类语料库的相关文章

即使页面未完全加载，我们也可以使用 Selenium 获取页面源吗（TimeoutException: Message: timeout）？

即使遇到 TimeoutException Message timeout 也能获取页面源码吗当我调用 driver page source 时有时无法加载整页但我只需要它的部分信息尚未确定所以我只想在任何情况下保存页面是否可以
正则表达式：括号表达式中的双反斜杠

以下表达式中的双反斜杠匹配什么它是一个过滤器吗 and 转义反斜杠或 and 未转义或 and 逃避问号这是正则表达式的链接以及一些示例测试字符串如在Rubular http rubular com r Jrw1G4YLtT Th
Python有条件求解时滞微分方程

我在用dde23 of pydelay包来求解延迟微分方程我的问题如何有条件地编写方程例如目标方程有两个选项 when x gt 1 dx dt 0 25 x t tau 1 0 pow x t tau 10 0 0 1 x othe
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
如何使用显式引用转储 YAML？

递归引用非常适合ruamel yaml or pyyaml ruamel yaml dump ruamel yaml load A A id001 id001 然而它显然不适用于普通引用 ruamel yaml dump ruamel
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
更改 python tkinter canvas 中的线坐标

我画了一条线tkinter Canvas现在我想移动一端这可能吗例如和itemconfig import tkinter tk tkinter Tk canvas tkinter Canvas tk canvas pack line c
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
在Python中计算内存碎片

我有一个长时间运行的进程不断分配和释放对象尽管正在释放对象但 RSS 内存使用量会随着时间的推移而增加如何计算发生了多少碎片一种可能性是计算 RSS sum of allocations 并将其作为指标即便如此我该如何计算分母
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
如何使用 Keras ImageDataGenerator 预测单个图像？

我已经训练 CNN 对图像进行 3 类分类在训练模型时我使用 keras 的 ImageDataGenerator 类对图像应用预处理功能并重新缩放它现在我的网络在测试集上训练得非常准确但我不知道如何在单图像预测上应用预处理功能如
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro

随机推荐

Objective C 中使用 alloc 的目的

有什么区别 NSNumber number NSNumber alloc initWithInt 13 and NSNumber number NSNumber initWithInt 13 当两者解决相同的目的时为什么要分配 NSNumb
pandas 计算多列

我有一个看起来像这样的数据框 Measure1 Measure2 Measure3 0 1 3 1 3 2 3 0 我想计算列中值的出现次数以产生 Measure Count Percentage 0 2 0 25 1 2 0 25 2 1
如何存根 require() / Expect 调用模块的“root”函数？

考虑以下茉莉花规格 describe something act function it calls some function of my module function var mod require my module spyOn m
log4j2 JDBC 管理器无法连接到数据库

我正在尝试使用 mysql 配置 log4j v2 但它返回此错误 2014 08 01 15 35 24 819 ERROR Unable to write to database jdbcManager description data
nHibernate 映射到自定义类型

我有一个 Oracle 数据库其中一个字段是日期范围字段它基本上只是以 YYYY MM DD YYYY MM DD 格式作为 VARCHAR 40 存储在数据库中我想将它在 nHibernate 中映射到我这样创建的自定义类 publ
jQuery - 查找给定类中没有值的任何输入

我有一个非常基本的验证脚本我基本上想检查 required 类的任何输入看看是否有值 a 空白或 b 0 如果是则在我的表单提交上返回 false 这段代码似乎没有返回 false function myValidation if
查询当前CPU的频率

Windows 8 任务管理器显示 CPU 的当前不是最大频率例如 1 2 GHz 有没有办法通过 Windows API 获得这个频率最好使用 Delphi 或 Visual C 我会研究 WMI 特别是CurrentClockS
保存 MongoDB 查询的结果

在 mongo shell 中进行研究时我经常编写非常复杂的查询并希望将结果存储在其他集合中我知道怎么做 forEach db documents find query forEach function d db results in
pg_views 查询中的信息不完整[重复]

这个问题在这里已经有答案了我的数据库中有一个视图 PostgreSQL 我想看看它的代码我写了这个查询 select definition from pg views where viewname x 这在大多数情况下都有效但是在某些
未捕获的 ReferenceError：函数未定义 jQuery

我试图在单击按钮时调用 jQuery 函数但我收到错误如下未捕获的引用错误 update question ajax 未定义 HTML
修改内容配置文件表单以显示矩阵中的复选框

我需要像这样显示矩阵http eugen gotdns com test zeitplaner png http eugen gotdns com test zeitplaner png以内容简介的形式我可以用CSS以这种方式排列复选框
通过git hook执行python子进程

我在 Git 存储库上运行 Gitolite 并且我有用 Python 编写的 post receive 挂钩我需要在 git 存储库目录中执行 git 命令有几行代码 proc subprocess Popen git log n1
T-sql - 确定值是否为整数

我想确定一个值是否为整数例如TryParse在 NET中很遗憾ISNUMERIC不适合我因为我只想解析整数而不是每种数字有没有这样的事情ISINT或者其他的东西这里有一些代码可以让事情变得清楚如果MY FIELD不是 int 此
C 语言中 OpenMP 静态调度和动态调度的区别

我有两个类似的代码 First pragma omp parallel for shared g private i schedule dynamic 1 for i g actualNumberOfChromosomes i lt g m
导入错误：无法导入名称“_safe_split”

当我尝试使用 train test split 函数时出现以下错误然后我尝试安装scipy 但没有帮助有谁知道我可能从下面的错误中遗漏了哪些内容谢谢 ImportError Traceback most recent call las
Vite + React Docker

我正在尝试使用 docker 容器运行我的 vite react 应用程序代码运行良好但不幸的是它没有在 localhost 3000 中打开 Docker文件 FROM node 18 alpine EXPOSE 3000 WORK
在 Ruby 中设置请求标头

我有其余的客户端 gem 我正在定义这样的请求 url http someurl request data gt data to json response RestClient post url request content type
将 NSString 解析为 JSON

我读过几个论坛但似乎无法完成这个简单的任务我在 Xcode 中有一个视图它指向 PHP 脚本并将结果存储为下面的 NSString id 16 name 鲍勃 age 37 我在解析这个 NSString 时遇到问题这就是我获取 N
IBM MQ 8 的 JMeter 配置

我正在尝试使用 JMeter 测试 IBM MQ 8 0 有人有我需要的各种参数的示例也许是屏幕截图吗我找到了几个例子但非常不一致更准确地说我应该填写什么队列连接工厂 JNDI 名称请求队列一些示例显示队列名称有些是 JN
使用 NLTK 和 Python 创建自定义分类语料库

我遇到了一些与正则表达式有关的问题CategorizedPlaintextCorpusReader在Python中我想创建一个自定义分类语料库并在其上训练朴素贝叶斯分类器我的问题如下我想要两个类别 pos 和 neg 正片文件都在一个

使用 NLTK 和 Python 创建自定义分类语料库

使用 NLTK 和 Python 创建自定义分类语料库 的相关文章

随机推荐

热门标签

使用 NLTK 和 Python 创建自定义分类语料库的相关文章