使用 NLTK 和 Python 创建自定义分类语料库

2023-12-24

我遇到了一些与正则表达式有关的问题CategorizedPlaintextCorpusReader在Python中。

我想创建一个自定义分类语料库并在其上训练朴素贝叶斯分类器。我的问题如下:我想要两个类别,“pos”和“neg”。正片文件都在一个目录下,main_dir/pos/*.txt,负数位于单独的目录中,main_dir/neg/*.txt.

我怎样才能使用CategorizedPlaintextCorpusReader加载并标记 pos 目录中的所有正面文件,并对负面文件执行相同的操作?

注意:设置与Movie_reviews语料库(~nltk_data\corpora\movie_reviews).


这是我的问题的答案。 由于我正在考虑使用两个案例,因此我认为最好涵盖这两个案例,以防将来有人需要答案。 如果您具有与 movie_review 语料库相同的设置 - 多个文件夹以相同的方式标记,您希望调用标签并包含训练数据,您可以使用它。

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'(\w+)/*')

我正在考虑的另一种方法是将所有内容放在一个文件夹中并将文件命名为 0_neg.txt、0_pos.txt、1_neg.txt 等。您的阅读器的代码应类似于:

reader = CategorizedPlaintextCorpusReader('~/MainFolder/', r'.*\.txt', cat_pattern=r'\d+_(\w+)\.txt')

我希望这对将来的人有帮助。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 NLTK 和 Python 创建自定义分类语料库 的相关文章

随机推荐

  • Objective C 中使用 alloc 的目的

    有什么区别 NSNumber number NSNumber alloc initWithInt 13 and NSNumber number NSNumber initWithInt 13 当两者解决相同的目的时为什么要分配 NSNumb
  • pandas 计算多列

    我有一个看起来像这样的数据框 Measure1 Measure2 Measure3 0 1 3 1 3 2 3 0 我想计算列中值的出现次数以产生 Measure Count Percentage 0 2 0 25 1 2 0 25 2 1
  • 如何存根 require() / Expect 调用模块的“root”函数?

    考虑以下茉莉花规格 describe something act function it calls some function of my module function var mod require my module spyOn m
  • log4j2 JDBC 管理器无法连接到数据库

    我正在尝试使用 mysql 配置 log4j v2 但它返回此错误 2014 08 01 15 35 24 819 ERROR Unable to write to database jdbcManager description data
  • nHibernate 映射到自定义类型

    我有一个 Oracle 数据库 其中一个字段是日期范围字段 它基本上只是以 YYYY MM DD YYYY MM DD 格式作为 VARCHAR 40 存储在数据库中 我想将它在 nHibernate 中映射到我这样创建的自定义类 publ
  • jQuery - 查找给定类中没有值的任何输入

    我有一个 非常 基本的验证脚本 我基本上想检查 required 类的任何输入 看看是否有值 a 空白或 b 0 如果是 则在我的表单提交上返回 false 这段代码似乎没有返回 false function myValidation if
  • 查询当前CPU的频率

    Windows 8 任务管理器显示 CPU 的当前 不是最大 频率 例如 1 2 GHz 有没有办法通过 Windows API 获得这个频率 最好使用 Delphi 或 Visual C 我会研究 WMI 特别是CurrentClockS
  • 保存 MongoDB 查询的结果

    在 mongo shell 中进行研究时 我经常编写非常复杂的查询 并希望将结果存储在其他集合中 我知道怎么做 forEach db documents find query forEach function d db results in
  • pg_views 查询中的信息不完整[重复]

    这个问题在这里已经有答案了 我的数据库中有一个视图 PostgreSQL 我想看看它的代码 我写了这个查询 select definition from pg views where viewname x 这在大多数情况下都有效 但是在某些
  • 未捕获的 ReferenceError:函数未定义 jQuery

    我试图在单击按钮时调用 jQuery 函数 但我收到错误如下 未捕获的引用错误 update question ajax 未定义 HTML
  • 修改内容配置文件表单以显示矩阵中的复选框

    我需要像这样显示矩阵http eugen gotdns com test zeitplaner png http eugen gotdns com test zeitplaner png以内容简介的形式 我可以用CSS以这种方式排列复选框
  • 通过git hook执行python子进程

    我在 Git 存储库上运行 Gitolite 并且我有用 Python 编写的 post receive 挂钩 我需要在 git 存储库目录中执行 git 命令 有几行代码 proc subprocess Popen git log n1
  • T-sql - 确定值是否为整数

    我想确定一个值是否为整数 例如TryParse在 NET中 很遗憾ISNUMERIC不适合我 因为我只想解析整数而不是每种数字 有没有这样的事情ISINT或者其他的东西 这里有一些代码可以让事情变得清楚 如果MY FIELD不是 int 此
  • C 语言中 OpenMP 静态调度和动态调度的区别

    我有两个类似的代码 First pragma omp parallel for shared g private i schedule dynamic 1 for i g actualNumberOfChromosomes i lt g m
  • 导入错误:无法导入名称“_safe_split”

    当我尝试使用 train test split 函数时出现以下错误 然后我尝试安装scipy 但没有帮助 有谁知道我可能从下面的错误中遗漏了哪些内容 谢谢 ImportError Traceback most recent call las
  • Vite + React Docker

    我正在尝试使用 docker 容器运行我的 vite react 应用程序 代码运行良好 但不幸的是 它没有在 localhost 3000 中打开 Docker文件 FROM node 18 alpine EXPOSE 3000 WORK
  • 在 Ruby 中设置请求标头

    我有其余的客户端 gem 我正在定义这样的请求 url http someurl request data gt data to json response RestClient post url request content type
  • 将 NSString 解析为 JSON

    我读过几个论坛 但似乎无法完成这个简单的任务 我在 Xcode 中有一个视图 它指向 PHP 脚本并将结果存储为下面的 NSString id 16 name 鲍勃 age 37 我在解析这个 NSString 时遇到问题 这就是我获取 N
  • IBM MQ 8 的 JMeter 配置

    我正在尝试使用 JMeter 测试 IBM MQ 8 0 有人有我需要的各种参数的示例 也许是屏幕截图 吗 我找到了几个例子 但非常不一致 更准确地说 我应该填写什么 队列连接工厂 JNDI 名称请求队列 一些示例显示队列名称 有些是 JN
  • 使用 NLTK 和 Python 创建自定义分类语料库

    我遇到了一些与正则表达式有关的问题CategorizedPlaintextCorpusReader在Python中 我想创建一个自定义分类语料库并在其上训练朴素贝叶斯分类器 我的问题如下 我想要两个类别 pos 和 neg 正片文件都在一个