有人有 NLTK 的分类 XML 语料库阅读器吗？

2024-01-26

有人为 NLTK 编写过分类 XML 语料库阅读器吗？

我正在使用带注释的纽约时报语料库。它是一个 XML 语料库。我可以用以下命令读取文件XML语料库阅读器 https://stackoverflow.com/questions/6837566/can-nltks-xmlcorpusreader-be-used-on-a-multi-file-corpus但我想使用 NLTK 的一些类别功能。有一个不错的教程 https://www.packtpub.com/article/python-text-processing-nltk-20-creating-custom-corpora用于子类化 NLTK 阅读器。我可以继续写这个，但如果有人已经这样做了，我希望能节省一些时间。

如果没有的话我会发布我写的内容。

这是 NLTK 的分类 XML 语料库阅读器。它基于本教程。 https://www.packtpub.com/article/python-text-processing-nltk-20-creating-custom-corpora这使您可以在 XML 语料库（例如纽约时报注释语料库）上使用 NLTK 的基于类别的功能。

将此文件命名为 CategorizedXMLCorpusReader.py 并将其导入为：

import imp                                                                                                                                                                                                                     
CatXMLReader = imp.load_source('CategorizedXMLCorpusReader','PATH_TO_THIS_FILE/CategorizedXMLCorpusReader.py')

然后您可以像任何其他 NLTK 阅读器一样使用它。例如，

CatXMLReader = CatXMLReader.CategorizedXMLCorpusReader('.../nltk_data/corpora/nytimes', file_ids, cat_file='PATH_TO_CATEGORIES_FILE')

我仍在研究 NLTK，因此欢迎任何更正或建议。

# Categorized XML Corpus Reader                                                                                                                                                                                                  

from nltk.corpus.reader import CategorizedCorpusReader, XMLCorpusReader
class CategorizedXMLCorpusReader(CategorizedCorpusReader, XMLCorpusReader):
    def __init__(self, *args, **kwargs):
        CategorizedCorpusReader.__init__(self, kwargs)
        XMLCorpusReader.__init__(self, *args, **kwargs)
    def _resolve(self, fileids, categories):
        if fileids is not None and categories is not None:
            raise ValueError('Specify fileids or categories, not both')
        if categories is not None:
            return self.fileids(categories)
        else:
            return fileids

        # All of the following methods call the corresponding function in ChunkedCorpusReader                                                                                                                                    
        # with the value returned from _resolve(). We'll start with the plain text methods.                                                                                                                                      
    def raw(self, fileids=None, categories=None):
        return XMLCorpusReader.raw(self, self._resolve(fileids, categories))

    def words(self, fileids=None, categories=None):
        #return CategorizedCorpusReader.words(self, self._resolve(fileids, categories))                                                                                                                                          
        # Can I just concat words over each file in a file list?                                                                                                                                                                 
        words=[]
        fileids = self._resolve(fileids, categories)
        # XMLCorpusReader.words works on one file at a time. Concatenate them here.                                                                                                                                              
        for fileid in fileids:
            words+=XMLCorpusReader.words(self, fileid)
        return words

    # This returns a string of the text of the XML docs without any markup                                                                                                                                                       
    def text(self, fileids=None, categories=None):
        fileids = self._resolve(fileids, categories)
        text = ""
        for fileid in fileids:
            for i in self.xml(fileid).getiterator():
                if i.text:
                    text += i.text
        return text

    # This returns all text for a specified xml field                                                                                                                                                                            
    def fieldtext(self, fileids=None, categories=None):
        # NEEDS TO BE WRITTEN                                                                                                                                                                                                    
        return

    def sents(self, fileids=None, categories=None):
        #return CategorizedCorpusReader.sents(self, self._resolve(fileids, categories))                                                                                                                                          
        text = self.words(fileids, categories)
        sents=nltk.PunktSentenceTokenizer().tokenize(text)
        return sents

    def paras(self, fileids=None, categories=None):
        return CategorizedCorpusReader.paras(self, self._resolve(fileids, categories))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

有人有 NLTK 的分类 XML 语料库阅读器吗？的相关文章

如何从网站中抓取动态内容？

所以我使用 scrapy 从亚马逊图书部分抓取数据但不知何故我知道它有一些动态数据我想知道如何从网站中提取动态数据到目前为止我已经尝试过以下方法 import scrapy from items import AmazonsItem
如何检查当前日期并移至下一个日期

我遇到了一个我似乎无法理解的 python 问题不确定是否需要使用 if 语句但因为我是 python 新手所以我实际上不确定如何编写这个小问题事实上这就是我遇到的问题对于出发日历我希望 python 能够执行以下操作查看
Python 的“platform.mac_ver()”报告不正确的 MacOS 版本

我正在使用Pythonplatform module https docs python org 3 library platform html要识别 MacOS 版本如下所示 import platform print platform
按 A 列删除重复项，保留 B 列中具有最高值的行

我有一个数据框 A 列中有重复值我想删除重复项保留 B 列中具有最高值的行 So this A B 1 10 1 20 2 30 2 40 3 10 应该变成这样 A B 1 20 2 40 3 10 我猜想可能有一种简单的方法可以做到
将预训练的手套词嵌入与 scikit-learn 结合使用

我已经使用 keras 来使用预先训练的词嵌入但我不太确定如何在 scikit learn 模型上执行此操作我也需要在 sklearn 中执行此操作因为我正在使用vecstack集成 keras 序列模型和 sklearn 模型这就
每个刻度标签都有不同的颜色

我正在尝试使用 matplotlib python 3 5 创建一个散点图其中 x 轴上的每个刻度都有不同的颜色这怎么可能例如假设 x 刻度为 Mo Tu We Th Fr Sa Su 现在我希望 Mo 是绿色的 Tu 是蓝色的等
Python gdal 未定义符号 GDALRasterBandGetVirtualMem

我正在尝试使用Python GDAL 绑定 https pypi python org pypi GDAL 通过 pip 天真地安装绑定时安装失败并显示错误 VSIFTruncateL 未在此范围内声明 https gis stackex
VS Code Pylint 在缺失的函数/类文档字符串上用蓝色下划线突出显示整个函数

这种情况突然开始发生当出现缺少函数文档字符串警告时 python pylint 会用蓝色波浪线突出显示整个函数我怎样才能让它只突出显示函数定义或在定义行上制作一个小指示器在开发时突出显示整个文件是非常烦人的这是缺少类文档字符串的示例
argparse 更改参数的定义

我按如下方式设置参数解析器 parser argparse ArgumentParser parser add argument point help enter a point e g 2 3 4 parser parse args po
Emacs：在缓冲区求值期间将参数传递给下级 Python shell

最近我开始使用 Emacs 作为 Python IDE 它不太直观我现在遇到的问题是当使用 C c C c 评估缓冲区时如何将命令行参数传递给下级 python shell 感谢帮助这似乎并不容易实现管理的劣质流程python el模
python matplotlib 使用按钮事件添加和删除图形中的文本

我试图在调用button press event 时将文本添加到鼠标指针位置的图形中并在调用button release event 时将其删除我已成功添加文本但无法将其删除这是我使用的代码的一部分 def onclick even
Django - 该进程无法访问该文件，因为该文件正在被另一个进程使用

我正在尝试在 Windows 10 上运行 Django 我是 Django 的新手我正在使用 Compressor Toolkit 我的问题是我可以运行 manage py 但本地主机说 base html 第 9 行出错该进程无法访
如何列出静态链接的 python 版本中可用的所有 openssl 密码？

在python 2 7 8到2 7 9升级中 ssl模块从使用更改为 DEFAULT CIPHERS DEFAULT aNULL eNULL LOW EXPORT SSLv2 to DEFAULT CIPHERS ECDH AESGCM D
我无法设置顶级标题

我想为 TopLevel 设置标题但 TopLevel 显示 Root 的标题我认为我的下一个脚本与 TkInter 文档中的示例相对应但给了我不好的结果你能解释一下为什么我的设置master title 顶部 in 应用程序顶部
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
使用条件在 pandas 数据框中生成新列

我有一个 pandas 数据框如下所示 portion used 0 1 1 0 1 2 0 3 2 3 0 0 3 4 0 8 我想根据以下内容创建一个新专栏used列以便df看起来像这样 portion used alert 0 1
为什么我可以使用 tsql 连接到 Azure MS SQL，但不能使用 pymssql？

我今天在哪里 TDSVER 7 3 tsql H example database windows net U me D ExampleDB p 1433 P notreallymypassword 这不会 gt gt gt import
*Python 内的 Kaggle API 文档？

我想写一个python从 Kaggle com 下载公共数据集的脚本 Kaggle API 是用 python 编写的但是我能找到的几乎所有文档和资源都是关于如何在命令行中使用该 API 的而关于如何使用kaggle图书馆内python
如何在Python中显示坐标网格线的变换？

假设我有常规的笛卡尔坐标系 x y 并且我考虑一个矩形网格区域 D 分成小方块我想看看域 D 如何在 Python 中的坐标变换 T x y gt u x y v x y 下映射我正在寻找这样的东西 See here https mat
将非方邻接矩阵导入 Networkx python

我在下面有一些 pandas 数据框形式的数据其中列代表离散技能行代表离散工作仅当工作需要该技能时才存在 1 否则为 0 skill 1 skill 2 job 1 1 0 job 2 0 0 job 3 1 1 我想使用 netwo

随机推荐

在 PowerShell 中使用另一个扩展 JSON

是否有一些简单的方法可以将一个 JSON 文件扩展为另一个文件并使用 PowerShell 将输出保存到另一个文件目前我正在尝试编写一个允许我做到这一点的循环函数但也许有一个更简单的解决方案迭代转换为 JSON 的属性PSCusto
角度 Ui 树递增是重复的

我的笨蛋 https plnkr co edit dlG6bJcBP8jaxhVEZ4wq p preview 在 My plunker 中如果我添加一些子记录那么如果我删除其中一个子记录那么如果我添加行则行会重复 scope ne
将数据从 Android 发送到 PHP 服务器

我在 android 中有一个应用程序我想通过 url like mydata php lat 76867 long 87979 我有 php 代码如果点击此 url 则将数据保存在数据库中我所不知道的是如何通过我的android手机
在 ASP.NET 中使用线程是否存在任何不明显的危险？

这是一个兄弟姐妹的问题这个程序员的问题 https softwareengineering stackexchange com questions 13711 servicing background tasks on a large si
设置elasticsearch php客户端的connect_timeout

我想在我的elasticsearch php 客户端到我的elasticsearch 服务器之间配置一个小的超时我尝试将一些参数传递给 guzzle 客户端但似乎这不起作用这是代码 params array params hosts
如何在appdelegate中关闭viewcontroller？

我为这样的暂停视图创建launchScreen func applicationWillResignActive application UIApplication let storyboard UIStoryboard name Main
Thymeleaf 复选框未传递值

两个问题我有用户和注释课程用户可以有很多笔记如何通过 Thymeleaf 显示属于用户的每个笔记 id th text u notes id 不起作用我有一个表格见图其中每个用户都有布尔 isUserChecked 值的复选框
以编程方式将视图添加到 LinearLayout 但它们不显示

我正在尝试填充一个LinearLayout inside simple pdf example xml与 10printed order element2 xml这样我就可以生成一个 PDFListView 这实际上是一个LinearLay
如何使用 JavaScript 从完整路径获取文件名？

有没有办法可以从完整路径获取最后一个值基于符号 Example C Documents and Settings img recycled log jpg 有了这个案例我只想得到recycled log jpg来自 JavaScrip
Zabbix 服务器未运行：显示的信息可能不是最新的

所以突然之间在使用它一周后我在我的电脑上收到一条错误消息zabbix server gui http localhost zabbix http localhost zabbix 错误说 Zabbix server is not run
尝试让 tag-it 与 AJAX 调用一起使用

试图得到tag it http aehlke github com tag it 处理 ajax 调用到目前为止一切正常除此之外我无法通过 ajax 调用分配 tagSource 在 firebug 中数据正在返回 Ruby Ru
如何使用flutter为ios创建下拉菜单？

我可以使用 DropdownButton 和 DropdownMenuItem 小部件为 android 创建下拉菜单但对于 ios 我看不到任何像下拉菜单这样的小部件我也在 Cupertino iOS 风格小部件上看到过但我没有任
Android ListView滚动到底部

我正在开发带有聊天功能的应用程序我想要我的ListView当用户发布新消息以及当用户位于列表底部并且收到新消息时滚动到底部我正在用这个ListView
如何设置键盘快捷键以跳转到行首/行尾？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 I can see that Ctrl left right jumps to the beginning end of line How
在 Swift 中，如何交错 NSMutableParagraphStyle() 和 NSMutableAttributedString 来格式化要在 UITextView 中显示的字符串？

回应我之前发布的一个例子 Andreas Oetjen 展示了一种巧妙的方法来显示分数和小数表textView使用属性字符串 https stackoverflow com a 42153358 2348597对齐数字使小数点或正斜杠字符
Joshua Bloch 引入的 Builder 模式的一些修改

我使用 Joshua Bloch 引入的 Java 构建器模式有时我发现与原始类型相比使用默认值初始化某些字段的成本更高因此我的策略就是这样我延迟了这些字段的默认值初始化操作在构建过程中如果调用者之前未设置它们我只会将它们
正则表达式精确匹配字符串？

在这个问题的前言中我要提到虽然我远非正则表达式专家但它们对我来说并不完全陌生构建正则表达式来搜索特定字符串内的模式通常对我来说不是问题但我有一个也许独特的情况我有一组价值观比如 028938DEF567987390987
如何在 django 中进行内连接？

我想在 Html 中显示出版物的城市州和国家的名称但它们位于不同的表中这是我的模型 py class country models Model country name models CharField max length 200
在 powershell 中使用参数创建快捷方式的引用路径

我有以下调用 WSHShell 的 powershell 代码它将在 Win7 8 的开始菜单中创建快捷方式但无法弄清楚如何让 powershell 在目标行中的参数之前传递 UNC 路径所需的引号我想要的是 UNCPATH1 Dir
有人有 NLTK 的分类 XML 语料库阅读器吗？

有人为 NLTK 编写过分类 XML 语料库阅读器吗我正在使用带注释的纽约时报语料库它是一个 XML 语料库我可以用以下命令读取文件XML语料库阅读器 https stackoverflow com questions 6837566

有人有 NLTK 的分类 XML 语料库阅读器吗？

有人有 NLTK 的分类 XML 语料库阅读器吗？ 的相关文章

随机推荐

热门标签

有人有 NLTK 的分类 XML 语料库阅读器吗？的相关文章