NLTK 使用语料库标记西班牙语单词

2024-03-04

我正在尝试学习如何使用 NLTK 标记西班牙语单词。

来自NLTK书 http://nltk.org/book/ch05.html，使用它们的示例来标记英语单词非常容易。因为我对 nltk 和所有语言处理都很陌生，所以我对如何进行感到非常困惑。

我已经下载了cess_esp语料库。有没有办法指定一个语料库nltk.pos_tag。我看了看pos_tag文档，但没有看到任何表明我可以的东西。我觉得我错过了一些关键概念。我是否必须在 cess_esp 语料库中手动标记文本中的单词？（手动我的意思是标记我的句子并在语料库中运行它）或者我完全偏离了目标。谢谢

首先你需要从语料库中读取标记的句子。NLTK 提供了一个很好的界面，不用担心来自不同语料库的不同格式；您可以简单地导入语料库，使用语料库对象函数来访问数据。看http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml .

那么你必须选择您选择的标注器并训练标注器。还有更多奇特的选项，但您可以从 N-gram 标记器开始。

然后你可以使用标注器来标注你想要的句子。这是一个示例代码：

from nltk.corpus import cess_esp as cess
from nltk import UnigramTagger as ut
from nltk import BigramTagger as bt

# Read the corpus into a list, 
# each entry in the list is one sentence.
cess_sents = cess.tagged_sents()

# Train the unigram tagger
uni_tag = ut(cess_sents)

sentence = "Hola , esta foo bar ."

# Tagger reads a list of tokens.
uni_tag.tag(sentence.split(" "))

# Split corpus into training and testing set.
train = int(len(cess_sents)*90/100) # 90%

# Train a bigram tagger with only training data.
bi_tag = bt(cess_sents[:train])

# Evaluates on testing data remaining 10%
bi_tag.evaluate(cess_sents[train+1:])

# Using the tagger.
bi_tag.tag(sentence.split(" "))

在大型语料库上训练标注器可能需要花费大量时间。将经过训练的标注器保存在文件中以供以后重复使用，而不是每次需要时都训练标注器。

请看存储标签部分在http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLTK

NLTK 使用语料库标记西班牙语单词的相关文章

使用 Python Multiprocessing Pool.map() 的问题在 Python 3.7.2 中变得棘手，但在 3.6.2 中很快完成

我刚刚将Python从3 6 2 gt 3 7 2并且遇到了问题multiprocessing图书馆我在 Django 应用程序中使用它该应用程序在工作函数中使用 Django 特定的函数见下文在我的代码中我有以下内容 impor
如何（重新）命名 pandas 数据框中的空列标题而不导出到 csv

我有一个熊猫数据框df1带有一个索引列和一系列未命名的值我想为未命名的系列指定一个名称到目前为止我知道的唯一方法是导出到df1 csv using df1 to csv df1 csv header Signal 然后使用以下命令重新
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
使用 NumPy 编写一个函数来计算具有特定公差的积分

我想编写一个自定义函数来以特定容差对表达式 python 或 lambda 函数进行数字积分我知道与scipy integrate quad人们可以简单地改变epsabs但我想使用 numpy 自己编写该函数 From 这篇博文 htt
无法在 virtualenv 中安装 libxml2

我有一个问题libxml2蟒蛇模块我正在尝试将其安装在python3 虚拟环境使用以下命令 pip install libxml2 python3 但它显示以下错误 Collecting libxml2 python3 Using cac
查找正在导入哪些 python 模块

从应用程序中使用的特定包中查找所有 python 模块的简单方法是什么 sys modules是将模块名称映射到模块的字典您可以检查其键以查看导入的模块 See http docs python org library sys html
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
正在使用 PIL 保存损坏的图像

我遇到一个问题操作图像像素导致保存损坏的图像因此我使用 PIL 打开图像然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后我转置图像
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
为什么将模块级代码放入函数中然后调用该函数在Python中速度更快？

在亚历克斯马尔泰利的回应中使 Python 脚本面向对象 https stackoverflow com questions 1813117 making a python script object oriented 他提到在 Pyth
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
从 wxPython 事件处理程序中调用函数

我正在努力寻找一种在 wxPython 事件处理函数中使用函数的方法假设我有一个按钮单击该按钮时它会使用事件处理程序运行一个名为 OnRun 的函数但是用户忘记单击 OnRun 按钮之前的 RadionButton 我想弹出一个
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些

随机推荐

AS3 字符串内存泄漏

我已经在 AS3 中编程了一段时间发现一个非常奇怪的问题字符串没有明显的原因挂在内存上下面的程序只是用随机字符串更改 label text 属性它工作正常但是当我查看 Flex 探查器我注意到字符串的数量正在稳步增加我尝试执行
如何将 CCSprite 从一个父级转移到另一个父级？

我有一个CCSprite called sprite那是一个孩子CCLayer called movingLayer它本身就是当前的子项CCLayer运行我的游戏逻辑所以它是self在这种情况下 movingLayer以永远重复的动作在屏
Android Studio 3.0 编译问题（无法选择配置）

最新 3 0 版本 Beta 2 的问题我的项目有 1 个由第三方提供的子模块因此我只能访问他们的 build gradle 我的项目有 3 种风格 snap uat 生产每个都有 2 种构建类型调试和发布当我尝试构建时我得到了这
如何在不安装IDE的情况下编译并运行这个Delphi代码？

据说生成一个winform var F TForm L TLabel begin F TForm Create Application L TLabel Create F L Parent F Needed to have it show
如何自定义 Twitter Bootstrap 弹出窗口隐藏动画

我想实现我自己的弹出隐藏动画目前我直接修改bootstrap js fn popover function option return this each function var this this data this data po
Android KeyStore私有指数无法提取

我想在 Android 密钥库中生成 RSA 密钥对从 Android 4 3 开始应该可以在 Android 系统密钥库中生成 RSA 密钥我通过工作正常生成我的 RSA 密钥 Calendar notBefore Calend
如何避免 ReST 表中的水平滚动条？

我在 ReST 标记中有这个表 Option Line Kind Distinguishing Characteristic Reference The option name is call
如何知道 Lex 中的机器人使用的是语音还是文本

在从 Lex 调用的 Lambda 函数中我们需要知道请求是来自 Connect 还是来自控制台或其他聊天工具等文本源我们主要需要知道这一点来决定是否需要使用纯文本或 SSML 进行响应您需要查看请求属性x amz lex accep
在 Windows 7 用户登录之前运行批处理文件以启动 VLC Web 界面

我想运行一个批处理文件该文件在用户登录之前执行以下操作 start VLC web Interface C Program Files x86 VideoLAN VLC vlc exe I http 目前我的启动文件夹中有此文件但我希望
VarBinary 与 Image SQL Server 数据类型存储二进制数据？

我需要将二进制文件存储到 SQL Server 数据库 Varbinary 和 Image 中哪种数据类型更好由于图像已被弃用您应该使用 varbinary per 微软 http msdn microsoft com en us li
无锁堆栈 - 这是 c++11 宽松原子的正确用法吗？可以证明吗？

我已经为需要跨线程同步的非常简单的数据编写了一个容器我想要顶级的表现我不想使用锁我想使用宽松的原子部分是为了增加一点额外的魅力部分是为了真正理解它们我已经为此做了很多工作现在这段代码通过了我对其进行的所有测试但这并不完全
pytest django：无法访问固定装置拆卸中的数据库

我需要在使用夹具后显式删除它我知道 pytest django 默认情况下会在拆卸时删除所有对象但在这种特殊情况下我需要手动执行此操作然而虽然我的测试被标记为pytest mark django db 我能够创建一个夹具但在经过
JBoss7 + PostgreSQL 新的缺失/不满足的依赖关系

我正在将项目从 JBoss3 迁移到 JBoss7 我昨天才开始重新配置我的standalone xml module xml 和persistence xml 在 JBoss 模块文件夹中我创建了 org postgres main 目
有什么方法可以解决 C4772 错误而无需注册 DLL？

我正在维护一个 VS2010 项目其中有许多交叉引用的 COM 库我正在尝试配置该项目使其可以从安装了 VS2010 的随机工作站构建工作站可以是 32 位和 64 位因此如果我将项目配置为注册输出则构建将无法在 32 位计算
删除 struts 2 中的转换验证消息或使其通用

在我的 struts2 应用程序中我有一个名为 CarrierNo 的字段它接受整数当我将字符串放入其中时会给出以下验证错误消息 Invalid field value for field carrierNo 我可以像这样在属性文件
有没有一种简单的方法来计算两个数组之间的差异[重复]

这个问题在这里已经有答案了我正在尝试计算 Swift 中两个数组中值之间的差异我想减去两个数组之间每个索引处的值我尝试执行以下操作 var array1 Double 1 2 3 4 5 var array2 Double 2 3 4
存储过程的命名约定是什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何在 GitHub 上使用 Laravel 包的 PR？

当我想在 GitHub 上对 Laravel 包发出拉取请求时我会按以下方式进行操作创建新的 Laravel 项目需要并安装包从供应商文件夹中的项目中删除附加文件 Fork GitHub 并将文件克隆到项目文件夹中更改打包并测试所
AJAX DJango 从多个文件字段获取文件

我正在使用 AJAX 和 DJango 进行多个文件上传但遇到问题如何从字段输入获取文件并将其推送到data HTML
NLTK 使用语料库标记西班牙语单词

我正在尝试学习如何使用 NLTK 标记西班牙语单词来自NLTK书 http nltk org book ch05 html 使用它们的示例来标记英语单词非常容易因为我对 nltk 和所有语言处理都很陌生所以我对如何进行感到非常困惑我

NLTK 使用语料库标记西班牙语单词

NLTK 使用语料库标记西班牙语单词 的相关文章

随机推荐

热门标签

NLTK 使用语料库标记西班牙语单词的相关文章