适用于英语以外语言的 POS [重复]

2024-01-10

我对 nltk 很陌生。

这使我可以根据句子的词性来标记句子。但是对于其他语言执行此操作涉及哪些步骤？

import nltk
sentence = "I'm not sure!"
tokens = nltk.word_tokenize(sentence)
tagged = nltk.pos_tag(tokens)

UPDATE

我有兴趣从西班牙语开始。

UPDATE 2

import nltk
from nltk.tokenize import word_tokenize

training_set = [[(w.lower(),t) for w,t in s] for s in nltk.corpus.conll2002.tagged_sents('esp.train')]

unigram_tagger = nltk.UnigramTagger(training_set)
bigram_tagger = nltk.BigramTagger(train_set, backoff=unigram_tagger)

tokens = [token.lower() for token in word_tokenize("El Congreso no podrá hacer ninguna ley con respecto al establecimiento de la religión, ni prohibiendo la libre práctica de la misma; ni limitando la libertad de expresión, ni de prensa; ni el derecho a la asamblea pacífica de las personas, ni de solicitar al gobierno una compensación de agravios.")]

生产：

[('el', 'DA'), ('congreso', 'NC'), ('no', 'RN'), ('podrá', 'VMI'), ('hacer', 'VMN'), ('ninguna', 'DI'), ('ley', 'NC'), ('con', 'SP'), ('respecto', 'NC'), ('al', 'SP'), ('establecimiento', 'NC'), ('de', 'SP'), ('la', 'DA'), ('religión', 'NC'), (',', 'Fc'), ('ni', 'CC'), ('prohibiendo', None), ('la', 'DA'), ('libre', 'AQ'), ('práctica', 'NC'), ('de', 'SP'), ('la', 'DA'), ('misma', 'DI'), (';', 'Fx'), ('ni', 'CC'), ('limitando', None), ('la', 'DA'), ('libertad', 'NC'), ('de', 'SP'), ('expresión', 'NC'), (',', 'Fc'), ('ni', 'CC'), ('de', 'SP'), ('prensa', 'NC'), (';', 'Fx'), ('ni', 'CC'), ('el', 'DA'), ('derecho', 'NC'), ('a', 'SP'), ('la', 'DA'), ('asamblea', 'NC'), ('pacífica', 'AQ'), ('de', 'SP'), ('las', 'DA'), ('personas', 'NC'), (',', 'Fc'), ('ni', 'CC'), ('de', 'SP'), ('solicitar', 'VMN'), ('al', 'SP'), ('gobierno', 'NC'), ('una', 'DI'), ('compensación', 'NC'), ('de', 'SP'), ('agravios', None), ('.', 'Fp')]

据我所知，nltk 没有为英语以外的任何语言提供现成的标记器或解析器。 nltk 之外也有这样的工具，您可以下载并使用。

nltk 确实提供了训练您自己的西班牙语标记器的工具，使用西班牙语标记语料库之一作为培训材料。例如，您可以按照 nltk 的说明进行操作构建一个标记器 http://www.nltk.org/book/ch05.html#automatic-tagging但使用conll2002.tagged_sents("esp.train")作为训练数据。它只有大约 250K 字，因此您不会获得出色的性能，但它应该可以帮助您入门。（当然，您可以找到一个更大的标记语料库来训练。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLTK

适用于英语以外语言的 POS [重复] 的相关文章

将tensorflow 2.0 BatchDataset转换为numpy数组

我有这个代码 train images test images tf keras datasets mnist load data train dataset tf data Dataset from tensor slices train
从正在运行的 python 脚本检测优化标志是否为 -O 或 -OO

有时我想生成一个子进程其优化标志与启动父进程时使用的优化标志相同我可以使用类似的东西 optimize not debug 但这样我就可以匹配两者 O and OO flags 是否有一些 python 内部状态包含该信息经过一番深
为什么 .setGeometry() 不改变 QWidget 实例的大小？

我想使用 QWidget 更改 QPushButton 的大小 setGeometry https doc qt io qtforpython 5 PySide2 QtWidgets QWidget html PySide2 QtWidge
如何从 PyCharm 项目中获取我的“exe”[重复]

这个问题在这里已经有答案了通过 PyCharm 在 Python 上编写一些项目我想从中获取一个exe文件我尝试过另存为 gt XXX exe 但是当我尝试执行它时出现错误此类操作系统不支持该文件附注我有win7 x64 它
如何使用Python将WebP图像转换为Gif？

我已经尝试过这个 from PIL import Image im Image open this webp im save that gif gif save all True 这给了我这个错误类型错误不支持的操作数类型 tuple
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
带图像的简单 GUI [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
如果字段值在外部列表中，Django 会注释布尔值

想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
定义函数后对其进行修饰？

I think答案是否定的但我似乎找不到明确的说法我有以下情况 def decorated function function functools wraps function def my function print Hello s
Python Kivy - 在本机网络浏览器中打开 url 的应用程序

我尝试制作一个简单的应用程序在单击 Screen One 上的按钮后在 Kivy 中打开一个网页我使用了这个主题 Python 在应用程序中直接显示网络浏览器 iframe https stackoverflow com questi
无法打开 Python。错误 0xc000007b

我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题当我将它安装在我的上网本上时我没有遇到任何问题但现在我已经开始使用它了我想将它安装在我的台式机上并且我有一个我的桌面
Python：计算数据帧列中所有行中特定字符的实例数

我有一个包含列 toaddress ccaddress body 的数据框 df 我想迭代数据帧的索引以获取 toaddress 和 ccaddress 字段中电子邮件地址的最小最大和平均数量这是通过计算这两列中每个字段中的和的实
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
Flask WTForms 使用变量自动填充 StringField

我有一个表格我想用上一页收到的信息自动填充一些字段但如果他们想调整它它需要是可更改的我正在为我的 SelectField 使用动态创建的列表但添加 StringField 并不成功请参阅下面的我的代码 forms py clas
Python 3.2 中 **kwargs 和 dict 有什么区别？

看起来Python的很多方面都只是功能的重复除了我在 Python 中的 kwargs 和 dict 中看到的冗余之外还有什么区别吗参数解包存在差异许多人使用kwargs 并通过dict作为论据之一使用参数解包 Prepare f
检查字符串是否只有字母和空格 - Python

试图让 python 返回一个字符串仅包含字母和空格 string input Enter a string if all x isalpha and x isspace for x in string print Only alphabe
TypeError：无法使用抽象方法实例化抽象类 <...>

这是我的代码 from abc import ABC from abc import abstractmethod class Mamifiero ABC docstring for Mamifiero def init self self

随机推荐

如何找出哪个视图是焦点？

我需要查明活动中是否有任何视图聚焦以及它是什么视图这个怎么做 Call getCurrentFocus http developer android com reference android app Activity html getC
如何用 sed 替换整行？

假设我有一个包含行的文件 aaa bbb 现在我想将它们替换为 aaa xxx 我可以这样做 sed s aaa bbb aaa xxx g 现在我有一个包含几行的文件如下所示 aaa bbb aaa ccc aaa ddd aaa so
Microsoft Azure Bot Framework 模拟器未发送消息

在我的 Windows 10 上我安装了Microsoft Azure Bot 框架模拟器 https learn microsoft com en us azure bot service bot service debug emula
获取具有特定 fieldName 的所有 lucene 值

解决this https stackoverflow com questions 618227 faster way to get distinct values from lucene query问题我创建了一个新的 Lucene 索引
如何从远程文件（Java）获取修改日期？

我有一个从远程 URL 下载文件的功能使用 Java 现在我想知道真正的修改日期因为当我下载它时我丢失了此信息提前致谢 public void downloadFile String remoteFile String localFi
setColorFilter 有时在 Android 可绘制对象上不起作用

我正在尝试根据用户在偏好中选择的原色在可绘制对象上应用滤色器这是我正在使用的一段代码 getResources getDrawable R drawable ic batman 1 setColorFilter ColorHelper g
argparse 和互斥组，每个组都有自己所需的设置

我有一个程序需要有一个选项来测试服务器 ID 列表OR对服务器发出命令这意味着如果我发出 test 那么不需要其他任何东西它对每台服务器运行全部测试并打印结果但是如果我不指定 test 那么它应该需要一些选项例如 id and
检查 SQLite 中是否存在列

我需要检查列是否存在如果不存在则添加它根据我的研究 sqlite 似乎不支持 IF 语句应该使用 case 语句这是我到目前为止所拥有的 SELECT CASE WHEN exists select from qaqc column
如何更新海燕窗口的名称？

我正在尝试在保存事件后更新海燕窗口的名称显示名称我实现了自己的 NameInfo 类该类继承自 NameInfo 抽象类 public class MyNameInfo NameInfo private string name str
Cckeditor 更新文本区域

我正在尝试让 ckeditor 工作显然它没有使用文本区域因此提交表单时不会在编辑器中提交文本因为我使用多态关联等我无法创建 onsubmit 函数来获取 textarea 的值当提交表单时所以我发现了这个问题使用 jQuer
Jetpack Compose：如何创建评级栏？

我正在尝试实施评级栏我指的是https gist github com vitorprado 0ae4ad60c296aefafba4a157bb165e60 https gist github com vitorprado 0ae4ad
Inno Setup：多个下一步按钮

我想在我的安装程序屏幕上有两个按钮两个按钮最终都应该将用户带到下一个屏幕但每个按钮都执行自己的辅助逻辑是否可以有两个 NextButton 它们都将您带到下一个屏幕但执行不同的代码如果做不到这一点有没有办法以编程方式调用 Wiz
设置 Windows 文件安全性

我的问题与大多数人相反我正在用 C 本地生成文件但是我want将它们标记为已阻止因此当用户在 Word 或 Excel 等应用程序中打开它们时它会在保护模式下打开它们 I ve read http answers micros
R：向 ggplot2 中的分组直方图添加正态拟合

我正在寻找最优雅的方法来将正态分布拟合叠加到分组直方图中ggplot2 我知道这个问题之前已经被问过很多次了但是没有一个建议的选项比如this one https stackoverflow com questions 7182556
是什么原因导致“java.lang.InknownClassChangeError：vtable存根”？

是什么原因导致 java lang InknownClassChangeError vtable存根在我们的应用程序中我们很少看到此错误随机弹出到目前为止只出现两次而且我们运行了很多次即使重新启动应用程序使用相同的 jvm ja
Flask 将变量从一个函数传递到另一个函数

正如你所看到的代码我想传递变量q从函数home 进入功能search app route methods GET POST def home result Mylist query all return render template i
DIM 在 Visual Basic 和 BASIC 中代表什么？

什么是Dim在 Visual Basic 中代表什么 Dim 最初在 BASIC 中代表 Dimension 因为它用于定义数组的维度 BASIC 的最初实现是达特茅斯基础 https en wikipedia org wiki Dar
AWS CLI 2 无法使用 CLI 更新服务

我在 ecs 上有一个集群一切正常当我使用 aws cli v 1 时我可以使用如下命令更新我的服务aws ecs update service cluster cluster name service service name ta
执行 io 时 akka jvm 线程与 os 线程

我在该网站上进行了一些搜索以寻求帮助理解这一点但没有找到任何非常清晰的内容所以我想我应该发布我的用例看看是否有人可以提供一些线索我有一个关于在 akka 中用于 io 操作时 jvm 线程与操作系统线程的扩展的问题来自 akka
适用于英语以外语言的 POS [重复]

这个问题在这里已经有答案了我对 nltk 很陌生这使我可以根据句子的词性来标记句子但是对于其他语言执行此操作涉及哪些步骤 import nltk sentence I m not sure tokens nltk word token

适用于英语以外语言的 POS [重复]

适用于英语以外语言的 POS [重复] 的相关文章

随机推荐

热门标签