使用 nltk 从德语文本中提取单词

2024-01-31

我正在尝试从德语文档中提取单词，当我使用 nltk 教程中描述的以下方法时，我无法获取具有特定于语言的特殊字符的单词。

ptcr = nltk.corpus.PlaintextCorpusReader(Corpus, '.*');
words = nltk.Text(ptcr.words(DocumentName))

我应该怎么做才能获取文档中的单词列表？

一个例子nltk.tokenize.WordPunctTokenizer()对于德语短语Veränderungen über einen Walzer好像：

In [231]: nltk.tokenize.WordPunctTokenizer().tokenize(u"Veränderungen über einen Walzer")

Out[231]: [u'Ver\xc3', u'\xa4', u'nderungen', u'\xc3\xbcber', u'einen', u'Walzer']

在此示例中，“ä”被视为分隔符，尽管“ü”不是。

使用参数encoding='utf-8'调用PlaintextCorpusReader：

ptcr = nltk.corpus.PlaintextCorpusReader(Corpus, '.*', encoding='utf-8')

编辑：我明白了......你这里有两个不同的问题：

a) 标记化问题：当您使用德语的文字字符串进行测试时，你think你是输入unicode。事实上，你是在告诉 python 获取字节并将它们转换为 unicode 字符串。但你的字节正在被误解了。修复：在您的文件的最顶部添加以下行源文件。

# -*- coding: utf-8 -*-

突然之间，您的常量将被正确地看到和标记：

german = u"Veränderungen über einen Walzer"
print nltk.tokenize.WordPunctTokenizer().tokenize(german)

第二个问题：事实证明Text()不使用unicode！如果你向它传递一个 unicode 字符串，它会尝试将其转换为纯 ascii 字符串，这在非 ASCII 输入上当然会失败。啊。

解决方案：我的建议是避免使用nltk.Text完全，并直接与语料库读者合作。（这通常是一个好主意：参见nltk.Text自己的文档）。

但如果你must use nltk.Text对于德国数据，操作方法如下：阅读您的数据正确，以便可以对其进行标记，然后将您的 unicode“编码”回列表str。对于德语来说，就是使用 Latin-1 编码可能是最安全的，但 utf-8 似乎也可以也。

ptcr = nltk.corpus.PlaintextCorpusReader(Corpus, '.*', encoding='utf-8');

# Convert unicode to utf8-encoded str
coded = [ tok.encode('utf-8') for tok in ptcr.words(DocumentName) ]
words = nltk.Text(coded)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 nltk 从德语文本中提取单词的相关文章

如何删除django中级联的一对一相关模型？

背景我在 Django 1 8 5 中定义了以下模型 class PublishInfo models Model pass class Book models Model info models OneToOneField Publis
如何使用 pyinstaller 包含文件？

我也使用 tkinter 使用 python 3 7 编写了一个程序由于我使用的是外部图片因此当我将所有内容编译为一个 exe 时我需要包含它们我试过做 add data bg png files 但我仍然收到此错误 tkinter
PyQt：如何通过匿名代理使用网页

这真让我抓狂我想在 QWebPage 中显示一个 url 但我想通过匿名代理来实现 Code setting up the proxy proxy QNetworkProxy proxy setHostName 189 75 98 199
JavaScript 相当于 Python 的参数化 string.format() 函数

这是 Python 示例 gt gt gt Coordinates latitude longitude format latitude 37 24N longitude 115 81W Coordinates 37 24N 115 81W
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
使用 scipy curve_fit 拟合噪声指数的建议？

我正在尝试拟合通常按以下方式建模的数据 def fit eq x a b c d e return a 1 np exp x b c np exp x d e x np arange 0 100 0 001 y fit eq x 1 1 1
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
Pandas style.bar 颜色基于条件？

如何渲染其中一列的 Pandas dfstyle bar color属性是根据某些条件计算的 Example df style bar subset before after color ff781c vmin 0 0 vmax 1 0 而
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
如何在单元测试中使用 JSON 发送请求

我的 Flask 应用程序中有在请求中使用 JSON 的代码我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好但是我正在尝试使用 Python 的 unittest 模块创建单元测试但
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro

随机推荐

如何使用 BERT 找到与向量最接近的单词

我正在尝试使用 BERT 获取给定单词嵌入的文本表示或最接近的单词基本上我试图获得与 gensim 类似的功能 gt gt gt your word vector array 0 00449447 0 00310097 0 024217
谷歌的无图像按钮

最近有几篇关于谷歌新的无图像按钮的文章 http stopdesign com archive 2009 02 04 recreating the button html http stopdesign com archive 2009 0
将文本添加到绘图中

x lt seq 3 3 0 01 y1 lt dnorm x 0 1 y2 lt 0 5 dnorm x 0 1 plot x y1 type l bty L xlab X ylab dnorm X points x y2 type l
数组中所有元素的总和

我是编程初学者我想计算数组中所有元素的总和我做了这个但我看不出我的错误在哪里 function ArrayAdder array this sum 0 this array array ArrayAdder prototype com
python 按不同标准对元组进行排序

我有一个清单a 1 a 1 b 2 c 我想得到这个列表 2 c 1 a 1 b 如果我这样做 sorted a reverse True 我只能得到 2 c 1 b 1 a 我怎样才能得到我想要的列表如果您想保留原始列表中的排序顺序但
如何通过 SoundCloud API 添加评论

我想通过 SoundCloud API 发表评论但查看文档 http developers soundcloud com docs api reference tracks这似乎是不可能的唯一可用的方法 tracks id commen
为什么 React 需要 Babel 和 Webpack 才能工作？

我正在查看 vue js 的 wiki 页面看到了这个与 React 开发相比 Vue 可以集成到现有的 Web 应用程序更加容易通常 Web 应用程序只需包含 Vue js 即可立即开始使用 Vue JavaScript 库与
ASP.NET MVC 中的超快速文本到语音 (WAV -> MP3)

这个问题本质上是关于微软的语音API SAPI 对于服务器工作负载的适用性以及它是否可以在内部可靠地使用 w3wp用于语音合成我们有一个异步控制器它使用本机System Speech NET 4 中的程序集不是Microsoft Sp
如何刷新 Google OAuth2 AccessToken

我见过很多问题 https stackoverflow com questions 22357348 google apis client for csharp auth using refresh token关于这个问题有不同的答案有些
一次循环遍历 2 个列表

我有两个长度相同的列表是否可以同时循环这两个列表我正在寻找正确的语法来执行以下操作 foreach itemA itemB in ListA ListB Console WriteLine itemA ToString itemB To
如何对向量列表执行成对运算（如“%in%”）和集合运算

这个问题的动机是如何快速查看 R 中多个向量的任何元素是否相等 https stackoverflow com q 39060567 4891738 但不相同重复作为一个小例子假设我们有一个包含 4 个向量的列表 set seed 0
通过 wsHttpBinding 在 PHP 中调用 WCF WebService

我有一个 WCF Web 服务我可以通过 basicHttp 连接到它但不能通过 wsHttp 连接到它我尝试通过以下方式通过 wshttp 连接到它 service new SoapClient http service compa
Angular 5 Service Worker 不工作/不缓存背景图像

我无法让我的 Angular5 Service Worker 工作我有两个主要问题 Service Worker 不会缓存用作背景图像的资产图像模拟网络断开连接后服务工作人员最初从缓存中提取文件上述非缓存文件除外但在第二次刷新后会
SQL 更新可选参数 PHP

我们想要改变将值从 PHP 传递到存储过程 T SQL 的方式我对 PHP 只有很少的经验但我将尝试通过与我们的 Web 开发人员的讨论来解释该过程当前流程测试表示例为了更新记录例如本示例中的 Field3 我们会将所有现有值传
从 select 将记录插入到 OrientDB 类的嵌入字段中

我正在评估 OrientDB 数据库我有两个从关系数据库导入的文档类 class Order with properties ID integer OrderItems EmbeddedList of OrderItem and clas
如何访问主项目中的子项目头文件

我有一个主项目和另一个作为子项目添加的项目我想将子项目中定义的头文件访问到主项目中但不幸的是它说文件找不到错误请查看附件图片我应该修改什么来访问子项目的头文件您需要将子项目的路径添加到search path for headers
将实体中的列表转换为数据库中的单个字符串列

我有一个VARCHAR我的数据库中的字段该字段的值为val1 val2 val3 是否可以将其设置为ArrayList
在 Pig 中编写 udf 有点像教程

我是 Pig 新手并且正在尝试编写 udf 函数所以基本上这是问题陈述我有一个这样的虚拟数据 user id movie id date time stamp 所以我想做的就是这个如果交易是在 9 am and 11 am gt b
为什么 C# 方法不返回值？

很容易理解为什么method 返回一个值但我无法理解不返回值的方法的概念 static void PrintName string firstName string lastName Console Writeline firstName
使用 nltk 从德语文本中提取单词

我正在尝试从德语文档中提取单词当我使用 nltk 教程中描述的以下方法时我无法获取具有特定于语言的特殊字符的单词 ptcr nltk corpus PlaintextCorpusReader Corpus words nltk Text

使用 nltk 从德语文本中提取单词

使用 nltk 从德语文本中提取单词 的相关文章

随机推荐

热门标签

使用 nltk 从德语文本中提取单词的相关文章