法语文本上的 NLTK word_tokenize 无法正常工作

2024-06-23

我正在尝试使用 NLTKword_tokenize中的一段文字French通过使用：

txt = ["Le télétravail n'aura pas d'effet sur ma vie"]
print(word_tokenize(txt,language='french'))

它应该打印：

['Le', 'télétravail', 'n'','aura', 'pas', 'd'','effet', 'sur', 'ma', 'vie','.']

但我得到：

['Le', 'télétravail', "n'aura", 'pas', "d'effet", 'sur', 'ma', 'vie','.']

有谁知道为什么法语中没有正确分割令牌，以及在用法语进行 NLP 时如何克服这个问题（以及其他潜在问题）？

看看源头word_tokenize揭示了，languageargument 仅用于确定如何将输入拆分为句子。对于单词级别的标记化，a（稍作修改）TreebankWordTokenizer使用哪个最适合english输入和收缩，例如don't. From nltk/tokenize/__init__.py:

_treebank_word_tokenizer = TreebankWordTokenizer()
# ... some modifications done
def word_tokenize(text, language='english', preserve_line=False):
    # ...
    sentences = [text] if preserve_line else sent_tokenize(text, language)
    return [token for sent in sentences
            for token in _treebank_word_tokenizer.tokenize(sent)]

为了获得所需的输出，您可能需要考虑使用不同的分词器，例如RegexpTokenizer如下：

txt = "Le télétravail n'aura pas d'effet sur ma vie"
pattern = r"[dnl]['´`]|\w+|\$[\d\.]+|\S+"
tokenizer = RegexpTokenizer(pattern)
tokenizer.tokenize(txt)
# ['Le', 'télétravail', "n'", 'aura', 'pas', "d'", 'effet', 'sur', 'ma', 'vie']

我的法语知识有限，这只能解决上述问题。对于其他情况，您将必须调整该模式。您还可以查看TreebankWordTokenizer寻求更复杂的解决方案的想法。另请记住，如果有必要，您将需要事先拆分句子。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

法语文本上的 NLTK word_tokenize 无法正常工作的相关文章

Django 1.6：清除一张表中的数据

我有一个名为 UGC 的表想要清除该表中的所有数据我不想重置整个应用程序这也会删除所有其他模型中的所有数据是否可以只清除一个模型我还为我的应用程序配置了 South 如果这有帮助的话你可以使用原始 SQL https docs
在 PyCharm 中启用终端模拟

很多人告诉过我和PyCharm 2 7 的 PyCharm 发行说明 https www jetbrains com pycharm whatsnew whatsnew 27 html吹捧那个PyCharm包括完整的终端仿真我认为这是关于
从 java 代码运行 Python 脚本

这是我第一次在java中尝试python 我正在尝试从我的代码执行 python 脚本如下所示 Process process Runtime getRuntime exec python C Users username Desktop
Django CollectStatic 启动大文件上传时管道损坏

我正在尝试使用collectstatic将静态文件上传到我的S3存储桶但我收到一个700k javascript文件的管道损坏错误这就是错误 Copying Users wedonia work asociados server aso
为什么我的字符串中出现不需要的换行符？

这应该很简单这很愚蠢但我无法让它发挥作用我有一个在读取文件时定义的标头 if gene env in line or gene HIV2gp7 in line header line 现在这个标题看起来像 gt lcl NC 0018
Python 中没有名称属性的表单提交

背景在Python中使用urllib和urllib2 您可以进行表单提交您首先创建一个字典 formdictionary search stackoverflow 然后使用 urllib 的 urlencode 方法来转换这个字典 pa
如何向 Jupyter (ipython) 笔记本自动添加扩展？

我已经安装了扩展 calico document tools 我可以使用以下命令从 Jupyter 笔记本中加载它 javascript IPython load extensions calico document tools 如何为每个
如何在我的 GUI 上绘图

我正在设计一个 GUIPyQt当我单击一个按钮来绘制我创建的函数的数据图时我需要显示一个 matplotlib pylab 窗口它就像 Matlab 中使用的运行时每次按下该按钮时我都想将 matplotlib pylab 窗口保留
将 gtk.DrawingArea 保存到文件

我想使用 PIL 将 gtk DrawingArea 对象内容保存到 jpeg 文件我特别想添加这个脚本 http pygstdocs berlios de pygst tutorial webcam viewer html制作照片的可能
如何忽略 Sentry 捕获中的某些 Python 错误

我已将 Sentry 配置为捕获 Django Celery 应用程序中的所有错误它工作正常但我发现一个令人讨厌的用例是当我必须重新启动我的 Celery 工作人员 PostgreSQL 数据库或消息服务器时这会导致数千种各种无法访
折叠 numpy 数组除前两个维度之外的所有维度

我有一个可变维度的 numpy 数组例如它可以具有以下形状 64 64 64 64 2 5 64 64 40 64 64 10 20 4 我想要做的是如果维数大于 3 我想将其他所有内容折叠堆叠到第三维中同时保留顺序因此在我上面
pip 升级到 pip 10.x.x 后解析需求文件的正确方法？

所以今天我确实发现随着发布pip 10 x x the req软件包更改了其目录现在可以在下面找到pip internal req 由于通常的做法是使用parse requirements功能在你的setup py从需求文件中安装所有依赖
Python httplib 和 POST

我目前正在使用别人编写的一段代码它用httplib向服务器发出请求它以正确的格式提供所有数据例如消息正文标头值等问题是每次尝试发送 POST 请求时数据都在那里我可以在客户端看到它但没有任何内容到达服务器我已经阅读了库规
用于监视文件夹和更新数据库的 Python 守护进程

这专门用于管理 MP3 文件但它应该可以轻松地适用于任何包含大量文件的目录结构我想找到或编写一个守护程序最好用Python 来监视一个包含许多子文件夹的文件夹这些子文件夹都应该包含X个MP3文件每当添加更新或删除文件时它都应该
Python pandas：向我的数据框中添加一列来计算变量

我有一个像这样的数据框 gt org group org1 1 org2 1 org3 2 org4 3 org5 3 org6 3 我想将列 count 添加到 gt 数据帧以计算组的成员数量预期结果如下 org group count
为什么变量 1 += 变量 2 比变量 1 = 变量 1 + 变量 2 快得多？

我继承了一些 Python 代码用于创建巨大的表最多 19 列宽 5000 行花了九秒用于在屏幕上绘制表格我注意到每一行都是使用以下代码添加的 sTable sTable n GetRow where sTable是一个字符串我将
Maya python 连接选择的属性

我一直在尝试制作一个简单的脚本它将采用两个视口选择然后基本上将第二个视口的旋转连接到第一个我不确定如何正确地从视口选择中为对象创建变量这是我的尝试但不起作用 import maya cmds as cmds sel cmds ls
Python - 将列表作为参数传递给 SQL，以及更多变量

我试图在 python 3 6 中将未知数量的参数传递给 SQL Server 这是我使用 pypyodbc 的代码 cursor cnxn cursor theargs 1033286869 1053474957 1063654630 1
如何限制单元测试的最大运行时间？

我目前正在运行一些单元测试这些测试可能需要很长时间才能失败或无限期地运行在成功的测试运行中它们总是会在一定的时间内完成是否可以创建一个 pytest 单元测试如果在一定时间内未完成该测试就会失败您可以安装 pytest tim
合并共享属性的节点

EDITED 我真的需要 Networkx graph 专家的帮助假设我有以下数据框我想将这些数据框转换为图表然后我想根据描述和优先级属性将两个图映射到相应的节点 df1 From description To priority 10

随机推荐

为什么在 Python 中创建类比实例化类慢得多？

我发现类的创建比类的实例化慢得多 gt gt gt from timeit import Timer as T gt gt gt def calc n return T class Haha object pass timeit n lt
Tarjan 算法的非递归版本

我有以下 Tarjan 算法的递归实现来查找图中的强连接组件并且工作正常 public class StronglyConnectedComponents public static List
等待回调完成的最佳方法

在下面的代码中 main 函数调用request 函数该函数内部调用th request async 函数其中mm th done cb 仅在执行 mm th done cb 后在 main 中继续进行的最佳且有效的方法是什么虚拟代
失去 MPRemoteCommandCenter 的“正在播放”状态

我正在为 iOS 创建一个应用程序可以使用MPRemoteCommandCenter 这很好用更改应用程序时AVAudioSession类别来自AVAudioSessionCategoryPlayback to AVAudioSessi
在 .net 中是否有实现专有连接池的标准方法？

有没有标准连接池模型或API 类似于所使用的 net 中的数据提供者我可以用它来实现我自己的连接池吗我之所以这么问是因为我需要将自己的连接池实现到我们在 Web 服务中使用的专有 TCP IP 设备当前的问题是由于 IIS 下运行
为什么 Subversion 会跳过包含 @ 符号的文件？

当我尝试执行这样的命令时从命令行或 Perl 脚本没关系 svn revert build email protected cdn cgi l email protection SVN 跳过此文件并输出 Skipped build my
打字稿，“进程”不存在

我安装了npm i types node但进程仍然没有注册为现有的我还需要做什么才能获得节点的类型定义您不仅需要安装节点的类型即npm i types node 但您还必须在 tsconfig json 中的类型下列出节点 ex
我的应用程序刚刚崩溃，如何获取崩溃日志？

我正在我的实际设备上测试我的应用程序似乎存在内存泄漏该应用程序在几个小时后崩溃了如何调出崩溃日志我通过 USB 插入手机并尝试 adb logcat v 但我在终端中收到以下消息 waiting for device error m
有关如何解析自定义文件格式的提示

抱歉标题含糊但我真的不知道如何简洁地描述这个问题我创建了一个或多或少简单的领域特定语言 http en wikipedia org wiki Domain specific language我将用它来指定应用于不同实体的验证规则通
使用 Groovy for Jenkins 取消排队构建并中止执行构建

对于使用 Groovy 系统脚本的 Jenkins 有没有一种方法可以轻松搜索构建队列和执行构建列表以查找某些条件特别是匹配某些条件的参数然后杀死取消它们我似乎找不到任何方法来做到这一点但似乎应该是可能的我自己没有测试过但是看
停止 LastPass 填写表格

有没有办法阻止 LastPass 浏览器扩展填写带有名称为用户名的输入字段的基于 HTML 的表单这是一个隐藏字段因此我不希望任何软件使用此字段来达到其目的
为什么我不想在安装时将 Python.exe 添加到我的系统路径中？

我正在 Windows 7 上重新安装 Python 第一个对话框之一是自定义 Python 屏幕将 Python exe 添加到路径的默认设置是整个功能将不可用我总是将其更改为将安装在本地硬盘上这不是问题更改系统环境变量很
如何在 Azure Function 中使用 TelemetryConfiguration 的依赖项注入

我尝试在 Azure Functions 中使用依赖项注入进行 TelemetryConfiguration 在我的函数中当我在函数构造函数中注入 TelemetryConfiguration 时我将解决它我想我不太明白如何在 Sta
如何排查和调试 Visual Studio 设计模式错误？

我正在使用 Windows 7 和 Visual Studio 2010 编写 C 自定义用户控件我在代码视图中编码了数周最近当我尝试切换到设计模式时 Visual Studio 挂起无响应我可以等一个小时但仍然没有任何反应单击
从 VSTO Addin 获取 Outlook 窗口

我有一个Outlook 2013 VSTO 插件我想将我的保存文件对话框我创造的为此您需要将其传递给Window父对象我不确定是否IWin32Window and Window是一样的但这就是我所拥有的 public IWin32
R 根据需要创建覆盖美国底图和其他空间图层的空间气泡图

我正在尝试生成一个覆盖在美国底图之上的漂亮气泡图如果首选我可以导入形状文件但我一直在使用 R 底图 library ggplot2 sp raster maps mapdata maptools ggmap rgeos myData
Margin-Top 不适用于跨度元素？

有人可以告诉我我编码错误吗一切正常唯一的问题是顶部没有余量 HTML div span class first title Contact span span class second title Us span p class con
Python：对于优化问题，使用多处理比循环慢得多。我究竟做错了什么？

必须保证在发布此内容之前我已经阅读了有关该主题的许多帖子我知道多重处理需要固定成本但据我所知这似乎不是这里的问题我基本上有许多单独的优化问题并且想要并行解决它们下面的代码是一个简单的例子 import psutil import
LINQ to Entities 查询中的可重用谓词表达式

在我们的应用程序中许多不同查询中出现的一组特定条件已经慢慢变得更加复杂为了避免重复此代码我想将这些条件拆分为一个方法该方法将条件作为表达必要时可以依次应用 public Expression
法语文本上的 NLTK word_tokenize 无法正常工作

我正在尝试使用 NLTKword tokenize中的一段文字French通过使用 txt Le t l travail n aura pas d effet sur ma vie print word tokenize txt langu

法语文本上的 NLTK word_tokenize 无法正常工作

法语文本上的 NLTK word_tokenize 无法正常工作 的相关文章

随机推荐

热门标签

法语文本上的 NLTK word_tokenize 无法正常工作的相关文章