nltk.TweetTokenizer 与 nltk.word_tokenize 有何不同？

2023-12-26

我无法理解两者之间的区别。不过，我知道 word_tokenize 使用 Penn-Treebank 来进行标记化。但 TweetTokenizer 上没有任何可用的内容。对于哪种类型的数据，我应该使用 TweetTokenizer 而不是 word_tokenize？

嗯，两个分词器的工作方式几乎相同，将给定的句子拆分为单词。但你可以想到TweetTokenizer作为一个子集word_tokenize. TweetTokenizer保持主题标签完整，同时word_tokenize没有。

我希望下面的例子能够消除您所有的疑虑......

from nltk.tokenize import TweetTokenizer
from nltk.tokenize import  word_tokenize
tt = TweetTokenizer()
tweet = "This is a cooool #dummysmiley: :-) :-P <3 and some arrows < > -> <-- @remy: This is waaaaayyyy too much for you!!!!!!"
print(tt.tokenize(tweet))
print(word_tokenize(tweet))

# output
# ['This', 'is', 'a', 'cooool', '#dummysmiley', ':', ':-)', ':-P', '<3', 'and', 'some', 'arrows', '<', '>', '->', '<--', '@remy', ':', 'This', 'is', 'waaaaayyyy', 'too', 'much', 'for', 'you', '!', '!', '!']
# ['This', 'is', 'a', 'cooool', '#', 'dummysmiley', ':', ':', '-', ')', ':', '-P', '<', '3', 'and', 'some', 'arrows', '<', '>', '-', '>', '<', '--', '@', 'remy', ':', 'This', 'is', 'waaaaayyyy', 'too', 'much', 'for', 'you', '!', '!', '!', '!', '!', '!']

你可以看到word_tokenize已经分裂#dummysmiley as '#' and 'dummysmiley'，而 TweetTokenizer 没有，因为'#dummysmiley'. TweetTokenizer主要是为了分析推文而构建的。您可以从中了解有关分词器的更多信息link https://chendianblog.wordpress.com/2016/11/25/different-types-of-tokenizers-in-nltk/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

nltk.TweetTokenizer 与 nltk.word_tokenize 有何不同？的相关文章

如何在序列化器创建方法中获取 URL Id？

我有以下网址 url r member P
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
从 python 发起 SSH 隧道时出现问题

目标是在卫星服务器和集中式注册数据库之间建立 n 个 ssh 隧道我已经在我的服务器之间设置了公钥身份验证因此它们只需直接登录而无需密码提示怎么办我试过帕拉米科它看起来不错但仅仅建立一个基本的隧道就变得相当复杂尽管代码示例将受
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
使用yield 进行字典理解

作为一个人为的例子 myset set a b c d mydict item yield join item s for item in myset and list mydict gives as cs bs ds a None b N
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M

随机推荐

dpkg：处理存档时出错（安装 Nodejs 时）

安装nodejs时出现这个错误 https i stack imgur com JMRiT jpg https i stack imgur com JMRiT jpg https i stack imgur com JMRiT jpg 我正
通过 JupyterLab 的链接在当前工作区中打开笔记本

我需要使用降价链接从另一个笔记本打开一个笔记本但我不想在另一个浏览器选项卡中打开链接的笔记本相反它应该在当前的 JupyterLab 工作区会话中打开 I tried http localhost 8888 lab tree p
精确匹配字符串

仅当文本完全匹配时才匹配的正则表达式如果重要的话在 JavaScript 中是什么也就是说字符串的另一端不应有多余的字符例如如果我想匹配abc then 1abc1 1abc and abc1不会匹配使用开始和结束分隔符 a
无法使 C++ Boost 指针序列化工作

此问题与重复列出的问题不同 Boost C 序列化 char https stackoverflow com questions 5094750 boost c serializing a char我没有使用shared ptr 并且我可以
在 bash 脚本中使用 ssh 密钥

我已经设置了从服务器 A 到服务器 B 的 ssh 密钥并且无需密码即可登录服务器 B 我正在尝试在 bash 脚本中设置反向 ssh 隧道如果我这样做的话从命令行 ssh N R 1234 localhost 22 email pr
如何修复npm审计报告

当我运行 npmaudit 命令时 npm 审计安全报告 Manual Review Some vulnerabilities require your attention to resolve Visit https go npm me
.net 文化特定的 12/24 小时格式

有没有办法保留文化特定的日期时间格式但强制 12 24 小时渲染我知道我可以使用实际的日期时间格式字符串做很多事情例如HH mm ss and hh mm ss但我想尊重当前的用户文化格式即mm dd yyyy or yyyy m
图像渲染测试

我正在对自定义浏览器进行基准测试并希望对相同文件大小的不同类型图像 gif jpg png 的渲染速度进行基准测试以了解该浏览器渲染哪种图像格式最快我的过程只是为每种类型的图像创建一个简单的单独 HTML 页面并在渲染之前和之后使用
将 EJB 转换为 JSON Web 服务

我已将 EJB 3 1 转变为 Web 服务现在我需要创建 JSON Web 服务来与 JavaScript 组件进行通信 JavaScri t 组件将使用 JSON 版本的接口与系统通信并获取所需的数据由于性能原因我不能使用 XML
自定义 Java 类加载器未用于加载依赖项？

我一直在尝试设置一个自定义类加载器来拦截类以打印出哪些类正在加载到应用程序中类加载器看起来像这样 public class MyClassLoader extends ClassLoader Override public Class
$同时观察多个属性并仅触发一次回调

我想知道在评估指令的所有或仅某些属性没有隔离范围后是否可以仅执行一次回调属性非常适合将配置传递给指令问题是您可以单独观察每个属性并多次触发回调在示例中我们有一个没有隔离范围的指令它观察两个属性名称和姓氏任何更改后act
在 java 中使用 REST API 创建新的“JIRA 问题”

嘿伙计们我真的很难解决这个问题我想通过 REST API 使用 java 创建新的 JIRA 问题但我看到的每个示例都不完整或不适合我如下所示如何使用 java rest api 在 jira 中创建问题 https stacko
使用循环打印 PHP 数组

如果我知道数组的长度如何在循环中打印它的每个值 array array Jonathan Sampson foreach array as value print value or length count array for i 0 i
javafx ： javafx.scene.layout.AnchorPane 无法转换为 javafx.scene.layout.BorderPane

大家好我了解 javafx 我正在尝试将 BorderPane 转换为 anchronPane 同时发生错误我不知道该怎么办我正在遵循教程所以请帮助 import java io IOException import javafx
如何在模板工具包中获取随机数？

我想使用模板工具包获得一个随机数它不必特别随机我该怎么做嗯如果您没有或无法导入 Slash Test 您可能会遇到问题从 TT 的 vanilla 安装中您可以简单地使用 Math 插件 USE Math GET Math r
已删除的图片在图库中仍然可见

我这里有一个小问题在我的应用程序中我让用户从图库中选择一张图片在做其他事情之前我会保存它的路径当用户选择他想要的图片时我希望将其复制到其他文件夹中然后从原始文件夹中删除嗯它确实有效原始图片将被删除副本将出现在其他文件夹中
将修订与 Redmine 问题相关联

有没有办法手动将修订提交与Redmine问题关联起来通常我们通过使用正确的提交消息格式来做到这一点在我们的例子中为 Resolves 但我忘记了它并使用了不同的消息我现在无权更改提交消息即使我愿意我仍然无法删除Redmine的
将数据帧多列中出现的数字替换为 R 中的另一个值

ETA 顺便说一句下面的要点是不必迭代我的整个列向量集以防万一这是一个建议的解决方案只需执行一次已知有效的操作有很多替换值的例子singleR 中具有其他值的数据帧的向量根据条件替换数据框中的值 if R 中的语句 https s
Firebase 规则仅允许 Android Studio 中的一项更新

I m creating an android studio voting application It is using recyclerview to render candidates information from the dat
nltk.TweetTokenizer 与 nltk.word_tokenize 有何不同？

我无法理解两者之间的区别不过我知道 word tokenize 使用 Penn Treebank 来进行标记化但 TweetTokenizer 上没有任何可用的内容对于哪种类型的数据我应该使用 TweetTokenizer 而不是

nltk.TweetTokenizer 与 nltk.word_tokenize 有何不同？

nltk.TweetTokenizer 与 nltk.word_tokenize 有何不同？ 的相关文章

随机推荐

热门标签

nltk.TweetTokenizer 与 nltk.word_tokenize 有何不同？的相关文章