在管道处理期间可以从 spaCy 文档中删除令牌吗？

2023-11-22

我正在使用 spaCy（一个很棒的 Python NLP 库）来处理许多非常大的文档，但是，我的语料库中有一些我想在文档处理管道中消除的常见单词。有没有办法从管道组件内的文档中删除令牌？

spaCy 的标记化是非破坏性的，因此它始终代表原始输入文本，并且从不添加或删除任何内容。这是一个核心原则Doc对象：你应该always能够重建和再现原始输入文本。

当你can解决这个问题，通常有更好的方法来实现同样的事情而不破坏输入文本↔Doc文本一致性。一种解决方案是添加一个自定义扩展属性 like is_excluded根据您想要使用的目标，添加到令牌：

from spacy.tokens import Token

def get_is_excluded(token):
    # Getter function to determine the value of token._.is_excluded
    return token.text in ['some', 'excluded', 'words']

Token.set_extension('is_excluded', getter=get_is_excluded)

当处理一个Doc，您现在可以对其进行过滤以仅获取未排除的标记：

doc = nlp("Test that tokens are excluded")
print([token.text for token if not token._.is_excluded])
# ['Test', 'that', 'tokens', 'are']

您还可以使用以下命令使其变得更复杂Matcher or PhraseMatcher在上下文中查找标记序列并将其标记为已排除。

另外，为了完整起见：如果您确实想更改中的令牌Doc，你可以通过构建一个新的来实现这一点Doc对象与words（字符串列表）和可选spaces（布尔值列表，指示标记后面是否有空格）。构建一个Doc使用词性标签或依赖标签等属性，您可以调用Doc.from_array方法，其中包含要设置的属性和值的 numpy 数组（所有 ID）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在管道处理期间可以从 spaCy 文档中删除令牌吗？的相关文章

将tensorflow 2.0 BatchDataset转换为numpy数组

我有这个代码 train images test images tf keras datasets mnist load data train dataset tf data Dataset from tensor slices train
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
python - 是否可以扩展 xml-rpc 可以序列化的事物集？

我看到几个问题询问如何发送numpy ndarray通过 xml rpc 调用这不能开箱即用因为正如 xml rpc 中所述docs https docs python org 2 library xmlrpclib html 有一组固
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
Python 3 __getattribute__ 与点访问行为

我读了一些关于 python 的对象属性查找的内容这里 https blog ionelmc ro 2015 02 09 understanding python metaclasses object attribute lookup h
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
如何从 Dockerfile 安装 Python 3.7 和 Pip

我正在尝试构建基于 Ubuntu 18 04 的自定义 Docker 映像 Ubuntu 预装了 Python 3 6 但我想 1 安装 Python 3 7 2 将其设置为默认 Python 版本这样就可以使用python代替pytho
sudo pip install python-Levenshtein 失败，错误代码 1

我正在尝试在 Linux 上安装 python Levenshtein 库但每当我尝试通过以下方式安装它时 sudo pip install python Levenshtein 我收到此错误命令 usr bin python c 导入
如何使用 python urllib 在 HTTP/1.1 中保持活力

现在我正在这样做 Python3 urllib url someurl headers HOST somehost Connection keep alive Accept Encoding gzip deflate opener urll
Python Kivy - 在本机网络浏览器中打开 url 的应用程序

我尝试制作一个简单的应用程序在单击 Screen One 上的按钮后在 Kivy 中打开一个网页我使用了这个主题 Python 在应用程序中直接显示网络浏览器 iframe https stackoverflow com questi
无法打开 Python。错误 0xc000007b

我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题当我将它安装在我的上网本上时我没有遇到任何问题但现在我已经开始使用它了我想将它安装在我的台式机上并且我有一个我的桌面
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
Python：计算数据帧列中所有行中特定字符的实例数

我有一个包含列 toaddress ccaddress body 的数据框 df 我想迭代数据帧的索引以获取 toaddress 和 ccaddress 字段中电子邮件地址的最小最大和平均数量这是通过计算这两列中每个字段中的和的实
Django 在选择列表更改时创建毫无意义的迁移

我正在尝试使用可调用创建一个带有选择字段的模型以便 Django 在选择列表更改时不会创建迁移如中所述this https stackoverflow com questions 31788450 stop django from cr
导入错误：没有名为 google.auth 的模块

当我尝试导入时firebase admin in python 2 7我收到错误导入错误没有名为 google auth 的模块这是Docker文件 https github com ammaratef45 Attendance bl
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
Flask WTForms 使用变量自动填充 StringField

我有一个表格我想用上一页收到的信息自动填充一些字段但如果他们想调整它它需要是可更改的我正在为我的 SelectField 使用动态创建的列表但添加 StringField 并不成功请参阅下面的我的代码 forms py clas
全局变量是 None 而不是实例 - Python

我正在处理Python 中的全局变量代码应该可以正常工作但是有一个问题我必须使用全局变量作为类的实例Back 当我运行应用程序时它说 back is None 这应该不是真的因为第二行setup 功能 back Back Back
如何在sphinx中启用数学？

我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代
来自 django 教程 was_published_recently.admin_order_field = 'pub_date'

From Django 教程 https www jetbrains com help pycharm 2017 1 creating and running your first django project html d28041e21

随机推荐

CakePHP 数据库表，缺少默认数据源

I found this类似的问题但我的问题不同我将 CakePHP 2 2 应用程序移至另一台服务器迁移前不存在任何问题迁移后大多数事情都运行良好我可以访问我的大部分数据库表等但是当我尝试访问我的其中一个表时我收到此错误 E
将 Sqlite BigInt 转换为日期

我有一个 Sqlite 数据库用作 Quartz net 调度程序作业的 ado net 作业存储在一个表中名为 START TIME 的列的类型为 big int 有没有办法将 bigint 转换或转换为日期值我希望能够查询数据库
JSON - 无法使用 Jackson 序列化对象内的 JSONObject

我有以下课程 class A String abc String def appropriate getters and setters with JsonProperty Annotation 我打电话给Jacksons objectMa
如何防止未启用的 EditText 出现键盘

我的活动有一个EditText据称在用户单击屏幕的编辑按钮之前该内容是不可编辑的 I did edit setEnabled false 但仍然会为用户显示一个键盘并且可以将值添加到EditText通过键盘在屏幕上显示即使屏幕可能看
json -c json_object_to_json_string 释放内存时

我正在使用 json c 库将 json object 发送到客户端我注意到没有本机函数来释放 json object to json string 分配的内存该库会自动释放它吗或者我必须 free str 以避免内存泄漏我试图阅读
服务定位器、依赖注入（和容器）和控制反转

我已经编程有一段时间了但从来没有兴趣从理论上了解每个概念的含义我可能正在使用各种编程概念但我并不知道服务定位器对我来说指的是通过减少代码量来加快开发速度的捷径记录一个问题是定位器可以仅引用名称空间类或者我可以拥有变量注册
从 Enum 中的类初始化一个新对象

我有一个名为 Plugins 的枚举 public enum Plugins ROTATING LINE plugin rotatingline RotatingLine class SNOW SYSTEM plugin snow Snow
Selenium 仅在使用无头 Chrome 时无法定位元素（Python）

我刚刚开始学习 Selenium 需要使用云中的 jenkins 机器验证登录网页该机器没有 GUI 我设法在具有 UI 的系统上成功运行该脚本然而当我修改脚本以无头运行时它失败说无法定位元素我的脚本如下 usr bin env
如何在 Thymeleaf 中执行 if-else 操作？

做一个简单的最好方法是什么if else在百里香叶我想在 Thymeleaf 中实现相同的效果
Apache ProxyPass 和会话

因此我使用 Apache 将特定文件夹代理到 Glassfish 实例我的conf中的规则是 ProxyPass folder http localhost 28083 ProxyPassReverse folder http loca
Windows 禁止文件和文件夹名称的完整列表

在 Windows 上禁止使用 com1 txt 或 lpt1 txt 等文件名是否有 Windows 上所有禁止的文件和文件夹名称的列表或文件和文件夹名称中的禁止字符例如无效字符列表为 gt 大于冒号双引号正斜杠反斜杠
如何重写WebServiceHostFactory MaxReceivedMessageSize？

那里有很多类似的问题但我已经尝试了每个问题中的每一种解决方案都无济于事我们有一个使用 WebServiceHostFactory 初始化的 Web 服务但如果向其抛出超过 64k 的数据我们会收到 400 错误请求通常只需增加
在 Angular 2 中打印 Html 模板（Angular 2 中的 ng-print）

我想在 Angular 2 中打印 HTML 模板我已经对此进行了探索我在 AngularJS 1 中得到了解决方案在 Angularjs 中打印 Html 模板 1 任何建议将不胜感激这就是我在 angular2 中所做的它类似于
Django 对“MEDIA_ROOT”做了什么？

Django 是做什么的MEDIA ROOT确切地我一直不明白由于 Django 本身不提供静态媒体并且您必须为其设置 apache 或类似的东西为什么它关心它位于哪个目录您不是唯一一个想知道的人查看姜戈票 10650 根据 D
确定当前文本选择包含哪些 DOM 元素

我希望能够找出用户当前在浏览器中选择的文本中存在哪些 DOM 元素 document getSelection 将为我们获取当前选定的文本但是我们如何确定该文本选择中包含哪些 DOM 元素呢 window getSelection 给你一
如何为设置包（Root.plist）的文本字段提供占位符

我想为设置包 Root plist 的文本字段提供占位符是否可以如果可以如何提前致谢恐怕目前这是不可能的我也试图这样做但似乎找不到任何可行的解决方案如果有帮助应该放置此内容的官方文档是here
短路与非短路操作员

我理解下面的区别至少对于Java if true false short circuiting boolean operator if true false non short circuiting boolean operator 但我
什么时候需要 ScriptManager/ScriptManagerProxy？

我认为我无法找到明确的答案所以我会在这里问什么时候需要 ScriptManager 或者在母版页上使用 ScriptManager 的情况下需要 ScriptManagerProxy 例如假设我在 MasterPage 上有一个 Sc
pywin32 和 Excel。写入大量数据时出现异常

我目前正在尝试使用 pywin32 库将大量数据写入 Excel 电子表格作为我面临的问题的一个简单示例使用以下代码生成 1000 个单元格 x 1000 个单元格的乘法表 import win32com client from win
在管道处理期间可以从 spaCy 文档中删除令牌吗？

我正在使用 spaCy 一个很棒的 Python NLP 库来处理许多非常大的文档但是我的语料库中有一些我想在文档处理管道中消除的常见单词有没有办法从管道组件内的文档中删除令牌 spaCy 的标记化是非破坏性的因此它始终代表原始输

在管道处理期间可以从 spaCy 文档中删除令牌吗？

在管道处理期间可以从 spaCy 文档中删除令牌吗？ 的相关文章

随机推荐

热门标签

在管道处理期间可以从 spaCy 文档中删除令牌吗？的相关文章