如何加快Spacy的nlp调用速度？

2024-01-17

我必须处理数十万条文本。我发现以下内容中花费时间最长的事情：

nlp = English()
ruler = EntityRuler(nlp)
patterns = [...]
ruler.add_patterns(patterns)
nlp.add_pipe(ruler)
...
#This line takes longer than I would like
doc = nlp(whole_chat)

当然，我有很多模式。但有没有办法加快速度呢？我只有实体尺管，没有其他。

默认情况下，Spacy 将许多模型应用于您的文档：POS 标记器、句法解析器、NER、文档分类器，也许还有其他东西。

也许您不需要其中一些模型。如果是这种情况，您可以禁用它们，这将加快您的管道速度。您可以在创建管道时执行此操作，如下所示：

nlp = spacy.load('en_core_web_sm', disable=['ner', 'parser'])

或者，按照 @oleg-ivanytskiy 的回答，您可以在nlp.pipe() call:

nlp = spacy.load("en_core_web_sm")
for doc in nlp.pipe(texts, disable=["tagger", "parser"]):
    # Do something with the doc here
    print([(ent.text, ent.label_) for ent in doc.ents])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

spacy

如何加快Spacy的nlp调用速度？的相关文章

有没有一种方法可以将python对象直接存储在mongoDB中而不需要序列化它们

我在某处读到过您可以使用 BSON 将 python 对象更具体地说是字典作为二进制文件存储在 MongoDB 中但是现在我找不到任何与此相关的文档有人知道具体如何做到这一点吗没有办法在不序列化的情况下将对象存储在文件数据库
将 transaction.commit_manually() 升级到 Django > 1.6

我继承了为 Django 1 4 编写的应用程序的一些代码我们需要更新代码库以使用 Django 1 7 并最终更新到 1 8 作为下一个长期支持版本在一些地方它使用旧风格 transaction commit manually and
在 Pandas 中，如何从基于另一个数据框的数据框中删除行？

我有 2 个数据框一个名为 USERS 另一个名为 EXCLUDE 他们都有一个名为电子邮件的字段基本上我想删除 USERS 中包含 EXCLUDE 中包含电子邮件的每一行我该怎么做您可以使用boolean indexing
如何使用 colorchecker 在 opencv 中进行颜色校准？

我有数码相机获取的色彩检查器图像我如何使用它来使用 opencv 校准图像按照以下颜色检查器图像操作您是想问如何进行颜色校准或如何使用 OpenCV 进行校准为了进行颜色校准您可以使用校准板的最后一行灰色调以下是您应该逐步进行
ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
Python、subprocess、call()、check_call 和 returncode 来查找命令是否存在

我已经弄清楚如何使用 call 让我的 python 脚本运行命令 import subprocess mycommandline lumberjack sleep all night work all day subprocess cal
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
`pyqt5'错误`元数据生成失败`

我正在尝试安装pyqt5使用带有 M1 芯片和 Python 3 9 12 的 mac 操作系统我怀疑M1芯片可能是原因我收到一个错误metadata generation failed 最小工作示例 directly in the t
在 Windows 上使用带有对数刻度的 matplotlib 时出现 Unicode 错误

我正在使用 python 2 6 和 matplotlib 如果我运行 matplotlib 库页面中提供的示例 histogram demo py 它工作正常我已经大大简化了这个脚本 import numpy as np import
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
PIL - 需要抖动，但限制调色板会导致问题

我是 Python 新手正在尝试使用 PIL 来执行 Arduino 项目所需的解析任务这个问题涉及到Image convert 方法以及调色板抖动等选项我有一些硬件能够一次仅显示 16 种颜色的图像但它们可以指定为 RGB 三元
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4

随机推荐

通过应用程序在 Google Play 商店中的屏幕截图质量 - 变得压缩、模糊和损坏

通过 Google Play 应用程序查看应用程序的屏幕截图时显示的屏幕截图经过压缩且质量较低当通过桌面网络浏览器查看 Play 应用商店页面时它们是完整质量的我尝试了几个建议包括尝试 JPEG 和 PNG 使用较低尺寸和较高尺
如何从现有 Kubernetes 清单构建 Helm 图表

我是 k8s 的新手我有作业这就是我的情况有一个面向微服务的应用程序使用十个容器构建它有一个docker compose文件以方便设置现在我的任务是将其部署到 Kubernetes 中我的想法转换docker compose
是否可以在 Virtualenv 沙箱上添加 PyQt4/PySide 包？

我在用着虚拟环境 http pypi python org pypi virtualenv在我的开发环境中获利web py simplejson和其他面向网络的包我将使用 Qt 开发一个简单的 python 客户端以重用一些使用 web
两个不同的“字符串”是同一个对象实例？

该代码非常不言自明我预计当我做的时候a1 and b1我正在创建两个包含相同文本的不同字符串实例所以我想a1 b1是真的但是object ReferenceEquals a1 b1 是假的但事实并非如此为什么 make two se
ORM，DataBinding 到 DataGridView：插入/删除未保存到数据库的新行

我对 ORM 还很陌生目前我正在尝试 Telerik OpenAccess ORM 但问题实际上可能并不特定于该 ORM 而且我还没有完全确定该 ORM 我想要实现的是绑定 DataGridView 以显示 Customers 对象的集合
C++：创建映射到枚举的某种类型的对象

考虑以下代码示例 class Base class A class B class C A B and C are inherited from Base enum TypeID TYPE A 0 TYPE B TYPE C TYPE MA
如何从两列中获取双向组合的计数？

我在一家货运公司工作我们有兴趣统计我们的一辆卡车在两个城市之间双向行驶的次数我有一个表格列出了每个行程段的出发地和目的地例如 Origin Destination City 1 City 2 City 2 City 1 City 3
二叉搜索树到 inOrder 数组

很简单的问题如何递归地创建使用此构造函数的二叉搜索树数组按顺序 public class OrderedSet
使用Python(ubuntu)检测工作站/系统屏幕锁定

无论如何我们是否可以检测系统屏幕何时被锁定并通知在 Ubuntu 中触发某些事件当屏幕通过 DBus 锁定解锁时可能会收到通知这是参考侏儒屏幕保护程序 http live gnome org GnomeScreensaver F
git pull fatal：内存不足，malloc 失败

我有一个回购协议https bitbucket org https bitbucket org 几天前由于错误大量图像文件被推送到存储库中然后文件通过另一次推送被删除之后该存储库工作正常但今天当我尝试从存储库中提取时 git pu
Express 和 Firebase - 无法在重定向前设置标头

我正在尝试使 Firebase 身份验证在服务器上工作 use strict const functions require firebase functions const admin require firebase admin adm
gfortran 无法在 Mac OS X 10.9 (Mavericks) 上运行

最近我将 OS X 更新到了 10 9 Mavericks 不幸的是尽管我将 OS X Mavericks 的 Xcode 命令行更新为 5 1 1 但 gfortran 停止工作类似的问题前段时间有人问过 here https st
向首次访客显示欢迎信息

寻找一种简单的方法来向我的网站的首次访问者显示欢迎消息最好的方法是什么使用cookie if empty COOKIE first time show welcome message setcookie first time 1 tim
通过 ssh 启动包含 nohup 的远程脚本

我想通过 ssh 远程启动一个脚本如下所示 ssh email protected cdn cgi l email protection t cd my dir myscript data email protected cdn cgi
如何在 Zend Framework 2 中配置学说扩展？

我已将此行添加到我的composer json中 gedmo doctrine extensions dev master 这是在我的模块的 module config php 中 doctrine gt array driver gt a
将从文件读取的值作为输入传递给 Oracle 中的 SQL 查询

cat file txt 12354 13456 13498 bin bash for i in cat file txt do sqlplus XXXXX XXXXX DB NAME lt lt EOF select from TABLE
Cognos 8 查询查找所有报表和列名称

我想查询 Cognos 8 中的元数据以查找所有报告和列名称如果可能的话我想包含列定义我可以使用 Cognos 报告来执行此操作还是需要查询某个存储库 Thanks 您可以使用以下查询从内容存储中选择报告列表 SELECT CMOBJ
如何刷新recyclerview的上一个项目行视图的视图

大家好希望你们一切都好我正在开发一个 Android 应用程序它将播放不同的动物声音我正在使用回收视图如下面的屏幕截图所示现在我面临一个问题我的行中有一个播放按钮每当我从项目 0 或在视图内显示暂停选项的任何位置播放声音时
如何使用 PySide2 连接 Python 和 QML？

我想在 Ubuntu 上编写一个简单的桌面应用程序我认为一个简单的方法是使用 Qt 和 QML 作为 GUI 使用 Python 作为逻辑语言因为我对 Python 有点熟悉现在我花了几个小时尝试以某种方式连接 GUI 和逻辑但它不
如何加快Spacy的nlp调用速度？

我必须处理数十万条文本我发现以下内容中花费时间最长的事情 nlp English ruler EntityRuler nlp patterns ruler add patterns patterns nlp add pipe ruler

如何加快Spacy的nlp调用速度？

如何加快Spacy的nlp调用速度？ 的相关文章

随机推荐

热门标签

如何加快Spacy的nlp调用速度？的相关文章