读取 spacy 中的文本文件语料库

2023-12-29

我看到的使用 spacy 的所有示例都只是在单个文本文件（尺寸很小）中读取。如何将文本文件语料库加载到 spacy 中？

我可以通过腌制语料库中的所有文本来使用 textacy 来做到这一点：

docs =  textacy.io.spacy.read_spacy_docs('E:/spacy/DICKENS/dick.pkl', lang='en')

for doc in docs:
    print(doc)

但我不清楚如何使用这个生成器对象（文档）进行进一步分析。

另外，我宁愿使用 spacy，而不是 textacy。

spacy 也无法读取单个大文件（~ 2000000 个字符）。

任何帮助将不胜感激...

Ravi

所以我终于成功了，并将其保留在这里供子孙后代使用。

从一个生成器开始，这里命名为iterator因为我目前太害怕改变任何东西，因为担心它再次破裂：

def path_iterator(paths):
    for p in paths:
        print("yielding")
        yield p.open("r").read(25)

获取迭代器、生成器或路径列表：

my_files = Path("/data/train").glob("*.txt")

这被包裹在我们的...function从上面，并传递到nlp.pipe。输入发电机，输出发电机。这batch_size=5这里是必需的，否则会陷入先读取所有文件的坏习惯：

doc = nlp.pipe(path_iterator(my_paths), batch_size=5)

重要的部分，也是我们做这一切的原因，是到现在为止什么也没发生。我们不会等待处理一千个文件或其他任何事情。这种情况只会发生一经请求，当你开始阅读时docs:

for d in doc:
    print("A document!")

您将看到交替的五个块（我们的batch_size，上面）“Yielding”和“A document”。现在它是一个实际的管道，启动后很快就会开始出现数据。

虽然我目前运行的版本稍旧，但致命一击是多处理：

# For those with these new AMD CPUs with hundreds of cores
doc = nlp.pipe(path_iterator(my_paths), batch_size=5, n_process=64)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

multiprocessing

Generator

pipeline

spacy

读取 spacy 中的文本文件语料库的相关文章

为带有yield的函数编写单元测试

我正在尝试为使用生成器的函数编写单元测试下面是我的代码 def extract data body for i in body a re sub lt lt gt str i b re sub view xc2 xa0book xc2 x
用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
将复数名词转换为单数名词

如何使用 R 将复数名词转换为单数名词我使用 tagPOS 函数来标记每个文本然后提取所有标记为 NNS 的复数名词但是如果我想将这些复数名词转换为单数该怎么办 library openNLP library tm acq o lt
Snakemake - 无法从输出文件中确定输入文件中的通配符

我对snakemake很陌生而且对python也不太熟悉所以抱歉这可能是一个非常基本的愚蠢问题我目前正在构建一个管道来分析一组 bamfilesatlas https bitbucket org phaentu atlas wiki
无法将项目追加到多处理共享列表

我正在使用多重处理来为我的应用程序创建子流程我还在进程和子进程之间共享一个字典我的代码示例主要流程 from multiprocessing import Process Manager manager Manager shared
gensim如何计算doc2vec段落向量

我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出段落向量和词向量被平
如何使用生成器遍历文件系统？

我正在尝试创建一个实用程序类来遍历目录中的所有文件包括子目录和子子目录中的文件我尝试使用发电机因为发电机很酷然而我遇到了困难 def grab files directory for name in os listdir dire
将yield语句转换为Python中的生成器表达式

我有一个关于将yield语句转换为生成器表达式的问题所以我有一个小的yield方法它获取一个函数和一个起始数字作为其输入并且基本上为每个先前被调用的数字调用该函数即第一次调用返回初始号码第二次调用返回函数初始编号第三次调用返
如果我从 python 中的多个不同进程登录到同一个文件，会发生什么？

我花了几个小时来挖掘这种行为首先是关于这些问题 write 2 到本地文件系统的原子性 https stackoverflow com questions 10650861 atomicity of write2 to a local f
用nose测试python多处理池代码

我正在尝试编写测试nose http nose readthedocs org en latest 建立一些东西使用多处理计算我有这个目录结构 code tests tests py test py 看起来像这样 import mult
使用 theano 进行多处理

我正在尝试将 theano 与 cpu 多处理和神经网络库 Keras 结合使用 I use device gpu标记并加载 keras 模型然后为了提取超过一百万张图像的特征我使用多处理池该函数看起来像这样 from keras
如何检测文本是否可读？

我想知道是否有一种方法可以告诉给定的文本是人类可读的我所说的人类可读的意思是它有一些含义格式就像某人写的文章或者至少是由软件翻译器生成的供人类阅读的文章这是背景故事最近我正在制作一个应用程序允许用户将短文本上传到数据库在部署
保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

我创建了自己的 BertClassifier 模型从预训练开始然后添加由不同层组成的我自己的分类头微调后我想使用 model save pretrained 保存模型但是当我打印它并从预训练上传时我看不到我的分类器头代码如下
如何在 R 中创建循环来生成随机样本列表？

我正在尝试创建一个循环来创建一系列包含随机样本的对象如下所示 sample lt ceiling runif 9 min 0 max 20 这是圆形制服的示例但它可以替换为普通泊松或任何您想要的因此我构建了一个循环来自动生成各种生
Tkinter：通过多处理启动进程会创建不需要的新窗口

我计划围绕数值模拟编写一个小型 GUI 这就是我现在使用 Tkinter 的原因模拟应在单独的进程中从 GUI 启动为了玩一下我定义了一个函数 random process 来生成成对的 randn 数字这应该是一个真正的模拟过程
NLTK：包错误？朋克和泡菜？

基本上我不知道为什么会收到此错误只是为了获得更多图像这里有一个代码格式的类似消息由于是最新的该帖子的答案已经在消息中提到 Preprocessing raw texts LookupError Traceback most rec
NotImplementedError：尚未为未构建的模型子类启用“fit_generator”

我正在使用以下代码 import tensorflow as tf traindata tf keras preprocessing image ImageDataGenerator rescale 1 255 shear range 0
使用 python 生成器高效创建 scipy.lil_matrix

我有一个生成单一维度的生成器numpy arrays 的长度相同我想要一个包含该数据的稀疏矩阵行的生成顺序与我希望它们出现在最终矩阵中的顺序相同 csr矩阵优于lil矩阵但我认为后者在我描述的场景中更容易构建假设row gen是一个
@TableGenerator 的初始值属性在 Hibernate 中显示问题，但在 JPA 中则不然

package com sb firstjpaexample pojo import javax persistence Column import javax persistence Entity import javax persist
如何将标记化中的多单词名称保留在一起？

我想使用 TF IDF 特征对文档进行分类一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n

随机推荐

Java Neo4J 内存不足

这有点像这样 Neo4j 内存不足问题 https stackoverflow com questions 2927329 neo4j outofmemory problem 但它已经过时了而且据我所知解决方案显然也已经过时了所以我试
为什么将我的视图控制器添加到导航控制器似乎会干扰我的约束？

由于我发现有时很难从故事板布局中获得我所期望的结果因此我正在尝试一些程序限制我知道从这里开始会更加困难但希望最终游戏能够实现方法更加有效当我在简单的 viewController mainView centerView 组合上使
JFrame 中的图像相互覆盖，而不是相互显示两个图像[重复]

这个问题在这里已经有答案了 public class Board extends JFrame public void bd JFrame frame new JFrame JLabel background1 new JLabel new
Cassandra 中用于差异比较的 Merkle 树

我正在读一本document http docs datastax com en cassandra 3 0 cassandra operations opsRepairNodesManualRepair html关于卡桑德拉的修复它说
Android studio 1.1.0 设置 minifyEnabled true 导致应用程序出现问题

这是我的 gradle build 文件 defaultConfig minSdkVersion 15 targetSdkVersion 21 versionCode 2 versionName 1 0 buildTypes release
如何在 Python 中对 URL 参数进行百分比编码？

If I do url http example com p urllib quote query 它不编码 to 2F 破坏 OAuth 规范化它不处理 Unicode 它会抛出异常有更好的图书馆吗 From Python 3 文档
如何使“setup.py bdist_egg”忽略特定源文件？

我正在尝试为 django 应用程序构建一个包但排除所有测试模块我尝试过设置 exclude tests tests tests tests on find packages并定义一个MANIFEST in 但测试始终会被编译并包含在捆
Google SMS Retriever API 无法检索 SMS 消息

我正在尝试使用 Google 的短信检索器 API 进行自动短信验证我已按照指示进行操作here https developers google com identity sms retriever overview但我的应用程序没有收到
在WebView中加载本地html？

我想将本地 html 加载到 WebView 中而不使用 file 因为这不允许 cookie 有没有办法使用 localhost 之类的东西其次我找不到在 getSettings 中启用 cookie 的方法因为使用 file 时不
如何限制只有一台机器才能访问Web应用程序？

我需要确保访问我的 Web 应用程序的每个用户都只能从一台计算机上执行此操作因此 100 个用户意味着 100 台计算机最好的解决方案是什么在首次登录时检测并存储 IP 是个好主意吗我认为即使在会话的生命周期内 IP 也可能会发生变
如何摆脱“允许<网站>运行'silverlight'？”在 webdriver 中使用 firefoxprofile 对 Firefox 发出警报

当使用机器人 api 拖放时我的鼠标位置受到询问允许运行 silverlight 的警报的干扰在全屏模式下运行 firefox 甚至我的 webdriver api 也会受到此警报的影响因为原本在一个按钮上发生的点击却在另一个按钮上
UIViewController -viewDidLoad 没有被调用

作为 Cocoa 的新手我遇到了一些问题Interface Builder UIViewController和朋友我有一个UIViewController子类具有UIView在 xib 中定义并将控制器的视图出口连接到视图 xib 的
WooCommerce 添加到购物车验证：阻止添加到购物车

我遇到了 woocommerce 的问题我花了几天时间试图解决我正在为一个人创建一个网站他希望我在产品页面上添加自定义输入我自己无法做到这一点所以我在网上使用了自由职业者在产品页面上我有一个添加到购物车按钮数量输入和日期输入
在 VBA 中搜索单元格引用的公式

在 VBA 中我想搜索 Excel 公式字符串以查找单元格引用具体来说我想找到字符串中存在相对单元格引用任何相对单元格引用而不是特定单元格引用或混合单元格引用的位置我不需要找到绝对的单元格引用尽管我可以检查并忽略它们我
在 Windows 10 中使用 PS 将程序固定到任务栏

我正在尝试使用以下代码将程序固定到 Windows 10 RTM 中的任务栏 shell new object com Shell Application folder shell Namespace Join Path env Syste
更新浏览器地址栏而不重新加载

我喜欢 facebook 在图像之间滚动时更改浏览器地址栏 URL 的方式以及它在 IE7 上的工作方式但是我只找到了有关如何在 HTML5 浏览器上执行此操作的信息并且我想支持 IE7 由于这是一个 HTML5 解决方案因此如下
如何为Notepad++编写宏？

我想为 Notepad 编写一个宏它应该分别用 char4 char5 char6 替换 char1 char2 char3 Notepad 中的宏只是一堆编码操作您开始录制对缓冲区进行操作也许激活菜单停止录制然后播放宏经过调查
java中如何将日期时间转换为时间戳

论坛会员我在 java 中遇到一个日期时间问题实际上我正在收到开始日期格式为 2012 02 27T01 10 10我想将收到的日期插入到具有日期时间数据类型的数据库中实际上我尝试通过下面的代码将收到的开始日期转换为日期时间 Stri
Android Eclipse Lint API 检查

谢谢 P T 看起来像是问题的正确答案在 Eclipse 中构建多 SDK Android 应用程序而不会丢失编译时检查 https stackoverflow com questions 7642249 但是当我尝试按照建议使用 Tar
读取 spacy 中的文本文件语料库

我看到的使用 spacy 的所有示例都只是在单个文本文件尺寸很小中读取如何将文本文件语料库加载到 spacy 中我可以通过腌制语料库中的所有文本来使用 textacy 来做到这一点 docs textacy io spacy rea

读取 spacy 中的文本文件语料库

读取 spacy 中的文本文件语料库 的相关文章

随机推荐

热门标签

读取 spacy 中的文本文件语料库的相关文章