读取 spacy 中的文本文件语料库

2023-12-29

我看到的使用 spacy 的所有示例都只是在单个文本文件(尺寸很小)中读取。 如何将文本文件语料库加载到 spacy 中?

我可以通过腌制语料库中的所有文本来使用 textacy 来做到这一点:

docs =  textacy.io.spacy.read_spacy_docs('E:/spacy/DICKENS/dick.pkl', lang='en')

for doc in docs:
    print(doc)

但我不清楚如何使用这个生成器对象(文档)进行进一步分析。

另外,我宁愿使用 spacy,而不是 textacy。

spacy 也无法读取单个大文件(~ 2000000 个字符)。

任何帮助将不胜感激...

Ravi


所以我终于成功了,并将其保留在这里供子孙后代使用。

从一个生成器开始,这里命名为iterator因为我目前太害怕改变任何东西,因为担心它再次破裂:

def path_iterator(paths):
    for p in paths:
        print("yielding")
        yield p.open("r").read(25)

获取迭代器、生成器或路径列表:

my_files = Path("/data/train").glob("*.txt")

这被包裹在我们的...function从上面,并传递到nlp.pipe。输入发电机,输出发电机。这batch_size=5这里是必需的,否则会陷入先读取所有文件的坏习惯:

doc = nlp.pipe(path_iterator(my_paths), batch_size=5)

重要的部分,也是我们做这一切的原因,是到现在为止什么也没发生。我们不会等待处理一千个文件或其他任何事情。这种情况只会发生一经请求,当你开始阅读时docs:

for d in doc:
    print("A document!")

您将看到交替的五个块(我们的batch_size,上面)“Yielding”和“A document”。现在它是一个实际的管道,启动后很快就会开始出现数据。

虽然我目前运行的版本稍旧,但致命一击是多处理:

# For those with these new AMD CPUs with hundreds of cores
doc = nlp.pipe(path_iterator(my_paths), batch_size=5, n_process=64) 
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

读取 spacy 中的文本文件语料库 的相关文章

  • 为带有yield的函数编写单元测试

    我正在尝试为使用生成器的函数编写单元测试 下面是我的代码 def extract data body for i in body a re sub lt lt gt str i b re sub view xc2 xa0book xc2 x
  • 用于估计(一元)困惑度的 NLTK 包

    我正在尝试计算我所拥有的数据的困惑度 我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
  • 将复数名词转换为单数名词

    如何使用 R 将复数名词转换为单数名词 我使用 tagPOS 函数来标记每个文本 然后提取所有标记为 NNS 的复数名词 但是如果我想将这些复数名词转换为单数该怎么办 library openNLP library tm acq o lt
  • Snakemake - 无法从输出文件中确定输入文件中的通配符

    我对snakemake很陌生 而且对python也不太熟悉 所以抱歉 这可能是一个非常基本的愚蠢问题 我目前正在构建一个管道来分析一组 bamfilesatlas https bitbucket org phaentu atlas wiki
  • 无法将项目追加到多处理共享列表

    我正在使用多重处理来为我的应用程序创建子流程 我还在进程和子进程之间共享一个字典 我的代码示例 主要流程 from multiprocessing import Process Manager manager Manager shared
  • gensim如何计算doc2vec段落向量

    我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出 段落向量和词向量被平
  • 如何使用生成器遍历文件系统?

    我正在尝试创建一个实用程序类来遍历目录中的所有文件 包括子目录和子子目录中的文件 我尝试使用发电机 因为发电机很酷 然而 我遇到了困难 def grab files directory for name in os listdir dire
  • 将yield语句转换为Python中的生成器表达式

    我有一个关于将yield语句转换为生成器表达式的问题 所以我有一个小的yield方法 它获取一个函数和一个起始数字作为其输入 并且基本上为每个先前被调用的数字调用该函数 即 第一次调用返回初始号码 第二次调用返回函数 初始编号 第三次调用返
  • 如果我从 python 中的多个不同进程登录到同一个文件,会发生什么?

    我花了几个小时来挖掘这种行为 首先是关于这些问题 write 2 到本地文件系统的原子性 https stackoverflow com questions 10650861 atomicity of write2 to a local f
  • 用nose测试python多处理池代码

    我正在尝试编写测试nose http nose readthedocs org en latest 建立一些东西 使用多处理计算 我有这个目录结构 code tests tests py test py 看起来像这样 import mult
  • 使用 theano 进行多处理

    我正在尝试将 theano 与 cpu 多处理和神经网络库 Keras 结合使用 I use device gpu标记并加载 keras 模型 然后 为了提取超过一百万张图像的特征 我使用多处理池 该函数看起来像这样 from keras
  • 如何检测文本是否可读?

    我想知道是否有一种方法可以告诉给定的文本是人类可读的 我所说的人类可读的意思是 它有一些含义 格式就像某人写的文章 或者至少是由软件翻译器生成的供人类阅读的文章 这是背景故事 最近我正在制作一个应用程序 允许用户将短文本上传到数据库 在部署
  • 保存具有自定义前向功能的 Bert 模型并将其置于 Huggingface 上

    我创建了自己的 BertClassifier 模型 从预训练开始 然后添加由不同层组成的我自己的分类头 微调后 我想使用 model save pretrained 保存模型 但是当我打印它并从预训练上传时 我看不到我的分类器头 代码如下
  • 如何在 R 中创建循环来生成随机样本列表?

    我正在尝试创建一个循环来创建一系列包含随机样本的对象 如下所示 sample lt ceiling runif 9 min 0 max 20 这是圆形制服的示例 但它可以替换为普通 泊松或任何您想要的 因此 我构建了一个循环来自动生成各种生
  • Tkinter:通过多处理启动进程会创建不需要的新窗口

    我计划围绕数值模拟编写一个小型 GUI 这就是我现在使用 Tkinter 的原因 模拟应在单独的进程中从 GUI 启动 为了玩一下 我定义了一个函数 random process 来生成成对的 randn 数字 这应该是一个真正的模拟过程
  • NLTK:包错误?朋克和泡菜?

    基本上 我不知道为什么会收到此错误 只是为了获得更多图像 这里有一个代码格式的类似消息 由于是最新的 该帖子的答案已经在消息中提到 Preprocessing raw texts LookupError Traceback most rec
  • NotImplementedError:尚未为未构建的模型子类启用“fit_generator”

    我正在使用以下代码 import tensorflow as tf traindata tf keras preprocessing image ImageDataGenerator rescale 1 255 shear range 0
  • 使用 python 生成器高效创建 scipy.lil_matrix

    我有一个生成单一维度的生成器numpy arrays 的长度相同 我想要一个包含该数据的稀疏矩阵 行的生成顺序与我希望它们出现在最终矩阵中的顺序相同 csr矩阵优于lil矩阵 但我认为后者在我描述的场景中更容易构建 假设row gen是一个
  • @TableGenerator 的初始值属性在 Hibernate 中显示问题,但在 JPA 中则不然

    package com sb firstjpaexample pojo import javax persistence Column import javax persistence Entity import javax persist
  • 如何将标记化中的多单词名称保留在一起?

    我想使用 TF IDF 特征对文档进行分类 一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n

随机推荐

  • Java Neo4J 内存不足

    这有点像这样 Neo4j 内存不足问题 https stackoverflow com questions 2927329 neo4j outofmemory problem 但它已经过时了 而且据我所知 解决方案显然也已经过时了 所以我试
  • 为什么将我的视图控制器添加到导航控制器似乎会干扰我的约束?

    由于我发现有时很难从故事板布局中获得我所期望的结果 因此我正在尝试一些程序限制 我知道从这里开始会更加困难 但希望 最终游戏 能够实现方法更加有效 当我在简单的 viewController mainView centerView 组合上使
  • JFrame 中的图像相互覆盖,而不是相互显示两个图像[重复]

    这个问题在这里已经有答案了 public class Board extends JFrame public void bd JFrame frame new JFrame JLabel background1 new JLabel new
  • Cassandra 中用于差异比较的 Merkle 树

    我正在读一本document http docs datastax com en cassandra 3 0 cassandra operations opsRepairNodesManualRepair html关于卡桑德拉的修复 它说
  • Android studio 1.1.0 设置 minifyEnabled true 导致应用程序出现问题

    这是我的 gradle build 文件 defaultConfig minSdkVersion 15 targetSdkVersion 21 versionCode 2 versionName 1 0 buildTypes release
  • 如何在 Python 中对 URL 参数进行百分比编码?

    If I do url http example com p urllib quote query 它不编码 to 2F 破坏 OAuth 规范化 它不处理 Unicode 它会抛出异常 有更好的图书馆吗 From Python 3 文档
  • 如何使“setup.py bdist_egg”忽略特定源文件?

    我正在尝试为 django 应用程序构建一个包 但排除所有测试模块 我尝试过设置 exclude tests tests tests tests on find packages并定义一个MANIFEST in 但测试始终会被编译并包含在捆
  • Google SMS Retriever API 无法检索 SMS 消息

    我正在尝试使用 Google 的短信检索器 API 进行自动短信验证 我已按照指示进行操作here https developers google com identity sms retriever overview但我的应用程序没有收到
  • 在WebView中加载本地html?

    我想将本地 html 加载到 WebView 中而不使用 file 因为这不允许 cookie 有没有办法使用 localhost 之类的东西 其次 我找不到在 getSettings 中启用 cookie 的方法 因为使用 file 时不
  • 如何限制只有一台机器才能访问Web应用程序?

    我需要确保访问我的 Web 应用程序的每个用户都只能从一台计算机上执行此操作 因此 100 个用户意味着 100 台计算机 最好的解决方案是什么 在首次登录时检测并存储 IP 是个好主意吗 我认为即使在会话的生命周期内 IP 也可能会发生变
  • 如何摆脱“允许<网站>运行'silverlight'?”在 webdriver 中使用 firefoxprofile 对 Firefox 发出警报

    当使用机器人 api 拖放时 我的鼠标位置受到询问 允许运行 silverlight 的警报的干扰 在全屏模式下运行 firefox 甚至我的 webdriver api 也会受到此警报的影响 因为原本在一个按钮上发生的点击却在另一个按钮上
  • UIViewController -viewDidLoad 没有被调用

    作为 Cocoa 的新手 我遇到了一些问题Interface Builder UIViewController和朋友 我有一个UIViewController子类具有UIView在 xib 中定义 并将控制器的视图出口连接到视图 xib 的
  • WooCommerce 添加到购物车验证:阻止添加到购物车

    我遇到了 woocommerce 的问题 我花了几天时间试图解决 我正在为一个人创建一个网站 他希望我在产品页面上添加自定义输入 我自己无法做到这一点 所以我在网上使用了自由职业者 在产品页面上 我有一个添加到购物车按钮 数量输入和日期输入
  • 在 VBA 中搜索单元格引用的公式

    在 VBA 中 我想搜索 Excel 公式 字符串 以查找单元格引用 具体来说 我想找到字符串中存在相对单元格引用 任何相对单元格引用 而不是特定单元格引用 或混合单元格引用的位置 我不需要找到绝对的单元格引用 尽管我可以检查并忽略它们 我
  • 在 Windows 10 中使用 PS 将程序固定到任务栏

    我正在尝试使用以下代码将程序固定到 Windows 10 RTM 中的任务栏 shell new object com Shell Application folder shell Namespace Join Path env Syste
  • 更新浏览器地址栏而不重新加载

    我喜欢 facebook 在图像之间滚动时更改浏览器地址栏 URL 的方式 以及它在 IE7 上的工作方式 但是 我只找到了有关如何在 HTML5 浏览器上执行此操作的信息 并且我想支持 IE7 由于这是一个 HTML5 解决方案 因此如下
  • 如何为Notepad++编写宏?

    我想为 Notepad 编写一个宏 它应该分别用 char4 char5 char6 替换 char1 char2 char3 Notepad 中的宏只是一堆编码操作 您开始录制 对缓冲区进行操作 也许激活菜单 停止录制然后播放宏 经过调查
  • java中如何将日期时间转换为时间戳

    论坛会员 我在 java 中遇到一个日期时间问题 实际上我正在收到开始日期格式为 2012 02 27T01 10 10我想将收到的日期插入到具有日期时间数据类型的数据库中 实际上我尝试通过下面的代码将收到的开始日期转换为日期时间 Stri
  • Android Eclipse Lint API 检查

    谢谢 P T 看起来像是问题的正确答案在 Eclipse 中构建多 SDK Android 应用程序而不会丢失编译时检查 https stackoverflow com questions 7642249 但是 当我尝试按照建议使用 Tar
  • 读取 spacy 中的文本文件语料库

    我看到的使用 spacy 的所有示例都只是在单个文本文件 尺寸很小 中读取 如何将文本文件语料库加载到 spacy 中 我可以通过腌制语料库中的所有文本来使用 textacy 来做到这一点 docs textacy io spacy rea