使用 Pandas 和 spaCy 进行标记化

2023-12-24

我正在开发我的第一个 Python 项目，并且拥有相当大的数据集（数十万行）。我需要对 5 个文本列（每个“单元格”有多个文本句子）进行一些 nlp（聚类、分类），并且一直在使用 pandas 来组织/构建数据集。我希望对所有 nlp 使用 spaCy，但不太清楚如何对我的列中的文本进行标记。我读过很多 spaCy 文档，并用 google 搜索过，但我找到的所有示例都是针对单个句子或单词的，而不是 pandas df 中的 75K 行。

我尝试过类似的事情：df['new_col'] = [token for token in (df['col'])]

但肯定会感谢一些帮助/资源。

完整的（虽然混乱）代码可以在这里找到 https://github.com/LizMGagne/TIP_code/blob/master/TIP%20Stuff%20(2).ipynb

我从未使用过 spaCy（nltk 总是为我完成工作），但从文档来看，它看起来应该可以工作：

import spacy
nlp = spacy.load('en')

df['new_col'] = df['text'].apply(lambda x: nlp(x))

注意nlp默认情况下运行整个 SpaCy 管道，其中包括词性标记、解析和命名实体识别。您可以使用以下方法显着加快代码速度nlp.tokenizer(x)代替nlp(x)，或者在加载模型时禁用部分管道。例如。nlp = spacy.load('en', parser=False, entity=False).

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Pandas 和 spaCy 进行标记化的相关文章

即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
如何使用Python将WebP图像转换为Gif？

我已经尝试过这个 from PIL import Image im Image open this webp im save that gif gif save all True 这给了我这个错误类型错误不支持的操作数类型 tuple
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
带图像的简单 GUI [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
为什么 Python 中的“pip install”会引发语法错误？

我正在尝试使用 pip 安装软件包我试着跑pip install从Python shell 但我得到了SyntaxError 为什么我会收到此错误如何使用 pip 安装软件包 gt gt gt pip install selenium
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
无法打开 Python。错误 0xc000007b

我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题当我将它安装在我的上网本上时我没有遇到任何问题但现在我已经开始使用它了我想将它安装在我的台式机上并且我有一个我的桌面
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
具有多个元素的数组的真值是二义性错误吗？ Python

from numpy import from pylab import from math import def TentMap a x if x gt 0 and x lt 0 5 return 2 a x elif x gt 0 5 a
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
Django 在选择列表更改时创建毫无意义的迁移

我正在尝试使用可调用创建一个带有选择字段的模型以便 Django 在选择列表更改时不会创建迁移如中所述this https stackoverflow com questions 31788450 stop django from cr
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
TypeError：无法使用抽象方法实例化抽象类 <...>

这是我的代码 from abc import ABC from abc import abstractmethod class Mamifiero ABC docstring for Mamifiero def init self self
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案

随机推荐

Python odbc；如何查找odbc中的所有表

有什么方法可以通过 odbc 连接获取所有可用表的列表我必须从一路生成的表中获取数据因此我事先不知道名称在回答此问题时未指定 ODBC 驱动程序 From PyODBC 文档 http code google com p pyodbc
如何在 Visual Basic 6 (vb6) 中使用 TLS 1.2 - REST

APIGee https apigee com api management 正在将请求迁移到 TLS 1 2 操作系统 Windows Server 2003 我有一个用 vb6 开发的旧应用程序但由于这次新迁移它停止工作这是我的代
速度模板和 JavaScript

我尝试将 javascript 添加到我的速度模板中 table tr td Name td td currency CurrencyName td tr tr td Jual td td div currency Buy div td t
openstacksdk如何更改当前用户密码

我找到了CLI or API请求方法它们对我有用如下所示 source etc kolla admin openrc sh openstack user password set password newpsw original pas
我如何使用 python 请求登录 instagram？

你好我正在尝试使用 python requests 库登录 Instagram 但是当我尝试时 Instagram 将我变成了错误请求有谁知道我该如何解决这个问题我寻找解决这个问题的方法但没有找到任何东西请帮忙谢谢它正在工作
错误：RenderBox 未布局，断言失败：第 1940 行 pos 12：“hasSize”

我无法修复这个错误 RenderBox 未布局 RenderPointerListener 2b92a relayoutBoundary up9 需要绘制需要合成位更新 package flutter src rendering box d
如何从单个父进程创建两个进程

我知道我需要使用 fork 但这只会创建一个子进程我是否只是从子进程中再次调用 fork 另外我需要它们通过信号或管道进行通信这更容易实现并且我需要知道什么才能做到这一点函数等要创建第二个进程请调用fork 再次无论是在父级
Google Auth 在 Blazor 中获取访问令牌时出错

我目前有一个带有 Blazor WASM 的 ASP Net Core Web Api 它可以使用组件 RemoteAuthenticatorView 成功登录 Google OAuth 我现在的目的是将我拥有的令牌传递给 Web api
生成范围 (1,n) 但不在列表 (i,j) 中的数字

如何生成在范围内的随机数 1 n 但不在某个列表中 i j 示例范围是 1 500 列表是 1 3 4 45 199 212 344 注意列表可能未排序拒绝抽样 http en wikipedia org wiki Rejection
使用 tslint 时如何忽略 *.d.ts 文件？

我想将 tslint 添加到我的工作流程中我通过以下方式安装它 npm install tslint tslint config ms recommended save dev And my tslint json好像 extends t
如何序列化ArrayList中的对象？

我想序列化一个数组列表Item但它不起作用 my Item类扩展Stuff类并有一些子类我的所有类都实现了可序列化我有这部分 try Serialize data object to a file ObjectOutputStream
Lua：获取网页

我想获取一个网页并以字符串形式获取结果但我不知道该怎么做我在网上搜索并没有找到如何操作我只想用Lua套接字 http w3 impa br diego software luasocket其中带有一个http子模块 http w3 i
与 sklearn.neighbors.NearestNeighbors 的输出混淆

这是代码 from sklearn neighbors import NearestNeighbors import numpy as np X np array 1 1 2 1 3 2 1 1 2 1 3 2 nbrs NearestNe
如何安装CodeRush和Resharper？ CodeRush 快捷方式丢失

我正在尝试同时安装 CodeRush 和 ReSharper 安装 ReSharper 后我的 CodeRush 快捷方式消失了有谁知道如何在安装了 Resharper 的情况下恢复我的 CodeRush 短裤这是我当前的设置 1 V
当用户单击输入密码时，如何使用系统内置密码屏幕来验证我的应用程序

我正在将 TouchID 集成到我的应用程序中如何使用输入密码选项显示系统内置密码屏幕来验证我的应用程序请任何人解释一下如何处理 Objective C 中的 LAErrorUserFallback 情况你不能这样做您可以做的是
Lambda 表达式无法工作，被终止

使用 lambda 表达式编写 java 8 程序它没有被执行而是在 lambda 表达式处终止没有例外 import java util ArrayList import java util List import java uti
将一个或多个系数设置为特定整数

我正在使用标准 lm 模型并且希望将一个或多个变量的系数设置为特定整数例如我希望天气和价格变量的系数分别为 647 和 15 我正在使用带有标准公式的 lm 函数到目前为止我发现的最接近的东西是glm中的offset函数或者sys
Angular2路由器可以激活，带参数吗？

我已经看到了关于这个具体问题的一些问题我最近只从事 Angular2 项目无论如何我现在遇到了一个问题在已弃用的路由器中我在路由的数据部分添加了我的用户角色我覆盖了 routerOutlet 以便我可以在激活路由之前检查此值目
最佳实践：创建免费版和付费版时如何处理iOS App的代码差异？

我想在 App Store 上发布我的 iOS 应用程序的两个版本一种是付费的另一种是免费的到目前为止我的付费应用程序代码已经完成现在我想为免费应用程序的 iAd 和 InAppPurchase 添加更多代码维护这两个版本的最佳
使用 Pandas 和 spaCy 进行标记化

我正在开发我的第一个 Python 项目并且拥有相当大的数据集数十万行我需要对 5 个文本列每个单元格有多个文本句子进行一些 nlp 聚类分类并且一直在使用 pandas 来组织构建数据集我希望对所有 nlp 使用 s

使用 Pandas 和 spaCy 进行标记化

使用 Pandas 和 spaCy 进行标记化 的相关文章

随机推荐

热门标签

使用 Pandas 和 spaCy 进行标记化的相关文章