使用 pandas 进行基于 NLTK 的文本处理

2023-12-03

使用 nltk 时，标点符号和数字、小写字母不起作用。

My code

stopwords=nltk.corpus.stopwords.words('english')+ list(string.punctuation)
user_defined_stop_words=['st','rd','hong','kong']                    
new_stop_words=stopwords+user_defined_stop_words

def preprocess(text):
    return [word for word in word_tokenize(text) if word.lower() not in new_stop_words and not word.isdigit()]

miss_data['Clean_addr'] = miss_data['Adj_Addr'].apply(preprocess)

输入样本

23FLOOR 9 DES VOEUX RD WEST     HONG KONG
PAG CONSULTING FLAT 15 AIA CENTRAL 1 CONNAUGHT RD CENTRAL
C/O CITY LOST STUDIOS AND FLAT 4F 13-15 HILLIER ST SHEUNG HONG KONG

预期输出

 floor des voeux west
 pag consulting flat aia central connaught central
 co city lost studios flat f hillier sheung

你的函数是slow并且是不完整的。首先，针对问题——

您没有小写您的数据。
您没有正确删除数字和标点符号。
您没有返回字符串（您应该使用str.join并返回）
此外，文本处理的列表理解是引入可读性问题的主要方式，更不用说可能的冗余（您可以多次调用一个函数，对于每个if它出现的情况。

接下来，您的函数存在一些明显的低效率问题，尤其是停用词删除代码。

Your stopwords结构是一个list, and in对列表的检查是slow。要做的第一件事是将其转换为set，使得not in检查恒定时间。
你正在使用nltk.word_tokenize这太慢了。
最后，你不应该总是依赖apply，即使您使用 NLTK，但很少有可用的矢量化解决方案。几乎总是有其他方法可以做同样的事情。通常情况下，即使是 Python 循环也会更快。但这并不是一成不变的。

首先，创建您的增强型stopwords as a set -

user_defined_stop_words = ['st','rd','hong','kong'] 

i = nltk.corpus.stopwords.words('english')
j = list(string.punctuation) + user_defined_stop_words

stopwords = set(i).union(j)

下一个修复是摆脱列表理解并将其转换为多行函数。这使得事情变得更容易处理。函数的每一行都应该致力于解决特定的任务（例如，删除数字/标点符号，或删除停用词，或小写） -

def preprocess(x):
    x = re.sub('[^a-z\s]', '', x.lower())                  # get rid of noise
    x = [w for w in x.split() if w not in set(stopwords)]  # remove stopwords
    return ' '.join(x)                                     # join the list

举个例子。那么这将是applyied到你的专栏 -

df['Clean_addr'] = df['Adj_Addr'].apply(preprocess)

作为替代方案，这是一种不依赖于apply。这对于小句子应该很有效。

将您的数据加载到一个系列中 -

v = miss_data['Adj_Addr']
v

0            23FLOOR 9 DES VOEUX RD WEST     HONG KONG
1    PAG CONSULTING FLAT 15 AIA CENTRAL 1 CONNAUGHT...
2    C/O CITY LOST STUDIOS AND FLAT 4F 13-15 HILLIE...
Name: Adj_Addr, dtype: object

现在是繁重的工作。

小写与str.lower
使用消除噪音str.replace
使用以下命令将单词拆分为单独的单元格str.split
使用应用删除停用词pd.DataFrame.isin + pd.DataFrame.where
最后，使用加入数据框agg.

v = v.str.lower().str.replace('[^a-z\s]', '').str.split(expand=True)

v.where(~v.isin(stopwords) & v.notnull(), '')\
 .agg(' '.join, axis=1)\
 .str.replace('\s+', ' ')\
 .str.strip()

0                                 floor des voeux west
1    pag consulting flat aia central connaught central
2           co city lost studios flat f hillier sheung
dtype: object

要在多列上使用此代码，请将此代码放在函数中preprocess2并打电话apply -

def preprocess2(v):
     v = v.str.lower().str.replace('[^a-z\s]', '').str.split(expand=True)

     return v.where(~v.isin(stopwords) & v.notnull(), '')\
             .agg(' '.join, axis=1)\
             .str.replace('\s+', ' ')\
             .str.strip()

c = ['Col1', 'Col2', ...] # columns to operate
df[c] = df[c].apply(preprocess2, axis=0)

你仍然需要一个apply调用，但对于少量列，它的扩展性应该不会太差。如果你不喜欢apply，那么这里有一个适合你的疯狂变体 -

for _c in c:
    df[_c] = preprocess2(df[_c])

让我们看看我们的非循环版本和原始版本之间的区别 -

s = pd.concat([s] * 100000, ignore_index=True) 

s.size
300000

首先，健全性检查 -

preprocess2(s).eq(s.apply(preprocess)).all()
True

现在时间到了。

%timeit preprocess2(s)   
1 loop, best of 3: 13.8 s per loop

%timeit s.apply(preprocess)
1 loop, best of 3: 9.72 s per loop

这令人惊讶，因为apply很少比非循环解决方案更快。但这在这种情况下是有意义的，因为我们已经优化了preprocess相当多，并且 pandas 中的字符串操作很少被矢量化（它们通常是矢量化的，但性能增益没有您期望的那么多）。

让我们看看是否可以做得更好，绕过apply, using np.vectorize

preprocess3 = np.vectorize(preprocess)

%timeit preprocess3(s)
1 loop, best of 3: 9.65 s per loop

哪个等同于apply但由于“隐藏”循环周围的开销减少了，所以速度恰好快了一点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

string

pandas

DataFrame

NLTK

使用 pandas 进行基于 NLTK 的文本处理的相关文章

C++11 内部 std::string 表示形式 (libstdc++)

std string 在 c 11 libstdc 中如何内部表示在深入研究实现时我发现 A string looks like this Rep M length basic string
Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

我正在尝试找到解决方案但无法理解我做错了什么在我的 Linux 服务器上我运行了以下命令 ssh keygen t rsa 这产生了一个id rsa and id rsa pub file 然后我将它们复制到本地并尝试运行以下代码 s
将字符串存储在 constexpr 结构中

是否可以将字符串存储在constexpr struct 到目前为止我只能想出 struct A constexpr A std string view n m name n constexpr auto name return m name
如何使用 python urllib 在 HTTP/1.1 中保持活力

现在我正在这样做 Python3 urllib url someurl headers HOST somehost Connection keep alive Accept Encoding gzip deflate opener urll
无法打开 Python。错误 0xc000007b

我最近一直在学习 Python 3 我在我的上网本 32 位 Windows 7 上创建简单的小程序没有任何问题当我将它安装在我的上网本上时我没有遇到任何问题但现在我已经开始使用它了我想将它安装在我的台式机上并且我有一个我的桌面
matplotlib matshow 标签

我一个月前开始使用 matplotlib 所以我仍在学习我正在尝试用 matshow 制作热图我的代码如下 data numpy array a reshape 4 4 cax ax matshow data interpolation
替换打字稿中字符串中字符的所有实例？

我正在尝试用 x 字符替换电子邮件中的所有句号例如电子邮件受保护 cdn cgi l email protection 将变为 myxemail emailxcom 电子邮件设置为字符串我的问题是它不只是替换句号而是替换每个字符所
获取列表中倒数第二个元素[重复]

这个问题在这里已经有答案了我可以通过以下方式获取列表的倒数第二个元素 gt gt gt lst a b c d e f gt gt gt print lst len lst 2 e 有没有比使用更好的方法print lst len lst
在可编辑的QSqlQueryModel中实现setEditStrategy

这是后续这个问题 https stackoverflow com questions 49752388 editable qtableview of complex sql query 在那里我们创建了 QSqlQueryModel 的可
为什么我用 beautifulSoup 刮的时候有桌子，但没有 pandas

尝试抓取条目页面转换为制表符分隔格式主要拉出序列和 UniProt 登录号当我跑步时 url www signalpeptide de index php sess m listspdb bacteria s details id 10
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
Django 在选择列表更改时创建毫无意义的迁移

我正在尝试使用可调用创建一个带有选择字段的模型以便 Django 在选择列表更改时不会创建迁移如中所述this https stackoverflow com questions 31788450 stop django from cr
导入错误：没有名为 google.auth 的模块

当我尝试导入时firebase admin in python 2 7我收到错误导入错误没有名为 google auth 的模块这是Docker文件 https github com ammaratef45 Attendance bl
如何通过字符串匹配加速 pandas 行过滤？

我经常需要过滤 pandas 数据框df by df df col name string value 并且我想加快行选择操作有没有快速的方法可以做到这一点例如 In 1 df mul df 3000 2000 3 reset inde
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
Python组合目录中的所有csv文件并按日期时间排序

我有 2 年的每日数据分成每月文件我想将所有这些数据合并到一个按日期和时间排序的文件中我正在使用的代码组合了所有文件但不按顺序我正在使用的代码 import pandas as pd import glob os import cs
全局变量是 None 而不是实例 - Python

我正在处理Python 中的全局变量代码应该可以正常工作但是有一个问题我必须使用全局变量作为类的实例Back 当我运行应用程序时它说 back is None 这应该不是真的因为第二行setup 功能 back Back Back
在 Python 模块中使用 InstaLoader

我正在尝试使用 Instaloader 下载与主题标签相关的照片以进行图像分析我在GitHub存储库中找到了一个全面的方法如何在终端中执行它但是我需要将脚本集成到Python笔记本中这是脚本 instaloader no vide
如何连接字符串和常量字符？

我需要将 hello world 放入c中我怎样才能做到这一点 string a hello const char b world const char C string a hello const char b world a b co
为什么 strtok 会导致分段错误？

为什么下面的代码给出了Seg 最后一行有问题吗 char m ReadName printf nRead String s n m Writes OK char token token strtok m 如前所述读取字符串打印没有问题但

随机推荐

领域数据同步不一致

我遇到一个问题每次执行相同的查询时 Realm 有时会返回不同的数据目前我正在使用 SyncAdapter 进行上传我们的想法是尝试实现离线模式因此当用户创建一个项目时它会被添加到领域数据库中我通过获取 maxId 并向其添加
实时 Admob 广告突然停止在我的应用中显示

6 月份 Admob 广告效果非常好 AdMob 向我发送了一封包含验证 PIN 码的信件以验证我的身份和付款详细信息七月初左右几乎所有实时广告都停止在我的应用程序中显示我仍然发出相同数量的请求但展示次数太低我已降至每天 0 0
将 Pandas DataFrame 转换为 JSON

我将数据存储在 pandas dataframe 中我想将 tat 转换为 JSON 格式可以使用以下代码复制示例数据 data Product A B A Zone E A A N E A start 08 00 00 09 00 0
使用 Carthage 构建时如何选择 Swift 工具链

我正在创建一个 iOS 应用程序并使用 Carthage 来构建外部库由于我目前使用的库都是 Swift 2 和 Swift 3 所以我有点紧张因此我希望拥有一个 Swift 2 分支和一个 Swift 3 分支进行开发然后在库全部
UIPopoverController 太大而 UIPickerView 太小

我有一个UIPickerView显示在a内UIPopoverController 尺寸UIPickerView are 320x216 由于某种原因 UIPickerView似乎是适当高度的 3 5 并且UIPopoverControlle
如何在 R 中对特定范围内的函数求和？

这里有三列 indx vehID LocalY 1 2 35 381 2 2 39 381 3 2 43 381 4 2 47 38 5 2 51 381 6 2 55 381 7 2 59 381 8 2 63 379 9 2 67 38
使用 ...spread，但 redux 仍然会抛出有关状态突变的警告

Redux 在调度时抛出警告 Error A state mutation was detected inside a dispatch in the path roundHistory 2 tickets Take a look at t
仅当外部文件存在时才安装

我想指示 Inno Setup 仅在某个外部文件存在时才安装该文件 Like so Source d sources SomeDLL dll DestDir app Flags external regserver uninsneverun
此操作无法完成。再试一次 (-22421)

我正在尝试上传Apple TV应用程序到应用程序商店进行测试但我遇到了问题此操作无法完成再试一次 22421 如下图所示那我能做什么呢发生这种情况是因为 Apple 的服务器可能无法正常工作请稍候或下次尝试它最终肯定会起作用
Flutter：Firebase Realtime 从对象列表中删除对象

我正在咨询数据库中注册的所有俱乐部对于每个俱乐部我都会将其添加到对象列表中当该人删除俱乐部时会从数据库中删除俱乐部但在项目列表中未删除我尝试执行以下操作我的 NotClub Player dart 类 FIREBASE CLU
如何在 NetBeans 7.0 中关闭左括号上的方法自动完成功能？

我想我打字很快因为如果我输入字符 ArrayList myArray myArray size NetBeans 自动完成将以下内容放入我的编辑器中 ArrayList myArray myArray add someVar 为什么因为
Ruby on Rails 中的多态性和形式

最近我充满了疑问但感谢这个很棒的社区我学到了很多东西我之前得到了有关多态关联所需的所有帮助现在我有一个关于使用多态模型处理表单的问题例如我有 Phoneable 和 User 因此当我创建表单来注册用户时我希望能够为用户分配一
“new Image()”和“new Option()”等构造函数的记录在哪里？

不是在 Mozilla 而是 for image 谢谢Rickard用于识别 http www w3 org html wg drafts html CR embedded content 0 html dom image它提供了 DOM
如何使用全局 CreateTheme 在 Material UI 5 的 TextField 中设置“禁用”类的样式？

我想对 TextFiled 组件进行不同的样式设置一旦禁用 true 就会概述变体在 Material ui v 4 中捕获它的方式在 Material ui v 5 中不起作用我也无法通过谷歌搜索如何自定义禁用版本的解决方案下面您
无法在 Google 应用引擎中使用 TfidfVectorizer

我正在 Google App Engine 中编写一个 python 程序该程序使用 sklearn 中的 TfidfVectorizer 计算 tf idf 我添加了 sklearn 库并导入为 from sklearn feature
Pig默认JsonLoader架构问题

我有以下需要使用 Pig 解析的数据 Data Name BBQ Chicken Sizes Size Large Price 14 99 Size Medium Price 12 99 Toppings Barbecue Sauce Ch
sklearn 中每个班级的具体测试数量/训练规模

Data import pandas as pd data pd DataFrame classes 1 1 1 2 2 2 2 b 3 4 5 6 7 8 9 c 10 11 12 13 14 15 16 My code import n
OpenXML 替换Word 文档的特定customxml 部分

我在用OpenXML SDK ver 2操作一些word文档这些文档当前有自定义 xml 部分我想要做的是专门替换这些部分的 xml 我知道我可以这样做来访问文档的 customxml 部分 Dim mainStream As New
如何在一天结束时将布尔值重置为“默认：false”？

我在数据库中有一个布尔值 t boolean completed default false I ONLY显示那些仍然false在主页上如果用户勾选了其中一项 span class glyphicon glyphicon ok span
使用 pandas 进行基于 NLTK 的文本处理

使用 nltk 时标点符号和数字小写字母不起作用 My code stopwords nltk corpus stopwords words english list string punctuation user defined st

使用 pandas 进行基于 NLTK 的文本处理

使用 pandas 进行基于 NLTK 的文本处理 的相关文章

随机推荐

热门标签

使用 pandas 进行基于 NLTK 的文本处理的相关文章