文本分析：使用 python 查找列中最常见的单词

2024-03-20

我创建了一个数据框，其中只有一个带有主题行的列。

df = activities.filter(['Subject'],axis=1)
df.shape

这返回了这个数据框：

    Subject
0   Call Out: Quadria Capital - May Lo, VP
1   Call Out: Revelstoke - Anthony Hayes (Sr Assoc...
2   Columbia Partners: WW Worked (Not Sure Will Ev...
3   Meeting, Sophie, CFO, CDC Investment
4   Prospecting

然后我尝试用以下代码分析文本：

import nltk
top_N = 50
txt = df.Subject.str.lower().str.replace(r'\|', ' ')
words = nltk.tokenize.word_tokenize(txt)
word_dist = nltk.FreqDist(words)

stopwords = nltk.corpus.stopwords.words('english')
words_except_stop_dist = nltk.FreqDist(w for w in words if w not in stopwords) 

rslt = pd.DataFrame(word_dist.most_common(top_N), columns=['Word', 'Frequency'])
print(rslt)

我收到的错误消息是：“系列”对象没有属性“主题”

抛出错误是因为您已转换df到这一行的一个系列：

df = activities.filter(['Subject'],axis=1)

所以当你说：

txt = df.Subject.str.lower().str.replace(r'\|', ' ')

df 是系列，没有系列属性。尝试替换为：

txt = df.str.lower().str.replace(r'\|', ' ')

或者，不要将您的 DataFrame 过滤为单个 Series 之前和之后

txt = df.Subject.str.lower().str.replace(r'\|', ' ')

应该管用。

[UPDATE]

我上面所说的是不正确的，正如所指出的那样，过滤器不会返回 Series，而是返回具有单列的 DataFrame。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

文本分析：使用 python 查找列中最常见的单词的相关文章

Kivy - 文本换行工作错误

我正在尝试在 Kivy 1 8 0 应用程序中换行文本当没有太多文字时一切正常但如果文本很长并且窗口不是很大它只是剪切文本这是示例代码 vbox BoxLayout orientation vertical size hint y
boto3 资源（例如 DynamoDB.Table）的类型注释

The boto3库提供了几种返回资源的工厂方法例如 dynamo boto3 resource dynamodb Table os environ DYNAMODB TABLE 我想注释这些资源以便我可以获得更好的类型检查和完成但我
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
乘以行并按单元格值附加到数据框

考虑以下数据框 df pd DataFrame X a b c d Y a b d e Z a b c d 1 2 1 3 df 我想在列中附加数字大于 1 的行并在该行中的数字减 1 df 最好应该然后看起来像这样或者它可能看起来
如何使用 paramiko 查看（日志）文件传输进度？

我正在使用 Paramiko 的 SFTPClient 在主机之间传输文件我希望我的脚本打印文件传输进度类似于使用 scp 看到的输出 scp my file user host user host password my file 1
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
Python 类型安全吗？

根据维基百科 https en wikipedia org wiki Type system Type safety and memory safety 如果一种语言不允许违反类型系统规则的操作或转换计算机科学家就认为该语言是类型安全的
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
是否可以将 pd.Series 分配给无序 pd.DataFrame 中的列而不映射到索引（即不重新排序值）？

在 Pandas 中创建或分配新列时我发现了一些意外的行为当我对 pd DataFrame 进行过滤或排序从而混合索引然后从 pd Series 创建新列时 Pandas 会重新排序该系列以映射到 DataFrame 索引例如 d
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

如何在 PostgreSQL 查询中显示行号？

我想显示 PostgreSQL 查询返回的每条记录的观察数我认为 8 4 窗口函数可以执行此功能 select row number over order by
通过 Windows API 解码 PKCS#7 签名？

我希望解析并显示从 Window PE 二进制文件的安全目录中提取的 Authenticode PKCS 7 签名的内容我可以使用 OpenSSL 在命令行上执行此操作 openssl pkcs7 text in extracted si
Java 1.6 中的 Try-with-resources 等效项

我有以下代码 public class Main public static void main String args throws SQLException try Connection conn DBUtil getConnectio
React 中的 setInterval 和 setState

我有一个计时器使用setInterval 在 React 组件中我不确定启动和停止此间隔的最佳实践是什么state 我遇到了一些异步问题假设我的 React 组件中有一组链接可以很好地渲染和执行回调 let links 10 50 10
“无法读取未定义的属性‘加载’”

我正在尝试遵循this https developers google com identity sign in web devconsole project与 Google 登录集成的文档尽管我在控制台中遇到了此错误 Uncaught
async/await forEach 和 Promise.all + map 有什么区别

In 类似问题的接受答案 https stackoverflow com a 37576787 12458473答案指出forEach调用只是抛出一个承诺然后退出我认为情况应该是这样forEach回报undefined但是为什么下面的代码
atexit 被认为有害吗？

使用是否存在固有的危险atexit在图书馆等大型项目中如果是这样背后的技术本质是什么 atexit这可能会导致大型项目出现问题我避免使用的主要原因atexit在图书馆中它的任何使用都涉及全局状态一个好的库应该避免拥有全局状态然而
在 vue 组件的模板 html 中启用智能感知需要什么？

我对 Vue 比较陌生但精通 Typescript 和 Angular 我目前正在走打字稿路线使用vue 类组件 https github com vuejs vue class component and vue 属性装饰器 http
无法访问 Django 服务器 http://127.0.0.1:8000/

第一次它工作得很好但现在显示了这个问题 app python manage py runserver Performing system checks System check identified no issues 0 silence
更改路线不会滚动到新页面的顶部

当路线改变时我发现了一些不受欢迎的行为至少对我来说是这样在教程的第11步中http angular github io angular phonecat step 11 app phones http angular github i
如何将双精度值和浮点值插入到sqlite中？

以下是我的数据库创建代码 Override public void onCreate SQLiteDatabase db db execSQL CREATE TABLE TABLE NAME ID INTEGER PRIMARY KEY A
打开跟踪文件时出错：没有这样的文件或目录 (2)

我收到上述错误打开跟踪文件时出错没有这样的文件或目录 2 当我在模拟器上运行我的 Android 应用程序时有人能告诉我这可能是什么原因吗我正在使用 android sdk 20 并将以下行添加到 AndroidManifest x
未捕获的 ReferenceError：ReactDOM 未定义

所以我有Rails应用程序我安装了react rails gem 设置它并尝试运行测试应用程序刚安装好后当我尝试运行 hello world 程序时发生了以下错误未捕获的 ReferenceError ReactDOM 未定义这
C#，WinForms 中的双缓冲区？

private void button3 Click object sender EventArgs e this DoubleBuffered true for int i 0 i lt 350 i using Graphics g th
如何解析 gridstack.js 项目？

也许这很简单但我仍在学习 JS 之类的东西我正在使用插件https github com troolee gridstack js https github com troolee gridstack js并希望在小部件重新定位调整大
Android：购买后使用产品（应用内计费）

我在应用程序计费方面遇到一些问题我想在应用程序内创建一个可以多次购买的产品但谷歌在应用程序内计费的方式是产品必须先被消费然后才能再次购买我用下面的代码尝试过 public class HomeFragment extends Fr
使用 SonarQube Web api 分析项目

我使用 SonarQube Web api 创建了一个项目现在我正在尝试分析该项目我找到了这个 POST api project analyses create event 当我尝试这项服务时我得到了这样的回复 errors msg
jQuery html() 和 &

我正在人员列表中进行搜索我希望它能够即时显示结果所以它确实做到了但我需要一个链接它应该如下所示 chatid 18 userid 45 create new 但通过此显示结果后 get ajax php sec search use
经过身份验证后访问 [Authorize] 控制器时收到 404

我正在尝试在 ASP NET MVC Core 应用程序 NetCore 2 上使用 IdentityServer4 实现身份验证和访问控制虽然这不是我第一次实现后端但这是第一次使用 net 并且我正在努力解决一些问题我已按照以下说明
文本分析：使用 python 查找列中最常见的单词

我创建了一个数据框其中只有一个带有主题行的列 df activities filter Subject axis 1 df shape 这返回了这个数据框 Subject 0 Call Out Quadria Capital May Lo

文本分析：使用 python 查找列中最常见的单词

文本分析：使用 python 查找列中最常见的单词 的相关文章

随机推荐

热门标签

文本分析：使用 python 查找列中最常见的单词的相关文章