文本分析:使用 python 查找列中最常见的单词

2024-03-20

我创建了一个数据框,其中只有一个带有主题行的列。

df = activities.filter(['Subject'],axis=1)
df.shape

这返回了这个数据框:

    Subject
0   Call Out: Quadria Capital - May Lo, VP
1   Call Out: Revelstoke - Anthony Hayes (Sr Assoc...
2   Columbia Partners: WW Worked (Not Sure Will Ev...
3   Meeting, Sophie, CFO, CDC Investment
4   Prospecting

然后我尝试用以下代码分析文本:

import nltk
top_N = 50
txt = df.Subject.str.lower().str.replace(r'\|', ' ')
words = nltk.tokenize.word_tokenize(txt)
word_dist = nltk.FreqDist(words)

stopwords = nltk.corpus.stopwords.words('english')
words_except_stop_dist = nltk.FreqDist(w for w in words if w not in stopwords) 

rslt = pd.DataFrame(word_dist.most_common(top_N), columns=['Word', 'Frequency'])
print(rslt)

我收到的错误消息是:“系列”对象没有属性“主题”


抛出错误是因为您已转换df到这一行的一个系列:

df = activities.filter(['Subject'],axis=1)

所以当你说:

txt = df.Subject.str.lower().str.replace(r'\|', ' ')

df 是系列,没有系列属性。尝试替换为:

txt = df.str.lower().str.replace(r'\|', ' ')

或者,不要将您的 DataFrame 过滤为单个 Series 之前和之后

txt = df.Subject.str.lower().str.replace(r'\|', ' ')

应该管用。

[UPDATE]

我上面所说的是不正确的,正如所指出的那样,过滤器不会返回 Series,而是返回具有单列的 DataFrame。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

文本分析:使用 python 查找列中最常见的单词 的相关文章

随机推荐

  • 如何在 PostgreSQL 查询中显示行号?

    我想显示 PostgreSQL 查询返回的每条记录的观察数 我认为 8 4 窗口函数可以执行此功能 select row number over order by
  • 通过 Windows API 解码 PKCS#7 签名?

    我希望解析并显示从 Window PE 二进制文件的安全目录中提取的 Authenticode PKCS 7 签名的内容 我可以使用 OpenSSL 在命令行上执行此操作 openssl pkcs7 text in extracted si
  • Java 1.6 中的 Try-with-resources 等效项

    我有以下代码 public class Main public static void main String args throws SQLException try Connection conn DBUtil getConnectio
  • React 中的 setInterval 和 setState

    我有一个计时器使用setInterval 在 React 组件中 我不确定启动和停止此间隔的最佳实践是什么state 我遇到了一些异步问题 假设我的 React 组件中有一组链接可以很好地渲染和执行回调 let links 10 50 10
  • “无法读取未定义的属性‘加载’”

    我正在尝试遵循this https developers google com identity sign in web devconsole project与 Google 登录集成的文档 尽管我在控制台中遇到了此错误 Uncaught
  • async/await forEach 和 Promise.all + map 有什么区别

    In 类似问题的接受答案 https stackoverflow com a 37576787 12458473答案指出forEach调用只是抛出一个承诺然后退出 我认为情况应该是这样forEach回报undefined但是为什么下面的代码
  • atexit 被认为有害吗?

    使用是否存在固有的危险atexit在图书馆等大型项目中 如果是这样 背后的技术本质是什么 atexit这可能会导致大型项目出现问题 我避免使用的主要原因atexit在图书馆中 它的任何使用都涉及全局状态 一个好的库应该避免拥有全局状态 然而
  • 在 vue 组件的模板 html 中启用智能感知需要什么?

    我对 Vue 比较陌生 但精通 Typescript 和 Angular 我目前正在走打字稿路线 使用vue 类组件 https github com vuejs vue class component and vue 属性装饰器 http
  • 无法访问 Django 服务器 http://127.0.0.1:8000/

    第一次它工作得很好 但现在显示了这个问题 app python manage py runserver Performing system checks System check identified no issues 0 silence
  • 更改路线不会滚动到新页面的顶部

    当路线改变时 我发现了一些不受欢迎的行为 至少对我来说是这样 在教程的第11步中http angular github io angular phonecat step 11 app phones http angular github i
  • 如何将双精度值和浮点值插入到sqlite中?

    以下是我的数据库创建代码 Override public void onCreate SQLiteDatabase db db execSQL CREATE TABLE TABLE NAME ID INTEGER PRIMARY KEY A
  • 打开跟踪文件时出错:没有这样的文件或目录 (2)

    我收到上述错误 打开跟踪文件时出错 没有这样的文件或目录 2 当我在模拟器上运行我的 Android 应用程序时 有人能告诉我这可能是什么原因吗 我正在使用 android sdk 20 并将以下行添加到 AndroidManifest x
  • 未捕获的 ReferenceError:ReactDOM 未定义

    所以我有Rails应用程序 我安装了react rails gem 设置它并尝试运行测试应用程序 刚安装好后 当我尝试运行 hello world 程序时 发生了以下错误 未捕获的 ReferenceError ReactDOM 未定义 这
  • C#,WinForms 中的双缓冲区?

    private void button3 Click object sender EventArgs e this DoubleBuffered true for int i 0 i lt 350 i using Graphics g th
  • 如何解析 gridstack.js 项目?

    也许这很简单 但我仍在学习 JS 之类的东西 我正在使用插件https github com troolee gridstack js https github com troolee gridstack js并希望在小部件重新定位 调整大
  • Android:购买后使用产品(应用内计费)

    我在应用程序计费方面遇到一些问题 我想在应用程序内创建一个可以多次购买的产品 但谷歌在应用程序内计费的方式是 产品必须先被消费 然后才能再次购买 我用下面的代码尝试过 public class HomeFragment extends Fr
  • 使用 SonarQube Web api 分析项目

    我使用 SonarQube Web api 创建了一个项目 现在我正在尝试分析该项目 我找到了这个 POST api project analyses create event 当我尝试这项服务时 我得到了这样的回复 errors msg
  • jQuery html() 和 &

    我正在人员列表中进行搜索 我希望它能够即时显示结果 所以它确实做到了 但我需要一个链接 它应该如下所示 chatid 18 userid 45 create new 但通过此显示结果后 get ajax php sec search use
  • 经过身份验证后访问 [Authorize] 控制器时收到 404

    我正在尝试在 ASP NET MVC Core 应用程序 NetCore 2 上使用 IdentityServer4 实现身份验证和访问控制 虽然这不是我第一次实现后端 但这是第一次使用 net 并且我正在努力解决一些问题 我已按照以下说明
  • 文本分析:使用 python 查找列中最常见的单词

    我创建了一个数据框 其中只有一个带有主题行的列 df activities filter Subject axis 1 df shape 这返回了这个数据框 Subject 0 Call Out Quadria Capital May Lo