python处理excel词频统计

2023-10-27

import pandas as pd
import jieba
from collections import Counter

# 读取 Excel 文件
df = pd.read_excel('your_excel_file.xlsx')

# 定义函数用于分词和统计词频
def word_freq(content):
    # 对文章内容进行分词
    words = jieba.cut(content)
    # 统计词频
    return Counter(words)

# 创建新的数据框
new_df = pd.DataFrame(columns=['主题', '词语', '词频'])

# 遍历每个主题
for topic in df['type'].unique():
    # 筛选符合条件的行,并将文章内容合并为一个字符串
    temp_df = df[df['type']==topic]
    content = ''.join(temp_df['art_content'].tolist())
    # 进行分词和统计词频
    freq = word_freq(content)
    # 将统计结果写入新数据框
    for word, count in freq.items():
        new_df = new_df.append({
            '主题': topic,
            '词语': word,
            '词频': count
        }, ignore_index=True)

# 将新数据框存储到 Excel 文件中
new_df.to_excel('new_excel_file.xlsx', index=False)

定义了一个函数 word_freq() 用于对文章内容进行分词和统计词频。然后,我们遍历每个主题,筛选符合条件的行,并将文章内容合并为一个字符串。接着,将文章内容传递给 word_freq() 函数进行分词和统计词频,并将统计结果写入新数据框。最后,将新数据框存储到 Excel 文件中。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python处理excel词频统计 的相关文章

  • 如何显示 matplotlib 饼图中的实际值

    我有一个饼图 绘制从 CSV 文件中提取的值 当前显示值的比例 百分比显示为 autopct 1 1f 有没有办法显示每个切片的数据集中表示的实际值 Pie for Life Expectancy in Boroughs import pa
  • 使用 NaN 计算 numpy 数组中的移动平均值

    我正在尝试计算包含 NaN 的大型 numpy 数组中的移动平均值 目前我正在使用 import numpy as np def moving average a n 5 ret np cumsum a dtype float ret n
  • Flask:缓存静态文件(.js、.css)

    我真的找不到任何这方面的资源 那么如何将视图 函数的缓存与静态文件 即 css js 分开 我想将静态对象缓存一周 另一方面 我只需要缓存函数 视图几分钟 当我执行以下操作时 from flask ext cache import Cach
  • 删除 python vaex 中的重复行

    我正在使用 python vaex 但我不知道如何删除数据框中的重复行 例如 在 pandas 中存在以下方法drop duplicates vaex中有没有类似的功能 似乎还没有 但我们应该在某个时候期待这个功能 其间 有vaex创始人的
  • 如何在 Python 中获得两个变量的逻辑异或?

    你如何获得逻辑异或 http en wikipedia org wiki Exclusive orPython 中的两个变量 例如 我有两个希望是字符串的变量 我想测试其中只有一个包含 True 值 不是 None 或空字符串 str1 r
  • 提高 pytesseract 从图像中正确识别文本的能力

    我正在尝试使用读取验证码pytesseract模块 大多数时候它都能提供准确的文本 但并非总是如此 这是读取图像 操作图像以及从图像中提取文本的代码 import cv2 import numpy as np import pytesser
  • @monthly cron 作业不可靠

    我们的客户希望我们每月创建一份报告 过去 我们使用 monthly cron 作业来完成此任务 但这并不可靠 服务器可能会在这一分钟内宕机 Cron 不会重新运行这些作业 如果服务器已启动 此时数据库可能无法访问 如果服务器已启动且数据库已
  • Ttk Treeview:跟踪键盘选择

    这是一个带有 ttk 树视图的 Tk 小部件 当用户单击该行时 会执行某些功能 此处仅打印项目文本 我需要的是以下内容 最初的重点是文本输入 当用户按下 Tab 键时 焦点应该转到第一行 并且应该执行绑定到 Click 事件的函数 当用户使
  • 使用 theano 进行多处理

    我正在尝试将 theano 与 cpu 多处理和神经网络库 Keras 结合使用 I use device gpu标记并加载 keras 模型 然后 为了提取超过一百万张图像的特征 我使用多处理池 该函数看起来像这样 from keras
  • 如何从字典列表中查找键的值?

    如何从字典列表中获取给定键的值 mylist powerpoint color blue client name Sport Parents Regrouped sort order ascending chart layout 1 cha
  • 包含可变数据的正则表达式 - ply.lex

    我正在使用 python 模块ply lex编写一个词法分析器 我用正则表达式指定了一些标记 但现在我卡住了 我有一个list of Keywords谁应该是token data是一个包含大约 1000 个关键字的列表 这些关键字都应该被识
  • cx_freeze:QODBC 驱动程序未加载

    我的 python 应用程序如下所示 test py from PyQt4 import QtCore from PyQt4 import QtGui from PyQt4 import QtSql import sys import at
  • 使用 Python gdata 和 oAuth 2 对日历进行身份验证

    我正在将一个 Python 应用程序从 oAuth 1 迁移到 oAuth 2 该应用程序读取用户的 Google 日历提要 使用 oAuth 1 如果用户可以使用他的 GMail 进行身份验证 我的应用程序将打开浏览器 帐户并授权访问 我
  • 默认可变参数的惯用方式

    在 python 中 如果直接将可变类型设置为默认参数 则会出现众所周知的边缘情况 def foo x return x y foo y append 1 print foo 通常的解决方法是将参数默认为None然后将其放入体内 然而 有
  • Python docker 容器在完成运行应用程序后立即关闭,即使指定保留在 -d -t 中

    我有一个 dockerfile FROM python 3 WORKDIR app ADD venv venv ADD data file1 csv gz data file1 csv gz ADD data file2 csv gz da
  • 在 Mac OS x 10.7.5 中运行 Scrapy 所需的文件,使用 Python 2.7.3 IEPD_free(32 位)

    我是第一次测试 scrapy 使用命令安装后 sudo easy install U scrapy 一切似乎都运行正常 但是 当我运行时 scrapy startproject tutorial 我得到以下信息 luismacbookpro
  • 为什么 Python 布尔值占用超过一个字节?

    显然 Python 中整数占用 24 个字节 我可以理解 它这样做是因为代表无限数字的额外花哨 然而 布尔数据类型看起来也花费了高达 24 个字节 尽管它只能表示两个可能值之一 为什么 除了 1 位表示之外 还可能需要存储哪些额外数据Tru
  • 有没有办法只从 python 列表中输出数字?

    简单的问题 list 1 asdada 1 123131 131 blaa adaraerada 0 000001 34 12451235265 stackoverflow is awesome 我想创建一个list 2这样它只包含数字 l
  • Python:ConfigParser.NoSectionError:没有部分:“TestInformation”

    我使用上面的代码收到 ConfigParser NoSectionError No section TestInformation 错误 def LoadTestInformation self config ConfigParser Co
  • Pandas:根据是否为 ​​NaN 来移动列

    我有一个像这样的数据框 phone number 1 clean phone number 2 clean phone number 3 clean NaN NaN 8546987 8316589 8751369 NaN 4569874 N

随机推荐

  • LDO基础知识:噪声 - 降噪引脚如何提高系统性能

    使用低压降稳压器 LDO 来过滤开关模式电源产生的纹波电压并不是实现清洁直流电源的唯一考虑因素 由于 LDO 是电子器件 因此它们会自行产生一定量的噪声 选择低噪声 LDO 并采取措施来降低内部噪声对于生成不会影响系统性能的清洁电源轨而言不
  • PYQT的最新界面代码

    This Python file uses the following encoding utf 8 import sqlite3 import traceback from PyQt5 QtGui import QMouseEvent Q
  • springboot入门简单使用

    springboot入门简单使用 1 SpringBoot项目创建并配置mysql数据库 创建项目 编写Controller测试 配置数据库 2 SpringBoot集成mybatis plus 初始化数据库 安装mybatis plus
  • 使用 imshow() 绘制矩阵

    使用 imshow 绘制矩阵 基础的展示效果 import matplotlib pyplot as plt import numpy as np mat np arange 0 100 reshape 10 10 plt imshow m
  • linux文件编程(4)—— 用ANSIC标准C库函数进行文件编程:fopen、fread、fwrite、fseek

    参考 linux文件编程 5 用ANSIC标准中的C库函数进行文件编程 作者 丶PURSUING 发布时间 2021 04 11 11 58 25 网址 https blog csdn net weixin 44742824 article
  • 深度优先搜索的框架

    深度优先搜索 最少分支找到答案 一 准备 1 节点间的relationship 2 列表lst 存放遍历结果 3 集合set 去重 二 结构 函数递归 def dfs root 1 首先判断根节点是否为空节点 if root is None
  • Python学习笔记-Python 变量类型

    变量是存储在内存中的值 这就意味着在创建变量时会在内存中开辟一个空间 变量赋值 Python 中的变量赋值不需要类型声明 每个变量在使用前都必须赋值 变量赋值以后该变量才会被创建 等号 用来给变量赋值 等号 运算符左边是一个变量名 等号 运
  • 【解决问题】mybatis-plus想要修改某字段为null问题

    背景 最近将框架的mybits换为mybits plus 然后在调用updateById时候 想让某个字段修改null 一直失败 问题 mybits plus调用updateById时候 想让某个字段修改null 一直失败 问题原因 myb
  • 2022最新个人所得税计算(附代码)

    相信大家一定很在意下面的三个问题 个人所得税怎么计算 年终奖如何扣税 五险一金如何计算 通过这篇文章 我们用实际例子来计算我们需要交的税 一 个人所得税怎么计算 第一步 计算全年收入 年终奖除外 做个假设 比如 博主上班后 开的工资是30k
  • React + antd +DatePicker组件禁用小于当下时间之前的时间,包括时,分

    一 DatePicker组件的设置 showTime设置时间只显示时 分 不显示秒 disabledDate函数 设置日期的禁用 disabledTime函数 设置时间的禁用
  • Centos 8 安装向日葵(sunloginclient-10.0.0-1)

    1 去官网下载最新的安装包 下载地址 2 准备安装 下面的问题可能遇到 但愿你们遇不到 如果没遇到问题 直接 rpm ivh sunloginclient 10 0 1 24347 amd64 rpm root yaco ls opt to
  • JavaScript中对象的简单使用实例(String、Math、Date、Array)

    String对象使用 JavaScript中的字符串对象 和字符串的常用方法 var s string 查看目标字符串是否可以匹配一个字符串 如果可以 则返回该字符串 否则返回空 alert s match str 返回字符出现的位置 al
  • 【设计模式】观察者模式

    观察者模式是一种行为型设计模式 它定义了一种一对多的依赖关系 当一个对象的状态发生改变时 其所有依赖者都会收到通知并自动更新 当对象间存在一对多关系时 则使用观察者模式 Observer Pattern 比如 当一个对象被修改时 则会自动通
  • vite项目 router/indext.ts 中引入 views/**/*.vue 页面后报错的解决方法

    报错现象 view 文件夹下新建文件夹 新建的文件夹下新建view页面 路由文件中引入views vue 页面时出现了报错 报错现象如下 解决方法 在 tsconfig app json 文件中添加 src vue 注意 添加保存后报错可能
  • uniapp 动态修改 tabbar 的高度

    项目中使用了原生的tabbar tabbar的修改提供了两个API 看了 html5 plus的文档 没有看到可以修改tabbar的部分
  • js正则表达式去除空行

    表单文本域中的内容可能有时候会存在空行 但我们保存时并不想要多余的空行 所以要想办法去掉它 只需要一个简单的正则表达式即可 n n n n
  • (易懂)Mybatis中${}和#{}的区别和使用注意

    目录 一 区别 1 使用字符串拼接的方式拼接sql 如果数据是字符串类型或日期 我们需要手动加引号 而 会自动加上引号 2 安全 不安全 容易造成sql注入 sql注入就是改变sql的语法规则 进行sql命令攻击 3 是经过预编译的 是安全
  • 不重叠且分布均匀的气泡图解决方案(基于echarts)

    气泡图是数据可视化需求中的一种常见图表形式 然而截至目前 像echarts d3 higncharts都还没有直接提供一个配置来完成不重叠且分布均匀的气泡图这项工作 幸运的是 我们可以通过配置echart的关系图来完成我们的气泡图需求 下面
  • 整体最小二乘拟合平面

    目录 1 算法过程 2 参考文献 3 算法伪码 4 算法效果 本文由CSDN点云侠原创 原文链接 1 算法过程 最小二乘拟合平面认为点云数据系数矩阵不存在误差 然而由于观测条件的限制 观测向量 系数矩阵都有可能存在误差 那么最小二乘方法就不
  • python处理excel词频统计

    import pandas as pd import jieba from collections import Counter 读取 Excel 文件 df pd read excel your excel file xlsx 定义函数用