Python--使用jieba进行分词并计算词权重

2023-05-16

import jieba
import xlrd
import jieba.analyse

def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords

def fenci(content):
    table = content.sheets()[0]
    nrows = table.nrows#获取行数
    row1=1
    cell=""
    final = ""
    while row1<nrows:
        cell = table.cell(row1,0).value
        fenci=jieba.cut(cell)

        for seg in fenci:

            if seg not in stopwords and len(seg)>0:
                final+=seg+" "
                final+=""
        final+='\n'
        # print(row1,final)
        row1 += 1

    return final

jieba.load_userdict("C:\\Users\\Administrator\\Desktop\\userdic.txt")#导入自定义词典，自定义词典编码方式为UTF-8
stopwords=stopwordslist("C:\\Users\\Administrator\\Desktop\\stop.txt")#导入停止词典

content=xlrd.open_workbook("C:\\Users\\Administrator\\Desktop\\zhaopin_data.xlsx")#导入数据
final=fenci(content)
# print(final)

keywords = jieba.analyse.extract_tags(final,topK=200,withWeight=True,allowPOS=())
# print(keywords)
for item in keywords:
    # if item[0] in ("SQL","Python","SAS"):
        print(item[0], item[1])  # 输出关键词和相应的权重


#可根据输出的topK词语，再挑选一些加入停止词典中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

jieba

进行分词并计算词权重

Python--使用jieba进行分词并计算词权重的相关文章

用于在 Windows 中自动执行桌面活动的 Python 代码

我想使用 Python 在 Windows 环境中自动化桌面活动怎样才能做到呢一些例子也会有帮助我所说的桌面活动是指控制鼠标和键盘访问活动窗口属性双击桌面上的图标最小化和最大化窗口通过键盘向输入弹出窗口输入数据等操作看一下S
Python3 http.server：将日志保存到文件中

我使用Python3 6编写了一个简单的HTTP服务器来重定向所有请求我写的文件可以找到here https github com kmahyyg learn py3 blob master antiscanhttp py 我可以在 Ub
如何阻止 Django 中发生级联删除？

我的 Django 应用程序中有三个模型类 class Folder models Model folder models ForeignKey Folder null True blank True related name folder
有没有办法清理 jinja2 生成的 html？

我们使用 jinja2 来创建 html 但是由于我们在 jinja 中执行许多循环和其他操作来生成 html 所以 html 看起来很丑注意这只是为了美观我们可以做些什么来清理 html 吗除了清理我们的 jinja2 代码之
当图例位于轴之外时选择 matplotlib 图例

当我修改 legend picking py 示例时我遇到了一个有趣的怪癖其中图例位于轴之外如下所示 leg ax legend loc upper left fancybox True shadow True leg ax lege
QTextEdit.find() 在 Python 中不起作用

演示问题的简单代码 usr bin env python import sys from PyQt4 QtCore import QObject SIGNAL from PyQt4 QtGui import QApplication QTe
如何使用scrapy抓取xml url

你好我正在使用 scrapy 来抓取 xml url 假设下面是我的 Spider py 代码 class TestSpider BaseSpider name test allowed domains www example com s
使用 Python-AppKit-Objective C 转换为预组合 Unicode 字符串

苹果公司的这份文件技术问答 QA1235 http developer apple com qa qa2001 qa1235 html描述了一种将 unicode 字符串从组合版本转换为分解版本的方法由于我对包含某些字符例如重音符号的
Scrapy 未通过请求回调从项目中的已抓取链接返回附加信息

基本上下面的代码会抓取表格的前 5 项其中一个字段是另一个 href 单击该 href 会提供更多信息我想收集这些信息并将其添加到原始项目中所以parse应该将半填充的项目传递给parse next page然后刮掉下一位并返回完成
SQLAlchemy+pymysql 错误：sqlalchemy.util.queue.Empty

尝试使用 Eclispse 在 Ubuntu 上运行 Python 2 SQLAlchemy 0 8 和 MySQL5 2 但我不断收到以下错误我使用 pymysql 实际上是 pymysql3 引擎模块监视器 from sqlalch
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
python 中的子进程调用以使用 JAVA_OPTS 调用 java jar 文件

示例代码 import subprocess subprocess call java jar temp jar 如何在上面的命令中指定JAVA OPTS 当我使用上述命令时我收到 java lang OutOfMemoryError 无
self.assertRaises 作为上下文管理器，但 msg 参数未按预期工作

请检查以下代码 import unittest CORRECT MESSAGE Correct message WRONG MESSAGE Wrong message def fn raise KeyError CORRECT MESSAG
构建一个简单的解析器，能够使用 PyParse 解析不同的日期格式

我正在构建一个简单的解析器它接受如下查询显示 fizi 从 2010 年 1 月 1 日到 2006 年 2 月 11 日的提交到目前为止我有 class QueryParser object def parser self stmn
通过Python通过蓝牙发送消息或数据

如何通过 python 通过蓝牙发送消息而无需输入数字等密钥身份验证我用过 pybluez 但我收到了这个错误 File send line 12 in
Jupyter 笔记本中未显示绘图

我正在尝试为 Anscombe 数据集创建 2x2 图加载数据集并分离数据集中的每个类 import seaborn as sns import matplotlib pyplot as plt anscombe sns load dat
Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
为什么类型提示“float”接受“int”，而它甚至不是子类？

一方面我了解到数字可以int or float应将类型注释为float 来源 PEP 484 类型提示 https www python org dev peps pep 0484 the numeric tower and 这个计算器问
无法编辑，但可以在 Django 管理中添加新的内联

这是我的模型 class Note note models TextField null False blank False editable True user models ForeignKey to User null True bl
类型提示：解决循环依赖

以下产生NameError name Client is not defined 我该如何解决 class Server def register client self client Client pass class Client de

随机推荐

postgresql时间戳与时间的转换

日期转时间戳 span class token keyword select span EXTRACT span class token punctuation span epoch span class token keyword FRO
python xml文件解析

1 解析 1 1 解析方式 Python 有三种 XML 解析方式 xff1a SAX xff08 simple API for XML xff09 DOM xff08 Document Object Model xff09 Element
python输出列表去掉中括号

可以使用 join的方法进行输出 xff0c 因为 join处理的是字符串 xff0c 所以需要进行类型转换 list1 span class token operator 61 span span class token punctuat
postgresql取出分组的第一条数据

span class token comment 根据编号分组后取第一条数据 span span class token keyword SELECT span span class token operator span span cla
git 清空本地修改

span class token function git span checkout span class token keyword span span class token comment 本地所有修改的没有的提交的 xff0c
关于Ubuntu卸载Python导致的终端没了

解决方式 sudo upgrade fix missing sudo apt install ubuntu desktop
elasticsearch wildcard查询取消大小写

https stackoverflow com questions 51107349 elasticsearch wildcard case sensitive 添加case insensitive 参数即可 GET test 005 se
window VNC Viewer设置屏幕分配率

问题 xff1a 远程时 xff0c 显示的界面不会跟着本机屏幕大小而自动调节 xff0c 导致无法在页面中完全显示屏幕的内容解决1 xff1a 打开VNC Viewer xff0c 选择Options xff0c 在Scale to w
.net core 中使用MongoDB

https www thecodebuzz com exception filters in net core https www mongodb com docs drivers csharp https www mongodb com
使用代理下载国外源registry.k8s.io镜像，并传到docker hub私有镜像库

日常的生产开发中 xff0c 免不了从国外拉取镜像 xff0c 但有个问题 xff0c 我们可能访问不到那个镜像源 xff0c 因此需要使用代理 https labs play with docker com 具体步骤使用docker h
python 操作neo4j

安装依赖包 pip span class token function install span neo4j 使用 span class token keyword class span span class token class nam
neo4j获取不同维度关联关系

插入数据 CREATE span class token punctuation span 小北朋友圈 span class token punctuation span 姓名 span class token string 34 小北
neo4j结合gds实现最短路径算法

背景 xff1a Neo4j自带的cypher语句中的 shortestpath allShortestPaths 返回值内容非常有限 xff0c 不易处理在实际生产环境中可用性极低 xff0c 且若带where条件查询时 xff0c 查
C#解决中文乱码

字符串乱码可以使用Regex Unescape函数解决字符串写入文件乱码使用File AppendAllText 或者File WriteAllText path string Encoding ASCII
JS中的异步详解

一 xff1a 异步是什么 xff1f 同步和异步是两种模式 34 同步模式 34 就是指后一个任务等待前一个任务结束 xff0c 然后再执行 xff0c 程序的执行顺序与任务的排列顺序是一致的同步的 34 异步模式 34 则完全不同 x
C语言截取某个字符之前的字符串

uint32 size 61 0 int p char str 61 34 fadhjkfhadl fhdjfkhla dfjkadlf 34 char str2 61 34 34 p 61 0 for int k 61 0 strlen
Xlib: extension “XInputExtension“ missing on display “:1.0“

ubuntu 安装vscode之后点击生成的图标无法打开 xff08 没有图标记得重启 xff09 xff0c 建议在安装地址直接打开可以看到报错信息如果是root用户 xff0c 可能需要 no sandbox参数才能启动继续执行 c
matlab的帮助文档切换成中文（求助贴）

Matlab的帮助文档切换成中文 xff08 求助贴 xff09 题主的matlab版本 xff1a 2018a 系统win10 问题描述 xff1a 当使用matlab时 xff0c 有时需要使用help 语句查看一些关键字的用法 xff
Android使用Google Breakpad进行崩溃日志管理

开发过程中 xff0c 最担心的问题就是程序崩溃 xff0c 而且还不知道崩溃的原因 xff0c 现在使用Google Breakpad来跟踪崩溃的位置 xff0c 非常方便 xff1b 由于目前使用Mac系统开发 xff0c Google
Python--使用jieba进行分词并计算词权重

span class token keyword import span jieba span class token keyword import span xlrd span class token keyword import spa

Python--使用jieba进行分词并计算词权重

Python--使用jieba进行分词并计算词权重 的相关文章

随机推荐

热门标签

Python--使用jieba进行分词并计算词权重的相关文章