接单日记（三）文本处理之词云生成

2023-11-18

文章目录

接单日记（三）文本处理之词云生成

接单日记（三）文本处理之词云生成

此为一个实验报告，故遵守实验报告的格式。

一、实验目的

熟悉Python第三方库python-docx、wordcloud、jieba库的安装和使用
熟悉使用pathlib来获取文件
熟悉运用Python封装的思想
熟悉使用join方法对字符串进行拼接操作
了解字符串的utf-8的编码格式

二、实验内容

编写一个程序，提取词库里面的所有内容，对其进行分词操作，同时进行词频统计，停用词清洗的操作，最后输出图云到result.jpg中。

三、程序及结果

1、运行程序

from docx import Document
from pathlib import Path
from wordcloud import WordCloud
import jieba

font = Path(r"C:\Windows\Fonts\simfang.ttf")
word_dataset = Path("词库.docx")
stop_word = Path("stoplist.txt")


def get_stop_list(stop_word):
    with open(stop_word, "r", encoding="utf-8") as f:
        return set(f.read().split())


def handle_word_dataset(word_dataset):
    str_ = ""
    for j in Document(word_dataset).paragraphs:
        str_ += j.text

    return [w for w in jieba.cut(str_)]

wc = WordCloud(
    font_path=str(font),
    stopwords=get_stop_list(stop_word),
    width=1920,
    height=1080,
    background_color="white",
    max_words=1000,
).generate(" ".join(handle_word_dataset(word_dataset)))
wc.to_file(Path("result.jpg"))

2、运行结果

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

服务器

Java

运维

接单日记（三）文本处理之词云生成的相关文章

正在使用 PIL 保存损坏的图像

我遇到一个问题操作图像像素导致保存损坏的图像因此我使用 PIL 打开图像然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后我转置图像
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
尝试使用 Ruby Java Bridge (RJB) gem 时出现错误“无法创建 Java VM”

我正在尝试实现 Ruby Java Bridge RJB gem 来与 JVM 通信以便我可以运行 Open NLP gem 我在 Windows 8 上安装并运行了 Java 所有迹象至少我所知道的都表明 Java 已安装并可运行
将多模块 Maven 项目导入 Eclipse 时出现问题 (STS 2.5.2)

我刚刚花了最后一个小时查看 Stackoverflow com 上的线程尝试将 Maven 项目导入到 Spring ToolSuite 2 5 2 中 Maven 项目有多个模块当我使用 STS 中的 Import 向导导入项目时所
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
无法导入QUERY_TERMS

我正在运行一个网站Python and Django Django filters 2 1 installed Django 2 1 installed 当我运行时我收到以下错误 importError Could not import
从迭代器外部将 StopIteration 发送到 for 循环

有几种方法可以打破一些嵌套循环他们是 1 使用中断继续 for x in xrange 10 for y in xrange 10 print x y if x y gt 50 break else continue only exec
查看Jasper报告执行的SQL

运行 Jasper 报表其中 SQL 嵌入到报表文件 jrxml 中时是否可以看到执行的 SQL 理想情况下我还想查看替换每个 P 占位符的值 Cheers Don JasperReports 使用 Jakarta Commons
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
如何创建用于霍夫曼编码和解码的树？

对于我的作业我将对霍夫曼树进行编码和解码我在创建树时遇到问题并且陷入困境不要介意打印语句它们只是让我测试并查看函数运行时的输出是什么对于第一个 for 循环我从主块中用于测试的文本文件中获取了所有值和索引在第二个 for 循
UnicodeDecodeError：部署到 Heroku 时，“utf-8”编解码器无法解码位置 0 中的字节 0xff

我尝试在heroku上部署我的简单django项目但我不明白如何解决这个问题这是git push heroku master remote Traceback most recent call last remote File tmp
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
python中有没有一种方法可以将存储在列表中的正则表达式模式列表应用到单个字符串？

我有一个正则表达式模式列表存储在列表类型中我想将其应用于字符串有谁知道一个好方法将列表中的每个正则表达式模式应用于字符串和如果匹配则调用与列表中该模式关联的不同函数如果可能的话我想用 python 来做这件事提前致谢 im
如何使用 Python/Django 在 Facebook 中获取（和使用）扩展权限

我正在尝试编写一个简单的应用程序让用户授予我的代码写入其页面的 Facebook 流的权限据我了解它应该很简单让用户单击一个按钮启动一个弹出窗口其中包含我的 Facebook 应用程序中的页面在该页面中他们单击授予的内容流发

随机推荐

Android中的Drawable资源—— InsetDrawable

InsetDrawable 表示一个drawable嵌入到另外一个drawable内部并且在内部留一些间距存放位置 res drawable 使用方式在Java文件中 R drawable filename 在xml布局文件中 pac
大数据spark开发入门教程

大数据是互联网发展的方向大数据人才是未来的高薪贵族随着大数据人才的供不应求大数据人才的薪资待遇也在不断提升如果你也想进入大数据行业也想学习大数据技术大数据讲师认为可以先从spark技术开始一 Spark是什么 Spark是一
【C++】STL——stack&queue的基本使用

目录 stack 一 stack简介二 stack的定义方式三 stack完整结构图四 stack常用接口的使用 queue 一 queue的简介二 queue定义方式三 queue完整结构图四 queue常用接口的使用 sta
js继承优化

在看 js设计模式中作者提到了js中的两种继承方式类继承或原型继承或许是本人才疏学浅竟发现一些问题一类继承思路作者的思路是使用基于类来继承并且做了一个extend函数在第一时间就吸引了我的眼球函数如下 1 fun
vue前后端分离后台管理系统（权限管理，登录），前端脚手架。对接后端基于SpringSecurity提供的后台接口

文章目录前言很重要哦一概念和技术总结重点一定要搞懂 1 vue 2 vue admin template模板文件解析 3 异步相关前后端交互 4 导航守卫 5 路由解析二单点登录实现 1 后端接口和响应结果分析 2 解决跨
TelephonyManager类使用方法大全

这个类是很有用地可以得到很多关于手机的信息做应用时必须的工具不废话直接上注释后的代码请享用 code author dingran 创建日期 2010 4 29 下午05 02 47 package net sunniwell a
python列表嵌套合并成一个列表

python列表嵌套合并成一个列表场景描述代码处理举个例子场景描述当我们在数据处理使用列表推导式结合正则匹配时会产生一个列表中嵌套多个列表的情况这样遍历列表元素的时候会比较麻烦因此将所有元素放到一个列表中代码处理方法一
adb禁止鸿蒙系统更新

链接工具存在百度云
服务器自定义怪,饥荒联机服务器-自定义世界设置

return override enabled true override 食物 berrybush default 浆果从 cactus default 仙人掌 carrot default 胡萝卜 mushroom default 蘑菇
报表开发工具FastReport开源代码2020首发更新！邀您免费下载

开源在我们这个时代非常流行软件市场的全球巨头对其普及起到了相当大的作用毕竟这些公司正在开发高端商业软件而它们的开源项目是基于经过验证的解决方案和最佳实践的为什么越来越多的人喜欢开源软件稳定商业产品可以在任何时候完成其生命周期
应用程序图标消失解决方法

打开CMD 依次使用以下4条命令 taskkill im explorer exe f cd d userprofile appdata local del iconcache db a start explorer exe
若依中反向代理解决跨域问题

从Vue中获取图片是在后端获取但获取图片url路径是前端的 http localhost dev api captchaImage localhost 8080 是后端页面路径中localhost 默认是localhost 80 端口
IIC协议及驱动

1 IIC协议概述由数据线SDA和时钟线SCL构成的串行总线可收发数据高速IIC总线一般可达400kb s以上 SDA 用来一位一位传送数据 SCL 在通信过程中起控制作用半双工通信 2 通信过程开始信号与停止信号开始信号 SC
vs2019+QT5.12.0打不开现有文件，提示This application failed to start because no Qt platform plugin问题

按照要求配置好vs2019和QT5 12 0后 qt addin插件仍然不能使用已经尝试更换了2 8 0 2 6 0 2 5 0版本的qt development releases vsaddin 仍旧报错出现以下问题后来找方法在电
Your device is corrupt. It cant‘t be trusted and may not work propely.

一问题描述如下图 Google Nexus 6刷机刷残了开机就是这个界面度娘说是系统损坏导致不可信然后我按了电源键手机直接关机二解决方案 1 准备工作 1 准备一个配置好adb和fastboot工具的PC机 adb to
【2023 AI 写作工具大盘点】国内外 45 款免费 AI 写作神器汇总，轻松成为创作高手！

0 未来百科未来百科 https nav 6aiq com 是一个知名的AI产品导航网站为发现全球优质AI工具而生目前已聚集全球3000 优质AI工具产品旨在帮助用户发现全球最好的AI工具同时为研发AI垂直应用的创业公司提供展示
【shiro】shiro反序列化漏洞综合利用工具v2.2（下载、安装、使用）

目录 1 工具下载 2 依赖环境安装 3 使用 1 工具下载 shiro反序列化漏洞综合利用工具v2 2下载链接 https pan baidu com s 1kvQEMrMP PZ4K1eGwAP0 Q pwd zbgp 提取码 zbg
Vue如何写埋点，统计PVUV，用户的喜爱程度、停留页面的时长

封装PVUV统计方法下面康康我在不同的情况下在页面的使用下面就是我们的最后一步如何在axios的config headers添加自字段领导提出了一个需求写pvuv要统计用户的访问量和喜好俺也没写过但是我们组的后台非常的强大他
HBase Hlog原理总结归纳

HBase Hlog原理总结归纳 1 Hlog概述按照此前另外一篇博客所述 Hlog其实就是为了保存内存缓存数据现场而建立的一套机制Hbase内部机制 Hlog也叫做WAL文件全名是write ahead log 故名思意就是在数据写
接单日记（三）文本处理之词云生成

文章目录接单日记三文本处理之词云生成一实验目的二实验内容三程序及结果 1 运行程序 2 运行结果接单日记三文本处理之词云生成此为一个实验报告故遵守实验报告的格式一实验目的熟悉Python第三方库python

接单日记（三）文本处理之词云生成

文章目录

接单日记（三）文本处理之词云生成

一、 实验目的

二、 实验内容

三、 程序及结果

1、 运行程序

2、 运行结果

接单日记（三）文本处理之词云生成 的相关文章

随机推荐

热门标签

一、实验目的

二、实验内容

三、程序及结果

1、运行程序

2、运行结果

接单日记（三）文本处理之词云生成的相关文章