数据的异常值处理

2023-10-29

爬取职位并且对职位进行词频数据分析（老板直聘）

修改爬取到的内容进行整理

刚开始的样子（其实比这个样子还要乱）
在这里插入图片描述
而我要的数据的样子应该是整齐的，所以我把职位描述往后的内容做了replace替换

replace('职位描述                                                      ','')
#将职位描述往后的空格部分都替换成了空

然后就变的整齐了很多
在这里插入图片描述

只进行了替换以后的部分是这个样子，这里是excel的设置原因盛满屏幕了
在这里插入图片描述
但只有职位介绍，没有职位名称也不行了，不然你也不知道属于那个职位啊，所以进行了后期的修改

在这里插入图片描述

进行词频分析和统计

既然要进行词频分析，我们就会用到我们最熟悉的jieba库喽

#没有的先进性安装
pip install jieba

我对excel进行词频统计一般是我都是现将excel文件需要进行统计的某一列或者行写入txt文件，其实别的方法也可以，这里我就不多做介绍了

先将excel内容写入txt文件

data=pd.read_excel('职位描述3.xlsx')
# data1=data['职位描述']
row = 0
with open("LAD1.txt", "w",encoding="utf-8") as f:
    #写入你要保存的文件位置即可
    for row in range(len(data)):
        column_str = str(data.iloc[row].at['职位描述']+"\n")
    #写入要保存的列的名称进行拼接，其中的换行符可依据自身的需求进行相应的修改
        f.write(column_str)
    print("已保存txt" )
    f.close()

其次就是将使用jieba来对txt进行统计分析

#将excel文件转为txt文件，然后进行词频分析
fileobj = open('LAD1.txt', 'r', encoding='utf-8')
txt=fileobj.read()
#print(txt)
fileobj.close()
#切词
words=jieba.lcut(txt) #l是list，切完之后的结果是一个列表
#print(words)
words_dict={} #用于存储词及词语出现的次数
for word in words:
    if len(word)==1: #说明构不成语语
        continue #如果不是词就进行下一轮循环
    else:
        if word in words_dict:
            words_dict[word]+=1  #如果词在字典中存在，次数累加1
        else:
            words_dict[word]=1 #如果在字典中不存在，说明是第一次出现，次数赋值为1
    words_dict_sort=sorted(words_dict.items(),key=lambda x:x[1] ,reverse=True)
# print(words_dict_sort)
df=pd.DataFrame(words_dict_sort,columns=['词','次数'])
df.to_excel('词频.xlsx',index=False) #将词频保存到xlsx文件

最后成功如下

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Excel

python

开发语言

数据的异常值处理的相关文章

使用 selenium 和 python 在网页网格中抓取 javascript 数据

我的问题是我需要包含网站子域的网格中的所有数据https applipedia paloaltonetworks com https applipedia paloaltonetworks com 包含名称类别子类别风险技术的数据
pandas 读取列中带有额外逗号的 csv

我正在阅读一个基本的 csv 文件其中各列用逗号分隔列名称如下 userid username body 但是正文列是一个可能包含逗号的字符串显然这会导致一个问题 pandas 会抛出一个错误 CParserError Error
从 java 代码运行 Python 脚本

这是我第一次在java中尝试python 我正在尝试从我的代码执行 python 脚本如下所示 Process process Runtime getRuntime exec python C Users username Desktop
使用 Python 访问内存映射文件

我希望利用激战 2 中的内存映射文件该文件旨在链接到 Mumble 以获得位置音频该文件包含有关字符坐标的信息和其他有用的信息我已经能够使用此脚本访问坐标信息 import mmap import struct last while
映射 2 个数据帧并替换目标数据帧中匹配值的标头

我有一个数据框 df1 SAP Name SAP Class SAP Sec Avi 5 C Rison 6 A Slesh 7 B San 8 C Sud 7 B df2 Name Fi Class Avi 5 Rison 6 Slesh
Python Jinja2 调用宏会导致（不需要的）换行符

我的 JINJA2 模板如下所示 macro print if john name if name John Hi John endif endmacro Hello World print if john Foo print if joh
选择或复制三个不相邻的单元格 3

如何使用复制 3 个不相邻的单元格ActiveCell Row Range A ActiveCell Row C ActiveCell Row E ActiveCell Row Copy Update 欲了解更多信息请遵循 https y
python 函数中的对象不可迭代错误

我有一个简单的功能如下 comdList range 0 27 for t in comdList print t 但是它返回一个 in object not iterable 错误在函数之外它工作正常这是怎么回事尝试这个 for t
在 Windows 服务中使用 OleDb 从 Excel 读取数据？

免责声明我知道这是一种不好的做事方式这是我们与客户的唯一选择 Problem 我们需要每隔 x 时间从 Excel 文件读取数据数据通过第三方 Excel 插件不断变化应用程序的环境是 Windows XP SP1 和 Net 2
如何在Python中将N毫秒添加到日期时间

我正在设置一个日期时间变量 fulldate datetime datetime strptime date time Y m d H M S f 其中日期和时间是适合日期时间性质的字符串如何将此日期时间增加 N 毫秒 Use timed
使用 SQLAlchemy 查询 Pandas DataFrame 时重命名列

当您将数据查询到 pandas 数据帧时有没有办法保留 SqlAlchemy 属性名称这是我的数据库的简单映射对于 school 表我将数据库名称 SchoolDistrict 重命名为较短的 district 我从 DBA 中删除
基于 Pandas 中特殊字符分隔列中的每个项目进行聚合

我输入的数据如下 Date Investment Type Medium 1 1 2000 Mutual Fund Stocks Fixed Deposit Real Estate Own Online Through Agent 1 2
python请求ssl握手失败

每次我尝试这样做 requests get https url 我收到这条消息 import requests gt gt gt requests get https reviews gethuman com companies Trace
Spacy-nightly (spacy 2.0) 问题“thinc.extra.MaxViolation 大小错误”

显然成功安装了 spacy nightly spacy nightly 2 0 0a14 和英语模型 en core web sm 后我在尝试运行它时仍然收到错误消息 import spacy nlp spacy load en core
如何使用 opencv python 根据检测到的物体的位置生成其热图

我需要根据对象的位置生成其热图示例视频帧中检测到的绿色球如果它长时间停留在某个位置那么该位置应该是红色的并且球在短时间内经过的帧中的位置必须是蓝色的这样我就需要生成热图提前致谢那么你在这里可以做的是 1 首先定义一个热图作为
如何让 Python 生成器返回 None 而不是 StopIteration？

我使用生成器在列表中执行搜索如下简单示例 gt gt gt a 1 2 3 4 gt gt gt i for i v in enumerate a if v 4 next 3 只是为了稍微说明一下示例与上面的列表相比我使用的列表要长得
Python - 将列表作为参数传递给 SQL，以及更多变量

我试图在 python 3 6 中将未知数量的参数传递给 SQL Server 这是我使用 pypyodbc 的代码 cursor cnxn cursor theargs 1033286869 1053474957 1063654630 1
如何限制单元测试的最大运行时间？

我目前正在运行一些单元测试这些测试可能需要很长时间才能失败或无限期地运行在成功的测试运行中它们总是会在一定的时间内完成是否可以创建一个 pytest 单元测试如果在一定时间内未完成该测试就会失败您可以安装 pytest tim
Mac 无法安装 Tensorflow

我检查了我的 pip3 和 python3 版本 tensorflow MacBook Pro de Hector 2 tensorflow hectoresteban pip3 V pip 10 0 1 from Users hector
定义Python类时，如何在其中设置随机变量？

假设我有一个名为Person 其中只有该人的姓名和性别性别应从男性和女性中随机选择为此我导入random randint 功能根据随机int确定随机性别 import random class Person alias random

随机推荐

博客同时部署Github和Coding page

前期注册账号不讲了现在都是以团队注册注册完后记得到团队设置里面找到实名认证在初次使用静态网站服务前需要团队拥有者完成实名认证然后需要在个人设置里绑定邮箱和设置密码顺便把公钥添加下创建一个项目然后点进这个项目中部署静态
phpstorm 配置apache路径

初学php 如何自动将phpstorm中的文件部署到设定好的目录中用了我的路径是apache里面配置的路径ServerRoot
CentOS 7二进制文件安装nodejs

根据自己的经验编写在linux系统CentOS下安装nodejs的过程本篇介绍二进制文件直接解压安装的过程方法步骤 1 如图所示在nodejs官网下载压缩包根据自己的系统是32位还是64位选择压缩包别选错类型哦 2 安装前要先安
sklearn——加载数据集

1 通用数据集 API 根据所需数据集的类型有三种主要类型的数据集API接口可用于获取数据集方法一 loaders 可用来加载小的标准数据集在玩具数据集中有介绍方法二 fetchers 可用来下载并加载大的真实数据集在真实世界中的
无法生成“F:\system voiume information”下的常规文件夹列表拒绝访问

1 产生问题将桌面从属性位置直接改到了F盘 F盘上的东西全显示在桌面上 2 解决问题 1 点击还原默认值后显示要下图选择否 win10可以用然后再次移动到你需要的位置即可 2 win7可以用 win10并没有用成 1 按win r
图的创建和遍历

图的定义由顶点的有穷非空集合和顶点之间边的集合组成的数据类型图的表示 G V E G表示一个图 V是图G的顶点集合 E为图G的边的集合图的逻辑结构多对多图的存储结构邻接矩阵邻接表十字链表邻接多重表图的一些无聊术语顶点i
多源bfs

这是 LeetCode 上的 1162 地图分析难度为中等与单源最短路不同多源最短路问题是求从多个源点到达一个多个汇点的最短路径在实现上最核心的搜索部分多源 BFS 与单源 BFS 并无区别并且通过建立虚
日常管理的五条小建议

原文作者 Johanna Rothman著作门后的秘密卓越管理的故事有时候你需要为工作理一理头绪你需要给自己一些喘息的机会停下来思考一会儿这里有一些小建议可以帮助你处理好日常管理工作计划并安排一对一会谈做管理意味着你要
基于Hadoop的Knn算法实现

Knn算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别则该样本也属于这个类别并具有这个类别上样本的特性该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别 Knn方法在类
Qt配置设置，修改全文字体大小颜色，背景颜色

这是完成时的demo 选择所需点击确认修改全局修改效果第二张图在没有点击确认修改时字体等按钮的改变只会在文本框里面体现出来点击确认才会修改全局的东西点击恢复默认时字体字号颜色控件全部恢复初始状态当点击确认修改全局才会改为
python大文件的上传

python大文件的上传下载是同样的套路下面是简单的代码 server端代码 import socket import json import struct buffer 1024 这里使用1024在上传视频的时候不容易出错如果选择更
MATLAB智能优化算法 - 粒子群算法及MATLAB实例仿真

一粒子群算法理论粒子群算法来源于鸟类集体活动的规律性进而利用群体智能建立简化模型它模拟的是鸟类的觅食行为将求解问题的空间比作鸟类飞行的时间每只鸟抽象成没有体积和质量的粒子来表征一个问题的可行解 1 1 粒子群算法建模粒子群算
信号槽的概念与使用

下面对Qt所设计的信号槽机制进行解析部分摘自网络信号当对象改变其状态时信号就由该对象发射 emit 出去而且对象只负责发送信号它不知道另一端是谁在接收这个信号这样就做到了真正的信息封装能确保对象被当作一个真正的软件组件来使用
python之实现ts转MP4

import subprocess import os def convert ts to mp4 input path output path ffmpeg cmd f ffmpeg i input path c copy output
kconfig与Makefile运行机制

前面我们介绍模块编程的时候介绍了驱动进入内核有两种方式模块和直接编译进内核并介绍了模块的一种编译方式在一个独立的文件夹通过makefile配合内核源码路径完成那么如何将驱动直接编译进内核呢在我们实际内核的移植配置过程中经常听说的内
复旦微魔方FM33FR0xx——FL库笔记-GPIO

一引用文件 include fm33lg0xx fl gpio h 1 GPIO初始化定义 typedef struct uint32 t pin PIN uint32 t mode 功能模式 uint32 t outputType 输出
常见路由协议分类及区别

按路由生成方式分类路由根据路由表生成方式可以分为直连路由静态路由动态路由 1 直连路由路由器接口所连接的子网的路由方式称为直连路由 2 静态路由静态路由是由网络规划者根据网络拓扑使用命令在路由器上配置的路由信息这些静态路由信
MySQL~数据库的设计

二数据库的设计 1 多表之间的关系 1 1 三种分类一对一分析一个人只有一个身份证一个身份证只能对应一个人如人和身份证一对多如部门和员工分析一个部门有多个员工一个员工只对应一个部门多对多如学生和课程分析一
表格对角线两边打字_表格斜线一分为二怎么打字（excel斜杠分割表格打字）

在整理表格的时候相信许多朋友都会涉及到表格斜线的制作比如单斜线和双斜线来区分不同维度项目下面我们就来学习一下如何通过Excel快速来添加我们的表格斜线案例一两步快速制作单表格单斜线第一步首先在单元格中依次输入文字月份和姓名
数据的异常值处理

爬取职位并且对职位进行词频数据分析老板直聘修改爬取到的内容进行整理刚开始的样子其实比这个样子还要乱而我要的数据的样子应该是整齐的所以我把职位描述往后的内容做了replace替换 replace 职位描述将职位描述往后的空格部分