数据的异常值处理

2023-10-29

爬取职位并且对职位进行词频数据分析(老板直聘)

修改爬取到的内容进行整理

刚开始的样子(其实比这个样子还要乱)
在这里插入图片描述
而我要的数据的样子应该是整齐的,所以我把职位描述往后的内容做了replace替换

replace('职位描述                                                      ','')
#将职位描述往后的空格部分都替换成了空

然后就变的整齐了很多
在这里插入图片描述

只进行了替换以后的部分是这个样子,这里是excel的设置原因盛满屏幕了
在这里插入图片描述
但只有职位介绍,没有职位名称也不行了,不然你也不知道属于那个职位啊,所以进行了后期的修改

在这里插入图片描述

进行词频分析和统计

既然要进行词频分析,我们就会用到我们最熟悉的jieba库喽

#没有的先进性安装
pip install jieba

我对excel进行词频统计一般是我都是现将excel文件需要进行统计的某一列或者行写入txt文件,其实别的方法也可以,这里我就不多做介绍了

  • 先将excel内容写入txt文件
data=pd.read_excel('职位描述3.xlsx')
# data1=data['职位描述']
row = 0
with open("LAD1.txt", "w",encoding="utf-8") as f:
    #写入你要保存的文件位置即可
    for row in range(len(data)):
        column_str = str(data.iloc[row].at['职位描述']+"\n")
    #写入要保存的列的名称进行拼接,其中的换行符可依据自身的需求进行相应的修改
        f.write(column_str)
    print("已保存txt" )
    f.close()
  • 其次就是将使用jieba来对txt进行统计分析
#将excel文件转为txt文件,然后进行词频分析
fileobj = open('LAD1.txt', 'r', encoding='utf-8')
txt=fileobj.read()
#print(txt)
fileobj.close()
#切词
words=jieba.lcut(txt) #l是list,切完之后的结果是一个列表
#print(words)
words_dict={} #用于存储词及词语出现的次数
for word in words:
    if len(word)==1: #说明构不成语语
        continue #如果不是词就进行下一轮循环
    else:
        if word in words_dict:
            words_dict[word]+=1  #如果词在字典中存在,次数累加1
        else:
            words_dict[word]=1 #如果在字典中不存在,说明是第一次出现,次数赋值为1
    words_dict_sort=sorted(words_dict.items(),key=lambda x:x[1] ,reverse=True)
# print(words_dict_sort)
df=pd.DataFrame(words_dict_sort,columns=['词','次数'])
df.to_excel('词频.xlsx',index=False) #将词频保存到xlsx文件

最后成功如下

在这里插入图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据的异常值处理 的相关文章

随机推荐

  • 博客同时部署Github和Coding page

    前期 注册账号不讲了 现在都是以团队注册 注册完后 记得到团队设置里面 找到实名认证 在初次使用静态网站服务前 需要团队拥有者完成实名认证 然后需要在个人设置里绑定邮箱和设置密码 顺便把公钥添加下 创建一个项目 然后点进这个项目中 部署静态
  • phpstorm 配置apache路径

    初学php 如何自动将phpstorm中的文件部署到设定好的目录中 用了 我的路径是apache里面配置的路径ServerRoot
  • CentOS 7二进制文件安装nodejs

    根据自己的经验编写在linux系统CentOS下安装nodejs的过程 本篇介绍二进制文件直接解压安装的过程 方法 步骤 1 如图所示 在nodejs官网下载压缩包 根据自己的系统是32位还是64位选择压缩包 别选错类型哦 2 安装前要先安
  • sklearn——加载数据集

    1 通用数据集 API 根据所需数据集的类型 有三种主要类型的数据集API接口可用于获取数据集 方法一 loaders 可用来加载小的标准数据集 在玩具数据集中有介绍 方法二 fetchers 可用来下载并加载大的真实数据集 在真实世界中的
  • 无法生成“F:\system voiume information”下的常规文件夹列表拒绝访问

    1 产生问题 将桌面从属性 位置直接改到了F盘 F盘上的东西全显示在桌面上 2 解决问题 1 点击还原默认值后显示要下图 选择否 win10可以用 然后再次移动到你需要的位置即可 2 win7可以用 win10并没有用成 1 按win r
  • 图的创建和遍历

    图的定义 由顶点的有穷非空集合和顶点之间边的集合组成的数据类型 图的表示 G V E G表示一个图 V是图G的顶点集合 E为图G的边的集合 图的逻辑结构 多对多 图的存储结构 邻接矩阵 邻接表 十字链表 邻接多重表 图的一些无聊术语 顶点i
  • 多源bfs

    这是 LeetCode 上的 1162 地图分析 难度为 中等 与 单源最短路 不同 多源最短路 问题是求从 多个源点 到达 一个 多个汇点 的最短路径 在实现上 最核心的搜索部分 多源 BFS 与 单源 BFS 并无区别 并且通过建立 虚
  • 日常管理的五条小建议

    原文作者 Johanna Rothman著作 门后的秘密 卓越管理的故事 有时候 你需要为工作理一理头绪 你需要给自己一些喘息的机会 停下来 思考一会儿 这里有一些小建议 可以帮助你处理好日常管理工作 计划并安排一对一会谈 做管理意味着你要
  • 基于Hadoop的Knn算法实现

    Knn算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别 则该样本也属于这个类别 并具有这个类别上样本的特性 该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别 Knn方法在类
  • Qt配置设置,修改全文字体大小颜色,背景颜色

    这是完成时的demo 选择所需 点击确认修改 全局修改 效果第二张图 在没有点击确认修改时 字体等按钮的改变只会在文本框里面体现出来 点击确认才会修改全局的东西 点击恢复默认时 字体字号颜色控件全部恢复初始状态 当点击确认修改 全局才会改为
  • python大文件的上传

    python大文件的上传 下载是同样的套路 下面是简单的代码 server端代码 import socket import json import struct buffer 1024 这里使用1024在上传视频的时候不容易出错 如果选择更
  • MATLAB智能优化算法 - 粒子群算法及MATLAB实例仿真

    一 粒子群算法理论 粒子群算法来源于鸟类集体活动的规律性 进而利用群体智能建立简化模型 它模拟的是鸟类的觅食行为 将求解问题的空间比作鸟类飞行的时间 每只鸟抽象成没有体积和质量的粒子 来表征一个问题的可行解 1 1 粒子群算法建模 粒子群算
  • 信号槽的概念与使用

    下面对Qt所设计的信号槽机制进行解析 部分摘自网络 信号 当对象改变其状态时 信号就由该对象发射 emit 出去 而且对象只负责发送信号 它不知道另一端是谁在接收这个信号 这样就做到了真正的信息封装 能确保对象被当作一个真正的软件组件来使用
  • python之实现ts转MP4

    import subprocess import os def convert ts to mp4 input path output path ffmpeg cmd f ffmpeg i input path c copy output
  • kconfig与Makefile运行机制

    前面我们介绍模块编程的时候介绍了驱动进入内核有两种方式 模块和直接编译进内核 并介绍了模块的一种编译方式 在一个独立的文件夹通过makefile配合内核源码路径完成 那么如何将驱动直接编译进内核呢 在我们实际内核的移植配置过程中经常听说的内
  • 复旦微魔方FM33FR0xx——FL库笔记-GPIO

    一 引用文件 include fm33lg0xx fl gpio h 1 GPIO初始化定义 typedef struct uint32 t pin PIN uint32 t mode 功能模式 uint32 t outputType 输出
  • 常见路由协议分类及区别

    按路由生成方式分类 路由根据路由表生成方式可以分为 直连路由 静态路由 动态路由 1 直连路由 路由器接口所连接的子网的路由方式称为直连路由 2 静态路由 静态路由是由网络规划者根据网络拓扑 使用命令在路由器上配置的路由信息 这些静态路由信
  • MySQL~数据库的设计

    二 数据库的设计 1 多表之间的关系 1 1 三种分类 一对一 分析 一个人只有一个身份证 一个身份证只能对应一个人 如 人和身份证 一对多 如 部门和员工 分析 一个部门有多个员工 一个员工只对应一个部门 多对多 如 学生和课程 分析 一
  • 表格对角线两边打字_表格斜线一分为二怎么打字(excel斜杠分割表格打字)

    在整理表格的时候 相信许多朋友都会涉及到表格斜线的制作 比如单斜线和双斜线来区分不同维度项目 下面我们就来学习一下 如何通过Excel快速来添加我们的表格斜线 案例一 两步快速制作单表格单斜线 第一步 首先在单元格中依次输入文字 月份和姓名
  • 数据的异常值处理

    爬取职位并且对职位进行词频数据分析 老板直聘 修改爬取到的内容进行整理 刚开始的样子 其实比这个样子还要乱 而我要的数据的样子应该是整齐的 所以我把职位描述往后的内容做了replace替换 replace 职位描述 将职位描述往后的空格部分