python实验数据预处理案例_Python数据分析小案例——红楼梦文本分析（一）文本预处理...

2023-11-13

本文开始介绍一个简单的数据分析案例,分析红楼梦文本,本文主要内容是将红楼梦文本按照章节获取每一回的标题,字数,段落数并保存到csv中方便后续数据分析

红楼梦小说文本可以在这里下载

链接：https://pan.baidu.com/s/1WEmunBN_Wo75EZd1cK6_lA

提取码：3xco

接下来直接上代码

import pandas as pd

import numpy as np

with open("./hlm/red.txt",encoding="utf-8") as f:

content = f.readlines()

content = pd.DataFrame(content) #将行转为df,这个df只有一列

content.columns = ["content"] #取列名为content，以防content[0]会有歧义，不知道是表示第一列还是第一行

print(content)

#查看是否有为空的行

print(np.sum(content.isnull()))

#删除第x卷这样的行

has_juan = content["content"].str.contains(r"^第.+?卷") #返回 [True,False,....,False]

# print(content[has_juan])

index_has_juan = has_juan.index[has_juan.values==True] #或者has_juan[has_juan==True].index

# print(content.drop(index

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python实验数据预处理案例

python实验数据预处理案例_Python数据分析小案例——红楼梦文本分析（一）文本预处理... 的相关文章

Java 根据Cron表达式获取近几次任务执行时间

这篇博客将介绍Java 如何根据Cron表达式获取近几次任务执行时间实际上使用 quartz 包 CronSequenceGenerator 以及TriggerUtils computeFireTimes 俩种方法进行时间获取 1 效果图
【Hadoop】HDFS概述

文章目录前言一 HDFS 的定义二 HDFS 的优点三 HDFS 的缺点四 HDFS 的组成架构五 HDFS 的文件块大小前言随着数据量越来越大在一个操作系统存不下所有的数据那么就分配到更多的操作系统管理的磁盘中但是不
不要二-网易python（找数据逻辑）

题目描述二货小易有一个W H的网格盒子网格的行编号为0 H 1 网格的列编号为0 W 1 每个格子至多可以放一块蛋糕任意两块蛋糕的欧几里得距离不能等于2 对于两个格子坐标 x1 y1 x2 y2 的欧几里得距离为 x1 x2 x1 x
如何将项目上传到Gitee上

一首先保证本机已经安装了Git git官网安装完成之后鼠标右键会出现Git GUI Here和Git Bash Here 二上传代码到码云核心总共有7个步骤 1 首先要注册Gitee账号并且新建一个仓库来存放项目文件 2 在本地
使用Unity2018 自带高通AR组件（Vuforia）—— 创建Virtual Button

之前翻译了一篇使用unity2017自带高通AR组件 Vuforia 的文章昨天有位Bro问了一下怎么使用内置组件创建虚拟按钮 Virtual Button 在这里简单的叙述一下一方面是回答那位Bro 另一方面是作为积累以防后续用到时忘
linux dev vda1占用磁盘,centos 磁盘清理 /dev/vda1系统盘满了

df h 检查一台服务器磁盘使用空间发现磁盘已经使用了100 思路是 1 cd usr 当然这里不一定是 usr目录最好是cd到根目录再执行下一步 2 du sh 看哪个目录占用空间大 3 重复前两步根据实际情况删除或者移走 4 日
VirtualBox 共享文件夹设置

在ubuntu中执行 mkdir share dir 新建文件夹然后挂载 sudo mount t vboxsf share share dir 就可以把windows中的E share文件夹挂在为ubuntu中的share dir文件夹
MySql基础复习

数据库的基本操作如何创建数据库数据库的删除操作存储引擎的了解及其工作原理和如何选择 1 创建数据库创建数据库是在系统磁盘上划分一块区域用于数据的存储和管理 mysql安装完成以后将会在其data目录下自动创建几个必须的数据库可以
canvas学习笔记（详细）

Canvas 一 Canvas基础知识 1 画布画布是H5中一个重要的概念它面向开发人员提供了非常底层的绘图接口使得绘制速度可以大幅提高 2 canvas元素 canvas 标签只有两个属性 width和height 这些都是可选的
晶振工作原理及参数详解（最透彻）

原文链接点击这里晶振是石英晶体谐振器 quartz crystal oscillator 的简称也称有源晶振它能够产生中央处理器 CPU 执行指令所必须的时钟频率信号 CPU一切指令的执行都是建立在这个基础上的时钟信号频率越高通常
系统概要设计说明书_「软件项目管理入门」（23）如何做好概要设计？

实际上需求分析是一个很复杂的也是很重要的环节如果要完整的阐述三言两语肯定不够好在我这个系列只是和大家分享一些心得这里就适可而止了以后有机会再和大家共同探讨这方面的问题需求分析的输出主要针对乙方但需要甲方确认所以很多人误以为甲
mysql规范总结

参考文献 https www cnblogs com qlqwjy p 8425861 html https blog csdn net u010498753 article details 85966709 一基本规范要求 1 没有特殊
Python字典中8个常见内置函数，一次性给你总结

字典是Python中很重要的数据类型我们在日后的学习中会经常遇到因此有8个常用的内置函数我觉得你一定需要知道 d clear 含义清除字典 d a 10 b 20 c 30 gt gt gt d a 10 b 20 c 30 g
Proability and Bayes’ NET

Probabilistic Inference compute a desired probabilities from others known probabilities 我们通常计算条件概率 each possible state f
gorm基础05--CRUD 接口-更新

gorm基础05 CRUD 接口更新介绍案例说明介绍上文 gorm基础04 CRUD 接口查询介绍了gorm 中常见查询方法本文继续介绍gorm中常见的更新方法具体包括保存所有字段更新单个列更新多个列更新选定字段
【零基础学Rust

文章标题简介一元组 1 定义元组 2 访问元组元素 3 元组解构 4 元组在函数中的应用二数组 1 数组的声明和初始化 2 访问数组元素 3 数组的遍历 4 数组的长度 5 数组和函数三向量 1 创建向量 2 访问向量 3 修
IAR编译项目时报以下错误

根本原因是因为你宏定义不符合规范
OpenCASCADE可视化：使用C/C++演示的3D术语表

OpenCASCADE可视化使用C C 演示的3D术语表在本文中我们将使用C C 代码和OpenCASCADE库来演示一些与3D图形相关的术语 OpenCASCADE是一个开源的CAD CAE CAM软件开发平台它提供了丰富的几何建
KEIL5配置astyle

比较清爽的参数 E style google U p n

随机推荐

lighttpd支持AJAX吗,lighttpd

Lighttpd 是一个德国人领导的开源Web服务器软件软件名称 lighttpd 软件版本 1 4 49 更新时间 2018 03 11软件语言英语简介 Lighttpd 开源Web服务器软件操作系统 Linux Windows
chrome使用指南

目录常用快捷键常用插件 Octotree github源码浏览 GitCodeTree github gitee源码浏览 Axure RP Extension for Chrome 查看原型图 Tampermonkey 油猴脚本云盘管
Flink CDC问题

这里会列举出一些关键配置和遇到的问题一直补充 Oracle CDC 1 SUPPLEMENTAL LOG在库和表上都需要执行不是只有表上 ALTER TABLE inventory customers ADD SUPPLEMENTAL
原生js触底加载案例

data return RoomData isBool false limit 0 isLoading false methods roomClick value location href value RoomApi this limit
4.网络配置与系统管理

个人简介作者简介大家好我是W chuanqi 一个编程爱好者个人主页 W chuanqi 支持我点赞收藏留言愿你我共勉若身在泥潭心也在泥潭则满眼望去均是泥潭若身在泥潭而心系鲲鹏则能见九万里天地文章目录网络配置
mysql创建表时表明加单引号_python在MySQL表名周围插入单引号(‘)

我有一个名为project1的数据库其中包含以下表格 systbl1 systbl2 systbl3 dataset1 dataset2 dataset3 每当添加一个新用户时都需要授予MySQL用户odbc对dataset 表的SEL
组态王串口服务器虚拟串口,串口服务器USR-N510连接组态王设置步骤

调试目的 USB RS232或者USB RS485串口线接USR N510串口和电脑USB口 MODBUS SLAVE软件打开COM口模拟客户串口MODBUS RTU设备 USR N510网线和电脑直连 IP设置同网段在电脑安装USR
unicode编码、字符的转换和得到汉字的区位码

一 unicode编码字符的转换截图二 unicode编码字符的转换代码 using System using System Collections Generic using System ComponentModel using
Visual Studio MFC编程程序调试时所遇到的问题及解决方法

本文中记录了笔者在基于Visual Studio MFC编程时程序调试过程中所遇到的问题及解决方法目录 1 Visual Studio MFC中的快捷方式 1 1 问题 Visual Studio MFC中修改好程序之后怎样编译并建立
QT实现串口打开和关闭

一查找串口 windows 下面这个循环语句用来查找可以用的串口端口不确定有多少串口可用也就不知道循环多少次所以用foreach 不知道用的就百度 foreach const QSerialPortInfo info QSerial
Linux常用操作命令

Shell命令基础 root localhost root 用户名账号计算机名用户当前工作目录文件与目录相关命令 1 ls命令列出目录内容执行ls指令可列出目录的内容包括文件目录以及子目录 ls 参数文件或目录若无选定目录
抽象类案例

卡类 package Java project 1 public abstract class Card private String userName private double money public abstract void p
数据库的连接串(中文)

在数据库的各种应用程序开发中连接数据库是数据库应用程序开发的第一步同时也是最重要的一步而对于不同的数据库他们的连接模式各有不同对应的连接串也不同 Sql Server ODBC o 标准连接 Standard Security Dr
CSS之background-position属性

1 作用 background position是用来控制元素背景图片的位置以图片的左上角顶点为原点属性值为正就代表图片下移或右移属性值为负就代表图片上移或左移它接受三种值关键词比如top right bottom left和c
WordPress：实现发布文章自动添加TAG标签

在给我们的WordPress博客更新文章时大多数人应该会给文章添加一些TAG标签文章添加TAG标签也是我们做WordPress优化必不可少的一项但是如果每一篇文章的关键字标签都要手动添加链接那也太麻烦了今天给大家分享一篇自动给文章
java---多重循环练习

java 多重循环练习 1 关于多重循环的嵌套使用举例一循环嵌套的用法 1 更加方便重复率低的实现多步操作二使用步骤 1 多个循环结构嵌套代码如下示例 for 变量初始值循环条件迭代 for 变量初始值循环条件迭代
RabbitMQ 中arguments详解（系列一之Message TTL）

注以下程序使用C 实现在我们使用RabbitMQ声明队列时其中最后一个参数是arguments 那么arguments到底有什么用呢下面我们解释其中参数的第一中用法即消息过期时间 Message TTL 我们将最后一个参数arg
OW-DETR

欢迎关注我的公众号极智视界获取我的更多笔记分享大家好我是极智视界本文解读一下基于 Transformer 的开放世界目标检测器 OW DETR 开放世界目标检测 OWOD 是一个具有挑战性的计算机视觉问题其任务是检测一组已知的
现代密码学第三次实验：不对称加密算法RSA

现代密码学第三次实验不对称加密算法RSA 前言一实验目的二实验环境三实验步骤四实验基本方法五实验程序清单七实验结果八实验总结前言为了帮助同学们完成痛苦的实验课程设计本作者将其作出的实验结果及代码贴至CSD
python实验数据预处理案例_Python数据分析小案例——红楼梦文本分析（一）文本预处理...

本文开始介绍一个简单的数据分析案例分析红楼梦文本本文主要内容是将红楼梦文本按照章节获取每一回的标题字数段落数并保存到csv中方便后续数据分析红楼梦小说文本可以在这里下载链接 https pan baidu com s 1WEmu

python实验数据预处理案例_Python数据分析小案例——红楼梦文本分析（一） 文本预处理...

python实验数据预处理案例_Python数据分析小案例——红楼梦文本分析（一） 文本预处理... 的相关文章

随机推荐

热门标签

python实验数据预处理案例_Python数据分析小案例——红楼梦文本分析（一）文本预处理...

python实验数据预处理案例_Python数据分析小案例——红楼梦文本分析（一）文本预处理... 的相关文章