python实验数据预处理案例_Python数据分析小案例——红楼梦文本分析(一) 文本预处理...

2023-11-13

本文开始介绍一个简单的数据分析案例,分析红楼梦文本,本文主要内容是将红楼梦文本按照章节获取每一回的标题,字数,段落数并保存到csv中方便后续数据分析

红楼梦小说文本可以在这里下载

链接:https://pan.baidu.com/s/1WEmunBN_Wo75EZd1cK6_lA

提取码:3xco

接下来直接上代码

import pandas as pd

import numpy as np

with open("./hlm/red.txt",encoding="utf-8") as f:

content = f.readlines()

content = pd.DataFrame(content) #将行转为df,这个df只有一列

content.columns = ["content"] #取列名为content,以防content[0]会有歧义,不知道是表示第一列还是第一行

print(content)

#查看是否有为空的行

print(np.sum(content.isnull()))

#删除 第x卷 这样的行

has_juan = content["content"].str.contains(r"^第.+?卷") #返回 [True,False,....,False]

# print(content[has_juan])

index_has_juan = has_juan.index[has_juan.values==True] #或者has_juan[has_juan==True].index

# print(content.drop(index

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python实验数据预处理案例_Python数据分析小案例——红楼梦文本分析(一) 文本预处理... 的相关文章

  • Java 根据Cron表达式获取近几次任务执行时间

    这篇博客将介绍Java 如何根据Cron表达式获取近几次任务执行时间 实际上使用 quartz 包 CronSequenceGenerator 以及TriggerUtils computeFireTimes 俩种方法进行时间获取 1 效果图
  • 【Hadoop】HDFS概述

    文章目录 前言 一 HDFS 的定义 二 HDFS 的优点 三 HDFS 的缺点 四 HDFS 的组成架构 五 HDFS 的文件块大小 前言 随着数据量越来越大 在一个操作系统存不下所有的数据 那么就分配到更多的操作系统管理的磁盘中 但是不
  • 不要二-网易python(找数据逻辑)

    题目描述 二货小易有一个W H的网格盒子 网格的行编号为0 H 1 网格的列编号为0 W 1 每个格子至多可以放一块蛋糕 任意两块蛋糕的欧几里得距离不能等于2 对于两个格子坐标 x1 y1 x2 y2 的欧几里得距离为 x1 x2 x1 x
  • 如何将项目上传到Gitee上

    一 首先保证本机已经安装了Git git官网安装完成之后 鼠标右键会出现Git GUI Here和Git Bash Here 二 上传代码到码云 核心 总共有7个步骤 1 首先要注册Gitee账号 并且新建一个仓库来存放项目文件 2 在本地
  • 使用Unity2018 自带高通AR组件(Vuforia)—— 创建Virtual Button

    之前翻译了一篇使用unity2017自带高通AR组件 Vuforia 的文章 昨天有位Bro问了一下怎么使用内置组件创建虚拟按钮 Virtual Button 在这里简单的叙述一下 一方面是回答那位Bro 另一方面是作为积累以防后续用到时忘
  • linux dev vda1占用磁盘,centos 磁盘清理 /dev/vda1系统盘满了

    df h 检查一台服务器磁盘使用空间 发现磁盘已经使用了100 思路是 1 cd usr 当然这里不一定是 usr目录 最好是cd到 根目录再执行下一步 2 du sh 看哪个目录占用空间大 3 重复前两步 根据实际情况删除或者移走 4 日
  • VirtualBox 共享文件夹设置

    在ubuntu中执行 mkdir share dir 新建文件夹 然后挂载 sudo mount t vboxsf share share dir 就可以把windows中的E share文件夹挂在为ubuntu中的share dir文件夹
  • MySql基础复习

    数据库的基本操作 如何创建数据库 数据库的删除操作 存储引擎的了解及其工作原理和如何选择 1 创建数据库 创建数据库是在系统磁盘上划分一块区域用于数据的存储和管理 mysql安装完成以后 将会在其data目录下自动创建几个必须的数据库 可以
  • canvas学习笔记(详细)

    Canvas 一 Canvas基础知识 1 画布 画布是H5中一个重要的概念 它面向开发人员提供了非常底层的绘图接口 使得绘制速度可以大幅提高 2 canvas元素 canvas 标签只有两个属性 width和height 这些都是可选的
  • 晶振工作原理及参数详解(最透彻)

    原文链接点击这里 晶振是石英晶体谐振器 quartz crystal oscillator 的简称 也称有源晶振 它能够产生中央处理器 CPU 执行指令所必须的时钟频率信号 CPU一切指令的执行都是建立在这个基础上的 时钟信号频率越高 通常
  • 系统概要设计说明书_「软件项目管理入门」(23) 如何做好概要设计?

    实际上需求分析是一个很复杂的也是很重要的环节 如果要完整的阐述 三言两语肯定不够 好在我这个系列只是和大家分享一些心得 这里就适可而止了 以后有机会再和大家共同探讨这方面的问题 需求分析的输出主要针对乙方 但需要甲方确认 所以很多人误以为甲
  • mysql规范总结

    参考文献 https www cnblogs com qlqwjy p 8425861 html https blog csdn net u010498753 article details 85966709 一 基本规范要求 1 没有特殊
  • Python字典中8个常见内置函数,一次性给你总结

    字典是Python中很重要的数据类型 我们在日后的学习中 会经常遇到 因此 有8个常用的内置函数 我觉得你一定需要知道 d clear 含义 清除字典 d a 10 b 20 c 30 gt gt gt d a 10 b 20 c 30 g
  • Proability and Bayes’ NET

    Probabilistic Inference compute a desired probabilities from others known probabilities 我们通常计算条件概率 each possible state f
  • gorm基础05--CRUD 接口-更新

    gorm基础05 CRUD 接口 更新 介绍 案例 说明 介绍 上文 gorm基础04 CRUD 接口 查询 介绍了gorm 中常见查询方法 本文继续介绍gorm中常见的更新方法 具体包括 保存所有字段 更新单个列 更新多个列 更新选定字段
  • 【零基础学Rust

    文章标题 简介 一 元组 1 定义元组 2 访问元组元素 3 元组解构 4 元组在函数中的应用 二 数组 1 数组的声明和初始化 2 访问数组元素 3 数组的遍历 4 数组的长度 5 数组和函数 三 向量 1 创建向量 2 访问向量 3 修
  • IAR编译项目时报以下错误

    根本原因是因为你宏定义不符合规范
  • OpenCASCADE可视化:使用C/C++演示的3D术语表

    OpenCASCADE可视化 使用C C 演示的3D术语表 在本文中 我们将使用C C 代码和OpenCASCADE库来演示一些与3D图形相关的术语 OpenCASCADE是一个开源的CAD CAE CAM软件开发平台 它提供了丰富的几何建
  • KEIL5配置astyle

    比较清爽的参数 E style google U p n

随机推荐

  • lighttpd支持AJAX吗,lighttpd

    Lighttpd 是一个德国人领导的开源Web服务器软件 软件名称 lighttpd 软件版本 1 4 49 更新时间 2018 03 11软件语言 英语 简 介 Lighttpd 开源Web服务器软件 操作系统 Linux Windows
  • chrome使用指南

    目录 常用快捷键 常用插件 Octotree github源码浏览 GitCodeTree github gitee源码浏览 Axure RP Extension for Chrome 查看原型图 Tampermonkey 油猴脚本 云盘管
  • Flink CDC问题

    这里会列举出一些关键配置和遇到的问题 一直补充 Oracle CDC 1 SUPPLEMENTAL LOG在库和表上都需要执行 不是只有表上 ALTER TABLE inventory customers ADD SUPPLEMENTAL
  • 原生js触底加载案例

    data return RoomData isBool false limit 0 isLoading false methods roomClick value location href value RoomApi this limit
  • 4.网络配置与系统管理

    个人简介 作者简介 大家好 我是W chuanqi 一个编程爱好者 个人主页 W chuanqi 支持我 点赞 收藏 留言 愿你我共勉 若身在泥潭 心也在泥潭 则满眼望去均是泥潭 若身在泥潭 而心系鲲鹏 则能见九万里天地 文章目录 网络配置
  • mysql创建表时表明加单引号_python在MySQL表名周围插入单引号(‘)

    我有一个名为project1的数据库 其中包含以下表格 systbl1 systbl2 systbl3 dataset1 dataset2 dataset3 每当添加一个新用户时 都需要授予MySQL用户odbc对dataset 表的SEL
  • 组态王串口服务器虚拟串口,串口服务器USR-N510连接组态王设置步骤

    调试目的 USB RS232或者USB RS485串口线接USR N510串口和电脑USB口 MODBUS SLAVE软件打开COM口 模拟客户串口MODBUS RTU设备 USR N510网线和电脑直连 IP设置同网段 在电脑安装USR
  • unicode编码、字符的转换和得到汉字的区位码

    一 unicode编码 字符的转换截图 二 unicode编码 字符的转换代码 using System using System Collections Generic using System ComponentModel using
  • Visual Studio MFC编程 程序调试时所遇到的问题及解决方法

    本文中记录了笔者在基于Visual Studio MFC编程时 程序调试过程中所遇到的问题及解决方法 目录 1 Visual Studio MFC中的快捷方式 1 1 问题 Visual Studio MFC中修改好程序之后 怎样编译并建立
  • QT实现串口打开和关闭

    一 查找串口 windows 下面这个循环语句用来查找可以用的串口端口 不确定有多少串口可用 也就不知道循环多少次 所以用foreach 不知道用的就百度 foreach const QSerialPortInfo info QSerial
  • Linux常用操作命令

    Shell命令基础 root localhost root 用户名账号 计算机名 用户当前工作目录 文件与目录相关命令 1 ls命令 列出目录内容 执行ls指令可列出目录的内容 包括文件目录以及子目录 ls 参数 文件或目录 若无选定目录
  • 抽象类案例

    卡类 package Java project 1 public abstract class Card private String userName private double money public abstract void p
  • 数据库的连接串(中文)

    在数据库的各种应用程序开发中 连接数据库是数据库应用程序开发的第一步 同时也是最重要的一步 而对于不同的数据库他们的连接模式各有不同 对应的连接串也不同 Sql Server ODBC o 标准连接 Standard Security Dr
  • CSS之background-position属性

    1 作用 background position是用来控制元素背景图片的位置 以图片的左上角顶点为原点 属性值为正就代表图片下移或右移 属性值为负就代表图片上移或左移 它接受三种值 关键词 比如top right bottom left和c
  • WordPress:实现发布文章自动添加TAG标签

    在给我们的WordPress博客更新文章时 大多数人应该会给文章添加一些TAG标签 文章添加TAG标签也是我们做WordPress优化必不可少的一项 但是如果每一篇文章的关键字标签都要手动添加链接 那也太麻烦了 今天给大家分享一篇自动给文章
  • java---多重循环练习

    java 多重循环练习 1 关于多重循环的嵌套使用 举例 一 循环嵌套的用法 1 更加方便 重复率低的实现多步操作 二 使用步骤 1 多个循环结构嵌套 代码如下 示例 for 变量初始值 循环条件 迭代 for 变量初始值 循环条件 迭代
  • RabbitMQ 中arguments详解(系列一之Message TTL)

    注 以下程序使用C 实现 在我们使用RabbitMQ声明队列时 其中最后一个参数是arguments 那么arguments到底有什么用呢 下面我们解释其中参数的第一中用法 即 消息过期时间 Message TTL 我们将最后一个参数arg
  • OW-DETR

    欢迎关注我的公众号 极智视界 获取我的更多笔记分享 大家好 我是极智视界 本文解读一下 基于 Transformer 的开放世界目标检测器 OW DETR 开放世界目标检测 OWOD 是一个具有挑战性的计算机视觉问题 其任务是检测一组已知的
  • 现代密码学第三次实验:不对称加密算法RSA

    现代密码学第三次实验 不对称加密算法RSA 前言 一 实验目的 二 实验环境 三 实验步骤 四 实验基本方法 五 实验程序清单 七 实验结果 八 实验总结 前言 为了帮助同学们完成痛苦的实验课程设计 本作者将其作出的实验结果及代码贴至CSD
  • python实验数据预处理案例_Python数据分析小案例——红楼梦文本分析(一) 文本预处理...

    本文开始介绍一个简单的数据分析案例 分析红楼梦文本 本文主要内容是将红楼梦文本按照章节获取每一回的标题 字数 段落数并保存到csv中方便后续数据分析 红楼梦小说文本可以在这里下载 链接 https pan baidu com s 1WEmu