本文开始介绍一个简单的数据分析案例,分析红楼梦文本,本文主要内容是将红楼梦文本按照章节获取每一回的标题,字数,段落数并保存到csv中方便后续数据分析
红楼梦小说文本可以在这里下载
链接:https://pan.baidu.com/s/1WEmunBN_Wo75EZd1cK6_lA
提取码:3xco
接下来直接上代码
import pandas as pd
import numpy as np
with open("./hlm/red.txt",encoding="utf-8") as f:
content = f.readlines()
content = pd.DataFrame(content) #将行转为df,这个df只有一列
content.columns = ["content"] #取列名为content,以防content[0]会有歧义,不知道是表示第一列还是第一行
print(content)
#查看是否有为空的行
print(np.sum(content.isnull()))
#删除 第x卷 这样的行
has_juan = content["content"].str.contains(r"^第.+?卷") #返回 [True,False,....,False]
# print(content[has_juan])
index_has_juan = has_juan.index[has_juan.values==True] #或者has_juan[has_juan==True].index
# print(content.drop(index