1、python 批量读取txt文件,不读#注释的部分,并将数据保存为dataframe格式?
代码:
import re
import glob
import pandas as pd
path = 'data/*.txt' # 指定txt文件所在文件夹路径
# 匹配不带#注释的数据行
p = re.compile(r'^\s*[^#].*')
df = pd.DataFrame() # 创建空的DataFrame
for file in glob.glob(path):
with open(file, "r") as f:
lines = f.readlines()
data = []
for line in lines:
line = line.strip()
if p.match(line):
data.append(line.split())
# 将数据转换为DataFrame格式,并添加到原DataFrame中
df_tmp = pd.DataFrame(data, columns=['col1', 'col2', 'col3'])
df_tmp['filename'] = file # 添加文件名列
df = pd.concat([df, df_tmp], ignore_index=True)
print(df)
2、python 批量读取txt文件,读#注释的部分,并将数据保存为dataframe格式?
思路:
批量读取txt文件,包括其中的#注释,可以使用Python的glob
模块获取指定路径下所有的txt文件,然后遍历每个文件,读取文件中的所有行,并将文件名、注释行和数据行分别存储到相应的列表中;最后,将数据行转换为DataFrame格式,并添加文件名和注释行为新的一列。
代码:
import glob
import pandas as pd
path = 'data/*.txt' # 指定txt文件所在文件夹路径
data = [] # 保存所有的数据行
comments = [] # 保存所有的注释行
filenames = [] # 保存所有的文件名
for file in glob.glob(path):
with open(file, "r") as f:
lines = f.readlines()
filename = file.split("/")[-1] # 提取文件名
lines_data = [] # 保存当前文件的数据行
lines_comments = [] # 保存当前文件的注释行
for line in lines:
if line.startswith("#"): # 如果是注释行,则保存到comments列表中
lines_comments.append(line.strip())
else: # 否则就是数据行,保存到data列表中
lines_data.append(line.strip())
# 将当前文件的数据行转换为DataFrame格式,并添加文件名和注释行为新的一列
df_tmp = pd.DataFrame([line.split() for line in lines_data], columns=['col1', 'col2', 'col3'])
df_tmp['filename'] = filename
df_tmp['comments'] = ",".join(lines_comments) # 将注释行转换为字符串,用逗号分隔
data.append(df_tmp)
# 将所有的DataFrame合并为一个,并生成递增的整数索引
df = pd.concat(data, ignore_index=True)
print(df)
如果还要想提取注释行中的内容,可以这样:
# 使用字符串处理函数和正则表达式提取注释信息
pattern = r'#[^#]+\[[a-zA-Z]+\](.*)'
df['comment_type'] = df['comments'].str.extract(pattern)
df['comment_date'] = df['comments'].str.extract(r'Date: (\d{4}-\d{2}-\d{2})')
或者可以直接在Excel中操作:按逗号分成列。
数据-分列: