python 批量读取txt文件

2023-11-11

1、python 批量读取txt文件，不读#注释的部分，并将数据保存为dataframe格式？
代码：

import re
import glob
import pandas as pd

path = 'data/*.txt'  # 指定txt文件所在文件夹路径

# 匹配不带#注释的数据行
p = re.compile(r'^\s*[^#].*')

df = pd.DataFrame()  # 创建空的DataFrame

for file in glob.glob(path):
    with open(file, "r") as f:
        lines = f.readlines()

    data = []
    for line in lines:
        line = line.strip()
        if p.match(line):
            data.append(line.split())

    # 将数据转换为DataFrame格式，并添加到原DataFrame中
    df_tmp = pd.DataFrame(data, columns=['col1', 'col2', 'col3'])
    df_tmp['filename'] = file  # 添加文件名列
    df = pd.concat([df, df_tmp], ignore_index=True)

print(df)

2、python 批量读取txt文件，读#注释的部分，并将数据保存为dataframe格式？
思路：
批量读取txt文件，包括其中的#注释，可以使用Python的glob模块获取指定路径下所有的txt文件，然后遍历每个文件，读取文件中的所有行，并将文件名、注释行和数据行分别存储到相应的列表中；最后，将数据行转换为DataFrame格式，并添加文件名和注释行为新的一列。
代码：

import glob
import pandas as pd

path = 'data/*.txt'  # 指定txt文件所在文件夹路径

data = []  # 保存所有的数据行
comments = []  # 保存所有的注释行
filenames = []  # 保存所有的文件名

for file in glob.glob(path):
    with open(file, "r") as f:
        lines = f.readlines()

    filename = file.split("/")[-1]  # 提取文件名
    lines_data = []  # 保存当前文件的数据行
    lines_comments = []  # 保存当前文件的注释行

    for line in lines:
        if line.startswith("#"):  # 如果是注释行，则保存到comments列表中
            lines_comments.append(line.strip())
        else:  # 否则就是数据行，保存到data列表中
            lines_data.append(line.strip())

    # 将当前文件的数据行转换为DataFrame格式，并添加文件名和注释行为新的一列
    df_tmp = pd.DataFrame([line.split() for line in lines_data], columns=['col1', 'col2', 'col3'])
    df_tmp['filename'] = filename
    df_tmp['comments'] = ",".join(lines_comments)  # 将注释行转换为字符串，用逗号分隔
    data.append(df_tmp)

# 将所有的DataFrame合并为一个，并生成递增的整数索引
df = pd.concat(data, ignore_index=True)

print(df)

如果还要想提取注释行中的内容，可以这样：

# 使用字符串处理函数和正则表达式提取注释信息
pattern = r'#[^#]+\[[a-zA-Z]+\](.*)'
df['comment_type'] = df['comments'].str.extract(pattern)
df['comment_date'] = df['comments'].str.extract(r'Date: (\d{4}-\d{2}-\d{2})')

或者可以直接在Excel中操作：按逗号分成列。
数据-分列：
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

数据分析

python 批量读取txt文件的相关文章

pydev 调试器：严重警告：此版本的 python 似乎编译不正确（内部生成的文件名不是绝对的）[重复]

这个问题在这里已经有答案了通过运行 from sklearn datasets import fetch california housing import pandas as pd pd set option precision 4 m
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何从Python中的字符串中提取变量名称和值

我有一根绳子 data var1 id 12345 name John White python中有没有办法将var1提取为python变量更具体地说我对字典变量感兴趣这样我就可以获得变量的值 id和name python 这是由提供
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

重构-提取重复的代码

在编写程序过程中特别是刚刚入行没有多久的程序员经常会犯的一个错误就是大段大段的复制粘贴代码把功能相近的代码直接复制过来而不加以修改这个习惯也许来源于你的老师也许来源于你本身的原因总之对于这一类程序员最好的设计模式就是 Ctrl
电信aep平台和iot平台区别_移远BC95使用CoAP协议接入华为IoT平台

点击上方蓝色字体关注我们 BC95的CoAP测试需要云平台配合当前的支持CoAP协议的平台有华为OceanConnect平台电信天翼云除了 Logo 其他和华为的一样移动 OneNet等此教程以华为的OceanConnect 平
leetcode 第55题跳跃游戏

题目给定一个非负整数数组 nums 你最初位于数组的第一个下标数组中的每个元素代表你在该位置可以跳跃的最大长度判断你是否能够到达最后一个下标示例1 输入 nums 2 3 1 1 4 输出 true 解释可以先跳 1 步从下标
习题8-6 删除字符 (20分)

本题要求实现一个删除字符串中的指定字符的简单函数函数接口定义 void delchar char str char c 其中char str是传入的字符串 c是待删除的字符函数delchar的功能是将字符串str中出现的所有c字符删除
Python01-- Python遇到的代码错误：TypeError: __init__() missing 1 required positional argument: ‘priviledges‘

Python遇到的代码错误 TypeError init missing 1 required positional argument priviledges 这是在学习python中遇到的一个问题是关于类的参数问题说到底还是对类的知识
查看tenorflow对python版本的要求

查看tenorflow对python版本的要求一前言由于不同版本的tensorflow对所支持的python版本有所限制两者不匹配则无法使用所以我们在安装tensorflow时应该查看与python版本相匹配的tensorflo
安装SQL Server详细教程

安装SQL Server2019详细教程 1 官网下载SQL Server 2019 Developer Developer下载地址下载完成后打开安装程序选择自定义安装选择安装路径不推荐安装在C盘然后等待下载安装此过程较为缓慢
华为手机微信如何与电脑连接到服务器,有华为手机，还用微信QQ传文件到电脑？Huawei share秒传了解一下...

原标题有华为手机还用微信QQ传文件到电脑 Huawei share秒传了解一下华为手机用户还用微信 QQ传文件到电脑 Huawei share秒传了解一下我们在办公的时候难免需要手机和电脑之间互传文件很多朋友都会选择用微信或者
jstl详解

原文地址 http www blogjava net maverick1003 articles 236575 html JSTL标签库的使用是为类弥补html表的不足规范自定义标签的使用而诞生的在告别modle1模式开发应用程序后人
nuxt框架快速了解

公司最近有一个文献检索系统的研发项目也让我第一次接触到Nuxt js框架 Nuxt js 是一个基于 Vue js 的通用应用框架它可以通过对客户端服务端基础架构的抽象组织 Nuxt js 主要关注的是应用的 UI渲染 Nuxt js
Linux系统入门----虚拟机安装CentOS,jdk,tomcat,mysql的配置[笔记]

随着学习的深入要捣鼓一下Linux系统还不错虽然不如deepin系统那么好看但是对于企业来讲常常用CentOS 这不我又开始搞事情了大家习惯用Vmware或者VirtureBox但是Win10自带一个虚拟机软件可以不用再下载Vm
matlab-lsqcurvefit函数

lsqcurvefit函数 least squares curve fitting 用于最小二乘法求解非线性曲线拟合问题即已知输入向量xdata和输出向量ydata 并且知道输入与输出的函数关系为ydata F x xdata 但不知道系
新手做短视频自媒体，还在为做什么领域发愁？这里有没有你喜欢的

很多新手小白都会遇到这样的情况一看到镜头就紧张脸红说不出话来或者没有什么才艺又没有颜值但也想通过做短视频自媒体赚钱今天大周给你们推荐几个新手不用露脸也能做的短视频领域可以选一个自己喜欢或合适自己的去尝试一下一音乐领域 1
【FPGA内部RAM原理及应用场景分析】- 从内部RAM简介、分类、存储器方式以及不同场景下的应用四个方面来详细阐述FPGA内部RAM的原理和应用。

FPGA内部RAM原理及应用场景分析从内部RAM简介分类存储器方式以及不同场景下的应用四个方面来详细阐述FPGA内部RAM的原理和应用 FPGA内部RAM简介 FPGA内部RAM是一种集成在FPGA芯片内部的存储器它可以用于高速数据
cuihua 2022.4.11-17BUU刷题记录

25 MRCTF2020 摇滚DJ 1 题目概述 2 解题过程听了一下真难听 audacity打开波形是平的和前面那道题有点像 kali的qsstv工具安装qsstv apt install qsstv 安装成功后在终端下输入q
pytorch: 网络权重初始化

构建完网络后往往需要初始化权重其实也可以不需手动初始化在声明网络时 pytorch有默认的初始化方式如 import torch x torch Tensor 2 2 print x 输出为 tensor 2 0363e 09 4
SQL之sqli-labs注入Less-2~4

一 Less 2 与Less 1相同我们同样使用 id 1 看是否可以注入发现不可以并且提示错误我们可以知道这里不需要引号这就是与Less 1不同的地方除此之外以下步骤与Less 1相同 2 接下来我们使用 order by
PHP数据接收和使用

接受来自js发送的数据有几种接收方式 1 GET u GET user 2 POST P POS 3 REQUEST 两种传输方式的数据都可以接收 q REQUEST 创建虚拟服务器完成后操作数据表格的方法链接数据库 link new
springboot启动报错Error creating bean with name requestMappingHandlerMapping defined in class path resou

springboot启动报错 Error creating bean with name requestMappingHandlerMapping defined in class path resource org springframe
python 批量读取txt文件

1 python 批量读取txt文件不读注释的部分并将数据保存为dataframe格式代码 import re import glob import pandas as pd path data txt 指定txt文件所在文件夹路径

python 批量读取txt文件

python 批量读取txt文件 的相关文章

随机推荐

热门标签

python 批量读取txt文件的相关文章