python学习笔记 - 如何从几千个文件中寻找出指定的内容

2023-11-18

今天在处理数据时遇到这么个问题，如何从几千个txt文件中找到我想要的内容呢？

这是我的实现思路。

读取文件
选中指定的内容段
在新路径下保存内容段并命名为之前的文件名

以下是用python实现的代码。有详细注释！

#!/usr/bin/env python3
# -*- coding: utf-8 -*- 


import os
import re

regtxt = r'.+?\.txt' #扫描对象为txt文件.
regcontenthead = r'<!-- ========== METHOD SUMMARY =========== -->'  #找出指定的开头
regcontentend = r'</table>'                 #找到指定的结尾

class FileException(Exception):
    pass

def getdirlist(filepath):
    """获取目录下所有的文件."""

    txtlist = [] #文件集合.
    txtre = re.compile(regtxt)
    needfile = [] #存放结果.
    for parent, listdir, listfile in os.walk(filepath):
        for files in listfile:
            #获取所有文件.
            istxt = re.findall(txtre, files)
            filecontext = os.path.join(parent, files)
            #获取非空的文件.
            if istxt :
                txtlist.append(filecontext)                
                
                #将所有的数据存放到needfile中.
                needfile.append(readfile(filecontext)) 
                #print('needflie:', needfile)
				
				

    if needfile == []:
        raise FileException("no file can be find!")
    else:
        #print('needfile:',needfile)
        
        validatedata = getvalidata(needfile)
        #print ('validatedata', validatedata)
        
        print ('total file %s , validate file %s.' %(len(txtlist),len(validatedata)))

def getvalidata(filelist=[]):
    """过滤集合中空的元素."""

    valifile = []
    for fp in filelist:
        if fp != None:
            valifile.append(fp)
    return valifile

def readfile(filepath):
    """通过正则匹配文本中内容，并返回文本."""

    flag = False
    contentrehead = re.compile(regcontenthead)          #regcontenthead = r'<!-- ========== METHOD SUMMARY =========== -->' 
    contentrend = re.compile(regcontentend)
    
    fp = open(filepath, 'r', encoding='UTF-8')
    
    str1 = "LCP_Read"
    str2 = "LCP_Write" 
    Newfilepath = filepath.replace(str1, str2)        #保存到新的路径
    fpWrite = open(Newfilepath, "a+")
    
    lines = fp.readlines()
    #print('lines:', lines)
    
    flines = len(lines)
    #print('flines:', flines)
    
    #逐行匹配数据.
    for i in range(flines): 
        iscontenthead = re.findall(contentrehead, lines[i]) 
        j = i
        if iscontenthead:
            for j in range(flines):
                if j < i:
                    continue
                else:
                    iscontentend = re.findall(contentrend, lines[j])
                    fpWrite.write(lines[j])     #把指定的内容写入文件
                    
                    if iscontentend:
                        fp.close()
                        fpWrite.close()
                        #print('filepath', filepath)
                        return filepath                       
            
                                     

if __name__ == "__main__":
    getdirlist('C:\\Users\\Dandelion\\Desktop\\LCP_Read')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

文件

python学习笔记 - 如何从几千个文件中寻找出指定的内容的相关文章

Python - Pandas - 将特定函数应用于给定级别 - 多索引数据帧

我有一个多索引 DataFrame 并且我希望仅对分配给我的级别之一的向量应用一些计算使用下面的代码 import pandas as pd import datetime ticker date US datetime date tod
为什么 Python zipfile 不提供与命令行 zip 相同的输出 .zip 文件大小？

这是生成的文件的大小zip seq 10000 gt 1 txt zip 1 1 txt adding 1 txt deflated 54 ls og 1 zip rw r r 1 22762 Aug 29 10 04 1 zip 这是一个
根据日期列过滤并创建列

我有一个样本数据如下 date Deadline 2018 08 01 2018 08 11 2018 09 18 2018 12 08 2018 12 18 我想用代码中描述的条件填写截止日期列如 1 DL 2 DL 3 DL 等基于
回归模型 statsmodel python

这更多是一个统计问题因为代码运行良好但我正在学习 python 中的回归建模我在下面使用 statsmodel 编写了一些代码来创建一个简单的线性回归模型 import statsmodels api as sm import num
lxml/python 使用 CDATA 部分读取 xml

在我的 xml 中我有一个CDATA部分我想保留 CDATA 部分然后剥离它有人可以帮忙解决以下问题吗默认不起作用 from io import StringIO from lxml import etree xml
是否可以使用 csv.DictReader 保持列顺序？

例如我的 csv 有如下列 ID ID2 Date Job No Code 我需要以相同的顺序写回各列这dict立即打乱了顺序所以我相信这更多是读者的问题蟒蛇的dicts 在 3 6 之前不维持顺序但是无论如何在该版本中csv
Dataframe unstack 性能 - pandas

我正在尝试拆开数据框它工作正常但问题是我正在处理 CSV 文件中的巨大数据集约 10 亿这是示例数据集 236539 48512569874 Name Danny 236539 48512569874 Class 12 236539
Groupby Sum 忽略几列

在此数据框中我想按位置进行分组并获得分数的总和但我不希望纬度经度和年份在此过程中受到影响 sample pd DataFrame Location A B C A B C Year 2001 2002 2003 200
如何使用httplib2进行相互证书认证

我正在使用 httplib2 从我的服务器向另一个 Web 服务发出请求我们想要使用相互证书身份验证我了解如何使用证书进行传出连接 h set certificate 但是如何检查应答服务器使用的证书这张票 http code goo
django PermissionRequiredMixin Permission_required 不起作用

Views py class templateList PermissionRequiredMixin TemplateView permission required accounts template all def get self
使用 python 更改目录

我碰巧发现我无法从 python 代码中更改实际目录我的测试程序如下 from os import system def sh script system bash c s script sh cd home sh pwd 的输出pwd
如何将 MP3 音频文件读入 numpy 数组/将 numpy 数组保存到 MP3？

有没有办法从 MP3 音频文件中读取写入 MP3 音频文件numpy具有类似 API 的数组scipy io wavfile read https docs scipy org doc scipy 0 14 0 reference gen
将日期（系列）列从一个 DataFrame 添加到其他 Pandas，Python

我正在尝试将日期列从 df1 广播到 df2 在 df1 中我有所有用户的姓名及其基本信息在 df2 中我有一个用户购买的列表 df1 和 df2 代码 https i stack imgur com sN0uJ png 假设我有一
将 tf.contrib.layers.xavier_initializer() 更改为 2.0.0

我该如何改变 tf contrib layers xavier initializer tf 版本 gt 2 0 0 所有代码 W1 tf get variable W1 shape self input size h size initi
使用 matplotlib 在 python3 中对多个形状进行动画处理

尝试在 python3 中使用 matplotlib 动画函数同时对多个对象进行动画处理下面写的代码是我到目前为止的位置我能够创建多个对象并将它们显示在图中我通过使用包含矩形补丁函数的 for 循环来完成此操作从这里开始我希望通过
在keras自定义损失中使用层输出

我正在 Keras 中开发自定义损失函数我需要第一层输出我怎样才能取回它 def custom loss y true y pred cross K mean K binary crossentropy y true y pred ax
Python Sqlite3 获取 Sqlite 连接路径

给定一个 sqlite3 连接对象如何检索 sqlite3 文件的文件路径 The Python 连接对象 http github com python cpython blob master Modules sqlite connect
将 scipy 稀疏矩阵的几行采样到另一个中

如何对 scipy 稀疏矩阵的某些行进行采样并从这些采样的行中形成一个新的 scipy 稀疏矩阵例如如果我有一个 10 行的 scipy 稀疏矩阵 A 并且我想创建一个新的 scipy 稀疏矩阵 B 其中 A 的第 1 3 4 行该
从由空格分隔的单个输入整数列表创建二维数组

我正在解决一些问题geeksforgeeks我遇到了一个特定的问题其中在测试用例中提供了输入如下所示 2 2 denotes row column of the matrix 1 0 0 0 all the elements of th
加载腌制字典对象或加载 JSON 文件哪个更快？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案什么更快 A Unpickling 加载一个 pickled 字典对象使用pickle load or B 使用以下命令将 JSON

随机推荐

使用python和snapshot备份ElasticSearch索引数据

该python备份snapshot的索引数据脚本通过Elasticsearch连接es 然后通过es indices get alias函数获取所有索引名称通过列表的startswith函数剔除开头的自带索引名称然后把所有索引名称放
多边形的面积

1 三角形面积 xy平面内有三角形123 如下图所示图1 借助矢量叉积和点积这个三角形的面积公式非常简单这个面积是有符号的 1 2 3逆时针排列则面积为正 1 2 3顺时针排列则面积为负这是对右手系的总结如果从背面看这个坐标
11月11日自定义Events,将自定义Events分配给UI,给UI添加动画 UE4斯坦福学习笔记

自定义Events 在AttributeComponent的 h头文件上加上代码自定义Event DECLARE DYNAMIC MULTICAST DELEGATE FourParams FOnHealthChanged AActor
思科模拟器简单校园网设计，期末作业难度

文章简介本文用思科模拟器设计和规划了一个校园网络相当于计算机网络相关专业期末作业难度作者简介网络工程师希望能认识更多的小伙伴一起交流可私信或QQ号 1686231613 一网络需求分析 1 学校建有办公室实验室教学楼学生
【STM32】RS485通信使用DMA串口发送数据出现数据丢失、断包问题排查方法

最近在搞这个Modbus协议由于485协议是半双工的区别于RS 232的全双工考虑不周导致调试modbus协议时候出了不少问题第一大多数开发板上的485芯片是MAX485 发送和接收状态的切换是通过IO给到这个两个引脚不同的电平进
win 11又更新，新功能简直绝了！

很早之前咱就知道微软下半年将会有一次大动作没错就是发布Win11 22H2正式版之前有说过9月份发现在也确实做到了微软现在已经面向190多个国家地区推送了Windows 11 22H2正式版更新更新之后版本号为22621 5
linux中通过sed命令通过正则表达式过滤出中文[^[\u4E00-\u9FA5A-Za-z0-9_]+$]

linux中通过sed命令通过正则表达式过滤出中文 sed r s u4E00 u9FA5A Za z0 9 lt gt 0 9 a z A Z g zz txt gt a txt
flutter listview 滚动到底部_(五) Flutter入门学习之 Widget滚动

列表是移动端经常使用的一种视图展示方式在Flutter中提供了ListView和GridView 为了可能展示出更好的效果我这里提供了一段Json数据所以我们可以先学习一下Json解析一 JSON读取和解析在开发中我们经常会使用
sql注入原理及解决方案

sql注入原理就是用户输入动态的构造了意外sql语句造成了意外结果是攻击者有机可乘 SQL注入 SQL注入就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串最终达到欺骗服务器执行恶意的SQL命令比如先前的很多
随机练习题：浅浅固定思路

1 牛牛的10类人 2 牛牛的四叶玫瑰数 3 牛牛的替换 4 牛牛的素数判断笔者开头感想如今大部分高校已经开学当然笔者也不列外但是由于疫情的原因笔者被迫在家上网课学习一脸忧愁而这恰恰给了笔者自学的机会相信笔者会加油滴按照时
Acwing-4366. 上课睡觉

假设最终答案为每堆石子均为cnt个 cnt一定可以整除sum 石子的总数我们可以依次枚举答案 sum小于等于10 6 所以cnt的数量等于sum约数的个数 10 6范围内约数最多的数为720720 它的约数个数有240个 int范围内
单边带（SSB）调制技术

文章目录单边带 SSB 调制技术 1 双边带简述 2 单边带调制单边带 SSB 调制技术 1 双边带简述首先简述一下双边带调制所谓双边带 DSB double sideband 调制本质上就是调幅时域上将基带信号x t 和高频载
pytorch FX模型静态量化

文章目录前言一 pytorch静态量化手动版踩坑二使用FX量化 1 版本 2 代码如下总结前言以前面文章写到的mobilenet图像分类为例本文主要记录一下pytorchh训练后静态量化的过程一 pytorch静态量化
特征工程完全总结（Python源码）

https www jianshu com p 114385e5a757
【Linux】多线程的互斥与同步

需要云服务器等云产品来学习Linux的同学可以移步 gt 腾讯云 lt gt 阿里云 lt gt 华为云 lt 官网轻量型云服务器低至112元年新用户首次下单享超低折扣目录一线程冲突二重入与线程安全 1 线程不安全的情况 2
svg php,如何加载使用PHP生成的SVG文件？

我想用 PHP创建一个SVG文件然后将其包含在HTML文件中这是我到目前为止 this tutorial之后 svg php header Content type image svg xml gt p gt http www w3 o
Session、Token、Cookie的区别及实际使用

在现代Web开发中身份验证和会话管理涉及一些基本概念如Session Token和Cookie 尽管它们都用于管理不同方面的Web会话但它们之间的差异是很重要的在本文中我们将一一介绍Session Token和Cookie的定义
空间直角坐标系右手系和左手系的判定方法及绕轴旋转的正方向

1 判定坐标系右手大拇指指向z轴方向其余四指由x轴握向y轴方向如果成功那么判定为右手系左手大拇指指向z轴方向其余四指由x轴握向y轴方向如果成功那么判定为左手系坐标系的种类判断成功那么接下来该判断旋转正方向 2 旋转正方向
Linux常用基本操作命令详解（一）

Linux实用命令 1 前言 2 常用Linux命令 2 1 常用的系统工作命令 2 2 系统状态检测命令 2 3 工作目录切换命令 3 小结 4 复习巩固题参考资料 1 前言最近学习了有关Linux的一些常用基本命令在此做个简单
python学习笔记 - 如何从几千个文件中寻找出指定的内容

今天在处理数据时遇到这么个问题如何从几千个txt文件中找到我想要的内容呢这是我的实现思路读取文件选中指定的内容段在新路径下保存内容段并命名为之前的文件名以下是用python实现的代码有详细注释 usr bin env pyth

python学习笔记 - 如何从几千个文件中寻找出指定的内容

python学习笔记 - 如何从几千个文件中寻找出指定的内容 的相关文章

随机推荐

热门标签

python学习笔记 - 如何从几千个文件中寻找出指定的内容的相关文章