Python从大型文本文件中读取完整行的块（列值拆分为多行）

2024-02-12

我想分块读取一个大的 .txt 文件（c.2.5GB），然后在加载到数据库之前执行一些操作。

该文件只有 2 列（列分隔符为¬）并且有资格double quotes。第二列中的值可以跨越多行（下面的示例）。我想用这个answer https://stackoverflow.com/questions/519633/lazy-method-for-reading-big-file-in-python/519653#519653但问题是它可能会处理不完整的行，因为它取决于预设chunk size。有人可以帮忙吗？我在下面提供了示例数据和代码。

示例数据（Sample_load_file.txt）

"LINE_ID"¬"LINE_TEXT"
"C1111-G00-BC222"¬"this line is
split into
multiple lines
% All needs to be read into 1 line
% Currently that's not happening
"
"C22-f0-333"¬"2nd row. This line is
split into
multiple lines
% All needs to be read into 1 line
% Currently that's not happening
  *******************************************************************
  This line also includes the column delimiter within text qualifier
  *******************************************************************
  # !¬!¬!¬|
"

Code

import pandas as pd
import os
from dbconnection import DBConnection

path = r'C:\Sample_load_file.txt'
db = DBConnection(server ='XXXX', database='XXXX')

def read_in_chunks(file_object, chunk_size=1024):
    #Lazy load to read a file piece by piece (avoiding moemory issues)
    #Default chunk size: 1k.
    while True:
        data = file_object.read(chunk_size)
        if not data:
            break
        yield data
        
def process_chunk(data=piece):
    #Build a list of lines based on ' "\n" ' as custom separator
    data = data.split('"\n"')
    
    #Split each line based on ' "¬" ' as custom separator
    data = [line.split('"¬"') for line in data]
    
    #Cleanup remaining double quotes
    data = [[e.replace('"', '') for e in line] for line in data]
    
    #Check the number of columns
    number_of_cols = len(str(data[0]).split('¬'))
    number_of_cols
    
    #Load data into a dataframe
    df = pd.DataFrame(data)
    
    #Reformat dataframe
    df.columns = df.iloc[0] # Set first row as column index
    df = df.iloc[1:].reset_index(drop=True) # Drop first line and reset index
    
    #Split the first column into two
    try:
        df[['LINE_ID', 'LINE_TEXT']] = df['LINE_IDÂ¬LINE_TEXT'].str.split('¬',expand=True)
    except:
        print('Error')
    del df['LINE_IDÂ¬LINE_TEXT']
    
    #Add metadata
    df['loaded_by'] = 'XXXX'
    df['file_line_number'] = range(2,len(df)+2)
    df['load_date'] = pd.datetime.now()
    df['source_file'] = path
    df['loading_script'] = r'Load_Extracts.ipynb'    
    
    #Load in SQL db
    df.to_sql('SQL_table_name', db.engine, schema='dbo', index=False, if_exists='append')
    
#Load text file
with open(path) as f:
    for piece in read_in_chunks(f):
        process_data(piece)

If LINE_ID适合一行，您可以尝试使用一个生成器，该生成器利用多行记录的第一行包含"¬":

def make_records(file):
    current = []
    for line in file:
        line = line.rstrip()
        if '"¬"' in line:
            if current:
                yield " ".join(current)
            current = [line]
        else:
            current.append(line)
    yield " ".join(current)

使用示例输入：

>>> import io
>>> 
>>> s = '''"LINE_ID"¬"LINE_TEXT"
... "C1111-G00-BC222"¬"this line is
... split into
... multiple lines
... % All needs to be read into 1 line
... % Currently that's not happening
... "
... "C22-f0-333"¬"2nd row. This line is
... split into
... multiple lines
... % All needs to be read into 1 line
... % Currently that's not happening
...   *******************************************************************
...   This line also includes the column delimiter within text qualifier
...   *******************************************************************
...   # !¬!¬!¬|
... "'''
>>> f = io.StringIO(s)
>>> for record in make_records(f):
...    print(record)
... 
"LINE_ID"¬"LINE_TEXT"
"C1111-G00-BC222"¬"this line is split into multiple lines % All needs to be read into 1 line % Currently that's not happening "
"C22-f0-333"¬"2nd row. This line is split into multiple lines % All needs to be read into 1 line % Currently that's not happening   *******************************************************************   This line also includes the column delimiter within text qualifier   *******************************************************************   # !¬!¬!¬| "

注意：您可能想要更改生成器的内容yields，例如，list or tuple代替str，根据您的需要删除双引号，跳过第一行。我用了io.StringIO仅出于说明目的，您将从“正常”文件中读取。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

textfiles

Python从大型文本文件中读取完整行的块（列值拆分为多行）的相关文章

在Python中使用字典作为switch语句[重复]

这个问题在这里已经有答案了我正在尝试使用字典用 Python 制作一个简单的计算器这是我的代码 def default print Incorrect input def add a b print a b def sub a b pr
优化完美平方问题，类似于Python中的硬币找零

我这里有一个硬币兑换的解决方案 python 中的 leetcode 硬币兑换 https stackoverflow com questions 69517078 coin change leetcode in python 因为完全平方
如何使用 django (python) 和 s3 上传文件？

我正在寻找一种将文件上传到 s3 的方法我正在使用 django 我目前正在使用亚马逊的 python 库进行上传以及以下代码 View def submitpicture request fuser request session lo
使用 Python 在 Google Cloud Storage 存储桶中创建/上传新文件

如何使用 Python 和可用的客户端库在 Google Cloud Storage 中创建新的空文件或者如何使用 blob 函数 upload from filename 将新文件上传到选定的存储桶要初始化 blob 对象我们应该在
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
从主机名中提取域名

是否有一种编程方式可以从给定的主机名查找域名给出 gt www yahoo co jp 返回 gt yahoo co jp 有效但非常慢的方法是拆分为并从左侧删除 1 个组使用 dnspython 加入并查询 SOA 记录当返回有
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
读取文件特定行号的有效方法。（奖励：Python 手册印刷错误）

我有一个 100 GB 的文本文件它是来自数据库的 BCP 转储当我尝试导入它时BULK INSERT 我在第 219506324 行上收到一个神秘错误在解决此问题之前我想看看这一行但可惜的是我最喜欢的方法 import line
如何为 Python 中的应用程序设置专用屏幕区域？

MS OneNote 就是一个很好的例子它可以选择固定在屏幕的一侧并将所有其他窗口推到一侧当最大化或调整其他窗口大小时它们只能扩展到 OneNote 的边缘 Python 使用 Tkinter 或其他模块是否具有此功能感谢您的帮助
Python，多线程，获取网页，下载网页

我想在一个站点批量下载网页我的 urls txt 文件中有 5000000 个 url 链接大约有300M 如何让多线程链接这些网址并下载这些网页或者如何批量下载这些网页我的想法 with open urls txt r as f
使 np.loadtxt 使用多个可能的分隔符

我有一个程序可以读取数据文件用户可以选择他们想要使用的列我希望它对于输入文件更加通用有时列可能如下所示 10 34 24 58 8 284 6 121 有时它们可能看起来像这样 10 34 24 58 8 284 6 121 我希
如何在数据框中绘制包含三列的无向图，形成 3 种不同类型的节点（三方）？

我正在尝试使用三个不同的列表绘制网络的可视化这三个列表形成 3 种类型的节点下面的代码正在运行如图所示需要两个列表用户 ID 评分但是我希望我的图表是三部分的即 user userId review ratings prod
如何在 Sublime 2 REPL Mac 中运行 Python 3

我的问题如下我安装了 sublime 2 和 sublime repl 插件一切正常我唯一需要的是更改在控制台内置的 sublimerepl 上运行的 python 版本我的意思是我有 python 2 7 5 预先安装了 mav
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
使用 statsmodels.formula.api 中的 ols - 如何删除常数项？

我正在遵循第一个例子statsmodels教程 http statsmodels sourceforge net devel http statsmodels sourceforge net devel 如何指定在 ols 中不使用常数项进
如何限制scrapy请求对象？

所以我有一个蜘蛛我认为它正在泄漏内存结果当我检查 telnet 控制台 gt gt gt prefs 时它只是从链接丰富的页面中抓取了太多链接有时它会超过 100 000 个现在我已经一遍又一遍地浏览文档和谷歌但我找不到一种方法
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get

随机推荐

vim：打开水平和垂直分割的4个文件

在命令行上 vim可以打开4个水平分割的文件 vim o file1 file2 file3 file4 或 4 个文件垂直分割 vim O file1 file2 file3 file4 如何打开 4 个文件使其水平和垂直分割如下所示
从数据库填充下拉列表

我的实体框架中有一个 mvc 3 应用程序其中有 2 个表我有另一个名为 Product 的表其中包含 ProductID 和 ProductName 创建新视图以插入新购买如何将视图中的 ProductID 文本框更改为由 Pro
导入库仅用于调试

我在用stetho用于调试我的应用程序的lib Gradle debugCompile com facebook stetho stetho 1 4 1 debugCompile com uphyca stetho realm 2 0 0
添加Java系统模块在Eclipse中编译

我有一些遗留的 Java 代码即 package org alo test j9 import javax activation DataHandler in java activation module import javax ann
SetWindowSubclass 内的 msftedit.dll RichEdit 控件出现“访问冲突读取位置 0x00000008”错误

我在单独的子类文件中有编辑控件在开始工作 SetWindowSubclass 函数后我是 C 新手之前我使用 SetWindowLongPtr 进行子类化它工作得很好但有人建议我开始使用 SetWindowSubclass 我遇到
Grails 渲染插件在部署时不会渲染图像

我正在使用 grails 渲染插件生成 pdf 在开发过程中我使用带 src 的标签将图像包含到服务器上的图像中它工作正常但部署应用程序后就不再工作了图像就消失了我正在通过模板进行渲染因此当我在 gsp 中调用此模板时这是可以
IQueryable 复杂顺序 $sort 中仅允许使用字段

我想对列表进行排序当它是IEnumerable时它工作正常但是我将其更改为IQueryable来查询MongoDB时它不起作用给我这个错误 System NotSupportedException sort 中仅允许使用字段 Que
python3 super 不适用于 PyQt 类

python3中有一个简单的程序 from PyQt4 import QtCore import PyQt4 class Bar object def init self print Bar start super Bar self ini
如何从来宾操作系统获取 Citrix XenServer VM 的唯一 ID？

假设我有多个同名的 Citrix XenServer VM 或者这些名字都是垃圾没关系从其中一台虚拟机上的来宾操作系统中我如何以编程方式确定虚拟机的 ID 我希望虚拟机的 UUID 应该作为来宾操作系统的 BIOS 序列号但事实并
Typo3 流体图像裁剪，高度失败

使用此代码
TouchJSON 返回可变对象吗？

我从网络服务接收一些 json 我使用 TouchJSON 库解析它我保留数据供用户更改某些值然后我想将其返回到网络服务我得到的 JSON 对象在对象中包含 NSDictionary 对象如下所示 id null created a
开源、多平台、基于浏览器的屏幕捕获扩展？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在考虑一个项目该项目涉及浏览器用户能够屏幕捕获任何网页的内容最好是整个页面而不仅仅是可见部分
为什么 cqlsh 右对齐字符串？

我发现使用 cqlsh 显示的字符串值是右对齐的是否有一个原因有没有办法左对齐字符串 cqlsh test gt create table test id int a ascii t text primary key id cqlsh
当其中一个容器失败时，SSIS 包是否失败

我有一个包含 1 个容器的包如果该容器失败 ssis 包是否会失败该物业失败时失败包对于容器来说是 false 这是否意味着只有当该属性设置为 TRUE 时包才会失败否则只有容器状态失败而包状态不是是的如果序列容器失败则整
获取webclient中通过AJAX生成的html

我经常去某个网站查找资料我心想等等我可以编程当我可以编写一个为我做这件事的软件时为什么我要手动访问这个网站呢于是我开始了我使用的是 C 所以我找到了 WebClient 和 Uri 我已经设法获取该网站的源代码但出现的问题是
“弱参考”：需要脚踏实地的解释

有人可以解释一下吗弱引用在德尔福我注意到这个概念经常在我仔细检查的一些库框架源代码中提到我陷入了困境想要对其有一个清晰的了解通过接口引用相互引用的实例在基于引用计数的接口实现中使彼此保持活动状态弱引用用于打破让彼此活着的熊抱
无法实例化 DatePipe

我正在尝试实例化一个DatePipe我的 Angular2 应用程序中要使用的对象transform 我正在开发的组件中的功能 import DatePipe from angular common Component export cla
Android SecurityException：uid xxxxx 无法显式添加帐户

我收到错误消息 java lang SecurityException uid 10178 cannot explicitly add accounts of type net roughdesign swms 即使是我可以创建的最基本的示
带有 RuntimeWarning 的 numpy 除法：double_scalars 中遇到无效值

我写了以下脚本 import numpy d numpy array 1089 1093 e numpy array 1000 4443 answer numpy exp 3 d answer1 numpy exp 3 e res answ
Python从大型文本文件中读取完整行的块（列值拆分为多行）

我想分块读取一个大的 txt 文件 c 2 5GB 然后在加载到数据库之前执行一些操作该文件只有 2 列列分隔符为并且有资格double quotes 第二列中的值可以跨越多行下面的示例我想用这个answer https stac

Python从大型文本文件中读取完整行的块（列值拆分为多行）

Python从大型文本文件中读取完整行的块（列值拆分为多行） 的相关文章

随机推荐

热门标签

Python从大型文本文件中读取完整行的块（列值拆分为多行）的相关文章