Python中使用行数作为输入变量分割大文本文件的快速方法

2024-03-14

我使用行数作为变量来分割文本文件。我编写这个函数是为了将吐出的文件保存在临时目录中。除最后一个文件外，每个文件有 4 百万行。

import tempfile
from itertools import groupby, count

temp_dir = tempfile.mkdtemp()

def tempfile_split(filename, temp_dir, chunk=4000000):
    with open(filename, 'r') as datafile:
        groups = groupby(datafile, key=lambda k, line=count(): next(line) // chunk)
        for k, group in groups:
            output_name = os.path.normpath(os.path.join(temp_dir + os.sep, "tempfile_%s.tmp" % k))
            for line in group:
                with open(output_name, 'a') as outfile:
                    outfile.write(line)

主要问题是这个函数的速度。为了将一个 800 万行的文件拆分为两个 400 万行的文件，我的 Windows 操作系统和 Python 2.7 的时间超过 30 分钟

       for line in group:
            with open(output_name, 'a') as outfile:
                outfile.write(line)

正在打开文件并写入一行，对于每行在组中。这很慢。

相反，每组写一次。

            with open(output_name, 'a') as outfile:
                outfile.write(''.join(group))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

performance

Optimization

split

Python中使用行数作为输入变量分割大文本文件的快速方法的相关文章

带有指针数组的 cython

我在 python 中有一个 numpy ndarrays 列表具有不同的长度并且需要非常快速地访问 python 中的列表我认为指针数组就可以解决问题我试过 float type t list of arrays no of ar
带括号的上下文管理器

我试图了解新的新内容带括号的上下文管理器Python 3 10 中的功能新功能中的顶部项目here https docs python org 3 10 whatsnew 3 10 html 我的测试示例是尝试编写 with open f
静态文件配置不正确

我已经在 Heroku 上部署了简单的博客应用程序它运行在Django 1 8 4 我在静态文件方面遇到了一些问题当打开我的应用程序时我看到Application Error页面所以我尝试调试它并发现当我提交到 Heroku 时它无
Django 如何从 ManyToManyField 序列化并列出全部

我正在使用 Django 1 9 1 开发移动应用程序后端我实现了关注者模型现在我想列出用户的所有关注者但目前我不得不这样做我还使用 Django Rest 框架这是我的 UserProfile 模型 class UserProf
在加载“cv2”二进制扩展期间检测到递归

我有一个小程序在 pyinstaller 编译后返回 opencv 错误但无需编译即可工作我在 Windows 10 上使用 Python 3 8 10 Program 导入 pyautogui将 numpy 导入为 np导入CV2
使用 Python 的文本中的词频但忽略停用词

这给了我文本中单词的频率 fullWords re findall r w allText d defaultdict int for word in fullWords d word 1 finalFreq sorted d iterit
Selenium Webdriver - Python - leboncoin - pb 选择带重音的按钮

我正在尝试在以下网站上自动填写表格 https www leboncoin fr https www leboncoin fr 我用 Selenium IDE 录制了一个脚本我有一个通过单击 Se 连接器按钮并填写我的密码和用户名来自动
如何使用 python 操作系统更改驱动器？

我正在尝试更改当前目录C to Y 我试过 import os os chdir Y 但我不断收到错误消息提示无法找到驱动器本质上我正在寻找相当于 cd d cmd 中的命令你确定吗Y 确实是有效的驱动器号吗 Try os chdir
Floyd-Warshall 算法：获取最短路径

假设一个图由一个表示n x n维数邻接矩阵我知道如何获得所有对的最短路径矩阵但我想知道有没有办法追踪所有最短路径 Blow是python代码实现 v len graph for k in range 0 v for i in range
管理文件字段当前 url 不正确

在 Django 管理中只要有 FileField 编辑页面上就会有一个当前框其中包含指向当前文件的超链接但是此链接会附加到当前页面 url 因此会导致 404 因为不存在这样的页面例如 http 127 0 0 1 8000
如何减少 JSF 中的 javax.faces.ViewState

减少 JSF 中视图状态隐藏字段大小的最佳方法是什么我注意到我的视图状态约为 40k 这会在每次请求和响应时下降到客户端并返回到服务器特别是到达服务器时这对用户来说会显着减慢我的环境 JSF 1 2 MyFaces Tomcat T
python中打印字符串的长度

有没有什么方法可以找到即使是最好的猜测 Python中字符串的打印长度例如 potaa bto 是 8 个字符len但 tty 上只打印 6 个字符宽预期用途 s potato x1b 01 32mpotato x1b 0 0mp
HTML if 语句在 CDN 失败时加载本地 JS/CSS

当从 CDN 或任何外部服务器加载 CSS JS 文件时有可能即使概率很低由于外部故障而丢失该文件在这种情况下 html 页面将因缺乏适当的 CSS 和 JS 而被损坏有没有一种实用的方法可以在 CDN 故障时加载本地版本 IF
如何将 pytest 装置与 django TestCase 一起使用

我如何在TestCase方法类似问题的几个答案似乎暗示我的例子应该有效 import pytest from django test import TestCase from myapp models import Category py
Rglpk - 梦幻足球阵容优化器 - For 循环输出的 Rbind

我有一个使用 Rgplk 的梦幻足球阵容优化器它使用for循环生成多个最佳阵容其数量由用户输入代码如下 Lineups lt list for i in 1 Lineup no matrix lt rbind as numeric D
从 csv 中读取 pandas 数据帧，以非固定标头开始

我有许多数据文件是由我的实验室中使用的一些相当黑客的脚本生成的该脚本非常有趣因为它在标头之前附加的行数因文件而异尽管它们具有相同的格式并具有相同的标头我正在编写一个批处理来将所有这些文件处理为数据帧如果我不知道位置如何让 pan
从 C 线程调用 Python 代码

我对从 C 或 C 线程调用 Python 代码时如何确保线程安全感到非常困惑 The Python 文档 http docs python org c api init html non python created threads似乎是
在 scrapy 中将基本 url 与结果 href 结合起来

下面是我的蜘蛛代码 class Blurb2Spider BaseSpider name blurb2 allowed domains www domain com def start requests self yield self ma
django 组合对两个不同基本模型的查询

我有两个不同的查询集我想将两个查询集合并 q1 tbl nt 123 objects values list id value geometry filter restriction height exclude condition id
Shap - 颜色条不显示在摘要图中

显示summary plot时不显示颜色条 shap summary plot shap values X train 我尝试过改变plot size 当绘图较高时会出现颜色条但它非常小看起来不应该 shap summary plo

随机推荐

哦，我的 zsh 显示出奇怪的字符“？”在终端上

我已经安装了 iTerm2 和 Oh my zsh 然而自从我将 ZSH THEME 更改为 agnoster 后出现了一个奇怪的问号附上相同的屏幕截图我认为电力线会有所帮助但似乎并没有发生谁能帮我解决这个问题吗这已经解决了这
如何在 Laravel 5.6 的默认注册表单中添加自定义字段？

在我的一个拉拉维尔 5 6应用程序中我需要在默认注册表单中添加更多字段所以我只在默认注册表单中添加了一个字段来测试 phone no 注册 blade php 并且还添加phone no 注册控制器但是当我单击注册按钮时它显示以下错
执行 Mariadb 更新语句时出错

我正在使用以下更新语句来更新数据库表中的行 update department set budget budget 0 01 where dept name Physics 但是运行此代码会出现以下错误 ERROR 1305 42000
将 n 位的 std_logic_vector 向右或向左移位

我有一个向量signal tmp std logic vector 15 downto 0 我必须将它向左或向右移动 n 位我怎样才能实现这个操作我想到了串联操作但我不知道如何使用它 Use the ieee numeric std库
使用 D3 获取实时数据

我想知道是否可以使用 D3 库来处理我的服务器通过 websockets 发送的实时数据我看不到任何证明这一点的文档或示例我最初的期望是通过以下代码示例来做到这一点 ws new WebSocket ws localhost 8888
“属性应该是哈希值，但实际上是字符串”

我在 Rails 3 应用程序中保存哈希时遇到问题使用控制台时我可以保存它只是当我通过表单提交哈希时它不起作用这个问题解决了 https stackoverflow com questions 10345054 how to edit
从数据库检索数据并将其显示在 php 的表中..看看这段代码有什么问题吗？ [复制]

这个问题在这里已经有答案了 db mysql connect localhost root er mysql select db ram query insert into names values name add1 add2 mail
Moose：如何获取对象数组？特质？

我开始意识到这适合初学者 package Bad has arr gt is gt rw ArrayRef Str package main my bad Bad gt new arr gt foo bar print bad gt arr
如何在 d3 中使用 mousedown 获取鼠标坐标？

我正在尝试在 D3 中创建一个图形您可以在其中绘制一个正方形来放大现在我正在尝试让 mousedown 功能正常工作我需要能够单击图表中的任意位置并获取坐标这就是我现在所拥有的 svg on mousedown mousedown
批处理文件调用 %~1 并获取变量的当前值/字符串

下面的代码与批处理文件命令提示符相关我的问题是代码的一部分current value is 1实际上并不显示的值 1 我希望它说 string01 或 string02 我不太确定如何做到这一点我环顾四周但无法解决这个简单的问题
如何创建多语言 Android 应用程序？

我想创建一个多语言 Android 应用程序有没有办法检测用户喜欢哪种语言是否有推荐的方法在 Android 上管理多种语言或者我应该重新发明轮子是的有一个推荐的方法来管理多种语言对于 Android 来说多语言支持很容易完成
无法弄清楚为什么我在 Swift iOS 应用程序代码中收到“Class ViewController has noinitializer”错误

我试图在我的 iOS 应用程序中制作一个教程屏幕用户可以在其中滑动几张图片来了解有关该应用程序的一些信息一切看起来都很好除了当我构建项目时我在第一行代码中收到以下错误 ViewController 类没有初始化器我做错了什么我的
按变量对轴文本进行颜色显示

我想根据数据集中的另一个变量来改变热图轴文本的颜色这是我到目前为止所尝试过的 load data scale numeric columns add state abbreviation and region state data lt
在哪里可以找到详尽的停用词列表？

我在哪里可以找到详尽的停用词列表我的那篇文章很短似乎不适用于科学文本我正在创建词汇链以从科学论文中提取关键主题问题是像这样的词based regarding等也应被视为停用词因为它们没有太多意义您还可以轻松添加到现有的停用词列表
Xcode 8 内存图显示“无选择”且无法工作

我正在使用 Xcode 8 0 和 Swift3 处理一个项目我想使用内存图调试器但它什么也没显示预期外观来自教程为什么我不能使用这个功能该项目是使用 Xcode 8 创建的不是从旧版本的 Xcode 迁移的 bitcode与
protractor 2.5.4 E/launcher - 会话未创建：此版本的 ChromeDriver 仅支持 Chrome 版本 79

我进行了大量研究并使用了各个论坛中提到的许多可能的解决方案但没有一个对我有用我试图在 CI CD 管道中运行它尽管能够在本地运行量角器测试用例并能够启动浏览器但在 CI CD 管道构建中它失败了详细信息如下我在 package
更改已验证应用程序的应用程序名称 - Google OAuth 同意屏幕

我有一个经过验证的应用程序我想更改 OAuth 同意屏幕应用程序名称仅应用程序名称为了做到这一点似乎我需要再次重新验证这一点但我的应用程序现在已经在生产中如果我提交它进行验证当前已验证的 OAuth 屏幕是否会突然显示为未验证
Python 正则表达式的 unicode 文本中使用的字边界

我想在正则表达式中使用单词边界来匹配一些 unicode 文本 Unicode 字母在 Python 正则表达式中被检测为单词边界如下所示 gt gt gt re search r by b y lt sre SRE Match obje
如何正确卸载python jupyter？

I have jupyter安装有python3 5 on my Mac OSX 但我想要python2 7版本所以我基本上需要卸载3 5版本然后重新安装2 7版本但由于某种原因我无法卸载3 5版本我试过sudo python3
Python中使用行数作为输入变量分割大文本文件的快速方法

我使用行数作为变量来分割文本文件我编写这个函数是为了将吐出的文件保存在临时目录中除最后一个文件外每个文件有 4 百万行 import tempfile from itertools import groupby count temp

Python中使用行数作为输入变量分割大文本文件的快速方法

Python中使用行数作为输入变量分割大文本文件的快速方法 的相关文章

随机推荐

热门标签

Python中使用行数作为输入变量分割大文本文件的快速方法的相关文章