Python Killed：使用从 2 个 csv 文件创建的字典运行代码时为 9

2023-11-26

我正在运行一个一直对我有用的代码。这次我在 2 个 .csv 文件上运行它：“data”（24 MB）和“data1”（475 MB）。 “data”有 3 列，每列约 680000 个元素，而“data1”有 3 列，每列约 33000000 个元素。当我运行代码时，经过大约 5 分钟的处理后，我只得到“Killed: 9”。如果这是内存问题，如何解决？欢迎任何建议！

这是代码：

import csv
import numpy as np

from collections import OrderedDict # to save keys order

from numpy import genfromtxt
my_data = genfromtxt('data.csv', dtype='S', 
                 delimiter=',', skip_header=1) 
my_data1 = genfromtxt('data1.csv', dtype='S', 
                 delimiter=',', skip_header=1) 

d= OrderedDict((rows[2],rows[1]) for rows in my_data)
d1= dict((rows[0],rows[1]) for rows in my_data1) 

dset = set(d) # returns keys
d1set = set(d1)

d_match = dset.intersection(d1) # returns matched keys

import sys  
sys.stdout = open("rs_pos_ref_alt.csv", "w") 

for row in my_data:
    if row[2] in d_match: 
        print [row[1], row[2]]

“数据”的标题是：

    dbSNP RS ID Physical Position
0   rs4147951   66943738
1   rs2022235   14326088
2   rs6425720   31709555
3   rs12997193  106584554
4   rs9933410   82323721
5   rs7142489   35532970

“data1”的标头是：

    V2  V4  V5
10468   TC  T
10491   CC  C
10518   TG  T
10532   AG  A
10582   TG  T

内核很可能会杀死它，因为您的脚本消耗了太多内存。您需要采取不同的方法并尝试最小化内存中的数据大小。

您可能还会发现这个问题很有用：使用 Python 和 NumPy 的非常大的矩阵

在下面的代码片段中，我试图避免加载巨大的data1.csv通过逐行处理进入内存。试一试。

import csv

from collections import OrderedDict # to save keys order

with open('data.csv', 'rb') as csvfile:
    reader = csv.reader(csvfile, delimiter=',')
    next(reader) #skip header
    d = OrderedDict((rows[2], {"val": rows[1], "flag": False}) for rows in reader)

with open('data1.csv', 'rb') as csvfile:
    reader = csv.reader(csvfile, delimiter=',')
    next(reader) #skip header
    for rows in reader:
        if rows[0] in d:
            d[rows[0]]["flag"] = True

import sys
sys.stdout = open("rs_pos_ref_alt.csv", "w")

for k, v in d.iteritems():
    if v["flag"]:
        print [v["val"], k]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

csv

Dictionary

Python Killed：使用从 2 个 csv 文件创建的字典运行代码时为 9 的相关文章

Python 3.4.3 tkinter - 程序在声明 IntVar 或任何其他 tkinter 数据类型时冻结

上一主题 Python 3 4 tkinter checkbutton变量处理不起作用响应 https stackoverflow com questions 33711472 python 3 4 tkinter checkbutton
从终端调用时 uvicorn 不工作

我尝试通过 pip3 在系统上安装 uvicorn 这有效但是我无法从命令行运行相同的命令有关如何解决此问题的任何指示 Requirement already satisfied uvicorn in home vhawk19 loca
在 python + Flask + Gunicorn + nginx + Compute Engine 应用程序中从 Google Cloud Storage 读取文件失败

在 python Flask Gunicorn nginx Compute Engine 应用程序中读取从 Google Cloud Storage 下载的文件失败代码链接 https github com samuq CE test h
如何在 pygame 中聚焦光线或如何仅绘制窗口的某些圆形部分？

对于这一点如果您熟悉它请想想超级马里奥制造2 中嘘关卡中的黑暗模式我试图在角色周围创建一个圆形聚光灯这也将使圆圈范围内的任何内容都可见例如部分站在地板上敌人或场景中的任何其他物体我的计划是首先绘制圆圈聚光灯然后绘制场景
地图与星图的性能？

我试图对两个序列进行纯Python 没有外部依赖逐元素比较我的第一个解决方案是 list map operator eq seq1 seq2 然后我发现starmap函数来自itertools 这看起来和我很相似但事实证明在最坏的情
Accel 无法在 gedit 3 插件中工作

我试图为 Gedit 3 编写一个使用 GObject 自省的小插件下面显示的代码的相关部分只是为了建立一个环境然后我可以将函数放入按钮的回调中但是该按钮的加速器不起作用这段代码有什么问题我正在使用教程here http www
SMTPAuthenticationError: (535, b'5.7.8 用户名和密码在 Django 生产中不被接受？

我在 Heroku 上部署了一个 Django 应用程序在其中一节中我使用 SMTP Gmail 设置向用户发送电子邮件当我在本地运行项目时电子邮件发送成功但在 Heroku 上部署的项目上却发送失败我在 Stackoverfl
确定Python模块中的函数是否可用

我正在研究一些使用Python套接字的代码socket fromfd http docs python org library socket html socket fromfd功能但是此方法并非在所有平台上都可用因此我正在编写一些后
numpy 数组最快的保存和加载选项

我有一个生成二维的脚本numpy数组与dtype float和形状的顺序 1e3 1e6 现在我正在使用np save and np load对数组执行 IO 操作然而这些函数对于每个数组都需要几秒钟的时间是否有更快的方法来保存和加载
使用子图绘制 pandas 数据框 (subplots=True)：放置图例并使用紧凑的布局

我真的很喜欢 pandas 来处理和分析大数据集到目前为止我主要使用 matplotlib 进行绘图但现在想使用 pandas 自己的绘图功能基于 matplotlib 因为它需要更少的代码并且在大多数情况下对我来说似乎足够了尤
字母表中的加密和解密 - Python GCSE

我目前正在尝试为学校编写一个程序以便加密和解密输入的消息我需要加密或解密的消息仅在字母表中没有其他符号或密钥例如使用消息车加密输入的偏移量为 5 我希望它输出 afs 有人可以帮忙吗这是我目前的代码 def find offse
将 csv 文件按多列拆分为 panda 数据框

我有一个包含多列的 tsv 文件有 10 多列但对我来说重要的列是名称为 user name shift id url id 的列我想创建一个数据框首先根据用户名分隔整个 csv 文件即只有具有相同用户名的行才会分组在一起从该块
如何抑制 pyinstaller 生成的可执行文件窗口中的所有警告

我已经使用 pyinstaller 从 python 文件生成了可执行文件该程序按其应有的方式工作但在我想隐藏的窗口中出现了一条警告消息当 python 文件在 IDE 中运行时以下行会抑制所有警告消息 warnings filte
不重复的Python组合

我有一个数字列表我想从中进行组合如果我有清单 t 2 2 2 2 4 c list itertools combinations t 4 结果是 2 2 2 2 2 2 2 4 2 2 2 4 2 2 2 4 2 2 2 4 但我想得到
如何将时间间隔划分为不同长度的部分？

我有一个从 0 到t 我想把这个区间分成一个以2 25 2 25 1 5为周期的累积序列方法如下 input start 0 stop 19 output sequence 0 2 25 4 5 6 8 25 10 5 12 14 25
仅对某些行的不同大小的两个 pandas 数据帧的列进行求和

我有两个 pandas 数据框如下所示 df1 n column1 0 5 0 0 0 1 6 0 0 0 2 7 0 0 0 3 8 0 0 0 4 9 0 0 0 5 10 0 0 0 df2 n column2 0 6 0 1 0
避免在列表理解中计算相同的表达式两次[重复]

这个问题在这里已经有答案了我在列表理解中使用一个函数和一个 if 函数 new list f x for x in old list if f x 0 令我恼火的是这个表达f x 在每个循环中计算两次有没有办法以更清洁的方式做到这一点
python 函数返回 javascript date.getTime()

我正在尝试创建一个简单的 python 函数它将返回与 javascript 相同的值new Date getTime 方法如所写here http www w3schools com js js dates asp javascrip
Networkx 中 Louvain 分区的可视化

请帮助我更改 Louvain 聚类算法结果的可视化我从网站上获取了代码https github com taynaud python louvain https github com taynaud python louvain我可以重写
使用 Pandas 和 Group By 绘制堆叠直方图

我正在使用如下所示的数据集 Gender Height Width Male 23 4 4 4 Female 45 4 4 5 我想可视化高度和宽度的堆叠直方图我希望每个图有两个堆叠的直方图每个性别一个这是文档中的堆叠直方图如果存在

随机推荐

Hibernate 在 HQL 中处理“@”字符时遇到困难

使用 Hibernate 和 Spring Social 我正在尝试通过电子邮件地址查询数据库当我执行此查询时公共帐户 findAccountByUsername String 用户名 Session session sessionFa
$观察一个物体

我想监视字典中的更改但由于某种原因未调用监视回调这是我使用的控制器 function MyController scope scope form name my name surname surname scope watch form
是否可以终止正在运行的 Web Worker？

我有一个网络工作人员使用 ajax 请求运行一项耗时的例行任务我可以从主线程终止它们而不等待它们完成吗这就是我生成和终止它的方式 button parse categories click function if parseCatego
使用和不使用额外变量时的奇怪浮点行为，为什么？

当我在 VC 2013 32 位无优化中运行以下代码时 include
C# 寻找相似颜色

我想调用带有参数颜色的方法但有很多颜色仅存在色度差异我怎样才能找到与我的颜色只有一点点不同的颜色例如 AntiqueWhite 和 Bisque Here s调色板 Bitmap LogoImg new Bitmap file1 jp
Android - 检测 URL mime 类型？

在我的 Android 应用程序中我有从数据库访问的各种 URL 然后打开 WebView 来显示该 URL 通常该 url 看起来像这样 http www mysite com referral php id 12345 这些引荐链接
将页面添加到活动管理

我们想要向我们的管理添加一个帮助页面并且我们正在使用活动管理 gem 此页面不与任何模型关联因此我正在努力弄清楚如何让链接显示在每个页面的菜单栏中我知道我有点晚了但我通常都会迟到 D ActiveAdmin register pag
禁用 EditText 闪烁光标

有谁知道如何禁用闪烁的光标EditText view 您可以使用 xml 属性android cursorVisible false 或以编程方式 java view setCursorVisible false kotlin view i
从 Java 调用 .NET 程序集：JVM 崩溃

我有一个第三方 NET 程序集和一个大型 Java 应用程序我需要从Java应用程序调用 NET类库提供的方法该程序集不支持 COM 我已经在网上搜索过到目前为止我有以下内容 C 代码 cslib cs using System na
如何获取 30 天内的下一个最小日期并用作 SQL 中的参考点？

我有一个记录子集如下所示 ID DATE A 2015 09 01 A 2015 10 03 A 2015 10 10 B 2015 09 01 B 2015 09 10 B 2015 10 03 对于每个 ID 第一个最小日期是第一个索
这个字符序列“\033[H\033[J””在 C 中起什么作用？ [复制]

这个问题在这里已经有答案了我在一些随机网站上浏览过以下奇怪的字符序列当编译并执行时该序列清除了终端中所有先前的内容它清除输出流中的缓冲区还是仅清除 tty 缓冲区 int main printf 033 H 033 J return
C# ping 我的世界

所以找到了这个小代码片段可以让你在 PHP 中 ping Minecraft 服务器但现在我想在 C 中执行此操作我尝试自己这样做但由于某种原因它不起作用 UdpClient client new UdpClient IPEndPo
Python 比较 C API 中的对象

给定两个PyObject s 我如何在 C API 中比较它们我想到了a b起初但这显然是不正确的因为它会比较指针而不是对象我在找a b not a is b Python C API 中的 Python 等效项您正在寻找PyOb
mvn 测试因 Surefire JDK 版本而失败？

我正在尝试在我的项目上运行 mvn test 项目本身编译并安装但 man test 失败并显示以下输出 ERROR Failed to execute goal org apache maven plugins maven surefi
使用Leaflet markcluster，如何在不更改缩放级别的情况下在集群和非集群之间切换？

我正在使用Leaflet markercluster插件来聚集我的点然而用户要求具有在集群视图和非集群视图之间切换的功能基本上他们希望以高缩放比例查看所有点我知道我可以在特定的缩放级别禁用聚类 markers new L Mark
简单的 OpenGL 纹理贴图不起作用？

我正在尝试找出 OpenGL 中的纹理映射但无法找到一个简单的示例来工作正在绘制多边形尽管它没有纹理而只是纯色此外位图已正确加载到 sprite1 中因为到目前为止我已成功使用 glDrawPixels 我使用 glGenTex
python：计算质心

我有一个包含 4 列的数据集 x y z 和值比方说 x y z value 0 0 0 0 0 1 0 0 0 2 0 0 1 0 0 0 1 1 0 1 1 2 0 1 2 0 0 0 2 1 0 0 2 2 0 0 我想计算质心CM
Python 赋值运算符左侧的多个变量

有人可以解释一下逗号分隔链的概念吗可能不是正确的术语但我不想将其与list 赋值运算符左侧的变量名我指的是具有以下性质的东西 reader csv reader open some file rb for row in reader
将 GDAL/OGR 合并到 iOS 项目中 - 快速指南

问题是这样的 GDAL是一个出色的开源库旨在管理复杂的 GIS 数据栅格数据和矢量数据它完全是为Mac OS 由 William Kyngesburye 提供和其他平台但不适用于 iOS 浏览网络您可以找到有关创建 iOS 库主
Python Killed：使用从 2 个 csv 文件创建的字典运行代码时为 9

我正在运行一个一直对我有用的代码这次我在 2 个 csv 文件上运行它 data 24 MB 和 data1 475 MB data 有 3 列每列约 680000 个元素而 data1 有 3 列每列约 33000000 个元素

Python Killed：使用从 2 个 csv 文件创建的字典运行代码时为 9

Python Killed：使用从 2 个 csv 文件创建的字典运行代码时为 9 的相关文章

随机推荐

热门标签