编辑:链接现在应该可以使用,抱歉给您带来麻烦
我有一个如下所示的文本文件:
Name, Test 1, Test 2, Test 3, Test 4, Test 5
Bob, 86, 83, 86, 80, 23
Alice, 38, 90, 100, 53, 32
Jill, 49, 53, 63, 43, 23.
我正在编写一个程序,给定这个文本文件,它将生成一个皮尔逊相关系数表,如下所示,其中条目 (x,y) 是人 x 和人 y 之间的相关性:
Name,Bob,Alice,Jill
Bob, 1, 0.567088412588577, 0.899798494392584
Alice, 0.567088412588577, 1, 0.812425393004088
Jill, 0.899798494392584, 0.812425393004088, 1
我的程序可以运行,只是我输入的数据集有 82 列,更重要的是,有 54000 行。当我现在运行我的程序时,它非常慢并且出现内存不足错误。有没有一种方法可以首先消除内存不足错误的任何可能性,并可能使程序运行得更有效一些?代码在这里:code http://www.duke.edu/~jl128/correlation.txt.
感谢您的帮助,
Jack
编辑:如果其他人尝试进行大规模计算,请将您的数据转换为 hdf5 格式。这就是我最终为解决这个问题所做的事情。