我需要读取存储在许多格式相同但长度不同的文件中的数据,即相同的列,但行数不同。此外,我需要将每一列数据存储在一个数组中(最好是一个 numpy 数组,但列表也可以接受)。
现在,我循环读取每个文件numpy.loadtxt()
然后连接结果数组。假设数据由 3 列组成,存储在两个文件“foo”和“bar”中:
import numpy as np
filenames = ["foo", "bar"]
col1_all = 0 #data will be stored in these 3 arrays
col2_all = 0
col3_all = 0
for f in filename:
col1, col2, col3 = np.loadtxt(f, unpack=True)
if col1.shape[0] > 0: # I can't guarantee file won't be empty
if type(col1_all) == int:
# if there is no data read in yet, just copy arrays
col1_all = col1[:]
col2_all = col2[:]
col3_all = col3[:]
else:
col1_all = np.concatenate((col1_all, col1))
col2_all = np.concatenate((col2_all, col2))
col3_all = np.concatenate((col3_all, col3))
我的问题是:有更好/更快的方法吗?我需要尽快完成,因为我需要读取数百个文件。
例如,我可以想象,首先找出我总共有多少行,然后“分配”一个足够大的数组来首先容纳所有数据,然后复制该数组中的读入数据可能会表现更好,当我绕过串联时。我不知道总行数,所以这也必须在 python 中完成。
另一个想法是首先读入所有数据,单独存储每个读入的数据,最后将它们连接起来。 (或者,因为这本质上给了我总行数,所以分配适合所有数据的行,然后将数据复制到那里)。
有人有什么最有效的经验吗?
不要将每个文件与其余文件连接起来,读取列表中的所有内容,并最终构建结果
import numpy as np
filenames = ["foo", "bar"]
data = np.concatenate([np.loadtxt(f) for f in filenames])
喜欢的话可以分data
分成列,但大多数情况下,这不是一个好主意。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)