我想用 cython 编译一个 python 函数,用于读取跳过一些记录的二进制文件(不读取整个文件然后切片,因为我会耗尽内存)。我可以想出这样的东西:
def FromFileSkip(fid, count=1, skip=0):
if skip>=0:
data = numpy.zeros(count)
k = 0
while k<count:
try:
data[k] = numpy.fromfile(fid, count=1, dtype=dtype)
fid.seek(skip, 1)
k +=1
except ValueError:
data = data[:k]
break
return data
然后我可以像这样使用该函数:
f = open(filename)
data = FromFileSkip(f,...
但是,为了使用 cython 编译函数“FromFileSkip”,我想定义函数中涉及的所有类型,因此还有“fid”文件处理程序。我如何在 cython 中定义它的类型,因为它不是“标准”类型,例如一个整数。
谢谢。
定义类型fid
不会有帮助,因为调用 python 函数仍然很昂贵。尝试使用“-a”标志编译您的示例,看看我的意思。但是,您可以使用低级 C 函数进行文件处理,以避免循环中的 Python 开销。为了举例,我假设数据从文件的开头开始,并且其类型是double
from libc.stdio cimport *
cdef extern from "stdio.h":
FILE *fdopen(int, const char *)
import numpy as np
cimport numpy as np
DTYPE = np.double # or whatever your type is
ctypedef np.double_t DTYPE_t # or whatever your type is
def FromFileSkip(fid, int count=1, int skip=0):
cdef int k
cdef FILE* cfile
cdef np.ndarray[DTYPE_t, ndim=1] data
cdef DTYPE_t* data_ptr
cfile = fdopen(fid.fileno(), 'rb') # attach the stream
data = np.zeros(count).astype(DTYPE)
data_ptr = <DTYPE_t*>data.data
# maybe skip some header bytes here
# ...
for k in range(count):
if fread(<void*>(data_ptr + k), sizeof(DTYPE_t), 1, cfile) < 0:
break
if fseek(cfile, skip, SEEK_CUR):
break
return data
请注意,输出cython -a example.pyx
显示循环内没有 python 开销。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)