我有许多数据文件是由我的实验室中使用的一些相当黑客的脚本生成的。该脚本非常有趣,因为它在标头之前附加的行数因文件而异(尽管它们具有相同的格式并具有相同的标头)。
我正在编写一个批处理来将所有这些文件处理为数据帧。如果我不知道位置,如何让 pandas 识别正确的标题?我知道确切的 heder 文本,以及它之前的两行文本(它们是唯一的连续实例)\r\n
在文档中)。
我尝试在文档末尾定义空跳过,并选择每个文件包含的(幸运的是)固定数量的数据行:
df = pd.read_csv(myfile, skipfooter=0, nrows=267)
那不起作用。
您还有什么进一步的想法吗?
您可以打开文件并迭代它直到连续\r\n
满足,并将结果传递给解析器,即
with open(csv_file_name, 'rb') as source:
consec_empty_lines = 0
for line in source:
if line == '\r\n':
consec_empty_lines += 1
if consec_empty_lines == 2:
break
else:
consec_empty_lines = 0
df = pd.read_csv(source)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)