以下是我的未标记数据集的两行,这是一个小子集:
random1 147 sub1 95 34 dewdfa3 15000 -1238 SBAASBAQSBARSBATSBAUSBAXBELAAX AAA:COL:UVTWUVWDUWDUWDWW BBB:COL:F CCC:COL:GTATGTCA DDD:COL:K20 EEE:COL:54T GGG:COL:-30.5 HHH:COL:000.1 III:COL:2 JJJ:COL:0
random2 123 sub1 996 12 kwnc239 10027 144 LBPRLBPSLBRDLBSDLBSLLBWB AAA:COL:UWTTUTUVVUWWUUU BBB:COL:F DDD:COL:CACGTCGG EEE:COL:K19 FFF:COL:HCC16 GGG:COL:873 III:COL:-77 JJJ:COL:0 KKK:COL:0 LLL:COL:1 MMM:COL:212
前九列在整个数据集中是一致的,并且可以进行标记。
我的问题是以下几列。然后,该行中的每个值首先用列值进行标记,例如AAA:COL:UVTWUVWDUWDUWDWW
是列AAA
, BBB:COL:F
是列BBB
, etc.
但是,(1) 每行的列数不同,并且 (2) 某些列“缺失”。第一行缺少列FFF
,第二行跳过列CCC
and HHH
.
另请注意,第一行停在列处JJJ
,而第二列停止于列MMM
.
如何分配数据帧的 9 + 13 列,并解析这些值,以便如果column:value
对不存在,该列将有一个NaN
value.
会喜欢吗pandas.read_table()
有这个功能吗?
这是第一行的“正确”格式:
random int sub int2 int3 string1 int4 int5 string2 AAA BBB CCC DDD EEE FFF GGG .... MMM
random1 147 sub1 95 34 dewdfa3 15000 -1238 SBAASBAQSBARSBATSBAUSBAXBELAAX UVTWUVWDUWDUWDWW F DFADFADFA K20 54T 'NaN' -30.5 ....'NaN'
相关(且未回答)的问题在这里:如何将未标记和缺失的列导入 pandas 数据框中? https://stackoverflow.com/questions/38491645/how-to-import-unlabeled-and-missing-columns-into-a-pandas-dataframe