我正在寻找一种在 PySpark 中选择数据帧列的方法。对于第一行,我知道我可以使用df.first()
,但不确定列是否存在没有列名。
我有 5 列,想循环浏览每一列。
+--+---+---+---+---+---+---+
|_1| _2| _3| _4| _5| _6| _7|
+--+---+---+---+---+---+---+
|1 |0.0|0.0|0.0|1.0|0.0|0.0|
|2 |1.0|0.0|0.0|0.0|0.0|0.0|
|3 |0.0|0.0|1.0|0.0|0.0|0.0|
尝试这样的事情:
df.select([c for c in df.columns if c in ['_2','_4','_5']]).show()
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)