我想处理一个巨大的订单 CSV 文件 (5GB),在文件开头有一些元数据行。
标题列在第 4 行中表示(以“h,”开头),后跟另一个元数据行,描述可选性。数据行以“d”开头,
m,Version,v1.0
m,Type,xx
m,<OtherMetaData>,<...>
h,Col1,Col2,Col3,Col4,Col5,.............,Col100
m,Mandatory,Optional,Optional,...........,Mandatory
d,Val1,Val2,Val3,Val4,Val5,.............,Val100
加载文件时是否可以跳过指定的行数并对数据集使用“inferSchema”选项?
Dataset<Row> df = spark.read()
.format("csv")
.option("header", "true")
.option("inferSchema", "true")
.load("\home\user\data\20170326.csv");
或者我是否需要定义两个不同的数据集并使用“ except(Dataset other)”来排除行被忽略的数据集?