我在 PySpark 中有一个名为df
。我已经注册了这个df
as a temptable
像下面这样。
df.registerTempTable('mytempTable')
date=datetime.now().strftime('%Y-%m-%d %H:%M:%S')
现在从这个临时表中我将获得某些值,例如列的 max_idid
min_id = sqlContext.sql("select nvl(min(id),0) as minval from mytempTable").collect()[0].asDict()['minval']
max_id = sqlContext.sql("select nvl(max(id),0) as maxval from mytempTable").collect()[0].asDict()['maxval']
现在我将收集所有这些值,如下所示。
test = ("{},{},{}".format(date,min_id,max_id))
我找到test
不是一个data frame
但这是一个str
string
>>> type(test)
<type 'str'>
现在我想保存这个test
作为文件HDFS
。我还想将数据附加到同一文件中hdfs
.
我如何使用 PySpark 做到这一点?
仅供参考,我正在使用 Spark 1.6,无法访问 Databricksspark-csv
包裹。