当我尝试在数据帧上进行收集时,似乎花费了太长时间。
我想从数据框中收集数据,将其转换为字典并将其插入到 documentdb 中。但是执行day_rows.collect()时性能似乎很慢
day_rows = self._sc.sql("select * from table")
rows_collect = []
if day_rows.count():
rows_collect = day_rows.collect()
results = map(lambda row: row.asDict(), rows_collect)
为什么性能慢?
在 .collect() 之前缓存您的数据帧。
这将使性能大幅提高。
df.persist() 或 df.cache()
一旦使用完毕,您就可以随时取消坚持。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)