我有一个 python 脚本,其中使用 pandas 来转换/操作我的数据。我知道我有一些“低效”的代码块。我的问题是,如果 pyspark 应该更快,我可以使用 pyspark 而不是 pandas 替换这些块,还是我需要将所有内容都放在 pyspark 中?如果我在 Databricks 中,这到底有多重要,因为它已经在 Spark 集群上了?
如果数据足够小,您可以使用 pandas 来处理它,那么您可能不需要 pyspark。当您的数据量如此之大以至于无法装入一台机器的内存时,Spark 非常有用,因为它可以执行分布式计算。话虽这么说,如果计算足够复杂,可以从大量并行化中受益,那么您可以看到使用 pyspark 的效率提升。与 pandas 相比,我对 pyspark 的 API 更满意,所以无论如何我最终可能会使用 pyspark,但您是否会看到效率提升很大程度上取决于问题。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)