谁能给我更准确地描述这个 Spark 参数以及它如何影响程序执行?我无法从文档中确切地看出这个参数“在幕后”的作用。
该参数影响 Python 工作线程的内存限制。如果Python工作进程的RSS大于内存限制,那么它会将数据从内存溢出到磁盘,这会降低内存利用率,但通常是一个昂贵的操作。
请注意,该值适用于每个 Python 工作线程,并且每个执行程序将有多个工作线程。
如果您想深入了解,请查看 Spark 源代码树中的 python/pyspark 目录,例如这ExternalMerger
执行:https://github.com/apache/spark/blob/41afa16500e682475eaa80e31c0434b7ab66abcb/python/pyspark/shuffle.py#L280
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)