我遇到过glom()
RDD 上的方法。根据文档
返回通过将每个分区内的所有元素合并到数组中创建的 RDD
Does glom
跨分区混洗数据还是仅将分区数据作为数组返回?在后一种情况下,我相信使用同样可以实现mapPartitions
.
我还想知道是否有任何受益于的用例glom
.
Does glom
跨分区混洗数据
不,没有
如果这是第二种情况,我相信使用 mapPartitions 可以实现相同的效果
It can:
rdd.mapPartitions(iter => Iterator(_.toArray))
但同样的事情也适用于任何非洗牌转换,例如map
, flatMap
or filter
.
是否有任何受益于 glob 的用例。
任何需要以可多次遍历的形式访问分区数据的情况。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)