Both DoFn
and PTransform
是一种定义操作的方法PCollection
。我们如何知道何时使用哪个?
理解它的一个简单方法是类比map(f)
对于列表:
- 高阶函数
map
将函数应用于列表的每个元素,返回结果的新列表。您可以将其称为计算模式。
- 功能
f
是应用于每个元素的逻辑。
现在,转而讨论 Beam 的具体细节,我想您是在问ParDo.of(fn)
,这是一个PTransform
.
- A
PTransform
是一个需要的操作PCollections
作为输入和产量PCollections
作为输出。 Beam 只有五种原始类型PTransform
,封装了令人尴尬的并行计算模式。
-
ParDo
是每个元素计算的计算模式。它有一些变化,但对于这个问题你不需要担心这一点。
- The
DoFn
,这里我称之为fn
,是应用于每个元素的逻辑。
考虑以下事实可能也会有所帮助:you写一个DoFn
说明对每个元素要做什么,Beam runner 提供了ParDo
应用你的逻辑。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)