如何在流式管道中按小捆绑的 N 个元素进行批处理？

2024-05-10

我已经按照此答案中的描述实现了 N 个元素的批处理：谷歌数据流管道中的数据存储输入可以一次处理一批 N 个条目吗？ https://stackoverflow.com/questions/35065109/can-datastore-input-in-google-dataflow-pipeline-be-processed-in-a-batch-of-n-ent?answertab=active#tab-top



    package com.example.dataflow.transform;

    import com.example.dataflow.event.ClickEvent;
    import org.apache.beam.sdk.transforms.DoFn;
    import org.apache.beam.sdk.transforms.windowing.GlobalWindow;
    import org.joda.time.Instant;

    import java.util.ArrayList;
    import java.util.List;

    public class ClickToClicksPack extends DoFn> {
        public static final int BATCH_SIZE = 10;

        private List accumulator;

        @StartBundle
        public void startBundle() {
            accumulator = new ArrayList(BATCH_SIZE);
        }

        @ProcessElement
        public void processElement(ProcessContext c) {
            ClickEvent clickEvent = c.element();
            accumulator.add(clickEvent);
            if (accumulator.size() >= BATCH_SIZE) {
                c.output(accumulator);
                accumulator = new ArrayList(BATCH_SIZE);
            }
        }

        @FinishBundle
        public void finishBundle(FinishBundleContext c) {
            if (accumulator.size() > 0) {
                ClickEvent clickEvent = accumulator.get(0);
                long time = clickEvent.getClickTimestamp().getTime();

                c.output(accumulator, new Instant(time), GlobalWindow.INSTANCE);
            }
        }
    }

但是当我在流模式下运行管道时，有很多批次只有 1 或 2 个元素。据我了解，这是因为捆绑包尺寸较小。运行一天后，批处理中的平均元素数量约为 4。我确实需要它接近 10，以便后续步骤获得更好的性能。

有没有办法控制包的大小？或者我应该使用“GroupIntoBatches”转换来实现此目的。在这种情况下，我不清楚应该选择什么作为键。

更新：使用 java 线程 id 或 VM 主机名作为应用“GroupIntoBatches”转换的键是一个好主意吗？

我最终用内部的“GroupIntoBatches”进行了复合转换。以下答案包含有关密钥选择的建议：https://stackoverflow.com/a/44956702/4888849 https://stackoverflow.com/a/44956702/4888849

在我当前的实现中，我使用随机键来实现并行性，并且我对事件进行窗口化以便定期发出结果，即使一个键的事件数少于 BATCH_SIZE 也是如此。



    package com.example.dataflow.transform;

    import com.example.dataflow.event.ClickEvent;
    import org.apache.beam.sdk.transforms.DoFn;
    import org.apache.beam.sdk.transforms.GroupIntoBatches;
    import org.apache.beam.sdk.transforms.PTransform;
    import org.apache.beam.sdk.transforms.ParDo;
    import org.apache.beam.sdk.transforms.windowing.FixedWindows;
    import org.apache.beam.sdk.transforms.windowing.Window;
    import org.apache.beam.sdk.values.KV;
    import org.apache.beam.sdk.values.PCollection;
    import org.joda.time.Duration;

    import java.util.Random;

    /**
     * Batch clicks into packs of BATCH_SIZE size
     */
    public class ClickToClicksPack extends PTransform, PCollection>> {
        public static final int BATCH_SIZE = 10;
        // Define window duration.
        // After window's end - elements are emitted even if there are less then BATCH_SIZE elements
        public static final int WINDOW_DURATION_SECONDS = 1;
        private static final int DEFAULT_SHARDS_NUMBER = 20;
        // Determine possible parallelism level
        private int shardsNumber = DEFAULT_SHARDS_NUMBER;

        public ClickToClicksPack() {
            super();
        }

        public ClickToClicksPack(int shardsNumber) {
            super();
            this.shardsNumber = shardsNumber;
        }

        @Override
        public PCollection> expand(PCollection input) {
            return input
                    // assign keys, as "GroupIntoBatches" works only with key-value pairs
                    .apply(ParDo.of(new AssignRandomKeys(shardsNumber)))
                    .apply(Window.into(FixedWindows.of(Duration.standardSeconds(WINDOW_DURATION_SECONDS))))
                    .apply(GroupIntoBatches.ofSize(BATCH_SIZE))
                    .apply(ParDo.of(new ExtractValues()));
        }

        /**
         * Assigns to clicks random integer between zero and shardsNumber
         */
        private static class AssignRandomKeys extends DoFn> {
            private int shardsNumber;
            private Random random;

            AssignRandomKeys(int shardsNumber) {
                super();
                this.shardsNumber = shardsNumber;
            }

            @Setup
            public void setup() {
                random = new Random();
            }

            @ProcessElement
            public void processElement(ProcessContext c) {
                ClickEvent clickEvent = c.element();
                KV kv = KV.of(random.nextInt(shardsNumber), clickEvent);
                c.output(kv);
            }
        }

        /**
         * Extract values from KV
         */
        private static class ExtractValues extends DoFn>, Iterable> {
            @ProcessElement
            public void processElement(ProcessContext c) {
                KV> kv = c.element();
                c.output(kv.getValue());
            }
        }
    }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googleclouddataflow

ApacheBeam

如何在流式管道中按小捆绑的 N 个元素进行批处理？的相关文章

数据流中的值错误：GCS 位置无效：无

我正在尝试从 GCS 存储桶加载数据并将内容发布到 pubsub 和 bigquery 这些是我的管道选项 options PipelineOptions project project temp location gs dataflow
在 Dataflow Python flex 模板中包含另一个文件 ImportError

是否有一个包含多个文件的 Python Dataflow Flex 模板示例其中脚本导入同一文件夹中包含的其他文件我的项目结构是这样的 pipeline init py main py setup py custom py 我正在尝试将
Google Cloud Dataflow (Python)：读取和写入 .csv 文件的函数？

我无法弄清楚 GCP Dataflow Python SDK 中读取和写入 csv 文件或任何非 txt 文件的精确函数对于BigQuery 我已经弄清楚了以下功能 beam io Read beam io BigQuerySourc
apache beam.io.BigQuerySource use_standard_sql 作为数据流运行程序运行时不起作用

我有一个数据流作业我将首先从 bigquery 查询中读取在标准 sql 中它在直接运行模式下完美运行但是我尝试在数据流运行程序模式下运行此数据流并遇到此错误响应 content 显然 use standard sql 参数在数
是否可以同时将 Pub/Sub 和 BigQuery 作为 Google Dataflow 中的输入？

在我的项目中我希望在 Google Dataflow 中使用流式传输管道来处理 Pub Sub 消息在清理输入数据时我还希望获得来自 BigQuery 的侧面输入这提出了一个问题将导致两个输入之一无法工作我在管道选项中设置了st
ParDo 中的侧面输出 | Apache Beam Python SDK

由于该文档仅适用于 JAVA 我无法真正理解它的含义它指出虽然 ParDo 始终生成一个主输出 PCollection 作为 apply 的返回值但您也可以让 ParDo 生成任意数量的附加输出 PCollection 如果您选择有多
如何使用 python API 列出所有数据流作业

我的用例涉及获取项目中存在的所有流数据流作业的作业 ID 并取消它更新我的数据流作业的源并重新运行它我正在尝试使用 python 来实现这一点直到现在我还没有遇到任何有用的文档我想到使用 python 的库子进程来执行 gcloud
在 Cloud Dataflow 中进行 ETL 和解析 CSV 文件

我是云数据流和 Java 的新手所以我希望这是正确的问题我有一个 csv 文件其中有 n 个列和行可以是字符串整数或时间戳我需要为每一列创建一个新的 PCollection 吗我在示例中找到的大多数文档都类似于 PCollec
如何从 Apache Beam 中的 HTTP 响应读取大文件？

Apache Beam 的 TextIO 可用于读取某些文件系统中的 JSON 文件但如何从 Java SDK 中的 HTTP 响应产生的大型 JSON InputStream 中创建 PCollection 我认为 Beam 目前没有通
如何在 python apache beam 中展平多个 Pcollection

应该如何实现位于以下位置的以下逻辑 https beam apache org documentation pipelines design your pipeline https beam apache org documentation
在 Apache Beam 中监视与文件模式匹配的新文件

我在 GCS 或其他受支持的文件系统上有一个目录外部进程正在向该目录写入新文件我想编写一个 Apache Beam 流式传输管道它可以连续监视此目录中的新文件并在每个新文件到达时读取和处理它这可能吗从 Apache Beam 2
写入 BigQuery 时处理卡住

我正在使用云数据流将数据从 Pub Sub 消息导入到 BigQuery 表我正在使用 DynamicDestinations 因为这些消息可以放入不同的表中我最近注意到该进程开始消耗所有资源并且消息表明该进程被卡住开始显示 Proc
Apache Beam：跳过已构建的管道中的步骤

有没有办法有条件地跳过已构建的管道中的步骤或者管道构建是否被设计为控制运行哪些步骤的唯一方法通常管道构造控制将执行管道中的哪些转换但是您可以想象一个输入多个输出ParDo复用输入PCollection到输出之一PCollecti
压缩保存在Google云存储中的文件

是否可以压缩已保存在 Google 云存储中的文件这些文件由 Google 数据流代码创建和填充数据流无法写入压缩文件但我的要求是将其保存为压缩格式标准 TextIO Sink 不支持写入压缩文件因为从压缩文件中读取的可扩展性较差
计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道我需要运行多个转换所有这些转换都希望项目按键分组基于这个答案question https stackoverfl
Apache Beam Pipeline 写表后查询表

我有一个 Apache Beam Dataflow 管道它将结果写入 BigQuery 表然后我想查询该表以获取管道的单独部分但是我似乎无法弄清楚如何正确设置此管道依赖性我编写的新表然后想要查询与一个单独的表连接以进行某些过滤
如何在欧洲使用 Cloud Dataflow 区域终端节点？

是否可以将 Google Cloud Platform Dataflow 作业的区域更改为欧洲我已将管道区域设置为europe west1 d但我无法更改工作本身的区域我尝试更改管道选项中的区域但这会导致错误并且只有默认区域有效 p
后期数据处理 |阿帕奇光束

错过窗口的迟到数据 withAllowedLateness如记录的那样周期已从管道中消失here https beam apache org documentation programming guide watermarks and l
使用 GlobalWindow 在 Beam 中进行状态垃圾收集

Apache Beam 最近推出了状态细胞 https beam apache org blog 2017 02 13 stateful processing html 通过StateSpec和 StateId注释在 Apache Fli
我可以从 Jupyter Notebook 使用 Dataflow for Python SDK 吗？

我想玩Python SDK 的数据流 https github com GoogleCloudPlatform DataflowPythonSDK来自 Jupyter 笔记本我不确定需要什么依赖项以及是否可以将代码分布在多个笔记本单元上

随机推荐

如何解决服务器错误？

我在 Visual Studio 中制作了一个 ASP NET 应用程序当它准备好后我做了发布网站我将创建的文件夹放在我的网站上当我访问网站上的应用程序时出现以下错误应用程序中的服务器错误配置错误描述处理服务此请求所需的
Matlab Solve()：未给出所有解决方案

我试图找到两条曲线的交点 syms x y g x 20 exp x 30 3 5 1 sol x sol y solve x 22 3097 2 y 16 2497 2 25 y g x x y Real true 它只提供一种解决方案
如何使用 Selenium Webdriver .NET 绑定设置 Chrome 首选项？

这是我正在使用的用户代理可以成功设置而下载首选项则不能 Windows 7 Chrome 26 Selenium dotnet 2 31 2 chromedriver win 26 0 1383 0 ChromeOptions chro
Keras 中的损失函数和度量有什么区别？ [复制]

这个问题在这里已经有答案了我不清楚 Keras 中损失函数和指标之间的区别该文档对我没有帮助损失函数用于优化您的模型这是优化器将最小化的函数指标用于判断模型的性能这仅供您查看与优化过程无关
dplyr 总结小计

Excel 中数据透视表的一大优点是它们会自动提供小计首先我想知道 dplyr 中是否已经创建了任何可以实现此目的的东西如果没有实现它的最简单方法是什么在下面的示例中我按气缸和化油器的数量显示了平均排量对于每组气缸 4 6 8
用 Java 创建迷宫求解算法

我被分配了用 Java 创建迷宫求解器的任务这是任务 Write an application that finds a path through a maze The maze should be read from a file A
使用资源字符串的 DisplayFormat 数据注释

我想使用 DisplayFormat 数据注释来格式化模型数据但我想使用资源文件中存储的格式字符串我已经能够将资源类型和名称传递给某些数据注释例如指定错误消息时如何告诉 DisplayFormat 从我的资源文件之一获取格式字符串
MS-Access 查询中的语法错误（缺少运算符）

以下查询给了我 missing operator 语法错误所需的输出是表中数据的组合 dbo tbl 和意见 vw 我用过的所有钥匙都存在有任何想法吗 SELECT dbo tbl BOD fpartno AS PartNumber d
将 mat3 转换为 mat4 的最简单方法

我提取了 mat4 的左上角 3x3 旋转矩阵 glm mat4 model glm mat3 rot glm mat3 model 现在我想要单位矩阵左上角是我的新 mat3 最简单的方法是什么 glm mat4 result resu
如何在r中进行左连接[重复]

这个问题在这里已经有答案了我有两个数据集一和二数据集一 a b c 111 a 1 112 b 2 113 c 3 114 d 4 115 e 5 数据集二 e d g 222 ss 11 111 ff 22 113 ww 33 114
如何在一列中存储数组或多个值

运行 Postgres 7 4 是的我们正在升级我需要将 1 到 100 个选定项目存储到数据库的一个字段中 98 的情况下只会输入 1 个项目而 2 的情况下如果是这样的话会输入多个项目这些项目只不过是文本描述截至目前长
DeadSystemException启动服务Android 7

在过去的几周里我在我的事故报告中看到 Fatal Exception java lang RuntimeException Unable to start service com MyService ef705d8 with Intent
空白约束和空约束之间的区别

空白约束和空约束有什么区别我有以下课程 class Task String title String notes TekUser assignedTo Date dueDate TekEvent event static constrai
Angular - 将焦点放在动态创建的输入字段上

我如何将焦点添加到新创建的字段参见到目前为止的示例 http jsfiddle net aERwc 165 http jsfiddle net aERwc 165 scope addField function console log h
Xaml 不知道哪些对象是在不同的程序集中定义的

当我在一些非类中添加一个类时UI组装并在某些中使用它xaml in UI assembly出现以下错误 Provide value on System Windows StaticResourceExtension threw an exc
addAttr 在 jquery 中不起作用？

我有一个示例代码
将水平线添加到 html rmarkdown 文档隐藏文本部分

我正在制作一个与 HTML 页面结合的 Rmarkdown 文档我不想用标题或项目符号分隔某些文本部分而是想在它们之间绘制水平线根据http rmarkdown rstudio com authoring basics html ht
我如何模拟 UserManager 和 RoleManager 进行单元测试

我模拟了抽象类来测试类的具体方法如下所示 var mock new Mock
如何消除 jQuery Mobile 中的悬停延迟？

我正在使用 jQuery Mobile 制作一个网站当我将鼠标悬停在按钮上时它会更改其类并扩展其颜色但感觉需要半秒左右才能完成有没有办法减少这种延迟您可以覆盖hoverDelay无需修改 jQuery Mobile js 库要
如何在流式管道中按小捆绑的 N 个元素进行批处理？

我已经按照此答案中的描述实现了 N 个元素的批处理谷歌数据流管道中的数据存储输入可以一次处理一批 N 个条目吗 https stackoverflow com questions 35065109 can datastore input

如何在流式管道中按小捆绑的 N 个元素进行批处理？

如何在流式管道中按小捆绑的 N 个元素进行批处理？ 的相关文章

随机推荐

热门标签

如何在流式管道中按小捆绑的 N 个元素进行批处理？的相关文章