读取多个.gz文件并识别哪一行属于哪个文件

2024-01-31

我正在读取多个 .gz 文件以使用谷歌数据流进行处理。数据的最终目的地是BigQuery。 BigQuery 表对于 .gz 文件内的 csv 文件中的每一列都有专用列。 BQ 表中还有一个附加列 file_name，它给出了该记录所属的文件名。我正在使用 TextIO.Read 读取文件并对其进行 ParDo 转换。在 DoFn 中，有一种方法可以识别传入字符串所属的文件名。

我的代码如下所示：

PCollection<String> logs = pipeline.apply(TextIO.Read.named("ReadLines")
                .from("gcs path").withCompressionType(TextIO.CompressionType.AUTO));

PCollection<TableRow> formattedResults = logs.apply(ParDo.named("Format").of(new DoFn<String, TableRow>() {}

更新1：

我现在正在尝试如下：

        PCollection<String> fileNamesCollection // this is collection of file names
        GcsIOChannelFactory channelFactory = new GcsIOChannelFactory(options.as(GcsOptions.class));
        PCollection<KV<String,String>> kv = fileNamesCollection.apply(ParDo.named("Format").of(new DoFn<String, KV<String,String>>() {
                private static final long serialVersionUID = 1L;

                @Override
                public void processElement(ProcessContext c) throws Exception {
                    ReadableByteChannel readChannel = channelFactory.open(c.element());
                    GZIPInputStream gzip = new GZIPInputStream(Channels.newInputStream(readChannel));
                    BufferedReader br = new BufferedReader(new InputStreamReader(gzip));

                    String line = null;
                    while ((line = br.readLine()) != null) {
                        c.output(KV.of(c.element(), line));
                    }
                }
        }));

但是当我运行这个程序时，我发现 ChannelFactory 不可序列化，我有任何通道工厂正在实现可序列化接口并且可以在此处使用。

更新2：我终于能够执行程序并成功提交作业。感谢 jkff 的帮助。下面是我的最终代码，我将其粘贴在这里，以便对其他人也有帮助。

        ProcessLogFilesOptions options = PipelineOptionsFactory.fromArgs(args).withValidation()
                .as(ProcessLogFilesOptions.class); // ProcessLogFilesOptions is a custom class
        DataflowWorkerLoggingOptions loggingOptions = options.as(DataflowWorkerLoggingOptions.class);
        loggingOptions.setDefaultWorkerLogLevel(Level.WARN);

        String jobName = "unique_job_name";
        options.as(BlockingDataflowPipelineOptions.class).setJobName(jobName);

        Pipeline pipeline = Pipeline.create(options);

        List<String> filesToProcess = new ArrayList<String>();
        for(String fileName : fileNameWithoutHrAndSuffix) { // fileNameWithoutHrAndSuffix has elements like Log_20160921,Log_20160922 etc
            filesToProcess.addAll((new GcsIOChannelFactory(options.as(GcsOptions.class))).match(LogDestinationStoragePath+fileName));
        }
        // at this time filesToProcess will have all logs files name as Log_2016092101.gz,Log_2016092102.gz,.........,Log_2016092201.gz,Log_2016092223.gz
        PCollection<String> fileNamesCollection = pipeline.apply(Create.of(filesToProcess));

        PCollection<KV<String,String>> kv = fileNamesCollection.apply(ParDo.named("Parsing_Files").of(new DoFn<String, KV<String,String>>() {
                private static final long serialVersionUID = 1L;
                @Override
                public void processElement(ProcessContext c) throws Exception {
                    // I have to create _options here because Options, GcsIOChannelFactory are non serializable
                    ProcessLogFilesOptions _options = PipelineOptionsFactory.as(ProcessLogFilesOptions.class);
                    GcsIOChannelFactory channelFactory = new GcsIOChannelFactory(_options.as(GcsOptions.class));
                    ReadableByteChannel readChannel = channelFactory.open(c.element());
                    GZIPInputStream gzip = new GZIPInputStream(Channels.newInputStream(readChannel));
                    BufferedReader br = new BufferedReader(new InputStreamReader(gzip));

                    String line = null;
                    while ((line = br.readLine()) != null) {
                        c.output(KV.of(c.element(), line));
                    }

                    br.close();
                    gzip.close();
                    readChannel.close();
                }
        }));

        // Performing reshuffling here as suggested
        PCollection <KV<String,String>> withFileName = kv.apply(Reshuffle.<String, String>of());

        PCollection<TableRow> formattedResults = withFileName
                .apply(ParDo.named("Generating_TableRow").of(new DoFn<KV<String,String>, TableRow>() {
                    private static final long serialVersionUID = 1L;

                    @Override
                    public void processElement(ProcessContext c) throws Exception {
                    KV<String,String> kv = c.element();
                    String logLine = kv.getValue();
                    String logFileName = kv.getKey();

                    // do further processing as you want here
        }));

        // Finally insert in BQ table the formattedResults

目前来看，答案是否定的。不幸的是，如果您需要访问文件名，在这种情况下您最好的选择是自己实现文件模式扩展和文件解析（作为ParDo）。您需要记住以下几点：

确保插入一个重新分配 https://github.com/apache/incubator-beam/pull/1036就在解析之前ParDo, to 防止过度融合 https://cloud.google.com/dataflow/service/dataflow-service-desc#preventing-fusion.
您可以使用GcsIoChannelFactory扩展文件模式（参见示例这个问题 https://stackoverflow.com/questions/29983621/how-to-get-filename-when-using-file-pattern-match-in-google-cloud-dataflow）并打开一个ReadableByteChannel. Use Channels.newInputStream https://docs.oracle.com/javase/7/docs/api/java/nio/channels/Channels.html#newInputStream(java.nio.channels.ReadableByteChannel)创建一个InputStream，然后将其包装成Java的标准GZipInputStream并逐行阅读 - 请参阅这个问题 https://stackoverflow.com/questions/1080381/gzipinputstream-reading-line-by-line举些例子。记得关闭流 https://docs.oracle.com/javase/tutorial/essential/exceptions/tryResourceClose.html.

或者，您可以考虑编写自己的基于文件的源 https://cloud.google.com/dataflow/model/custom-io-java#convenience-source-and-reader-base-classes。但是，在这种特殊情况（.gz 文件）中，我建议不要使用它，因为该 API 主要用于可以从任何偏移量随机访问的文件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googleclouddataflow

读取多个.gz文件并识别哪一行属于哪个文件的相关文章

从 CSV 数据流 python 创建字典

我正在尝试从 python 中的 csv 数据创建一个字典我不想使用传统的 split 然后使用将行重命名为我想要的标题因为我将收到具有不同格式的不同 csv 文件信息量很大而且我将无法使用该方法一致地定位我想要的行标头名称将是一致
如何激活Dataflow Shuffle服务？

我正在尝试使用数据流洗牌服务 https cloud google com dataflow service dataflow service desc cloud dataflow shuffle在 python 环境中但似乎 shuf
读取多个.gz文件并识别哪一行属于哪个文件

我正在读取多个 gz 文件以使用谷歌数据流进行处理数据的最终目的地是BigQuery BigQuery 表对于 gz 文件内的 csv 文件中的每一列都有专用列 BQ 表中还有一个附加列 file name 它给出了该记录所属的文件名我
Google-cloud-dataflow：无法使用“BigQueryDisposition.WRITE_TRUNCATE”通过“WriteToBigQuery/BigQuerySink”将 json 数据插入到 bigquery

给定数据集如下 slot reward result 1 rank 1 isLandscape false p type main level 1276 type ba seqNum 42544 slot reward dlg result
如何在数据流中使用memcache？

我想在 dafalow ParDo 中使用 Memcache 有什么想法吗我无法使用现有的 memcahse 库因为它们属于 appengine 并且不可序列化罗希特我的猜测是你的文件中有一个私有变量DoFn类型的Memcache
数据流进入 Beam Pipeline 时的附加参数

我正在研究 Dataflow 我已经通过 Python SDK 构建了自定义管道我想将数据流 UI 上的参数添加到我的自定义管道中使用附加参数参考者https cloud google com dataflow docs guides
com.google.cloud.dataflow.sdk.coders.CoderException：无法编码空字符串

我在 Google Cloud 数据流中收到以下错误 java lang RuntimeException com google cloud dataflow sdk util UserCodeException java lang Run
用于从 REST API 读取数据的 Apache Beam Pipeline 在本地运行，但不在 Dataflow 上运行

我一直在尝试让我的管道在数据流上使用经典模板运行管道应该读取运行时参数from date and to date并将它们传递给 REST API 从 API 返回的答案应该写入 bigquery 表中它在数据流上运行没有任何错误但我的
从 Dataflow 将嵌套架构写入 BigQuery (Python)

我有一个数据流作业要写入 BigQuery 它适用于非嵌套模式但不适用于嵌套模式这是我的数据流管道 pipeline options PipelineOptions p beam Pipeline options pipeline op
google cloud dataflow (apache beam)可以使用ffmpeg来处理视频或图像数据吗

数据流进程可以使用 ffmpeg 处理视频或图像吗如果可以示例工作流程会是什么样子是的您可以使用以下命令确保工作人员可以使用必要的二进制文件及其依赖项 filesToStage 管道选项 https cloud google co
Apache Beam - Bigquery 流插入显示 RuntimeException：ManagedChannel 分配站点

我正在 Google Dataflow 中运行流式 Apache Beam 管道它从 Kafka 读取数据并将数据流式插入到 Bigquery 但在 bigquery 流插入步骤中它抛出了大量警告 java lang RuntimeEx
如何停止谷歌云数据流中的流管道

我有一个正在运行的流数据流来读取 PUB SUB 订阅一段时间后或者可能是在处理一定量的数据后我希望管道自行停止我不希望我的计算引擎实例无限期地运行当我通过数据流控制台取消作业时它显示为失败的作业有办法实现这一点吗我错过了什么
在 Dataflow Python flex 模板中包含另一个文件 ImportError

是否有一个包含多个文件的 Python Dataflow Flex 模板示例其中脚本导入同一文件夹中包含的其他文件我的项目结构是这样的 pipeline init py main py setup py custom py 我正在尝试将
Apache Beam 中的异步 API 调用

正如标题所说我想使用 python 在 apache beam 中进行异步 API 调用目前我正在为 Pcollection 中的每个元素调用 DoFn 内的 API 自由度代码 class textapi call beam DoF
ParDo 中的侧面输出 | Apache Beam Python SDK

由于该文档仅适用于 JAVA 我无法真正理解它的含义它指出虽然 ParDo 始终生成一个主输出 PCollection 作为 apply 的返回值但您也可以让 ParDo 生成任意数量的附加输出 PCollection 如果您选择有多
从 Dataflow 写入 BigQuery - 作业完成时不会删除 JSON 文件

我们的 Dataflow 作业之一将其输出写入 BigQuery 我对其幕后实现方式的理解是 Dataflow 实际上将 JSON 格式的结果分片写入 GCS 然后启动 BigQuery 加载作业以导入该数据但是我们注意到无论作业
计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道我需要运行多个转换所有这些转换都希望项目按键分组基于这个答案question https stackoverfl
Dataflow SQL (GCP) 不支持使用 STRUCT 的嵌套行

使用 Dataflow SQL 我想读取 Pub Sub 主题丰富消息并将消息写入 Pub Sub 主题哪个 Dataflow SQL 查询将创建我想要的输出消息 Pub Sub input消息 event timestamp 1619
如何解决 apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum 类上的酸洗错误？

当我远程运行数据管道时会引发 PicklingError 数据管道是使用 Beam SDK for Python 编写的并且我在 Google Cloud Dataflow 之上运行它当我在本地运行时管道工作正常以下代码生成 Pi
Spring 与 Apache Beam

我想将 Spring 与 Apache Beam 结合使用它将在 Google Cloud Data flow Runner 上运行数据流作业应该能够在执行管道步骤时使用 Spring 运行时应用程序上下文我想在 Apache Bea

随机推荐

替代 mongoDB 3.0[之前版本]中的 $strLenCP 字段

我目前使用的是 mongo 3 0v 我需要找到聚合命令结果中每个字符串的长度例如 db getCollection temp find key value1 key value2 key valuee2 此查询给出关键字段的长度 db
Python 错误 - TypeError：输入最多需要 1 个参数，得到 3 个 [重复]

这个问题在这里已经有答案了有人可以解释为什么我不能在目标变量中使用 your name 吗 my name Bryson my age 29 your name input What is your name your age input
mySQL - 使用 mysqli 应用行级锁

使用 PHP 的 mysqli 如何应用行级锁行级锁会阻止任何人编辑当前存在的符合您条件的行对吗但是他们会阻止用户插入符合您条件的行吗 Thanks 如果您想锁定特定行以防止编辑请使用FOR UPDATE在 SELECT 查询的末尾
如何用一个数组实现3个栈？

有时我会遇到以下面试问题如何用一个数组实现3个堆栈当然任何静态分配都不是解决方案空间而非时间高效你可以 1 定义两个堆栈从数组端点开始并沿相反方向增长 2 将第三个堆栈定义为从中间开始并向您想要的任何方向增长 3 重新定义
Kotlin：我们可以在Kotlin中使用EventBus（GreenRobot）的@Subscribe吗？

我的 onEvent 在如下片段中在我的 Kotlin 函数中捕获活动的身份验证但是我无法触发 onEvent Subscribe fun onEvent event AuthenticationEvent if event isAu
Object.GetHashCode() 的实现

我正在阅读有效的 C https rads stackoverflow com amzn click com 0321658701并且有一条评论关于Object GetHashCode 我不明白 Object GetHashCode 使用内
帆升起时出现咕噜声错误

我在帆升降机上遇到此错误风帆版本 v0 10 0 rc11 error Grunt module js 340 throw err Error Cannot find module home mandeep freelance hello
Android 联系信息更新是否有意？

我可以通过使用 putExtra 将信息作为额外数据传递来使用 Intent 创建新联系人是否可以使用信息创建 Intent 如果联系人已在电话簿中它将使用新信息进行更新实际上您可以使用意图通过 ContactsContract 创
MVC 3 客户端比较验证

这里发生了一些奇怪的事情我有一个基本形式 br
WPF 自动调整元素大小

当应用程序窗口调整大小时我希望其中的元素也按比例调整大小那可能吗我尝试谷歌搜索但找不到任何与此相关的内容我的 XAML 代码
使用 NodeJS 解包 PKCS#7 数据有效负载？

我正在开发适用于 iOS 的 MDM NodeJS 服务器在 Apple 文档中给出了以下 ruby 代码 p7sign OpenSSL PKCS7 PKCS7 new req body store OpenSSL X509 Store
国际象棋编程（无人工智能）——动作验证

我正在尝试编写自己的国际象棋引擎没有人工智能我知道有国际象棋游戏入门套件 http www chessbin com page Chess Game Starer Kit aspx我观看它是为了获得灵感但我没有注意到的是经过验证的动作
如何在 docker-compose 中将主机网络与默认网络结合起来[重复]

这个问题在这里已经有答案了我正在构建包含两个容器的 docker compose 服务这些容器之一 node 旨在支持自动发现机制并且需要成为主机 LAN 的一部分因为我需要由 LAN 路由器而不是内置的 docker 路由器处理多
部署 Angular 项目错误类型 MIME (text/html)

我尝试部署 Angular CLI 6 12 0 项目当我将 dist 文件夹内容放在服务器上时出现控制台错误键入 MIME Le chargement du module l adresse http www sylvainalla
C# 中的多个 HTTP 请求

我需要向不同的服务器并行发送大约 200 个 HTTP 请求并获得响应我在 C 中使用 HttpWebRequest 类但是当并行处理请求时我没有看到很好的时间改进例如如果一个请求需要 3 秒才能获得响应则并行 2 个请求 6
在 GithubActions CI 中安装用于 UWP 开发的 SDK？

我正在尝试构建一些 UWP 库但收到此错误 D a ZXing Net Xamarin ZXing Net Xamarin Source ZXing Net Mobile WindowsUniversal ZXing Net Mobile
matplotlib：图例标题的对齐

在matplotlib中如何调整图例标题它始终居中但我需要它与图例框左对齐我尝试更改标题的文本艺术家的对齐方式但没有效果详细信息请参见以下示例 from pylab import x linspace 0 1 plot x x
Flutter：如何检查字符串中的字母是否相同[重复]

这个问题在这里已经有答案了我正在制作一个表单供用户通过输入卖家的帐户名称和帐户类型来添加新卖家但在将新卖家添加到firestore之前它会检查该卖家是否存在现在我的代码仅检查输入的名称是否与数据库中的名称非常相似例如数据库中有
Javafx Tile Pane，设置最大列数

首先我将解释我的目标我想渲染一个像这样的表格每个单元格的内容在执行时间中确定但其大小固定为 13x13 因此我的方法是创建一个平铺窗格将列数设置为 13 并创建单元格 pane new TilePane pane setPadd
读取多个.gz文件并识别哪一行属于哪个文件

我正在读取多个 gz 文件以使用谷歌数据流进行处理数据的最终目的地是BigQuery BigQuery 表对于 gz 文件内的 csv 文件中的每一列都有专用列 BQ 表中还有一个附加列 file name 它给出了该记录所属的文件名我

读取多个.gz文件并识别哪一行属于哪个文件

读取多个.gz文件并识别哪一行属于哪个文件 的相关文章

随机推荐

热门标签

读取多个.gz文件并识别哪一行属于哪个文件的相关文章