在 Google Cloud Bigtable 中填充数据需要很长时间

2024-01-25

我使用以下代码将数据填充到 Bigtable 中：

CloudBigtableScanConfiguration config = new CloudBigtableScanConfiguration.Builder()
                .withConfiguration("clusterId", options.getBigTableClusterId())
                .withProjectId(options.getProject())
                .withInstanceId(options.getBigTableInstanceId())
                .withTableId(options.getOutputBTTable())
                .build();
     Pipeline p = Pipeline.create(options);
     /**
      * Read Data from Big Query
      */
     CloudBigtableIO.initializeForWrite(p);
     p.apply(BigQueryIO.Read.fromQuery(getQuery(options.getDate())))
        .apply(ParDo.of(new DoFn<TableRow, Mutation>() {
           public void processElement(ProcessContext c) {
             Mutation output = convertDataToRow(c.element());
             if (output != null) { 
                 c.output(output); 
                 };
           }

           }))
         .apply(CloudBigtableIO.writeToTable(config));
     p.run();

private static Mutation convertDataToRow(TableRow element) {
     LOG.info("element: "+ element);
     if(element.get("BASM_AID") != null){
         Put obj = new Put(getRowKey(element).getBytes()).addColumn(SEGMENT_FAMILY, SEGMENT_COLUMN_NAME, ((String)element.get("BAS_category")).getBytes() );
                obj.addColumn(USER_FAMILY, AID, ((String)element.get("BASM_AID")).getBytes());
         if(element.get("BASM_segment_id") != null){
                obj.addColumn(SEGMENT_FAMILY, SEGMENT_ID, ((String)element.get("BASM_segment_id")).getBytes());
         }
         if(element.get("BAS_sub_category") != null){
                obj.addColumn(SEGMENT_FAMILY, SUB_CATEGORY, ((String)element.get("BAS_sub_category")).getBytes());
         }
         if(element.get("BAS_name") != null){
                obj.addColumn(SEGMENT_FAMILY, NAME, ((String)element.get("BAS_name")).getBytes());
         }
         if(element.get("BAS_description") != null){
                obj.addColumn(SEGMENT_FAMILY, DESCRIPTION, ((String)element.get("BAS_description")).getBytes());
         }
         if(element.get("BASM_krux_user_id") != null){
             obj.addColumn(USER_FAMILY, KRUX_USER_ID, ((String)element.get("BASM_krux_user_id")).getBytes());
         }
         if(element.get("BAS_last_compute_day") != null){
                obj.addColumn(SEGMENT_FAMILY, LAST_COMPUTE_DAY, ((String)element.get("BAS_last_compute_day")).getBytes());
         }
         if(element.get("BAS_type") != null){
                obj.addColumn(SEGMENT_FAMILY, TYPE, ((String)element.get("BAS_type")).getBytes());
         }      
         if(element.get("BASM_REGID") != null){
                obj.addColumn(USER_FAMILY, REGID, ((String)element.get("BASM_REGID")).getBytes() );
         }
        return obj;
     }else{
         return null;
     }
    }

我们有 30 个 Bigtable 节点，我的数据流工作需要与 100 个工作人员一起工作，整个过程必须处理大约 100 亿行数据，使用上述配置我的工作需要一天多的时间才能完成，这并不理想。

在代码级别上的任何建议，通过它我们可以更快地运行我们的工作，我知道增加 Bigtable 节点的数量是选项之一，但目前，我正在寻找不需要增加节点的其他选项。

您可能想看看这个问题 https://stackoverflow.com/questions/39105992/exceptions-in-google-cloud-dataflow-pipelines-from-bigquery-to-cloud-bigtable。基于此，您需要查看写入带宽，如果超过 80%，您可能希望减少工作节点的数量，或者要求增加配额并增加集群的大小。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googleclouddataflow

googlecloudbigtable

在 Google Cloud Bigtable 中填充数据需要很长时间的相关文章

Google Cloud Dataflow 中的自动缩放功能未按预期工作

我正在尝试在我的数据流作业中启用自动缩放如中所述本文 https cloud google com dataflow service dataflow service desc autoscaling 我通过以下代码设置相关算法来做到这一
如何使用 Google Cloud Dataflow 将压缩文件写入 Google Cloud Storage？

我正在尝试将 Gzipped 文件写入 Google Dataflow 程序中的 Google Cloud Storage 存储桶中常见问题解答说 Does the TextIO source and sink support compr
Google Dataflow（Apache Beam）JdbcIO批量插入mysql数据库

我正在使用 Dataflow SDK 2 X Java API Apache Beam SDK 将数据写入 mysql 我创建了基于管道Apache Beam SDK 文档 https beam apache org documentati
处理数据流中一对多阶段的正确方法

我有一个 Java 批处理管道它遵循以下模式 FileIO ExtractText gt input 1 file output millions of lines of text ProcessData ProcessData 阶段包含
数据流进入 Beam Pipeline 时的附加参数

我正在研究 Dataflow 我已经通过 Python SDK 构建了自定义管道我想将数据流 UI 上的参数添加到我的自定义管道中使用附加参数参考者https cloud google com dataflow docs guides
Google 数据流，DATA_LOSS 异常

我从谷歌数据流中得到了低于 DATA LOSS 的异常我有 10 15 个 Json 文件每个文件大小约为 2 3 MB 我正在使用 jackson2 解析文件使用 ParDo 进行一些转换最后进行 group by 来删除重复的项
用于从 REST API 读取数据的 Apache Beam Pipeline 在本地运行，但不在 Dataflow 上运行

我一直在尝试让我的管道在数据流上使用经典模板运行管道应该读取运行时参数from date and to date并将它们传递给 REST API 从 API 返回的答案应该写入 bigquery 表中它在数据流上运行没有任何错误但我的
Apache Beam 每用户会话窗口未合并

我们有一个有用户的应用程序每个用户每次使用我们的应用程序大约 10 40 分钟我想根据发生的特定事件例如该用户已转换该用户上次会话出现问题该用户上次会话成功在此之后我想计算每天这些更高级别的事件但这是一个单独的问题为此
无法通过在 Apache Beam 中创建模板来按所需顺序运行多个管道

我有两个独立的管道分别为 P1 和 P2 根据我的要求我只需要在 P1 完全完成执行后才运行 P2 我需要通过一个模板完成整个操作基本上模板在找到 run 方式即 p1 run 时就被创建所以我可以看到我需要使用两个不同的模板
优化内存密集型数据流管道的 GCP 成本

我们希望降低在 GCP Dataflow 中运行特定 Apache Beam 管道 Python SDK 的成本我们构建了一个内存密集型 Apache Beam 管道每个执行器上运行需要大约 8 5 GB RAM 当前正在加载一个大型机
数据流中的值错误：GCS 位置无效：无

我正在尝试从 GCS 存储桶加载数据并将内容发布到 pubsub 和 bigquery 这些是我的管道选项 options PipelineOptions project project temp location gs dataflow
安排 Google Cloud Dataflow 作业的最简单方法

我只需要每天运行一个数据流管道但在我看来像 App Engine Cron Service 这样需要构建整个 Web 应用程序的建议解决方案似乎有点太多了我正在考虑仅从 Compute Engine Linux 虚拟机中的 cron
Apache Beam 中的异步 API 调用

正如标题所说我想使用 python 在 apache beam 中进行异步 API 调用目前我正在为 Pcollection 中的每个元素调用 DoFn 内的 API 自由度代码 class textapi call beam DoF
如何使用 python API 列出所有数据流作业

我的用例涉及获取项目中存在的所有流数据流作业的作业 ID 并取消它更新我的数据流作业的源并重新运行它我正在尝试使用 python 来实现这一点直到现在我还没有遇到任何有用的文档我想到使用 python 的库子进程来执行 gcloud
Apache Beam：DoFn 与 PTransform

Both DoFn and PTransform是一种定义操作的方法PCollection 我们如何知道何时使用哪个理解它的一个简单方法是类比map f 对于列表高阶函数map将函数应用于列表的每个元素返回结果的新列表您可以将其称为
如何将 python 包安装到 Google Dataflow 并将其导入到我的管道中？

我的文件夹结构如下 Project Pipeline py setup py dist ResumeParserDependencies 0 1 tar gz Dependencies Module1 py Module2 py Modul
从 Dataflow 中的 BigQuery 读取时设置 MaximumBillingTier

当我从 BigQuery 读取数据作为查询结果时我正在运行 GCP Dataflow 作业我正在使用 google cloud dataflow java sdk all 版本 1 9 0 设置管道的代码片段如下所示 PCollecti
计算一次 GroupBy，然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道我需要运行多个转换所有这些转换都希望项目按键分组基于这个答案question https stackoverfl
Bigtable 与 Bigquery 时间序列数据用例

我希望最终确定 Big table 与 Bigquery 的时间序列数据用例我曾经经历过https cloud google com bigtable docs schema design time series https cloud
使用谷歌云数据流PubSubIO，消息的读取何时得到确认？

是否可以延迟确认直到成功处理子图 PubSubIO Read 下面的所有内容例如我们是流媒体从 google pubsub 订阅中读取数据然后将文件写入 GCS 在另一个分支中我们使用 BigQueryIO Write 写入 Bi

随机推荐

如何在 Python 脚本中使用 Google OAuth2

在使用 Python 脚本将视频上传到 YouTube 频道时若希望将视频上传到第二个频道需要解决 OAuth2 授权的问题解决方案创建新的 Google Cloud 项目 from google oauth2 import ser
题解 | #判断两个IP是否属于同一子网#

求求大家投下腾讯吧一直在捞人求求大家投下腾讯吧一直在捞人垂直领域大模型文档图像大模型的思考与探索分享一个大模型3D可视化的项目释放一个比亚迪hc 这样改简历春招通过能提升50 吗 OPPO校招笔试原题记录一波秋招结果伯恩
【安全-SSH】SSH安全设置

今天发现自己的公有云服务器被攻击了在这里插入图片描述 https img blog csdnimg cn direct cafdca04646f4b8b838400ec79ac282f png 然后查看了登录日志如上图 ls sh va
RabbitMQ环境配置

文章目录安装Erlang 安装RabbitMQ 安装Erlang 下载地址 http erlang org download otp win64 25 3 2 7 exe 安装RabbitMQ 下载地址 https www rabbitm
【安全】网络安全态势感知

文章目录一态势感知简介 1 概念 2 形象举例 3 应具备的能力二为什么要态势感知为什么网络安全态势感知很重要三态势感知系统的功能四如何评估态势感知的建设结果五什么是态势感知的三个层级四业界的态势感知产品 1 安全
如何在 Python 脚本中使用 Google OAuth2

在使用 Python 脚本将视频上传到 YouTube 频道时若希望将视频上传到第二个频道需要解决 OAuth2 授权的问题解决方案创建新的 Google Cloud 项目 from google oauth2 import ser
记录xxl-job重复执行引发业务问题

业务问题描述 1 创建运单发现重复同一个车架号两条记录 2 通知重复反馈 A系统读取中间表状态为未处理数据推送到B系统原因分析 1 以上两个问题都是xxljob定时执行的 2 通过日志分析读取中间表数据同一条数据被多次处理针对
网络安全行业热门认证证书合集

网络安全认证证书就和学历一样是敲门砖拿到了可以用不到但不能没有技术大牛可以没有证书但普通人不能没有 1 初级入门就像学历在职场上展示一个人的基本素养一样网络安全认证证书可以展示一个人在网络安全领域具备的基本知识和技能它为初学
【加解密篇】电子数据取证分析之特殊的自加密BitLocker解密

加解密篇电子数据取证分析之特殊的自加密BitLocker解密数据加解密通常是个耗时费力的事情蘇小沐 1 实验环境 Windows 11 专业版 23H2 22631 3007 一自动开启BitLocker之天坑 1 经验之谈在20
【前端】canvas图片加文字

注释标记了操作步骤 import React Component createRef from react class CertifyImgRender extends Component bgRef createRef
使用 Caffe 没有提高 RMSprop、Adam、AdaDelta 测试精度

I am finetuning using Caffe在图像数据集上Tesla K40 用一个batch size 47 solver type SGD base lr 0 001 lr policy step momentum 0 9 g
获取 Flutter ListView 中当前可见的 widget

我在用ListView builder 当我们向上向下滚动时如何获取当前可见的小部件viewport 类似安卓的东西recyclerview findFirstCompletelyVisibleItemPosition 谷歌给出了解决方案
MySQL TRIM 函数不修剪换行符或回车符吗？

从我的实验来看似乎并非如此如果确实如此那么删除换行符的最佳方法是什么我目前正在试验 TRIM 接受的要删除的字符的参数从修剪开始 n and r 我的换行符位于字符串的中间并且我无法控制源数据以下 mysql 命令对我有用 R
如何激活 Anaconda 环境

我使用的是 Windows 8 使用 Anaconda 1 7 5 64 位我创建了一个新的 Anaconda 环境 conda create p test python 2 7 pip from C Pr TEMP venv 这很有效
垂直复制电子表格中的所有列

set ws1 As SheetA set ws2 As Target With ws1 LastCol Cells 1 Columns Count End xlToLeft Column End With Lastrow ws1 Rang
有没有办法以编程方式检查用户是否在 Facebook 上共享了链接？

我目前正在使用 jQuery 记录我网站上 Facebook 共享链接的每次点击但我正在寻找更准确的解决方案我不想记录点击而是记录实际的分享用户共享链接后是否有办法从 Facebook 获取响应消息我今天遇到了这个 http
我可以在 Android 中捕获用于解码图片文件的位图分配中的内存不足异常吗？

我尝试对图片文件解码进行捕获但它无法捕获内存不足异常并且应用程序崩溃了我知道解码图片文件的一些技巧例如子采样但我需要放大图片才能看到细节所以我不能对其进行过多的二次采样对于一些较新的设备可以成功分配更大的内存以避免内存不足异
如何用PHP自动更新数据库中的数据

我想做托福考试我在数据库中创建了包含 4 列电子邮件正确错误分数的表 Score struct 如果用户已经完成了之前的测试并将再次进行测试则用户数据将根据用户的电子邮件推介进行更新我试过了但是失败了数据不会更新请帮我
如何在弹出控制器中设置带有标题的导航栏[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案如何在弹出控制器中设置带有标题的导航栏我想要详细的解释请帮帮我提前致谢 SomeViewController popContentV
在 Google Cloud Bigtable 中填充数据需要很长时间

我使用以下代码将数据填充到 Bigtable 中 CloudBigtableScanConfiguration config new CloudBigtableScanConfiguration Builder withConfigurat

在 Google Cloud Bigtable 中填充数据需要很长时间

在 Google Cloud Bigtable 中填充数据需要很长时间 的相关文章

随机推荐

热门标签

在 Google Cloud Bigtable 中填充数据需要很长时间的相关文章