将新文件添加到 Cloud Storage 时触发 Dataflow 作业

2024-05-04

我想在将新文件添加到存储桶时触发数据流作业,以便处理新数据并将其添加到 BigQuery 表中。我看到云函数可以被触发 https://cloud.google.com/functions/calling#google_cloud_storage通过存储桶中的更改,但我还没有找到使用以下方式启动数据流作业的方法gcloud Node.js 库 https://googlecloudplatform.github.io/gcloud-node/#/docs/v0.29.0.

有没有办法使用云函数来执行此操作,或者是否有其他方法可以实现所需的结果(将文件添加到存储桶时将新数据插入到 BigQuery)?


Apache Beam 从 2.2 开始支持此功能。看在 Apache Beam 中监视与文件模式匹配的新文件 https://stackoverflow.com/questions/47896488/watching-for-new-files-matching-a-filepattern-in-apache-beam/47896489#47896489.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将新文件添加到 Cloud Storage 时触发 Dataflow 作业 的相关文章

  • 允许在谷歌云存储上公开共享文件

    谷歌云存储允许用户检查 公开共享 存储管理器中的字段允许您直接共享数据的 URL 我正在使用谷歌应用程序引擎并将数据发送到存储 但我希望默认情况下公开共享它 我怎样才能做到这一点 他们的文档似乎没有提到任何关于此的内容 除了手动执行之外 我
  • 传输服务数据差异:Google Ads (AdWords) <> BigQuery

    有人在将 Google Ads 数据传输到 BigQuery 时遇到过问题吗 我使用了 Google Ads 传输服务 在通过查询验证传输的数据时 我注意到在 Google Ads 门户网站中看到的数据与传输到 BigQuery 的数据之间
  • 避免 Firebase 可调用函数的 CORS 预检

    我有一个Firebase 可调用云函数 https firebase google com docs functions callable我在浏览器中的 javascript 应用程序中调用它 由于请求主机是 cloudfunctions
  • 云集成:创建项目时出错。请重试

    我创建了一个新的 GAE 应用程序 但 设置 页面上的 云集成 部分告诉我 创建项目时发生错误 请重试 我在几个小时内多次按下 重试 按钮 但它不起作用 我发现 它反复说问题已解决 但对我来说还没有解决 有人来自 Google 监控这个论坛
  • Firebase云功能不触发onCreate

    尝试使用 Cloud Functions 处理联系表单提交以发送电子邮件 Hello World 功能正常启动 所以我认为设置很好 该表单填充 消息 集合 但我没有收到以下触发器的日志条目 或错误 const functions requi
  • Puppeteer 无法在谷歌云功能中工作

    Puppeteer 无法在谷歌云中工作 镀铬错误如图所示 我已经在这里实施了该建议 Heroku 上的 Puppeteer 错误 找不到 Chromium https stackoverflow com questions 74385208
  • 请求头字段X-Requested

    我正在尝试访问谷歌云存储上的存储桶中的文件 我已经为存储桶设置了 CORS 配置 但当我通过 https 发出请求时 出现此错误 它适用于通过 http 发出的请求 XMLHttpRequest 无法加载 FILENAME 预检响应中的 A
  • 如何将 python 包安装到 Google Dataflow 并将其导入到我的管道中?

    我的文件夹结构如下 Project Pipeline py setup py dist ResumeParserDependencies 0 1 tar gz Dependencies Module1 py Module2 py Modul
  • Apache Beam:跳过已构建的管道中的步骤

    有没有办法有条件地跳过已构建的管道中的步骤 或者管道构建是否被设计为控制运行哪些步骤的唯一方法 通常 管道构造控制将执行管道中的哪些转换 但是 您可以想象一个输入 多个输出ParDo复用输入PCollection到输出之一PCollecti
  • 使用javascript批量上传请求到Google Cloud Storage

    我正在尝试使用 javascript 在批量请求中将多个图像上传到谷歌云存储 我在用着https developers google com storage docs json api v1 how tos batch example ht
  • 将新文件添加到 Cloud Storage 时触发 Dataflow 作业

    我想在将新文件添加到存储桶时触发数据流作业 以便处理新数据并将其添加到 BigQuery 表中 我看到云函数可以被触发 https cloud google com functions calling google cloud storag
  • 部署应用程序引擎后的暂存文件桶

    部署谷歌应用引擎后 谷歌云存储中至少创建了4个存储桶 项目 ID appspot com 登台 项目 ID appspot com 工件 project id appspot com vm containers 项目 ID appspot
  • Google App Engine - 破坏服务 URL 缓存

    我终于设法让图像在 App Engine 上正确旋转 现在我正在努力绕过缓存的图像 而标准缓存清除技术不起作用 因此 第一次旋转图像时 我得到了一个不同的 URL 并且图像被旋转 第二次旋转它时 我得到相同的 URL 只有在附加 s300
  • 使用 NodeJS 从 GCP 存储下载对象

    我在用着 google cloud 存储 https www npmjs com package google cloud storage从节点应用程序访问 Google Cloud Storage 存储桶内的对象 但我无法使其工作 我已在
  • 计算一次 GroupBy,然后将其传递给 Google DataFlow (Python SDK) 中的多个转换

    我正在使用适用于 Apache Beam 的 Python SDK 在 Google DataFlow 上运行特征提取管道 我需要运行多个转换 所有这些转换都希望项目按键分组 基于这个答案question https stackoverfl
  • 获取运行云功能的运行时服务帐户

    有没有办法以编程方式从云功能获取运行时服务帐户的电子邮件 我知道我可以 猜测 默认的 App Engine 帐户 因为它始终是 appspot gserviceaccount com 但这不是我想要的 我本来期待有一些环境变量 https
  • Cloud Functions for Firebase 中的套接字挂起错误

    我有一个由 Pub Sub 事件触发的云函数 它用请求 承诺 https github com request request promise从我用于数据的 API 发出多个 GET 请求 它在 Cloud Functions Emulat
  • page.goto() 上的云函数超时

    我在云函数中使用 puppeteer 运行测试 如果我在本地机器上运行测试一切都很好 如果我在云函数模拟器中运行测试也没关系 但是当我将函数部署到云端时 所有测试都停留在 page goto https 并且函数因超时而失败 在我的例子中是
  • Google Cloud / Firebase Functions,处理每个函数的依赖关系

    我们有几个需要大量依赖项才能工作的函数 我们有所谓的 jar npm lib 地狱正在发生 并且希望限制对函数的依赖 而不是项目级别的依赖 这可能吗 编辑 尝试按照 Doug 的指示重新表述问题 我们正在使用 Firebase 函数 并且希
  • 找不到模块:无法解析 @google-cloud/storage 上的“fs”

    得到Module not found Can t resolve fs 尝试从 GCP Storage 列出存储桶时出错 import Storage from google cloud storage const googleCloud

随机推荐