我想设置从 gcs 存储桶中的文件读取数据流管道,然后写入 bigquery 表。需要注意的是,要写入的表应根据从 gcs 文件中读取的行的内容来决定。
我的问题是,这可能吗?如果是,有人可以给我任何关于如何实现这一目标的提示吗?
此外,必须进行读取的 gcs 文件是动态的。我正在使用对象更改通知服务,每当向存储桶添加/删除任何文件时,该服务都会调用我的应用程序引擎的注册端点,以及添加/删除的文件详细信息。该文件的内容必须流式传输到 bigquery。
是否可以将数据流管道与appengine集成?
最后,这整个设置是最好的方法吗?
谢谢...
关于你的第一个问题:参见将不同的值写入 Apache Beam 中的不同 BigQuery 表 https://stackoverflow.com/questions/43505534/writing-different-values-to-different-bigquery-tables-in-apache-beam/43505535
关于第二个问题:实现这一目标的一种方法是让您的 appengine 应用程序将每个更改通知发布到 Cloud Pubsub,并拥有一个不断运行的流数据流管道来监视 pubsub 主题并写入 BigQuery。
关于你的第三个问题:是的,假设你在 GCS 上的数据表示是固定的,其余的对我来说似乎是一个合理的摄取架构:)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)