这是一个有关将数据文件从 Google Cloud Storage 导入到 BigQuery 的问题。
我有许多遵循严格命名约定的 JSON 文件,以包含 JSON 数据本身中未包含的一些关键数据。
例如:
xxx_US_20170101.json.gz
xxx_GB_20170101.json.gz
xxx_DE_20170101.json.gz
这是client_country_date.json.gz
目前,我在 Ruby 应用程序中执行了一些复杂的流程,这些流程读取文件、附加附加数据,然后将其写回到一个文件中,然后将该文件导入到 BigQuery 中客户端的单个每日表中。
我想知道是否可以在导入 BigQuery 时获取并解析文件名?然后我可以放弃复杂的 Ruby 进程,这些进程偶尔会在较大的文件上失败。
您可以定义一个指向您的文件的外部表:
请注意,表类型是“外部表”,并且它指向多个文件*
glob.
现在您可以查询这些文件中的所有数据,并查询元列_FILE_NAME
:
#standardSQL
SELECT *, _FILE_NAME filename
FROM `project.dataset.table`
您现在可以将这些结果保存到新的本机表中。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)