在导入 BigQuery 时添加文件名作为列？

2024-04-28

这是一个有关将数据文件从 Google Cloud Storage 导入到 BigQuery 的问题。

我有许多遵循严格命名约定的 JSON 文件，以包含 JSON 数据本身中未包含的一些关键数据。

例如：

xxx_US_20170101.json.gz
xxx_GB_20170101.json.gz
xxx_DE_20170101.json.gz

这是client_country_date.json.gz目前，我在 Ruby 应用程序中执行了一些复杂的流程，这些流程读取文件、附加附加数据，然后将其写回到一个文件中，然后将该文件导入到 BigQuery 中客户端的单个每日表中。

我想知道是否可以在导入 BigQuery 时获取并解析文件名？然后我可以放弃复杂的 Ruby 进程，这些进程偶尔会在较大的文件上失败。

您可以定义一个指向您的文件的外部表：

请注意，表类型是“外部表”，并且它指向多个文件* glob.

现在您可以查询这些文件中的所有数据，并查询元列_FILE_NAME:

#standardSQL
SELECT *, _FILE_NAME filename
FROM `project.dataset.table`

您现在可以将这些结果保存到新的本机表中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

googlebigquery

googlecloudstorage

在导入 BigQuery 时添加文件名作为列？的相关文章

BigQuery 无法将字段的“null”解析为 int

尝试将 csv 文件加载到 bigquery 表中有些列的类型为 INTEGER 但某些缺失值为 NULL 所以当我使用命令 bq load 加载时出现以下错误无法将 null 解析为字段的 int 所以我想知道处理这个问题的最佳解决
分析云数据流 BigQuery 吞吐量/管道

我试图弄清楚 DataFlow 如何扩展某些操作以及如何使其表现最佳首先我刚刚创建了一个简单的流程从 BigQuery 读取数据约 25M 行总共 30GB 执行 JSON 提取按键进行简单的分组然后对分组进行聚合每个约 1
BigQuery中有新数据时触发云功能

我想在新数据导入 BigQuery 表时触发 Cloud Function 理想情况下我想提取已插入的所有行一列是 ISIN 这可能吗如何实现 2022 年 6 月更新第二代 Cloud Functions 支持Eventarc h
SQL查询查找同一天安装和卸载应用程序的用户

我正在尝试使用 Google BigQuery 中 Firebase Analytics 的数据来查找在同一天安装和卸载该应用程序的用户这就是我到目前为止所得到的我有一个查询为我提供安装或卸载应用程序的用户或 app instanc
在 Windows 上安装 gsutil

我对 python 比较陌生所以如果这是一个愚蠢的问题我深表歉意我在 Windows 上安装 gsutil 时遇到问题我按照这里的指示进行操作 https developers google com storage docs gsu
同一项目中的不同用户是否可以拥有不同的 BigQuery 配额？

同一项目中的不同用户是否可以拥有不同的 BigQuery 配额我知道我可以通过 GCP 的 IAM 和管理部分对给定项目的每个用户每天的查询使用量设置限制以下这些说明 https cloud google com bigquery
请求头字段X-Requested

我正在尝试访问谷歌云存储上的存储桶中的文件我已经为存储桶设置了 CORS 配置但当我通过 https 发出请求时出现此错误它适用于通过 http 发出的请求 XMLHttpRequest 无法加载 FILENAME 预检响应中的 A
Google Big Query 错误：CSV 表遇到太多错误，放弃。行：1 错误：1

I am trying to run a query on a 12 GB csv file loaded in Google big query I cant run any query on the dataset I am not s
Dataproc：使用 PySpark 从 BigQuery 读取和写入数据时出现错误

我正在尝试读取一些 BigQuery 数据 ID my project mydatabase mytable 原始名称受保护来自用户管理的 Jupyter Notebook 实例内部Dataproc https cloud google
使用 Airflow BigqueryOperator 向 BigQuery 表添加标签

我必须向 bigquery 表添加标签我知道可以通过 BigQuery UI 来完成此操作但如何通过气流运算符来完成此操作 Use case 用于计费和搜索目的由于多个团队在同一项目和数据集下工作我们需要将各个团队创建的所有表组合在
将新文件添加到 Cloud Storage 时触发 Dataflow 作业

我想在将新文件添加到存储桶时触发数据流作业以便处理新数据并将其添加到 BigQuery 表中我看到云函数可以被触发 https cloud google com functions calling google cloud storag
从 pandas 数据帧创建 BigQuery 表，无需显式指定架构

我有一个 pandas 数据框想从中创建一个 BigQuery 表我知道有很多帖子询问这个问题但到目前为止我能找到的所有答案都需要明确指定每列的架构例如 from google cloud import bigquery as bq
签名 URL 在过期日期后仍然有效

我创建了一个签名 URL 有效期为 2 天尽管过期但它仍然有效我希望它给出一些错误 3XX 4XX 测试脚本 https gist githubusercontent com forvaidya 984003008b0603ca679
BigQuery 数据类型

我正在开始一个新项目只是想在定义表模式之前进行验证 BigQuery 是否支持以下以外的其他功能 string integer float boolean BigQuery 数据类型官方文档 https cloud google com
如何在标准 SQL 中使用 Unicode 规范化删除变音符号（例如重音符号）？

如何使用新功能从 BigQuery 中的字符串中删除变音符号normalize https cloud google com bigquery docs reference standard sql functions and operat
使用 NodeJS 从 GCP 存储下载对象

我在用着 google cloud 存储 https www npmjs com package google cloud storage从节点应用程序访问 Google Cloud Storage 存储桶内的对象但我无法使其工作我已在
Google BigQuery：如何使用 SQL 创建新列

我想在不使用旧版 SQL 的情况下向现有表添加一列基本的 SQL 语法是 ALTER TABLE table name ADD column name datatype 我格式化了 Google BigQuery 的查询 ALTER TA
Google Kubernetes Engine 中的存储 ReadWriteMany

有没有一种方法能够提供 ReadWriteMany 存储而无需实现存储集群我能够使用 gcsfuse 提供存储但速度非常慢我需要接近 GlusterFS 速度的东西我目前正在使用 GlusterFS 另一种选择 Google Clo
将小数修剪到 2 位 Bigquery

我当前正在运行一个查询该查询运行 sum 函数并除以该数字目前我得到的值例如 0 0904246741698848 和 1 6419814808335567 我希望这些小数被修剪到小数点后 2 个空格他们的模式是一个浮点数这是我的代
BigQuery REGEXP_MATCH 和重音：边界通配符失败？

在 GAS 中我可以正确地将重音符号与具有边界字符的正则表达式相匹配例如 b b 仅当字符是单独的单词时才匹配这在 GAS 中有效 function test regExp var str la s ance est Paris v

随机推荐

调整容器 div 内部 div 的 margin-top 会将内部 div 和容器 div 从 body 向下推

我觉得这一定是我做了一些愚蠢的事情的问题但我无法弄清楚这是显示我的问题的演示页面 http boxofbaskets com html demo html页面来源
war文件可以部署在任何服务器上吗？

如果这个问题很愚蠢请原谅我假设我使用 Spring 框架和 MS SQL Server 数据库以及 WebSphere 应用程序服务器开发一个 J2EE Web 应用程序我后来为此应用程序创建了一个 WAR 文件我可以在不更改代码的
Firefox createMediaStreamDestination 使用 rtc 的错误？

我通过 rtc 流式传输音频并想要静音和取消静音音频这有效但没有增益控制 function stream getUserMedia stream console log Access granted to audio video pee
如何获取 VESA BIOS 信息

我正在跟踪Phil Opp 教程 https os phil opp com 关于用 Rust 编写一个操作系统在稍微尝试了一下之后我想在屏幕上显示真实的图形我发现我应该从使用带有 VESA 的线性帧缓冲区开始我在 osdev or
端口不是所有 Docker 网络都通用的吗？

我创建了两个docker网络中国网络 docker network create subnet 172 19 0 0 16 chnetwork 内部网络 docker network create internal subnet 10 1
没有循环匹配指定的签名和转换错误

我是 python 和机器学习的初学者当我尝试将数据放入 statsmodels formula api OLS fit 时出现以下错误回溯最近一次调用最后一次文件第 47 行位于 regressor OLS sm OLS y
C/C++ 删除与删除[] [重复]

这个问题在这里已经有答案了可能的重复 new 与 delete 配对怎么可能只导致内存泄漏 https stackoverflow com questions 1913343 how could pairing new with dele
如何使用 Whatsapp Cloud API 发送短信

我在使用 Whatsapp Cloud API 已于 5 月 22 日向公众发布时遇到问题我做了一切在入门 https developers facebook com docs whatsapp cloud api get starte
在终端中访问文件“添加日期”

在我的 Mac 上的下载文件夹中文件有一个添加日期列我正在尝试创建一个脚本来将超过 x 天的文件移至我的垃圾文件夹以下方法有效但它是根据创建修改日期提取文件而不是我从 Finder 中看到的添加日期有没有办法显示使用这
角度指令可以将参数传递给指令属性中指定的表达式中的函数吗？

我有一个使用指定的表单指令callback具有隔离范围的属性 scope callback 它位于一个ng repeat所以我传入的表达式包括id对象作为回调函数的参数
Oracle的服务器JRE包含JDK？

我刚刚下载了适用于 Java SE 7 的 Oracle Server JRE link http www oracle com technetwork java javase downloads server jre7 downloads
使用 JodaTime 将 UTC 转换为本地时间（以毫秒为单位）

我正在尝试使用 Jodatime 显示特定时间段内的交易我们的服务器要求开始日期和结束日期采用 UTC 这可能是显而易见的因此围绕这些的任何业务逻辑都使用 DateTime 对象并将时区设置为DateTimeZone UTC e g
io.fabric8.kubernetes.client.KubernetesClientException：禁止！配置的服务帐户无权访问

Config config new ConfigBuilder withMasterUrl https c2 eu de containers cloud ibm com 78945 build 尝试 KubernetesClient客户端
获取属性与数组中嵌套的值匹配的所有对象

我有以下数据表 id ObjectId value owner testuser date ISODate 2017 03 16T12 45 03 386Z location thuis venue bijna thuis descript
如何通过无头活动处理静默 SEND 意图

正如提问的用户所说 Android 上的默认浏览器如何发送 SEND 意图 https stackoverflow com questions 3320930 how does the default browser on android
Visual Studio 2012 C++ 使用 Boost Signal2 编译错误

我正在使用 Visual Studio 2012 Ultimate 和以下 Boost Signals2 代码 https github com cfobel boost signals2 blob master hello world 0
这段代码可以优化吗？

我有一些图像处理代码循环遍历 2 个多维字节数组大小相同它从源数组中获取一个值对其执行计算然后将结果存储在另一个数组中 int xSize ResultImageData GetLength 0 int ySize ResultI
MFC CMenu 工具提示未显示

我尝试使用类似的东西来设置 CMenu 项的工具提示如所述here https stackoverflow com questions 2400180 mfc how to add tooltip in cmenu items 但它只是显
如何在Python中将列表中的整数相加（对数字列表求和）？

假设我有一个整数列表例如 2 4 7 12 3 我怎样才能将所有数字加在一起以获得28 x 2 4 7 12 3 sum of all numbers sum x 或者你可以尝试这个 x 2 4 7 12 3 sum of all nu
在导入 BigQuery 时添加文件名作为列？

这是一个有关将数据文件从 Google Cloud Storage 导入到 BigQuery 的问题我有许多遵循严格命名约定的 JSON 文件以包含 JSON 数据本身中未包含的一些关键数据例如 xxx US 20170101 jso

热门标签