如何最好地处理存储在 Google BigQuery 中不同位置的数据？

2023-11-25

我当前在 BigQuery 中的工作流程如下：

(1) 查询公共存储库中的数据（存储在美国），(2) 将其写入我的存储库中的表中，(3) 将 csv 导出到云存储桶，以及 (4) 在我工作的服务器上下载 csv并 (5) 在服务器上使用它。

我现在遇到的问题是我工作的服务器位于欧盟。因此，我必须支付相当多的费用才能在我的美国存储桶和我的欧盟服务器之间传输数据。我现在可以继续在欧盟找到我的存储桶，但我仍然遇到将数据从美国 (BigQuery) 传输到欧盟（存储桶）的问题。所以我也可以将bq中的数据集设置为位于欧盟，但是我无法再进行任何查询，因为公共存储库中的数据位于美国，并且不允许在不同位置之间进行查询。

有谁知道如何解决这个问题？

将 BigQuery 数据集从一个区域复制到另一个区域的一种方法是利用存储数据传输服务。它并不能回避你仍然必须这样做的事实支付存储桶到存储桶的网络流量，但可能会节省您将数据复制到欧盟服务器的一些 CPU 时间。

流程将是：

将所有 BigQuery 表提取到与表位于同一区域的存储桶中。（推荐 Avro 格式，以获得最佳的数据类型保真度和最快的加载速度。）
运行存储传输作业，将提取的文件从起始位置存储桶复制到目标位置的存储桶。
将所有文件加载到位于目标位置的 BigQuery 数据集。

Python 示例：

# Copyright 2018 Google LLC
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

import datetime
import sys
import time

import googleapiclient.discovery
from google.cloud import bigquery
import json
import pytz


PROJECT_ID = 'swast-scratch'  # TODO: set this to your project name
FROM_LOCATION = 'US'  # TODO: set this to the BigQuery location
FROM_DATASET = 'workflow_test_us'  # TODO: set to BQ dataset name
FROM_BUCKET = 'swast-scratch-us'  # TODO: set to bucket name in same location
TO_LOCATION = 'EU'  # TODO: set this to the destination BigQuery location
TO_DATASET = 'workflow_test_eu'  # TODO: set to destination dataset name
TO_BUCKET = 'swast-scratch-eu'  # TODO: set to bucket name in destination loc

# Construct API clients.
bq_client = bigquery.Client(project=PROJECT_ID)
transfer_client = googleapiclient.discovery.build('storagetransfer', 'v1')


def extract_tables():
    # Extract all tables in a dataset to a Cloud Storage bucket.
    print('Extracting {}:{} to bucket {}'.format(
        PROJECT_ID, FROM_DATASET, FROM_BUCKET))

    tables = list(bq_client.list_tables(bq_client.dataset(FROM_DATASET)))
    extract_jobs = []
    for table in tables:
        job_config = bigquery.ExtractJobConfig()
        job_config.destination_format = bigquery.DestinationFormat.AVRO
        extract_job = bq_client.extract_table(
            table.reference,
            ['gs://{}/{}.avro'.format(FROM_BUCKET, table.table_id)],
            location=FROM_LOCATION,  # Available in 0.32.0 library.
            job_config=job_config)  # Starts the extract job.
        extract_jobs.append(extract_job)

    for job in extract_jobs:
        job.result()

    return tables


def transfer_buckets():
    # Transfer files from one region to another using storage transfer service.
    print('Transferring bucket {} to {}'.format(FROM_BUCKET, TO_BUCKET))
    now = datetime.datetime.now(pytz.utc)
    transfer_job = {
        'description': '{}-{}-{}_once'.format(
            PROJECT_ID, FROM_BUCKET, TO_BUCKET),
        'status': 'ENABLED',
        'projectId': PROJECT_ID,
        'transferSpec': {
            'transferOptions': {
                'overwriteObjectsAlreadyExistingInSink': True,
            },
            'gcsDataSource': {
                'bucketName': FROM_BUCKET,
            },
            'gcsDataSink': {
                'bucketName': TO_BUCKET,
            },
        },
        # Set start and end date to today (UTC) without a time part to start
        # the job immediately.
        'schedule': {
            'scheduleStartDate': {
                'year': now.year,
                'month': now.month,
                'day': now.day,
            },
            'scheduleEndDate': {
                'year': now.year,
                'month': now.month,
                'day': now.day,
            },
        },
    }
    transfer_job = transfer_client.transferJobs().create(
        body=transfer_job).execute()
    print('Returned transferJob: {}'.format(
        json.dumps(transfer_job, indent=4)))

    # Find the operation created for the job.
    job_filter = {
        'project_id': PROJECT_ID,
        'job_names': [transfer_job['name']],
    }

    # Wait until the operation has started.
    response = {}
    while ('operations' not in response) or (not response['operations']):
        time.sleep(1)
        response = transfer_client.transferOperations().list(
            name='transferOperations', filter=json.dumps(job_filter)).execute()

    operation = response['operations'][0]
    print('Returned transferOperation: {}'.format(
        json.dumps(operation, indent=4)))

    # Wait for the transfer to complete.
    print('Waiting ', end='')
    while operation['metadata']['status'] == 'IN_PROGRESS':
        print('.', end='')
        sys.stdout.flush()
        time.sleep(5)
        operation = transfer_client.transferOperations().get(
            name=operation['name']).execute()
    print()

    print('Finished transferOperation: {}'.format(
        json.dumps(operation, indent=4)))


def load_tables(tables):
    # Load all tables into the new dataset.
    print('Loading tables from bucket {} to {}:{}'.format(
        TO_BUCKET, PROJECT_ID, TO_DATASET))

    load_jobs = []
    for table in tables:
        dest_table = bq_client.dataset(TO_DATASET).table(table.table_id)
        job_config = bigquery.LoadJobConfig()
        job_config.source_format = bigquery.SourceFormat.AVRO
        load_job = bq_client.load_table_from_uri(
            ['gs://{}/{}.avro'.format(TO_BUCKET, table.table_id)],
            dest_table,
            location=TO_LOCATION,  # Available in 0.32.0 library.
            job_config=job_config)  # Starts the load job.
        load_jobs.append(load_job)

    for job in load_jobs:
        job.result()


# Actually run the script.
tables = extract_tables()
transfer_buckets()
load_tables(tables)

前面的示例使用 google-cloud-bigquery 库来实现 BigQuery API，使用 google-api-python-client 来实现存储数据传输 API。

请注意，此示例不考虑分区表。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何最好地处理存储在 Google BigQuery 中不同位置的数据？的相关文章

Google Cloud Storage (GCS) 中的文件数量有限制吗？

我相信不应该有任何限制但只是想确认一下官方文档中没有提及 Google Cloud Storage GCS 中的文件数量有限制吗如果 GCS 中有大量文件是否会对性能访问和写入操作产生影响文件名长度是否有限制因为我可以使用文
如何使用第二行中的值填充第一行中的空值？

我正在尝试编写一个查询仅显示每个名称的第一行但这些行的标题为空因此我想从紧邻的下一行中提取它们的标题 table1 Name Title Row Dan NULL 1 Dan Engineer 2 Dan Developer 3 Ja
Bigquery - 选择时间戳作为人类可读的日期时间

如何在 Google Bigquery 中选择时间戳存储为秒作为人类可读的日期时间 schema id STRING signup date TIMESTAMP 我使用编写了一个查询DATE功能但出现错误 SELECT DATE cr
Google BigQuery，使用“unnest”函数时丢失了空行

StandardSQL WITH tableA AS SELECT T001 T002 T003 AS T id 1 5 AS L id UNION ALL SELECT T008 T009 AS T id NULL AS L id SEL
在 Google Bigquery 中创建表 SQL 语法

我一直在读bigquery 文档 https cloud google com bigquery loading data从昨天深夜开始了解的就很少了它讨论了通过不同的方法加载数据但没有说明如何创建我要向其中加载数据的表当我使用 W
GoogleJsonResponseException：500 内部服务器错误：响应太大而无法返回

我正在代码中使用库 com google api services bigquery Bigquery 批量获取 bigquery 中存在的表 20000 来获取结果列表直到前一天它工作正常但从今天开始我开始遇到下面提到的错误 com
使用 Google Cloud Datastore Python 库时应如何调查内存泄漏？

我有一个使用 Google 数据存储的网络应用程序在发出足够的请求后内存不足我已将范围缩小到数据存储查询下面提供了最低 PoC 稍长的版本 https gist github com edeca 214d7a7c51f84b9c2dc
在bigquery中比较两个表的有效方法

我有兴趣比较两个表是否包含相同的数据我可以这样做 standardSQL SELECT key1 key2 FROM SELECT table1 key1 table1 key2 table1 column1 table2 column1
使用显式值进行 BigQuery 合并

据我所知 BigQuery 支持合并两个表目前 INSERT操作允许将显式值插入表中例如 INSERT dataset Inventory product quantity VALUES top load washer 10 front
Google BigQuery DML 更新仍在流缓冲区中的行的查询

我最近一直在尝试为 Google 的 Big Query 流 api 提出一种重试机制用于使用 UPDATE 语句对有时仍位于流缓冲区中的行运行 DML 查询由于这些行尚未导出到表中 BI 的 api 禁止对它们运行 UPDATE 或
使用javascript上传到谷歌云存储签名的url

使用以下代码我可以上传到谷歌云存储中的公共可写存储桶 allUsers有写权限但是如果存储桶不可公开写入则会收到 401 未经授权的错误我不希望存储桶可公开写入 var file scope myFile var fileData
Django、Heroku、boto：直接文件上传到谷歌云存储

在部署在 Heroku 上的 Django 项目中我曾经通过 boto 将文件上传到 Google 云存储但是最近我必须上传大文件这会导致 Heroku 超时我正在关注 Heroku 的文档直接文件上传到S3 https devc
将数字格式化为包含逗号 (1000000 -> 1,000,000)

在 Bigquery 中我们如何格式化将成为结果集一部分的数字使其使用逗号格式化例如 1000000 到 1 000 000 以下是标准 SQL SELECT input FORMAT d input as formatted FRO
有没有办法确定或指定 BigQuery 将数据存储在哪个地理区域？

有没有办法确定哪个区域像这些 https cloud google com compute docs zones available BigQuery 将我的数据存储在更重要的是有没有办法指定我的数据发送到 BigQuery 时的存储
BigQuery：通配文件模式时遇到错误

我查询了包含 Google 电子表格中数据的联合表遵循第 720 期中的建议https code google com p google bigquery issues detail id 720 https code google co
外部表和加载表时遇到 Bigquery 错误 (ASCII 0)

我收到这个错误错误解析从位置 4824 开始的行时检测到错误错误遇到错误字符 ASCII 0 数据未压缩我的外部表指向多个 CSV 文件其中一个包含几行带有该字符的行在我的表定义中我添加了 MaxBadRecords 但这没
Firebase 导出到 BigQuery：保留群组查询

Firebase 通过 Firebase 远程配置提供拆分测试功能但缺乏使用用户属性实际上具有任何属性过滤群组部分中的保留的能力为了寻求此问题的解决方案我正在寻找 BigQuery 因为 Firebase Analytics 提供
比较 BigQuery 中的表

我如何比较两个表 Table1 and Table2 并查找所有新条目或更改Table2 使用 SQL Server 我可以使用 Select from Table1 Except Select from Table2 这是我想要的示例 T
BigQuery 是否可以进行近似字符串匹配/模糊字符串搜索？

感谢 Google 提供 BigQuery 太棒了 BigQuery 是否可以进行近似字符串匹配模糊字符串搜索 Google 是否计划将此功能添加到 BigQuery 中当然 Google 专有的近似字符串匹配算法可用于向 BigQue
使用 PHP 将对象插入 Google Cloud Storage

说实话我对缺少使用 PHP 的 Google Cloud Storage 文档感到非常沮丧我在这里 Stackoverflow 找到的大部分内容都已经过时了这是我的尝试 postbody array data gt file get

随机推荐

有没有办法为 Spring HATEOAS `ControllerLinkBuilder` 设置主机和端口？

Spring HATEOAS 提供了方便ControllerLinkBuilder创建指向控制器方法的链接这些方法将作为 href 添加到返回给客户端的 JSON XML 中例如 resource add linkTo methodOn
跟踪（直接）文件下载的最佳方法

跟踪直接文件下载的最佳方法是什么 Google Analytics 仅适用于 JavaScript 无法跟踪直接文件下载最好的是安全且自己的托管解决方案放心使用 htaccess RewriteEngine on RewriteRule
为什么ORACLE很多表默认12c？

创建一个新的数据库基础和高级这是我第一次接触Oracle 我不知道为什么有那么多表触发器视图和其他对象而只想创建一个空的关系数据库有没有其他方法可以做到这一点或者有什么我错过理解的事情谢谢 Capture 这些对象的所有者是
如何删除 vscode 右侧滚动条上的符号？

How can I remove the symbols on the right scrollbar in VSCode As per 这个 Github 问题最近的解决方案是使用 useworkbench colorCustomiza
特征中的 typedef 与类中的 typedef

我正在出于教育目的查看 Eigen 源代码我注意到对于每个具体的类模板X在层次结构中有一个internal traits
使用带有 Doctrine 2 的装置时发生致命错误

我是 Symblog 2 初学者我正在关注本教程适用于 Symblog2 我已经创建了我的数据模型并尝试使用将测试数据填充到我的数据库中学说 2 赛程我下载了必要的包并将以下内容添加到我的autoload php Doctrine Co
PowerMockito 模拟单个静态方法并在另一个静态方法中返回对象

我已经编写了测试用例来使用 PowerMockito 的 mockStatic 功能来模拟静态类和方法但我正在努力在另一个静态方法中模拟一个静态方法我确实看到了一些例子包括this但他们都没有真正帮助我或者我不理解实际功能我一无所
如何使用Python在Mac中控制鼠标？

在 OS X 上使用 Python 移动鼠标并可能单击的最简单方法是什么这只是为了快速原型设计它不必很优雅尝试以下代码这一页它定义了几个函数 mousemove and mouseclick 它与 Apple 在 Python
我们可以在过程宏属性中获取调用者的源代码位置吗？

我需要获取每个方法的调用者的源位置我正在尝试创建一个proc macro attribute捕获位置并打印它 proc macro attribute pub fn get location attr TokenStream item T
Git 默认文件（第一次拉取后忽略）

你会如何在 git 中设置这个场景我的源有一个设置文件其中包含数据库连接凭据等配置设置这是 Drupal 源我指的是 settings php 当开发人员克隆源代码时他们需要进入并更改特定于其环境的设置当然这些变化不应该被推回
为什么 angular.isNumber() 没有按预期工作？

看起来好像 AngularJS 的angular isNumber不管用它不适用于数字字符串难道我做错了什么我应该只使用isNaN angular isNumber 95 55 false angular isNumber 95 55
重命名 WooCommerce 订单状态

我想将 WooCommerce 订单状态从已完成重命名为订单已收到我可以编辑位于 wc order functions php 中的以下脚本但我不想修改任何核心文件或使用插件是否可以使用子主题中的脚本覆盖 woocommerce
JAXB 避免保存默认值

有没有什么方法可以让 JAXB 不保存值是 Element 注释中指定的默认值的字段然后在从 XML 加载 null 或空元素时将值设置为该值一个例子 class Example XmlElement defaultValue defa
使用 create-react-app 时使用自定义构建输出文件夹

Facebook 提供了一个create react app command构建反应应用程序当我们跑步时npm run build 我们看到输出 build文件夹 npm 运行构建将用于生产的应用程序构建到构建文件夹正确的是在生产模
如何从 JavaScript 中包含重复项的数组中获取唯一值的数组？ [复制]

这个问题在这里已经有答案了 Given a 0 1 1 2 3 3 3 数组结果应该是 0 1 2 3 Edited ES6解决方案 new Set a 选择 Array from new Set a 老回应 O n 2 不要将其用于大型
正则表达式仅在所需字符串之前未直接包含字符时匹配

我正在尝试解决这个CodingBat问题如果给定字符串包含 xyz 其中 xyz 前面没有直接加句点则返回 true 因此 xxyz 有效但 x xyz 无效 xyzThere abcxyz truexyzThere abc xyz
可以使用AJAX+跨域+jsonp测试URL是否可达吗？

我正在使用 JQuery 从 URL 获取信息并将其异步显示在我的页面上 URL 来自其他域因此我使用 JSONP 来获取数据效果很好但是当远程 URL 关闭时偶尔会发生我的页面会挂起jQuery AJAX不调用成功或错误
在 Angular2 TypeScript 中注释（出）代码

我有以下 Angular2 TypeScript 代码其中有一个部分根据 Javascript 约定被注释掉 Component selector my app template h1 title h1 h2 lene name h2 d
Python 将列表作为参数传递[重复]

这个问题在这里已经有答案了如果我要运行这段代码 def function y y append yes return y example list function example print example 即使我没有直接更改变量 ex
如何最好地处理存储在 Google BigQuery 中不同位置的数据？

我当前在 BigQuery 中的工作流程如下 1 查询公共存储库中的数据存储在美国 2 将其写入我的存储库中的表中 3 将 csv 导出到云存储桶以及 4 在我工作的服务器上下载 csv并 5 在服务器上使用它我现在遇到的问题是我工作

如何最好地处理存储在 Google BigQuery 中不同位置的数据？

如何最好地处理存储在 Google BigQuery 中不同位置的数据？ 的相关文章

随机推荐

热门标签

如何最好地处理存储在 Google BigQuery 中不同位置的数据？的相关文章