从 pandas 数据帧创建 BigQuery 表，无需显式指定架构

2024-05-05

我有一个 pandas 数据框，想从中创建一个 BigQuery 表。我知道有很多帖子询问这个问题，但到目前为止我能找到的所有答案都需要明确指定每列的架构。例如：

from google.cloud import bigquery as bq

client = bq.Client()

dataset_ref = client.dataset('my_dataset', project = 'my_project')
table_ref = dataset_ref.table('my_table')  

job_config = bq.LoadJobConfig( 
 schema=[ 
     bq.SchemaField("a", bq.enums.SqlTypeNames.STRING),
     bq.SchemaField("b", bq.enums.SqlTypeNames.INT64), 
     bq.SchemaField("c", bq.enums.SqlTypeNames.FLOAT64),         
 ]
) 

client.load_table_from_dataframe(my_df, table_ref, job_config=job_config).result()

但是，有时我有一个包含许多列（例如 100 列）的数据框，指定所有列确实很重要。有没有办法高效地做到这一点？

顺便说一句，我发现这篇文章有类似的问题：高效地将 Pandas 数据帧写入 Google BigQuery https://stackoverflow.com/questions/48886761/efficiently-write-a-pandas-dataframe-to-google-bigquery但似乎bq.Schema.from_dataframe不存在：

AttributeError: module 'google.cloud.bigquery' has no attribute 'Schema'

以下是将 DataFrame 加载到 BQ 的代码片段：

import pandas as pd
from google.cloud import bigquery

# Example data
df = pd.DataFrame({'a': [1,2,4], 'b': ['123', '456', '000']})

# Load client
client = bigquery.Client(project='your-project-id')

# Define table name, in format dataset.table_name
table = 'your-dataset.your-table'

# Load data to BQ
job = client.load_table_from_dataframe(df, table)

如果您只想指定架构的子集并仍导入所有列，则可以使用以下命令切换最后一行

# Define a job config object, with a subset of the schema
job_config = bigquery.LoadJobConfig(schema=[bigquery.SchemaField('b', 'STRING')])

# Load data to BQ
job = client.load_table_from_dataframe(df, table, job_config=job_config)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

googlebigquery

从 pandas 数据帧创建 BigQuery 表，无需显式指定架构的相关文章

使用输入按钮处理网站上的分页

试图使用硒抓取这个网站我的代码可以工作但目前它只抓取第一页该页面使用输入按钮作为浏览页面的一种方式因此我想逐个单击每个按钮但它不起作用有没有人有任何其他方法来处理此类分页的导航 import requests from sele
XGBoost 产生预测结果和概率

我可能正在文档中查看它但我想知道 XGBoost 是否有办法生成结果的预测和概率就我而言我正在尝试预测多类分类器如果我能返回Medium 88 那就太好了分类器中预测概率 88 参数 params max depth 3 ob
在 Linux 上创建线程与进程的开销

我试图回答在 python 中创建线程与进程有多少开销的问题我修改了类似问题的代码该问题基本上运行一个带有两个线程的函数然后运行带有两个进程的相同函数并报告时间 import time sys NUM RANGE 100000000
TypeError：无法在 re.findall() 中的类似字节的对象上使用字符串模式

我正在尝试学习如何自动从页面获取网址在下面的代码中我试图获取网页的标题 import urllib request import re url http www google com regex r pattern re compile
加速 Numpy 数组上的循环

在我的代码中我有一个 for 循环它对多维 numpy 数组进行索引并使用每次迭代时获得的子数组进行一些操作看起来像这样 for sub in Arr do stuff using sub 现在使用完成的东西sub是完全矢量化的所
如何在Python中使用getopt/OPTARG？如果给出太多参数 (9)，如何转移参数？

如何在Python中使用getopt optarg 这是我如何做到这一点的示例我通常使用相同的基本模板 import sys import getopt try opts args getopt getopt sys argv 1 m p
如何将字符串列表转换为正确的 Python 类型？

给定一个 python 字符串列表如何自动将它们转换为正确的类型意思是如果我有 hello 3 3 64 1 我希望将其转换为列表 hello 3 3 64 1 其中第一个元素是字符串第二个元素是 int 第三个元素是 float
QFileDialog 作为 TableView 的编辑器：如何获取结果？

我正在使用一个QFileDialog作为某些专栏的编辑QTableView 这基本上有效对一些焦点问题取模请参阅here https stackoverflow com questions 22854242 qfiledialog as
Python OO程序结构规划

我是 OOP 的初学者我想创建一个包含三个类 A B 和 C 的程序该类的每个实例都由一组特征 Achar1 Achar2 等定义该程序应该创建uses由 A 元素 B 元素和 C 元素以及开始日期和结束日期组成 A 和 B 都有子类
如果“pip install”有效，为什么还要“sudo pip install”？（HelloAnalytics.py 的问题）

Google 提供了一个示例 HelloAnalytics py 来演示如何使用谷歌 API python 客户端 https pypi org project google api python client 标题下方 2 安装客户端库
如何从包含许多表的 Excel 工作表中解析数据帧（使用 Python，可能使用 Pandas）

我正在处理布局糟糕的 Excel 工作表我正在尝试解析这些工作表并将其写入数据库每个工作表可以有多个表尽管这些可能的表格的标题是已知的但哪些表格将位于任何给定的工作表上它们在工作表上的确切位置也不是已知的表格不以一致的方式对齐
Python 的最佳实践：assert command() == False [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
在 pandas 中展开列表列时，是否有一种Python式的方法来添加枚举列？

考虑以下DataFrame gt gt gt df pd DataFrame A 1 2 3 B abc def ghi apply A int B list gt gt gt df A B 0 1 a b c 1 2 d e f 2 3
将误差线添加到 3D 绘图

我找不到在 matplotlib 的 3D 散点图中绘制误差条的方法基本上对于以下代码段 from mpl toolkits mplot3d import axes3d import matplotlib pyplot as plt f
kombu.exceptions.EncodeError：用户不可 JSON 序列化

我有 django 1 11 5 应用程序和 celery 4 1 0 我一直收到 kombu exceptions EncodeError
采用迭代器而不是可迭代的方法[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案关于迭代器和可迭代对象仅是我的观察如果我错了请纠正我大多数构造函数数组类型将迭代器作为质量构造函数迭代器是显式创建的或
如何使用 google.oauth2 python 库？

我试图对谷歌机器学习项目的安全预测端点进行简单的休息调用但它找不到 google oauth2 模块这是我的代码 import urllib2 from google oauth2 import service account Cons
Pandas - 过滤器和正则表达式搜索 DataFrame 的索引

我有一个 DataFrame 其中列是 MultiIndex 索引是名称列表即index Andrew Bob Calvin 我想创建一个函数来返回数据帧中使用名称 Bob 或以字母 A 开头或以小写字母开头的所有行如何才能做到这一点
在python中读取证书（.crt）和密钥（.key）文件

因此我使用 JIRA Python 模块连接到我公司的 JIRA 实例它要求我为此传递证书和密钥但是使用 OpenSSL 模块我无法读取本地证书和密钥来将其传递给请求阅读代码如下 import OpenSSL crypto c
通过 subprocess.communicate 在 python 脚本之间传输 pickled 对象输出

我有两个 python 脚本 object generator py 它会腌制给定的对象并打印它另一个脚本 object consumer py 通过 subprocess communicate 选择第一个脚本的输出并尝试使用 pic

随机推荐

如何使用Matlab提高PSD的分辨率

我有音频信号我用 Matlab 读取该信号并使用 pwelch 获取其 PSD 这是我正在使用的代码 x Fs audioread audioFile wav x x 1 mono xPSD f pwelch x hamming 512
Git 与 master 合并，无需签出 master

每次我需要的时候merge develop with master I do git checkout master git merge develop 有时我忘记切换出去master 因此我在运行时错误地更改了代码master 它可能会
std::可选 - 使用 {} 或 std::nullopt 构造空？

我认为初始化一个std optional https en cppreference com w cpp utility optional with std nullopt https en cppreference com w cpp u
React Native：未找到哈希字符串“android-X”的目标

我正在尝试开发我的第一个反应本机 https facebook github io react native Android应用程序当我跑步时 sudo react native run android 我收到以下错误 JS server
如何从 UIImagePickerController 镜像 UIImage 图片

我想弄清楚是否有任何方法可以镜像图像例如拍摄某人脸部的照片然后将其切成两半并显示他们的脸部在每一面都镜像后的样子 CGAffineTransform 函数中似乎没有类似的技巧请各位图形专家帮忙这里的基本技巧是使用关于 X 或
强制加载 WPF 视觉对象的适当方法

我一直在努力使用打印System Printing http msdn microsoft com en us library system printing aspx命名空间我终于发现在使用部分 API 时得到空白结果的原因是Visu
在 cudaFree() 之前需要 cudaDeviceSynchronize() 吗？

CUDA 版本 10 1 帕斯卡 GPU 所有命令都发送到默认流 void ptr cudaMalloc ptr launch kernel lt lt lt gt gt gt ptr cudaDeviceSynchronize Is th
我的机器上的 svn.exe 在哪里？

I have 乌龟svn安装在我的桌面上我想使用执行一些任务命令行svn exe 但我找不到svn exe在我的机器上我们是否需要安装其他东西才能获得svn exe命令 subversion 程序代码链接到 TortoiseSVN 二进
“本地存储库已过时”....我没有分支如何解决这个问题

当我们将代码推送到远程服务器时 Xcode 显示以下警告另请参阅随附的屏幕截图本地存储库已过时我没有分支或任何其他工作副本我有同样的问题我是这样解决的首先进入终端中的项目目录 git init git add git stash
HttpResponse 过滤器不返回任何内容

我编写了一个 HttpModule 用于拦截对 WebResource axd 处理程序的调用以便我可以对 javascript 执行一些后处理该模块包装 Response Filter 流以执行其处理并将其更改写入底层流我遇到的问题
是否可以在 app.config 键值中包含超链接？

是否可以将超链接作为 app config 键值对中文本的一部分电子邮件正文文本作为值我想从 app config 键值生成电子邮件正文例如
当下面没有记录时隐藏组标题

当组头在该页中没有记录时是否可以在第 3 8 页中抑制组头这是问题的解决方案但您必须调整其他内容以保持每个页面的组标题重复主要思想是将组标题模拟为详细信息部分并仅与组的第一条记录一起显示一步步创建一个运行总计字段来计算组中的记
NVD3/D3改变y轴最小值

我目前正在使用 NVD3 制作一些折线图我想知道是否可以使 y 轴刻度始终从 0 开始目前它始终从最低的 y 值开始我尝试过使用tickValues 但我不想更改其他值我还尝试添加值为 0 的数据点但这似乎是一种解决方法它会影响
如何在 iPhone 应用程序中与 Modbus 设备通信？

我希望能够开发一个可以与 Modbus 设备通信的 iPhone 应用程序但我不知道如何继续有没有人有这方面的经验或者是否有用于此目的的现有图书馆您首先需要知道如何在您的 iPhone 上创建一个简单的 TCP 客户端以及如何在您
如何获得“irb(main):001:0>”提示而不是“>>”

我的 Mac 上预装了 Ruby 所以我想看看它我注意到的第一件事是 irb 提示 gt gt 而不是 irb main 001 0 gt 我找不到任何关于如何通过 Google 更改此设置的信息因为每个人都在其代码中使用 irb ma
即使引用了 Typescript 也找不到名称

我有一个用打字稿编写的有角度的项目这在 VS 下对我来说效果很好现在我在 webstorm 下尝试使用 Node JS 进行同样的操作我在progressor ts 文件中有一个progressor 类 export class Pr
Restful服务参数不匹配异常

我有服务 POST Path post Consumes application json public Response createProductInJSON Product product String result Product
获取 BLOB 的二进制内容

我知道为了将 BLOB 对象转换为 Javascript 中的可读格式 URL 我应该使用 createObjectURL 方法对吧例子 var blob new Blob Example type text plain url wi
TestCafe - 浏览器在测试之间总是以干净的状态启动。如何覆盖它以便浏览器记住缓存、用户设置和存储

测试之间的浏览器始终以干净的状态打开登录在我的应用程序中被记住因为身份验证仍然存在但由于浏览器始终以干净的状态打开我必须在所有夹具的 Before 挂钩中执行登录有什么方法可以打开浏览器以便记住用户设置缓存本地和会话存储吗 T
从 pandas 数据帧创建 BigQuery 表，无需显式指定架构

我有一个 pandas 数据框想从中创建一个 BigQuery 表我知道有很多帖子询问这个问题但到目前为止我能找到的所有答案都需要明确指定每列的架构例如 from google cloud import bigquery as bq

从 pandas 数据帧创建 BigQuery 表，无需显式指定架构

从 pandas 数据帧创建 BigQuery 表，无需显式指定架构 的相关文章

随机推荐

热门标签

从 pandas 数据帧创建 BigQuery 表，无需显式指定架构的相关文章