保存到 parquet 文件时如何使用新的 Int64 pandas 对象

2024-04-21

我正在使用 Python (Pandas) 将数据从 CSV 转换为 Parquet，以便稍后将其加载到 Google BigQuery 中。我有一些包含缺失值的整数列，从 Pandas 0.24.0 开始，我可以将它们存储为 Int64 dtype。

有没有办法在镶木地板文件中也使用 Int64 dtype？我找不到针对缺失值的整数的干净解决方案（因此它们在 BigQuery 中保持为 INTEGER）。

我尝试将其直接导入 BigQuery，并得到与使用 Pandas 转换为 parquet 时相同的错误（如下所示。）

导入包含缺失值的 int 列的 CSV：

import pandas as pd
df = pd.read_csv("docs/test_file.csv")
print(df["id"].info())

id 8 非空 float64

该行作为 float64 导入。我将类型更改为 Int64：

df["id"] = df["id"].astype('Int64')
print(df["id"].info())

id 8 非空 Int64

然后我尝试保存到镶木地板：

df.to_parquet("output/test.parquet")

错误：

pyarrow.lib.ArrowTypeError: ('未传递 numpy.dtype 对象', 'Int64 类型的列 id 转换失败')

目前有一个未解决的问题来支持来自 google-cloud-bigquery 的新 Int64 列：https://github.com/googleapis/google-cloud-python/issues/7702 https://github.com/googleapis/google-cloud-python/issues/7702.

同时，我建议使用对象数据类型。在 google-cloud-bigquery 版本 1.13.0 中，您可以指定所需的 BigQuery 架构，并且该库将在 parquet 文件中使用所需的类型。

    # Schema with all scalar types.
    table_schema = (
        bigquery.SchemaField("int_col", "INTEGER"),
    )

    num_rows = 100
    nulls = [None] * num_rows
    dataframe = pandas.DataFrame(
        {
            "int_col": nulls,
        }
    )

    table_id = "{}.{}.load_table_from_dataframe_w_nulls".format(
        Config.CLIENT.project, dataset_id
    )

    job_config = bigquery.LoadJobConfig(schema=table_schema)
    load_job = Config.CLIENT.load_table_from_dataframe(
        dataframe, table_id, job_config=job_config
    )
    load_job.result()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

googlebigquery

parquet

pyarrow

保存到 parquet 文件时如何使用新的 Int64 pandas 对象的相关文章

如何实现 __eq__ 进行集合包含测试？

我遇到了一个问题我将一个实例添加到一个集合中然后进行测试以查看该对象是否存在于该集合中我已经覆盖了 eq 但在包含测试期间不会调用它我必须覆盖吗 hash 反而如果是这样我将如何实施 hash 鉴于我需要对元组列表和字典进行哈
如何让python优雅地失败？

我只是想知道如何让 python 在所有可能的错误中以用户定义的方式失败例如我正在编写一个处理大项目列表的程序并且某些项目可能不符合我定义的格式如果 python 检测到错误它目前只会输出一条丑陋的错误消息并停止整个过程但是
类型错误：float() 参数必须是字符串或数字，而不是“列表”python

我的 Python 有问题这是我的代码 def calcola a input b float a 0 split c float a 0 split d float a 0 split e float a 0 split j float
Paramiko SSHException 通道已关闭

我一直在使用 Paramiko 在 Linux Windows 机器上发送命令它可以很好地在 Ubuntu 机器上远程执行测试但是它不适用于 Windows 7 主机以下是我收到的错误 def unit for event self
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
Django 不会以奇怪的错误“AttributeError: 'module' object has no attribute 'getargspec'”启动

我对 Django 的内部结构有点缺乏经验所以我现在完全陷入困境它昨天起作用了但我不记得我改变过任何重要的东西当我转身时DEBUG True任何恰好位于列表中第一个的模块上都有堆栈跟踪 Traceback most recent c
如何使用 PyMongo 在重复键错误后继续插入

如果我需要在 MongoDB 中插入尚不存在的文档 db stock update one document set document upsert True 将完成这项工作如果我错了请随时纠正我但是如果我有一个文档列表并想将它们全
返回上个月的日期时间对象

如果 timedelta 在它的构造函数中有一个月份参数就好了那么最简单的方法是什么 EDIT 正如下面指出的那样我并没有认真考虑这一点我真正想要的是上个月的任何一天因为最终我只会获取年份和月份因此给定一个日期时间对象返回的最
在 Linux 上的 Python 中使用受密码保护的 Excel 工作表

问题很简单我每周都会收到一堆受密码保护的 Excel 文件我必须解析它们并使用 Python 将某些部分写入新文件我得到了文件的密码当在 Windows 上完成此操作时处理起来很简单我只需导入 win32com 并使用 clie
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
根据列索引重命名 Dataframe 列

是否有内置函数可以按索引重命名 pandas 数据框我以为我知道列标题的名称但事实证明第二列中有一些十六进制字符根据我接收数据的方式我将来可能会在第 2 列中遇到这个问题因此我无法将这些特定的十六进制字符硬编码到 datafram
在 matplotlib 中绘制多边形的并集[重复]

这个问题在这里已经有答案了我正在尝试绘制几个多边形的并集matplotlib 具有一定的 alpha 水平我当前的代码在交叉点处颜色较深有没有办法让交叉路口与其他地方的颜色相同 import matplotlib pyplot as
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in

随机推荐

如何从 Node.js 调用 C++ 代码？

我目前正在开发一个在服务器上运行的模拟器并应在浏览器中显示数据对于服务文件通信和类似的事情我想使用 Node js 但是我不确定它在计算部门是否会像我希望的那样执行所以我想用 C 开发模拟部分模拟被划分为单独的世界它们都以
使用 node-sass 安装 angular-cli 时出错

我的系统配置 Debian 4 4 nvm 0 33 8 节点 v8 9 4 npm 5 6 0 我想安装 Angular clinpm install g angular cli 但我收到一条错误消息 root contracts hom
NugGet Semver - 允许哪些预发行角色？

我正在尝试对我的 NuGet 包 NET Core 2 之一使用语义版本控制版本如下 1 0 0 my fancy branch 123 正如您所猜测的我尝试将分支名称和当前 BuildId 设置为预发布标签不幸的是 dotnet b
MediaCodec.createInputSurface() 在 Android 模拟器中抛出 IllegalStateException（错误 -38）

I have MediaMuxer MediaMuxer mMediaMuxer new MediaMuxer new File Environment getExternalStorageDirectory video mp4 getPa
在 Shiny 中格式化响应式 data.frames

我有一个工作闪亮的应用程序但我正在更改它以便输入数据是反应性的当底层数据更新时它会更新当它刚刚读入数据时它工作得很好但现在数据是反应性的我在其中一个文件上遇到了问题另外两个文件按预期工作该文件是从数据库导出的 csv 我想
数据库级别的国际化

谁能向我指出一些解决数据库级别任务国际化的模式最简单的方法是为每个文本列的每种语言添加一个文本列但这在某种程度上有点难闻我真的希望能够动态添加支持的语言我要提出的解决方案是保存在模型中的一种主要语言和一个查询翻译并将翻译保存到的字典
为什么unique_ptr::~unique_ptr需要T的定义？

如果我有一堂酒吧课 bar h class Bar public Bar 我转发声明与另一个类 Foo 中的 std unique ptr 一起使用 foo h include
Visual Studio 2010 - 如何优化

我正在使用 2010 版的 Visual Studio 但遇到了许多延迟问题我的计算机具有良好的 RAM 和处理器配置特别是在保存文件时目前我正在进行一个中型项目只有一个打开文件 ASP NET 页面使用第三方 Telerik
ActionBarSherlock - 无法解析类型 android.support.v4.app.Fragment。它是从所需的 .class 文件间接引用的

我使用 ActionBarSherlock 作为一个项目中的库项目该项目本身就是一个库一切都工作正常直到我将项目移至新计算机并更新了 SDK 工具我有这个错误我不明白当我创建一个扩展 SherlockFragment 的类时如下
xCode Instruments 检测到的这些内存泄漏对象是什么？

我有一个 iPhone 应用程序似乎存在内存泄漏问题这是一款益智游戏在玩了几个谜题后应用程序在设备上崩溃了我现在尝试使用 xcode Instruments 来检测发生了什么第一次使用仪器我注意到泄漏图中有一个泄漏栏就在
JTextField 中的下拉列表

我不知道当我在文本字段中输入一些字母时应该从我的数据库中选取相关项目并应显示为下拉列表例如我在文本字段中输入了 J 在我的数据库中具有诸如 Juby Jaz Jasmine Joggy 之类的名称这些名称应显示为列表这样我就可以从
MSChart 中系列和数据点的所有可用自定义属性的最终列表

我正在使用 NET 3 5 MSChart 控件有时我发现我需要向系列或数据点添加自定义属性例如 Series series new Series series PieDrawingStyle SoftEdge DataPoint po
Graphql 没有为接口/联合定义解析器 - java

我在使用这种方法添加解析器时遇到问题graphql RestController RequestMapping api dictionary RequiredArgsConstructor onConstructor Autowired p
C# 中是否有与 HashSet 等效的 AddRange

通过列表您可以执行以下操作 list AddRange otherCollection a 中没有添加范围方法HashSet 添加另一个的最佳方法是什么ICollection to a HashSet For HashSet
MySQL中如何获取两个值中的最大值？

我尝试过但失败了 mysql gt select max 1 0 ERROR 1064 42000 You have an error in your SQL syntax check the manual that corresponds
twitter bootstrap 下拉菜单的对齐

我设计了一个带有下拉菜单的引导导航栏 http jsfiddle net yabasha fex8N 3 http jsfiddle net yabasha fex8N 3
Android活动内存消耗

我有一个 Android 应用程序有 4 个活动第一个是基本的启动屏幕第二个是登录第三个是主屏幕第四个是用于绘图的额外屏幕在真实设备上运行该应用程序 2014 年的 Samsung Galazy 选项卡或 Android 4 4
Ncurses 和 Qt 互操作性

拥有基于 Qt 和 ncurses 的应用程序在等待用户输入时每秒刷新屏幕的最佳方法是什么例如显示时钟并获取用户输入我需要 CPU 使用率和应用程序响应能力之间的最佳折衷更具体地说如何获取用户输入并仍然使用QTimer以及信号槽机
Mojave/macOS 10.14.0：[AVPlayerItem 持续时间] 始终不确定

我正在尝试使用以下代码读取本地存储的音频文件的持续时间 import
保存到 parquet 文件时如何使用新的 Int64 pandas 对象

我正在使用 Python Pandas 将数据从 CSV 转换为 Parquet 以便稍后将其加载到 Google BigQuery 中我有一些包含缺失值的整数列从 Pandas 0 24 0 开始我可以将它们存储为 Int64 dt

保存到 parquet 文件时如何使用新的 Int64 pandas 对象

保存到 parquet 文件时如何使用新的 Int64 pandas 对象 的相关文章

随机推荐

热门标签

保存到 parquet 文件时如何使用新的 Int64 pandas 对象的相关文章