使用 pyarrow 与 pyspark 创建的 parquet 文件是否兼容？

2024-05-02

我必须分两步将 JSON 中的分析数据转换为 parquet。对于大量现有数据，我正在编写 PySpark 作业并执行

df.repartition(*partitionby).write.partitionBy(partitionby).
    mode("append").parquet(output,compression=codec)

但是对于增量数据，我计划使用 AWS Lambda。也许，PySpark 对此来说有点大材小用，因此我计划使用 PyArrow （我知道它不必要地涉及 Pandas，但我找不到更好的替代方案）。所以，基本上：

import pyarrow.parquet as pq
pq.write_table(table, outputPath, compression='snappy',
    use_deprecated_int96_timestamps=True)

我想知道 PySpark 和 PyArrow 编写的 Parquet 文件是否兼容（相对于 Athena）？

Parquet 文件编写者pyarrow（长名称：Apache Arrow）与 Apache Spark 兼容。但您必须小心写入 Parquet 文件中的数据类型，因为 Apache Arrow 比 Apache Spark 支持更广泛的数据类型。目前有一个标志flavor=spark in pyarrow您可以使用它自动设置一些兼容性选项，以便 Spark 可以再次读取这些文件。遗憾的是，在最新版本中，此选项还不够（预计会随着pyarrow==0.9.0）。您应该注意使用已弃用的 INT96 类型（use_deprecated_int96_timestamps=True）以及避免无符号整数列。对于无符号整数列，只需将它们转换为有符号整数即可。遗憾的是，如果您的 schema 中有无符号类型，而不是仅仅将它们加载为有符号类型（它们实际上总是以有符号形式存储，但仅用标记标记为无符号），那么 Spark 会出错。考虑到这两件事，这些文件应该在 Apache Spark 和 AWS Athena（这只是 Presto 的底层）中可读。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 pyarrow 与 pyspark 创建的 parquet 文件是否兼容？的相关文章

docker-compose：容器之间的 Redis 连接被拒绝

我正在尝试设置一个 docker compose 文件该文件旨在替换运行多个进程 RQ 工作线程 RQ 仪表板和 Flask 应用程序的单个 Docker 容器解决方案导师 http supervisord org 主机系统是 Debi
for 循环在 Python 中生成/导出输出所需的时间太长

这个问题是上一个问题的延续for 循环花费太长时间才能产生输出 https stackoverflow com questions 41339200 for loop taking too long to produce output no
硒网格监听节点端口而不是集线器端口

对于我的测试我在不同的端口上本地运行网格和节点 java jar usr bin selenium server jar port 4444 role hub java jar usr bin selenium server jar ro
Pyjnius导入jar文件

Pyjnius 允许您为 java 类创建 python 包装器例如 Hardware autoclass org myapp Hardware 有没有办法像这样导入现有的 jar 文件语法是什么样的您可以将 jar 添加到 CLAS
使用 OpenCV 进行图像模糊检测

我正在研究图像的模糊检测我已经用过拉普拉斯方法的方差在 OpenCV 中 img cv2 imread imgPath gray cv2 cvtColor img cv2 COLOR BGR2GRAY value cv2 Laplacia
Python中非常大的整数的math.pow是错误的[重复]

这个问题在这里已经有答案了我试图通过计算一个整数的非常大的幂来打印一个非常大的数字尽管我的代码是正确的但我没有观察到所需的输出一般来说 Python解释器可以打印系统内存支持的非常大的整数考虑到这个假设下面是我正在运行的代码 a
如果工作表不存在，Pandas 将工作表附加到工作簿，否则覆盖工作表

我正在使用 pandas 更新现有的 Excel 工作簿当使用ExcelWriter对象我可以覆盖工作表如果存在否则创建一个新工作表吗我的代码附加了新工作表但是当我尝试覆盖现有工作表时它会附加一个名称略有不同的新工作表例如
Tensorflow：Cuda 计算能力 3.0。所需的最低 Cuda 能力为 3.5

我正在从源安装tensorflow 文档 https www tensorflow org versions r0 10 get started os setup html installing from sources Cuda驱动版本
尝试安装 python 包 Box2D 时出错

我正在尝试通过 pip 安装 Box2D 软件包的版本 2 3 10 但是 pip 返回以下错误消息 ERROR Could not find a version that satisfies the requirement Box2D 2
有什么理由不在Python中混合使用多处理和线程模块

我正在考虑使用Python来实现一个需要大量多线程的程序另一个要求是它将在桌面上运行因此拥有许多进程将使应用程序显得混乱且难以杀死在任务管理器中因此我正在考虑使用线程和多处理模块来减少进程数量据我了解 GIL 仅适用于单个进程
Python 多处理：全局对象未正确复制到子级

前几天我回答了一个关于SO的问题 https stackoverflow com q 67047533 1925388关于并行读取 tar 文件这是问题的要点 import bz2 import tarfile from multipro
使用 django-profiles 以配置文件形式编辑相关模型

我在用着Django 配置文件 http bitbucket org ubernostrum django profiles wiki Home在我的应用程序中因为它为我提供了一些简单的视图可以帮助我更快地到达我想去的地方但是我有一
在 CSV 文件的最上面一行写入

我有这个sample csv 文件 a 1 apple b 2 banana c 3 cranberry d 4 durian e 5 eggplant 并有以下代码 samplefile open sample csv rb rows s
如何使 cx-oracle 将查询结果绑定到字典而不是元组？

这是我的代码我想找到一种方法将查询结果作为字典列表而不是元组列表返回看起来 cx oracle 通过部分文档讨论绑定来支持这一点虽然我不知道它是如何工作的 def connect dsn cx Oracle makedsn hos
“gi.repository.Gtk”对象没有属性“gdk”

我正在尝试使用 GTK 创建多线程需要 Gtk gdk 但我收到有关没有 gdk 属性的错误我正在使用带有 Raspbian 的 Raspberry Pi 这就是我导入 GTK 库的方式 try import pygtk pygtk r
如何在Python中一次比较二维数组的2列与另一个数组的列

我有两个字符串数组每个数组有三列我想比较两个二维数组的前两列有 3 列和 4000 行如果它们匹配那么我需要那些匹配的值但是我的代码不起作用这是一个示例 array1 1stcolumn 2ndColumn 3rdColumn
按键合并的两个字典的值的并集

我有两本词典 d1 a x y b k l d2 a m n c p r 如何合并这两个字典以获得这样的结果 d3 a x y m n b k l c p r 当字典的值是简单类型如 int 或 str 时这有效 d3 dict i a
调用API“找不到模块”时AWS lambda层错误

我尝试使用 AWS Lambda 层观看了有关它的教程但收到错误找不到模块 service aws nodejs package exclude gitignore package json git provider name aws
Python，质数检查器[重复]

这个问题在这里已经有答案了你好我正在创建一个函数来检查一个数字是否是素数但它告诉我 9 是一个素数 def eprimo num if num lt 2 return False if num 2 return True else f
Django Python - LDAP 身份验证

我目前正在研究 Django Python 我的目标是从 Ldap 目录对用户进行身份验证我确实有 python 代码来访问 ldap 目录并检索信息 Code import ldap try l ldap open ldap forum

随机推荐

Unity（依赖注入）：如何向RegisterType中的构造函数传入参数

有人可以帮忙吗我有一个 wpf 应用程序应该没关系在 Onstart 中我有我的 bootstrap 东西就像这样 Create unity container my service and repository container
如何在ios应用程序中打开应用程序商店？

我正在使用此代码对 iOS 应用程序中的应用程序进行评分 let appLink https itunes apple com us app name of the app id idnumber mt 8 let url URL stri
如何使用 JFreeChart 创建仪表图表

我想使用饼图和半圆环图的组合来创建仪表图附上预期的图像有人可以帮我修改附加的代码以获得预期的结果吗附上示例代码改编自here https stackoverflow com a 69473975 230513 import java
Angular routerLink没有导航到相应的组件

我在 angular2 应用程序中的路由运行良好但我将根据以下内容制作一些routeLinkthis https angular io docs ts latest guide router html 这是我的路由 const route
在 Play 商店中发布 Android 应用程序后，Firebase 云消息传递无法正常工作

因此当我在 Android 或 iOS 应用程序中以调试或发布模式运行应用程序时我的应用程序将收到 FCM 推送通知完全没有问题但是在 Google Play 应用商店上发布我的应用程序后我的 Android 应用程序突然不会收到
osx 上的 aio：它是在内核中实现还是通过用户线程实现？其他选择？

我正在开发我的小型 C 框架并且有一个文件类它也应该支持异步读写除了在我发现的一些工作线程中使用同步文件 I O 之外唯一的解决方案是 aio 无论如何我环顾四周并在某处读到在 Linux 中 aio 甚至不是在内核中实现的而
将 Dwolla 与 PHP 及其 API 集成

前言好吧我过去使用过 API 例如 TwitterAPI 但我总是使用库和一些文档来帮助我进行连接和检索令牌我对 API 的工作原理有了基本的了解好的我尝试了多种使用 PHP 请求 dwolla API 的方法我尝试过制作一个
Ruby On Rails 助手——在助手中使用实例变量

我有一个控制器助手 module CourseStepsHelper def current quiz result course step step step quiz quiz attempts where patient id gt
AWS Lambda 和不准确的内存分配

我意识到我需要分配比我的 AWS Lambda 函数所需的更多的内存否则我会得到 errorMessage Metaspace errorType java lang OutOfMemoryError 例如我有一个分配了 128MB 的
递归问题

当我将类从一个类导入到另一个类时我遇到了问题我有不同模块中的这些类 crm py from CRMContactInformation import CRMContactInformation class CRM rdb Model
如何检查一个元素是否存在于另一个元素中？

我想对于 jQuery 了解一个元素是否存在于另一个元素中像这样的东西 if container find search element 必须返回 YES 如果 search element是进入 container 否则不我该怎么做
从 .NET Core 1.1.1 升级到 .NET Core 1.1.2 后，Azure 上的 ASP.NET Core 网站无法启动并出现 502.5 错误

我有一个 NET Core Web 应用程序我将其部署为 Azure Web 应用程序直到昨晚我应用 Visual Studio 2017 升级 v15 2 为止这一直工作得很好 net core版本从1 1 1升级到1 1 2 当我
3D 卷积神经网络输入形状

我在使用 3D CNN 提供数据时遇到问题Keras http keras io和 Python 对 3D 形状进行分类我有一个文件夹其中包含一些 JSON 格式的模型我将这些模型读入 Numpy 数组模型为 25 25 25 表示
组合 concat 和 map 得到 concatMap：为什么是 f？

这是我对 Haskell 的第一次探索如果它很明显请原谅我我整个下午都在玩 Haskell 仔细浏览教程HaskellWiki 上的 99 个问题 http www haskell org haskellwiki 99 questio
直接列表初始化和复制列表初始化之间的差异

我想知道以下两种类型是否有任何区别std vectorC 11 及更高版本中的初始化 std vector
关于for循环中的fortran continue语句的问题

我正在分析 Fortran 代码并有一个简单的问题我想知道下面代码中 100 和 200 处的继续语句的作用它会增加 i 和 j 计数器吗如果是这样的话不会if not flg 那么条件包含flg循环中 flg 的最后一个值
在编辑器中匹配关键字突出显示颜色

我在 eclipse 中使用 wombat Vim 配色方案的克隆进行 Python 开发除了匹配的关键字突出显示无论名称如何即 ffff96 之外它也能很好地工作这种淡黄色使得无法阅读白色的前景文本有谁知道这是在哪里设置的吗
删除 href 属性

我正在尝试编写分页代码一项功能是禁用当前链接使其看起来像文本并且不可点击在 html 页面中这可以通过省略 href 属性来实现例如 a Link a 我无法用 JavaScript 做到这一点 AvdonPagination p
如何使用 ASP.net EF Codefirst 数据注释将 SQL Server 中的列设置为 varchar(max)？

我一直在网上搜索试图找出正确的语法让 Entity Framework Code First 使用一列创建表 varchar max 这就是我所拥有的默认情况下这会创建 varchar 128 如何创建 varchar max 我尝
使用 pyarrow 与 pyspark 创建的 parquet 文件是否兼容？

我必须分两步将 JSON 中的分析数据转换为 parquet 对于大量现有数据我正在编写 PySpark 作业并执行 df repartition partitionby write partitionBy partitionby mod

使用 pyarrow 与 pyspark 创建的 parquet 文件是否兼容？

使用 pyarrow 与 pyspark 创建的 parquet 文件是否兼容？ 的相关文章

随机推荐

热门标签

使用 pyarrow 与 pyspark 创建的 parquet 文件是否兼容？的相关文章