如何在 Pyspark 中启用 Apache Arrow

2024-04-28

我正在尝试启用 Apache Arrow 来转换为 Pandas。我在用：

pyspark 2.4.4 pyarrow 0.15.0 熊猫0.25.1 numpy 1.17.2

这是示例代码

spark.conf.set("spark.sql.execution.arrow.enabled", "true")
x = pd.Series([1, 2, 3])
df = spark.createDataFrame(pd.DataFrame(x, columns=["x"]))

我收到此警告消息

c:\users\administrator\appdata\local\programs\python\python37\lib\site-packages\pyspark\sql\session.py:714: UserWarning: createDataFrame attempted Arrow optimization because 'spark.sql.execution.arrow.enabled' is set to true; however, failed by the reason below:
  An error occurred while calling z:org.apache.spark.sql.api.python.PythonSQLUtils.readArrowStreamFromFile.
: java.lang.IllegalArgumentException
    at java.nio.ByteBuffer.allocate(ByteBuffer.java:334)
    at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543)
    at org.apache.spark.sql.execution.arrow.ArrowConverters$$anon$3.readNextBatch(ArrowConverters.scala:243)
    at org.apache.spark.sql.execution.arrow.ArrowConverters$$anon$3.<init>(ArrowConverters.scala:229)
    at org.apache.spark.sql.execution.arrow.ArrowConverters$.getBatchesFromStream(ArrowConverters.scala:228)
    at org.apache.spark.sql.execution.arrow.ArrowConverters$$anonfun$readArrowStreamFromFile$2.apply(ArrowConverters.scala:216)
    at org.apache.spark.sql.execution.arrow.ArrowConverters$$anonfun$readArrowStreamFromFile$2.apply(ArrowConverters.scala:214)
    at org.apache.spark.util.Utils$.tryWithResource(Utils.scala:2543)
    at org.apache.spark.sql.execution.arrow.ArrowConverters$.readArrowStreamFromFile(ArrowConverters.scala:214)
    at org.apache.spark.sql.api.python.PythonSQLUtils$.readArrowStreamFromFile(PythonSQLUtils.scala:46)
    at org.apache.spark.sql.api.python.PythonSQLUtils.readArrowStreamFromFile(PythonSQLUtils.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:238)
    at java.lang.Thread.run(Thread.java:748)

Attempting non-optimization as 'spark.sql.execution.arrow.fallback.enabled' is set to true.
  warnings.warn(msg)

我们在 0.15.0 中进行了更改，使 pyarrow 的默认行为与 Java 中旧版本的 Arrow 不兼容——您的 Spark 环境似乎正在使用旧版本。

您的选择是

设置环境变量ARROW_PRE_0_15_IPC_FORMAT=1从你使用Python的地方
现在降级到 pyarrow

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

PySpark

pyarrow

如何在 Pyspark 中启用 Apache Arrow 的相关文章

Pandas DataFrame 中多列的映射方法

我有一个 Pandas 数据框其中的值是列表 import pandas as pd DF pd DataFrame X 1 5 1 2 Y 1 2 5 1 3 5 DF X Y 0 1 5 1 2 5 1 1 2 1 3 5 我想检查
Matplotlib 未在前两个子图中显示 xlabel

我编写了一个函数来在此处显示一些图表 def plot price series df ts1 ts2 price series line graph fig plt figure ax1 fig add subplot 221 ax1 p
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
如何更改 SparkContext.sparkUser() 设置（在 pyspark 中）？

我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中我试图将其保存到hdfs使用saveAsTextfile 功能但我得到一个没有权限错误消息因为 pyspark 尝试写入hdfs使用我的本地帐
为什么 pyplot.plot() 创建一个宽度=1、高度=1 的额外矩形？

我正在从 DataFrame 创建一个简单的条形图 Series 和 DataFrame 上的绘图方法只是 pyplot plot 的简单包装 import pandas as pd import matplotlib as mpl df
Pandas 过滤 - 非索引列上的 Between_time

我需要过滤掉特定时间的数据 DataFrame 函数 Between time 似乎是执行此操作的正确方法但是它仅适用于数据帧的索引列但我需要原始格式的数据例如数据透视表期望日期时间列具有正确的名称而不是索引这意味着每个过滤器
Pandas Pivot_Table ：非数字值的行计算百分比

这是我在数据框 df 中的数据 Document Name Time SPS2315511 A 1 HOUR SPS2315512 B 1 2 HOUR SPS2315513 C 2 3 HOUR SPS2315514 C 1 HOUR S
如何在matplotlib中基于x轴更改直方图颜色

我有根据 pandas 数据框计算出的直方图我想根据 x 轴值更改颜色例如 If the value is 0 the color should be green If the value is gt 0 the color shoul
Pandas 时间序列数据索引从字符串到浮点[重复]

这个问题在这里已经有答案了有人知道如何将字符串输出转换为浮点数吗我正在尝试创建单独的数据框 Month and day of the week 基于时间戳索引这df index strftime输出一个字符串但我需要一个float基
如何将函数应用于多个 pandas 数据框

我有多个数据框 df1 df2 df3 dfn 它们具有相同类型的数据但来自无法连接的不同描述符组现在我需要手动将相同的函数应用于每个数据帧如何将相同的函数应用于多个数据框 pipe https pandas pydata org p
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
根据 pandas 中的条件交换列值

我想按条件重新定位列如果国家地区是日本我需要将姓氏和名字反向重新定位 df pd DataFrame France Kylian Mbappe Japan Hiroyuki Tajima Japan Shiji Kagawa Eng
如何在groupby之后将pandas数据框拆分为许多列

我希望能够在 pandas 中使用 groupby 按列对数据进行分组然后将其拆分以便每个组都是数据框中自己的列 e g time data 0 1 2 0 1 2 3 0 2 3 4 0 3 1 2 1 4 2 3 1 5 3 4 1
pandas 两个数据框交叉连接[重复]

这个问题在这里已经有答案了我找不到有关交叉联接的任何内容包括合并联接或其他一些内容我需要使用 my function 作为 myfunc 处理两个数据帧相当于 for itemA in df1 iterrows for itemB
如何抑制 Pandas Future 警告？

当我运行该程序时 Pandas 每次都会给出如下所示的未来警告 D Python lib site packages pandas core frame py 3581 FutureWarning rename with inplace
AttributeError：“DataFrame”对象没有属性“ix”

当我尝试使用 pandas 数据框的 ix 属性拉出列时出现此错误例如df ix col header AttributeError DataFrame object has no attribute ix 该脚本今天早上有效但今天下
将列表字典扁平化为数据框

我有一个列表字典说 data a 80 130 b 64 c 58 80 如何将其展平并将其转换为数据框如下所示扁平化字典的一种选择是 flattened data k str i x for k v in data items for
Pandas 将列添加到非引用数据框中

这件事让我心潮澎湃好几个小时了也许我遗漏了一些神秘的陷阱但它一定是非常违反直觉的 Trial unq 是一个两列数据帧 Trial unq2 是一个相同的副本 for 循环遍历 unique in 中的所有字符串如果 unique
Pandas如何将多个函数应用于数据框

有没有办法像 DataFrameGroupBy agg 函数那样将函数列表应用于 DataFrame 中的每一列我发现了一个丑陋的方法来做到这一点 df pd DataFrame dict one np random uniform 0
Pandas：如何删除以 nan 作为列名的多个列？

根据标题这是一个可重现的示例 raw data x this that this that this np nan np nan np nan np nan np nan np nan y np nan np nan np nan np

随机推荐

使用 Weblogic (beadep) 说“在服务器上运行”时未正确生成 application.xml

我在使用过程中总会遇到以下情况在服务器上运行在我的马化EAR项目情况如果我对 EAR 项目执行以下步骤 mvn 干净安装在服务器上运行将导致 The 应用程序 xml产生于Maven将是正确的
将 TextField 与 LibGDX 结合使用

我正在使用 LibGDX 开发一款 Android 游戏并且想要实现两个TextFields 登录到服务器据我所知我需要使用Stage https libgdx badlogicgames com nightlies docs api
我想从 Cakefile 运行 d3

我想从命令行执行一些 d3 代码最初我只是尝试了类似的方法 task data Build some data with d3 gt d3 require lib d3 v2 console log d3 version d3 versi
ActionsSdkApp 和 DialogflowApp for Google Assistant 有什么区别

为了构建 Google Assistant 应用程序 Google 提供了两个不同的 API 作为其 node js actions on google 库的一部分 https developers google com actions r
具有 ItemsControl 嵌入网格的 SharedGridSize 组

我正在尝试使用以下方法将多个网格嵌入到另一个网格中ItemsControl并使所有子网格共享相同的行高
Android 中的 EditText onClickListener

我想要一个 EditText 它在按下时创建一个 DatePicker 所以我写了下面的代码 mEditInit EditText findViewById R id date init mEditInit setOnClickListen
使用 Knockout 验证插件时 Knockout ViewModel isValid 错误

我是使用淘汰赛的新手我正在尝试将淘汰赛验证插件与映射插件一起使用我在视图模型对象上的 isValid 函数上遇到问题根据文档 isValid 应该返回一个 bool 来确定视图模型上的任何可观察量是否有效但是当我调用它时我收到一条
如何使用 Objective C 获取 iPhone 中的 GPS 坐标

我想从 iPhone 获取 GPS 坐标并将这些 GPS 坐标发送到网络服务该网络服务将获取我的 GPS 坐标并向我发送距离当前位置最近的 ATM 的位置现在我想分两个阶段进行第一阶段我只想将 GPS 坐标发送到网络服务作为回报
Angular 10 - CommonJS 或 AMD 依赖项可能导致优化救助

我已从 Angular 7 1 4 更新到 10 现在我收到类似这样的奇怪警告 C Sviluppo Welcome welcome cloud app src app calendario fasce mese mese componen
Xcode 7.1 在归档 swift ios 应用程序时挂起

Xcode 7 1 在归档应用程序时挂在复制 Swift 标准库处知道为什么吗对于面临同样问题的其他人在尝试了其他所有方法并失败后通过重新启动 mac 来修复它 D
C++ OpenMP：嵌套循环，其中内部迭代器依赖于外部迭代器

考虑以下代码 include
Laravel 工厂关联仅关联最后的数据。如何解决这个问题？

我有两个模型需要在创建数据后关联我已经问过了here https stackoverflow com questions 58742894 how to associate data from a different factory并得到
将收藏计数器变成字典

我有一个由该函数产生的集合结果 Counter df email address 它返回每个单独的电子邮件地址及其重复次数 Counter nan 1618 email protected cdn cgi l email protectio
通过 PHP Curl 调用 SoapAction

我想通过 PHP 重新连接我的路由器控制台命令如下 curl http 192 168 178 1 49000 upnp control WANIPConn1 H Content Type text xml charset utf 8 H
安装 openstack 时发生错误：./stack.sh:137:die

我尝试使用以下命令通过 devstack 安装 openstack git 克隆https github com openstack dev devstack git https github com openstack dev devst
删除 VB.NET 源代码文件中的所有注释

Visual Studio 编辑器中是否有宏可以删除 VB NET 源文件中的所有注释使用菜单编辑 gt 查找和替换 gt 使用正则表达式快速替换找什么用来代替 1 将取代 text comment to text
使用 Swift 访问类单例时的 semaphore_wait_trap

我遇到了一个奇怪的问题我可以很好地访问我的类单例实例但如果我尝试再次访问它它似乎会挂起这是代码的简单版本 private let SharedInstance MyManager class MyManager NSObject c
Delphi TListBox iOS 制作新的项目样式/行为

我需要显示自定义数据为了example我需要显示包含姓名描述和照片的联系人列表理想情况下我还想在那里显示自定义数据例如用于发起电话呼叫的按钮默认样式不太符合我的要求但相当接近因此据我所知如果我可以创建自定义样式 TLis
如何在浏览器调整大小时调整div大小

是的所以我不使用粘性页脚而是决定创建一个 jQuery 函数来更改 mainContent div 的大小以便页脚可以很好地适应基本上我想做的是 mainContent height 100 40px Where footer he
如何在 Pyspark 中启用 Apache Arrow

我正在尝试启用 Apache Arrow 来转换为 Pandas 我在用 pyspark 2 4 4 pyarrow 0 15 0 熊猫0 25 1 numpy 1 17 2 这是示例代码 spark conf set spark sql

如何在 Pyspark 中启用 Apache Arrow

如何在 Pyspark 中启用 Apache Arrow 的相关文章

随机推荐

热门标签