UserWarning：pyarrow.open_stream 已弃用，请使用 pyarrow.ipc.open_stream 警告

2024-01-22

我在跑步spark 2.4.2本地通过pyspark用于 NLP 中的 ML 项目。 Pipeline 中的部分预处理步骤涉及使用pandas_udf功能优化通过pyarrow。每次我使用预处理的 Spark 数据框进行操作时，都会出现以下警告：

用户警告：pyarrow.open_stream 已弃用，请使用 pyarrow.ipc.open_stream warnings.warn("pyarrow.open_stream 已弃用，请使用 "

我尝试更新pyarrow但未能避免警告。我的 pyarrow 版本是 0.14。我想知道这个警告的含义以及是否有人找到了解决方案？预先非常感谢您。

Spark 会话详细信息：

conf = SparkConf(). \
setAppName('map'). \
setMaster('local[*]'). \
set('spark.yarn.appMasterEnv.PYSPARK_PYTHON', '~/anaconda3/bin/python'). \
set('spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON', '~/anaconda3/bin/python'). \
set('executor.memory', '8g'). \
set('spark.executor.memoryOverhead', '16g'). \
set('spark.sql.codegen', 'true'). \
set('spark.yarn.executor.memory', '16g'). \
set('yarn.scheduler.minimum-allocation-mb', '500m'). \
set('spark.dynamicAllocation.maxExecutors', '3'). \
set('spark.driver.maxResultSize', '0'). \
set("spark.sql.execution.arrow.enabled", "true"). \
set("spark.debug.maxToStringFields", '100')

spark = SparkSession.builder. \
    appName("map"). \
    config(conf=conf). \
    getOrCreate()

此警告来自您的版本pyspark，它使用的是已弃用的函数pyarrow.

但一切正常，所以你现在可以简单地忽略警告，或者更新你的 pyspark 版本（在最新版本中，他们修复了已弃用的 pyarrow 函数的使用）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

userdefinedfunctions

pyarrow

UserWarning：pyarrow.open_stream 已弃用，请使用 pyarrow.ipc.open_stream 警告的相关文章

在 Jupyter 笔记本中使用 PySpark 读取 XML

我正在尝试读取 XML 文件 df spark read format com databricks spark xml load path to my xml 并收到以下错误 java lang ClassNotFoundExceptio
pyspark：聚合列中最常见的值

aggregrated table df input groupBy city income bracket agg count suburb alias suburb sum population alias population sum
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
collect_list() 是否保持行的相对顺序？

想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
Spark Shuffle 写入超慢

为什么对于 1 6MB shuffle 写入和 2 4MB 输入 spark shuffle 阶段如此缓慢为什么 shuffle 写入仅发生在一个执行器上我正在运行一个 3 节点集群每个集群有 8 个核心火花用户界面 Code Ja
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
通过spark-shell以静默模式执行scala脚本

需要通过spark shell以静默模式执行scala脚本当我使用时spark shell i file scala 执行后我进入scala交互模式我不想进入那里我尝试执行spark shell i file scala 但我不知道
将 for 循环替换为 pyspark 中的并行进程

我在脚本中使用 for 循环来为 size DF 数据帧的每个元素调用函数但这需要很多时间我尝试通过地图删除 for 循环但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表用于 import call
Spark shuffle 溢出指标

在 Spark 2 3 集群上运行作业时我在 Spark WebUI 中注意到某些任务发生了溢出据我所知在reduce端 reducer获取所需的分区随机读取然后使用执行器的执行内存执行reduce计算由于没有足够的执行内存一
使用 Spark sql DataFrame 删除功能

我需要为我的 Spark 应用程序从 postgres 数据库加载删除特定记录为了加载我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
为什么我的代码在 Spark Pregel 中执行需要很长时间？

我在 Spark 中使用 Pregel 编写了处理图形的代码但对于小数据集来说它的执行速度非常非常慢我以前用pregel写过程序但是这段代码运行速度确实很慢我的集群由 2 个工作人员组成每个都有核心 i5 CPU 和 6 GB
Spark 在执行 jdbc 保存时给出空指针异常

您好当我执行以下代码行时我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
Spark 中的 RDD 和 Dataframe 有什么区别？ [复制]

这个问题在这里已经有答案了嗨我对 apache Spark 比较陌生我想了解 RDD 数据帧和数据集之间的区别例如我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
Spark Workers 上缺少 SLF4J 记录器

我正在尝试通过以下方式运行工作spark submit 此作业导致的错误是 Exception in thread main java lang NoClassDefFoundError org slf4j Logger at java l
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
有没有办法让这个UDF具有确定性？

我认为这不是确定性的因为DB NAME 是不是确定性的如果DB NAME 不是确定性的为什么不是确定性的 ALTER FUNCTION TheSchema udf IS PRODUCTION RETURNS bit WITH SCHE
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val
按年份进行透视并获取 2020 年以来的金额总和

我有这样的数据我想按年份旋转并仅显示 2020 年以来的总数我该如何实现这一目标您可以使用以下方法实现此目的PIVOT https spark apache org docs 3 2 1 api python reference ap

随机推荐

Prestashop 无尽旋转产品保存按钮

我运行的是 Prestashop 1 6 1 1 产品保存按钮大约需要 45 秒才能加载我升级到 1 6 1 3 现在根本无法加载我尝试回滚并升级到1 6 1 4 我删除了 Smarty Cache 删除了 Chrome 的历史记录 c
过滤用户输入

我在这里阅读了很多有关过滤用户输入的问答但大多数时候答案是这取决于您在做什么这就是我正在做的通过表单提交的数据将在 MySQL 查询中使用 function clean field link return mysql real esc
使用包含 2 个以上单词的单个搜索字符串对名字和姓氏列执行搜索

我有一个查询当前采用单个用户提供的搜索字符串并尝试搜索包含单独的名字和姓氏列的表如果搜索字符串中有空格则它运行的查询基本上如下所示 SELECT FROM table WHERE table firstName LIKE first
从设备删除应用程序后无法创建带有 nil 模型的 NSPersistentStoreCoordinator

我收到了 Cannot create an NSPersistentStoreCoordinator with a nil model 从设备删除我的应用程序后出错我正在 iPad 设备上测试 iPhone 应用程序我已经输入此代码来检
如何使嵌入图表响应

我已将 Tradingview 中的股票图表嵌入到我的网站中但我无法使其响应尤其是宽度当页面缩小时图表开始移出屏幕这是代码 div class tradingview widget container div div div cl
如何在php中创建对象数组

我正在尝试在 php 中创建一个对象数组并且很好奇我将如何去做任何帮助都会很棒谢谢这是将包含在数组中的类
Laravel 4：加载旧库：如何？

我有一个旧图书馆 phpquery http code google com p phpquery 我想将其包含在我的项目中我已将其放入供应商内部但它不起作用因为它不符合 PSR 0 标准我不希望它为每个请求加载所以我没有放置re
Spark工作人员未连接到主设备

我想创建一个 Spark 独立集群我可以在同一节点上运行主节点和从节点但不同节点上的从节点既不显示主节点 URL 也不连接到主节点我正在运行命令 start slave sh spark spark server 7077 where
像函数一样组合类型构造函数

我最近遇到了一种情况我希望能够在实例声明中编写类型构造函数我本来想这样做 instance SomeClass t SomeClass t gt SomeClass t t where with t t 定义为 t t a t t a
如何在本地主机上测试 Facebook“点赞”按钮？

可以测试 Like 本地主机上的按钮并不真地 Facebook 必须抓取您的网站以获取标题描述和缩略图如果它位于本地主机上则无法访问您的站点
角度材料 - 自动完成组件下拉部分不粘在输入字段上

角度材料的自动完成组件在 MatDialog 组件内未按预期工作自动完成组件中的 drpodown 部分不会粘贴到输入字段堆栈闪电战链接 example https stackblitz com edit angular s698hp
我想扫描大量数据（基于范围的查询），在写入数据时我可以做哪些优化以使扫描变得更快？

I have billion我要扫描的 hbase 行数million一次行什么是最好的优化技术我可以尽可能快地进行扫描我们有类似的问题我们需要通过键扫描数百万行为此我们使用了映射缩减技术对此没有标准的解决方案因此我们编写了一个
列和内嵌中心图像

我想创建一个 2 个文本列中间有一个 div 如下所示我正在使用这段代码 moz column count 2 webkit column count 2 column count 2 当我在 div 类中放置另一个 div 时它会格
WPF 2D 高性能图形

基本上我想要 WPF 中的 GDI 类型功能其中我可以将像素写入位图并通过 WPF 更新和显示该位图请注意我需要能够通过响应鼠标移动更新像素来动态设置位图动画我读到 InteropBitmap 非常适合此目的因为您可以写入内存中
什么是 LINQ 提供程序？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
TypeScript 可以在没有定义文件的情况下与 jQuery 交互吗？

我一直在尝试了解这个新的 TypeScript 东西并且我对某些事情有点好奇它仍然可以与现有的 javascript 框架如 jQuery 一起使用吗 without是否需要包含所有这些接口的定义文件我一直在尝试手动测试这一点但到
尝试向 Web 服务发送 SOAP 请求时出现 WS 安全错误

这是我使用肥皂 UI 发送的 SOAP 请求但收到一条错误消息消息不符合配置的策略
Puppeteer：Element.hover() 不存在

我正在使用 puppeteer 从网站上抓取一些图像以及其他一些数据要更改图像我需要将鼠标悬停在列表项上我不断遇到有关 hover 的文档但没有成功然而 click 非常适合我的抓取的另一部分 const pptr require
Android 关闭键盘

按下按钮时如何关闭键盘您想禁用或关闭虚拟键盘吗如果您只想关闭它您可以在按钮的单击事件中使用以下代码行 InputMethodManager imm InputMethodManager getSystemService Context
UserWarning：pyarrow.open_stream 已弃用，请使用 pyarrow.ipc.open_stream 警告

我在跑步spark 2 4 2本地通过pyspark用于 NLP 中的 ML 项目 Pipeline 中的部分预处理步骤涉及使用pandas udf功能优化通过pyarrow 每次我使用预处理的 Spark 数据框进行操作时都会出现以下警

UserWarning：pyarrow.open_stream 已弃用，请使用 pyarrow.ipc.open_stream 警告

UserWarning：pyarrow.open_stream 已弃用，请使用 pyarrow.ipc.open_stream 警告 的相关文章

随机推荐

热门标签

UserWarning：pyarrow.open_stream 已弃用，请使用 pyarrow.ipc.open_stream 警告的相关文章