我在跑步spark 2.4.2
本地通过pyspark
用于 NLP 中的 ML 项目。 Pipeline 中的部分预处理步骤涉及使用pandas_udf
功能优化通过pyarrow
。每次我使用预处理的 Spark 数据框进行操作时,都会出现以下警告:
用户警告:pyarrow.open_stream 已弃用,请使用 pyarrow.ipc.open_stream
warnings.warn("pyarrow.open_stream 已弃用,请使用 "
我尝试更新pyarrow
但未能避免警告。我的 pyarrow 版本是 0.14。我想知道这个警告的含义以及是否有人找到了解决方案?预先非常感谢您。
Spark 会话详细信息:
conf = SparkConf(). \
setAppName('map'). \
setMaster('local[*]'). \
set('spark.yarn.appMasterEnv.PYSPARK_PYTHON', '~/anaconda3/bin/python'). \
set('spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON', '~/anaconda3/bin/python'). \
set('executor.memory', '8g'). \
set('spark.executor.memoryOverhead', '16g'). \
set('spark.sql.codegen', 'true'). \
set('spark.yarn.executor.memory', '16g'). \
set('yarn.scheduler.minimum-allocation-mb', '500m'). \
set('spark.dynamicAllocation.maxExecutors', '3'). \
set('spark.driver.maxResultSize', '0'). \
set("spark.sql.execution.arrow.enabled", "true"). \
set("spark.debug.maxToStringFields", '100')
spark = SparkSession.builder. \
appName("map"). \
config(conf=conf). \
getOrCreate()
此警告来自您的版本pyspark
,它使用的是已弃用的函数pyarrow
.
但一切正常,所以你现在可以简单地忽略警告,或者更新你的 pyspark 版本(在最新版本中,他们修复了已弃用的 pyarrow 函数的使用)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)