我能够创建一个 UDF 函数并使用 Spark.UDF 方法注册到 Spark。但是,这仅限于每个会话。
如何在Cluster启动时自动注册python UDF函数?这些功能应该可供所有用户使用。示例用例是将时间从 UTC 转换为本地时区。
这不可能;这与 Hive 中的 UDF 不同。
将 UDF 编码为您提交的包/程序的一部分,或者如果使用 Spark-submit,则将其编码在 Spark 应用程序中包含的 jar 中。
然而,
spark.udf.register.udf("...
也需要完成。这适用于 Databrick 笔记本等。每个 Spark 上下文/会话需要重新注册 UDF。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)