如何通过Spark Thrift Server访问自定义UDF?

2024-04-09

我正在 EMR 上运行 Spark Thrift 服务器。我通过以下方式启动 Spark Thrift 服务器:

  sudo -u spark /usr/lib/spark/sbin/start-thriftserver.sh --queue interactive.thrift --jars /opt/lib/custom-udfs.jar

请注意,我有一个客户 UDF jar,我想将其添加到 Thrift Server 类路径,因此我在上面的命令中添加了 --jars /opt/lib/custom-udfs.jar。

进入 EMR 后,我发出以下命令来连接到 Spark Thrift 服务器。

beeline -u jdbc:hive2://localhost:10000/default

然后我就可以发出像显示数据库这样的命令。但是如何访问自定义 UDF?我想通过添加--jarsThrift Server 启动脚本中的选项,也会添加 Hive 资源使用的 jar。

我现在访问自定义 UDF 的唯一方法是将客户 UDF jar 添加到 Hive 资源

add jar /opt/lib/custom-udfs.jar

然后创建UDF的函数。

问题:有没有一种方法可以自动配置自定义 UDF jar,而无需每次都将 jar 添加到 Spark 会话?

Thanks!


最简单的方法是编辑文件start-thriftserver.sh, 在最后:

  1. 等待服务器准备就绪
  2. 执行设置 SQL 查询

您还可以在 JIRA 上发布提案,这是一个非常好的功能“启动时执行设置代码”。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何通过Spark Thrift Server访问自定义UDF? 的相关文章

随机推荐