有人对 SparkR 与 Sparklyr 的优点/缺点有概述吗?谷歌没有给出任何令人满意的结果,而且两者看起来相当相似。尝试两者,SparkR 显得更加麻烦,而 Sparklyr 则非常简单(既要安装又要使用,尤其是使用 dplyr 输入)。 Sparklyr 只能用于并行运行 dplyr 函数还是“普通”R 代码?
Best
SparkR 的最大优势是能够在 Spark 上运行用 R 编写的任意用户定义函数:
https://spark.apache.org/docs/2.0.1/sparkr.html#applying-user-defined-function https://spark.apache.org/docs/2.0.1/sparkr.html#applying-user-defined-function
由于 Sparklyr 将 R 转换为 SQL,因此您只能使用非常小的一组函数mutate
声明:
http://spark.rstudio.com/dplyr.html#sql_translation http://spark.rstudio.com/dplyr.html#sql_translation
扩展在一定程度上缓解了这一缺陷(http://spark.rstudio.com/extensions.html#wrapper_functions http://spark.rstudio.com/extensions.html#wrapper_functions).
除此之外,sparklyr 是赢家(在我看来)。除了使用熟悉的明显优势之外dplyr
函数,sparklyr 有更全面的 MLlib API(http://spark.rstudio.com/mllib.html http://spark.rstudio.com/mllib.html) 和上面提到的扩展。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)