我已经安装了Spark-1.4.0。我还安装了它的 R 包 SparkR,并且可以通过 Spark-shell 和 RStudio 使用它,但是,有一个我无法解决的差异。
启动 SparkR-shell 时
./bin/sparkR --master local[7] --packages com.databricks:spark-csv_2.10:1.0.3
我可以按如下方式读取 .csv 文件
flights <- read.df(sqlContext, "data/nycflights13.csv", "com.databricks.spark.csv", header="true")
不幸的是,当我通过 RStudio 启动 SparkR(正确设置我的 SPARK_HOME)时,我收到以下错误消息:
15/06/16 16:18:58 ERROR RBackendHandler: load on 1 failed
Caused by: java.lang.RuntimeException: Failed to load class for data source: com.databricks.spark.csv
我知道我应该以某种方式加载 com.databricks:spark-csv_2.10:1.0.3,但我不知道如何做到这一点。有人可以帮助我吗?
这是正确的语法(经过几个小时的尝试):
(注意 - 你必须关注第一行。注意双引号)
Sys.setenv('SPARKR_SUBMIT_ARGS'='"--packages" "com.databricks:spark-csv_2.10:1.0.3" "sparkr-shell"')
library(SparkR)
library(magrittr)
# Initialize SparkContext and SQLContext
sc <- sparkR.init(appName="SparkR-Flights-example")
sqlContext <- sparkRSQL.init(sc)
# The SparkSQL context should already be created for you as sqlContext
sqlContext
# Java ref type org.apache.spark.sql.SQLContext id 1
# Load the flights CSV file using `read.df`. Note that we use the CSV reader Spark package here.
flights <- read.df(sqlContext, "nycflights13.csv", "com.databricks.spark.csv", header="true")
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)