Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
通过sparklyr将cassandra表导入spark - 可以仅选择某些列吗?
我一直在与sparklyr要将大型 cassandra 表带入 Spark 请使用 R 注册它们并执行dplyr对他们进行操作 我已经成功导入 cassandra 表 代码如下 import cassandra table into spa
r
apachespark
cassandra
cql
sparklyr
sql Sparklyr Sparkr Databricks 上的数据帧转换
我在使用以下代码创建的数据块上有 sql 表 sql CREATE TABLE data USING CSV OPTIONS header true inferSchema true LOCATION url data csv 以下代码分别
r
sparkr
sparklyr
Databricks
我可以将格式和路径选项传递到spark_write_table中吗?或者将 saveAsTable 与 Spark_write_orc 一起使用?
Spark 2 0 与 Hive 假设我正在尝试编写一个 Spark 数据框 irisDf to orc and将其保存到 hive 元存储 在 Spark 中我会这样做 irisDf write format orc mode overw
r
apachespark
hive
apachesparksql
sparklyr
Spark_apply 指定列名时出错
我在跑步sparklyr在 Windows 10 中的 RStudio 本地模式下 spark version lt 2 1 0 sc lt spark connect master local version spark version
r
sparklyr
将 Spark MLlib 模型从 R 记录(然后应用)到 MLflow
我正在使用 Spark MLlib 函数 通过sparklyr包 来训练模型 但现在似乎无法将模型保存在MLflow以供将来使用 iris tbl lt sparklyr copy to sc iris iris spark mdl mll
apachesparkmllib
sparklyr
mlflow
在 Sparklyr 中创建虚拟变量?
我正在尝试扩展我的一些 ML 管道 我喜欢 Sparklyr 打开的 rstudio spark 和 h2o 的组合 http spark rstudio com http spark rstudio com 我试图弄清楚的一件事是如何使用
r
apachespark
dplyr
plyr
sparklyr
在 databricks 笔记本中使用多个 Spark 连接
我想使用 Spark 和 Sparklyr 连接到单个 databricks R 笔记本中的两个数据库表 sc one lt spark connect method databricks tbl change db sc one firs
r
apachespark
Databricks
sparkr
sparklyr
SparkR 与 Sparklyr [关闭]
Closed 这个问题需要多问focused help closed questions 目前不接受答案 有人对 SparkR 与 Sparklyr 的优点 缺点有概述吗 谷歌没有给出任何令人满意的结果 而且两者看起来相当相似 尝试两者 S
r
apachespark
sparkr
sparklyr
Sparklyr/Hive:如何正确使用正则表达式(regexp_replace)?
考虑下面的例子 dataframe test lt data frame mydate c 2011 03 01T00 00 04 226Z 2011 03 01T00 00 04 226Z A tibble 2 x 1 mydate
r
apachespark
hive
sparklyr
Sparklyr 处理分类变量
Sparklyr 处理分类变量 我来自 R 背景 习惯于在后端处理分类变量 作为因子 对于 Sparklyr 来说 使用起来相当混乱string indexer or onehotencoder 例如 我有许多变量在原始数据集中被编码为数值
r
apachespark
apachesparkml
sparklyr
SparklyR:直接转换为镶木地板
您好 我是集群计算的新手 目前我只在独立集群上玩 sc lt spark connect master local version 2 0 2 我有一个巨大的 csv 文件 15GB 我想将其转换为 parquet 文件 第三块代码解释了原
r
apachespark
sparklyr
使用 Sparklyr 将字符串/字符转换为日期
我已经将一张表带入 Hue 其中有一列日期 我正在尝试在 Rstudio 中使用 Sparklyr 来玩它 我想将字符列转换为日期列 如下所示 Weather data mutate Weather data date2 as Date d
r
apachespark
hive
dplyr
sparklyr
Sparklyr - 更改 Spark 中的日期格式
我有一个 Spark 数据框 其中有一列characters作为 20 01 2000 日 月 年 但我试图将其更改为日期格式 这样我就可以使用这里的功能 https cwiki apache org confluence display
r
date
apachespark
sparklyr
如何在sparklyr中按3分钟时间戳聚合数据?
我在用sparklyr进行一些快速分析 我在使用时间戳时确实遇到一些问题 我有两个不同的数据帧 一个以 1 分钟间隔行 另一个以 3 分钟间隔行 第一个数据集 1 分钟间隔 id timefrom timeto value 10 2017
r
apachespark
dplyr
sparklyr
从 Spark 集群收集数据时出现内存不足错误
我知道有很多关于 Spark 内存不足错误的问题 但我还没有找到解决方案 我有一个简单的工作流程 从 Amazon S3 读取 ORC 文件 filter直至一小部分行 select一小部分列 collect进入驱动程序节点 这样我就可以在
apachespark
memory
sparklyr
通过 Sparklyr 以本地模式运行 Spark 时,如何配置驱动程序内存?
我正在使用 Sparklyr 在具有 244GB RAM 的虚拟机上以本地模式运行 Spark 应用程序 在我的代码中我使用spark read csv 从一个文件夹读取约 50MB 的 csv 然后从第二个文件夹读取约 1 5GB 的 c
Java
r
apachespark
sparklyr
为什么 ml_create_dummy_variables 在 Sparklyr 中不显示新的虚拟变量列
我正在尝试在 Sparklyr 中创建模型矩阵 有一个功能ml create dummy variables 用于一次为一个分类变量创建虚拟变量 据我所知 没有 model matrix 等效于一步创建模型矩阵 很容易使用ml create
r
apachespark
machinelearning
datascience
sparklyr
Sparklyr 无法看到在 Hive 中创建的数据库,反之亦然
我在本地安装了 Apache Hive 并尝试通过 Rstudio sparklyr 读取表 我使用 Hive 创建了一个数据库 hive gt CREATE DATABASE test 我尝试使用以下 R 脚本读取该数据库 library
r
Hadoop
hive
sparklyr
Sparklyr 与 S3 存储桶的连接抛出错误
我正在尝试从 R Sparklyr 连接到 S3 存储桶 我能够将本地文件读取到 Spark 上下文中 然而尝试连接 s3 似乎是个问题 抛出一大堆错误 这是所使用的代码列表 注意 单个 s3 存储桶有多个 csv 文件 遵循相同的模式 l
r
apachespark
amazons3
sparklyr
如何在R中使用sparklyr读取S3文件夹/存储桶中的所有文件?
我已经尝试了下面的代码及其组合 以便读取 S3 文件夹中给出的所有文件 但似乎没有任何效果 敏感信息 代码已从下面的脚本中删除 有 6 个文件 每个文件 6 5 GB Spark Connection sc lt spark connect
r
apachespark
amazons3
RStudio
sparklyr
1
2
»