sparklyr

通过sparklyr将cassandra表导入spark - 可以仅选择某些列吗？

我一直在与sparklyr要将大型 cassandra 表带入 Spark 请使用 R 注册它们并执行dplyr对他们进行操作我已经成功导入 cassandra 表代码如下 import cassandra table into spa

r apachespark cassandra cql sparklyr

sql Sparklyr Sparkr Databricks 上的数据帧转换

我在使用以下代码创建的数据块上有 sql 表 sql CREATE TABLE data USING CSV OPTIONS header true inferSchema true LOCATION url data csv 以下代码分别

r sparkr sparklyr Databricks

我可以将格式和路径选项传递到spark_write_table中吗？或者将 saveAsTable 与 Spark_write_orc 一起使用？

Spark 2 0 与 Hive 假设我正在尝试编写一个 Spark 数据框 irisDf to orc and将其保存到 hive 元存储在 Spark 中我会这样做 irisDf write format orc mode overw

r apachespark hive apachesparksql sparklyr

Spark_apply 指定列名时出错

我在跑步sparklyr在 Windows 10 中的 RStudio 本地模式下 spark version lt 2 1 0 sc lt spark connect master local version spark version

r sparklyr

将 Spark MLlib 模型从 R 记录（然后应用）到 MLflow

我正在使用 Spark MLlib 函数通过sparklyr包来训练模型但现在似乎无法将模型保存在MLflow以供将来使用 iris tbl lt sparklyr copy to sc iris iris spark mdl mll

apachesparkmllib sparklyr mlflow

在 Sparklyr 中创建虚拟变量？

我正在尝试扩展我的一些 ML 管道我喜欢 Sparklyr 打开的 rstudio spark 和 h2o 的组合 http spark rstudio com http spark rstudio com 我试图弄清楚的一件事是如何使用

r apachespark dplyr plyr sparklyr

在 databricks 笔记本中使用多个 Spark 连接

我想使用 Spark 和 Sparklyr 连接到单个 databricks R 笔记本中的两个数据库表 sc one lt spark connect method databricks tbl change db sc one firs

r apachespark Databricks sparkr sparklyr

SparkR 与 Sparklyr [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案有人对 SparkR 与 Sparklyr 的优点缺点有概述吗谷歌没有给出任何令人满意的结果而且两者看起来相当相似尝试两者 S

r apachespark sparkr sparklyr

Sparklyr/Hive：如何正确使用正则表达式（regexp_replace）？

考虑下面的例子 dataframe test lt data frame mydate c 2011 03 01T00 00 04 226Z 2011 03 01T00 00 04 226Z A tibble 2 x 1 mydate

r apachespark hive sparklyr

Sparklyr 处理分类变量

Sparklyr 处理分类变量我来自 R 背景习惯于在后端处理分类变量作为因子对于 Sparklyr 来说使用起来相当混乱string indexer or onehotencoder 例如我有许多变量在原始数据集中被编码为数值

r apachespark apachesparkml sparklyr

SparklyR：直接转换为镶木地板

您好我是集群计算的新手目前我只在独立集群上玩 sc lt spark connect master local version 2 0 2 我有一个巨大的 csv 文件 15GB 我想将其转换为 parquet 文件第三块代码解释了原

r apachespark sparklyr

使用 Sparklyr 将字符串/字符转换为日期

我已经将一张表带入 Hue 其中有一列日期我正在尝试在 Rstudio 中使用 Sparklyr 来玩它我想将字符列转换为日期列如下所示 Weather data mutate Weather data date2 as Date d

r apachespark hive dplyr sparklyr

Sparklyr - 更改 Spark 中的日期格式

我有一个 Spark 数据框其中有一列characters作为 20 01 2000 日月年但我试图将其更改为日期格式这样我就可以使用这里的功能 https cwiki apache org confluence display

r date apachespark sparklyr

如何在sparklyr中按3分钟时间戳聚合数据？

我在用sparklyr进行一些快速分析我在使用时间戳时确实遇到一些问题我有两个不同的数据帧一个以 1 分钟间隔行另一个以 3 分钟间隔行第一个数据集 1 分钟间隔 id timefrom timeto value 10 2017

r apachespark dplyr sparklyr

从 Spark 集群收集数据时出现内存不足错误

我知道有很多关于 Spark 内存不足错误的问题但我还没有找到解决方案我有一个简单的工作流程从 Amazon S3 读取 ORC 文件 filter直至一小部分行 select一小部分列 collect进入驱动程序节点这样我就可以在

apachespark memory sparklyr

通过 Sparklyr 以本地模式运行 Spark 时，如何配置驱动程序内存？

我正在使用 Sparklyr 在具有 244GB RAM 的虚拟机上以本地模式运行 Spark 应用程序在我的代码中我使用spark read csv 从一个文件夹读取约 50MB 的 csv 然后从第二个文件夹读取约 1 5GB 的 c

Java r apachespark sparklyr

为什么 ml_create_dummy_variables 在 Sparklyr 中不显示新的虚拟变量列

我正在尝试在 Sparklyr 中创建模型矩阵有一个功能ml create dummy variables 用于一次为一个分类变量创建虚拟变量据我所知没有 model matrix 等效于一步创建模型矩阵很容易使用ml create

r apachespark machinelearning datascience sparklyr

Sparklyr 无法看到在 Hive 中创建的数据库，反之亦然

我在本地安装了 Apache Hive 并尝试通过 Rstudio sparklyr 读取表我使用 Hive 创建了一个数据库 hive gt CREATE DATABASE test 我尝试使用以下 R 脚本读取该数据库 library

r Hadoop hive sparklyr

Sparklyr 与 S3 存储桶的连接抛出错误

我正在尝试从 R Sparklyr 连接到 S3 存储桶我能够将本地文件读取到 Spark 上下文中然而尝试连接 s3 似乎是个问题抛出一大堆错误这是所使用的代码列表注意单个 s3 存储桶有多个 csv 文件遵循相同的模式 l

r apachespark amazons3 sparklyr

如何在R中使用sparklyr读取S3文件夹/存储桶中的所有文件？

我已经尝试了下面的代码及其组合以便读取 S3 文件夹中给出的所有文件但似乎没有任何效果敏感信息代码已从下面的脚本中删除有 6 个文件每个文件 6 5 GB Spark Connection sc lt spark connect

r apachespark amazons3 RStudio sparklyr