通过sparklyr将cassandra表导入spark - 可以仅选择某些列吗？

2024-04-27

我一直在与sparklyr要将大型 cassandra 表带入 Spark，请使用 R 注册它们并执行dplyr对他们进行操作。

我已经成功导入 cassandra 表，代码如下：

# import cassandra table into spark

cass_df <- sparklyr:::spark_data_read_generic(
  sc, "org.apache.spark.sql.cassandra", "format", 
  list(keyspace = "cass_keyspace", table = "cass_table")
  ) %>% 
  invoke("load")


# register table in R

cass_tbl <- sparklyr:::spark_partition_register_df(
         sc, cass_df, name = "cass_table", repartition = 0, memory = TRUE)
       )

其中一些 cassandra 表非常大（> 85 亿行），需要一段时间才能导入/注册，有些会导致内存溢出，即使有 6 个节点运行总共 60 个内核和 192GB RAM。但是，我通常只需要每个 cassandra 数据库中的一些列。

我的问题是：

是否可以在导入/注册时过滤 cassandra 数据库，以便仅导入某些列，或者根据主键进行过滤（即通过传递SQL / CQL输入查询，例如SELECT name FROM cass_table WHERE id = 5)?
这样的查询在上面的代码中会出现在哪里，语法采用什么形式？

我尝试将这样的查询添加为选项列表中的附加选项，即：

list(. . . , select = "id")

以及之前将其作为单独的管道调用%>% invoke("load"), i.e.:

invoke("option", "select", "id") %>%

# OR

invoke("option", "query", s"select id from cass_table") %>%

但这些都不起作用。有什么建议么？

您可以跳过急切缓存并选择感兴趣的列：

session <- spark_session(sc)

# Some columns to select
cols <- list("x", "y", "z")

cass_df <- session %>% 
  invoke("read") %>% 
  invoke("format", "org.apache.spark.sql.cassandra") %>% 
  invoke("options", as.environment(list(keyspace="test"))) %>% 
  invoke("load") %>% 
  # We use select(col: String, cols* String) so the first column
  # has to be used separately. If you want only one column the third argument
  # has to be an empty list 
  invoke("select", cols[[1]], cols[2:length(cols)]) %>%
  # Standard lazy cache if you need one
  invoke("cache")

如果您使用谓词可以显着减少获取的数据集量pushdown选项"true"（默认）并使用filter before缓存。

如果您想传递更复杂的查询，您可以注册临时视图并sql method:

session %>%
  invoke("read") %>% 
  ...
  invoke("load") %>% 
  invoke("createOrReplaceTempView", "some_name")

cass_df <- session %>% 
  invoke("sql", "SELECT id FROM some_name WHERE foo = 'bar'") %>%
  invoke("cache")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

apachespark

cassandra

cql

sparklyr

通过sparklyr将cassandra表导入spark - 可以仅选择某些列吗？的相关文章

是否可以在 R 中为 data.frame 命名别名

使用某些数据标准时使用多种方法来查看 data frame 的列会更简单作为一个具体示例在使用 SDTM 数据进行临床试验时每种数据类型如实验室或生命体征都有一列时间点实验室名称为 LBPT 生命体征名称为 VSTPT 理想情
相当于 Rcpp 中的 'which' 函数

我是 C 和 Rcpp 的新手假设我有一个向量 t1 lt c 1 2 NA NA 3 4 1 NA 5 我想获得 t1 的元素索引NA 我可以写 NumericVector retIdxNA NumericVector x Step 1
Cassandra cqlsh 不适用于非分区键的 where 子句

我的表描述是 CREATE TABLE user id text CustID int static UpdateDate date DateOfBirth date static Gender text static Address te
在 R 中替换数据帧中最低列表值的最有效方法

我有一个数据框 df 其中包含为每个受试者记录的数字列表向量用于测试项目的两次重复 subj item rep vec s1 1 1 2 1 4 5 8 4 7 s1 1 2 1 1 3 4 7 5 3 s1 2 1 6 5 4 1 2
Python Spark DataFrame：用 SparseVector 替换 null

在 Spark 中我有以下名为 df 的数据框其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
估算缺失数据，同时强制相关系数保持不变

考虑以下 excel 数据集 m r 2 0 3 3 0 8 4 0 1 3 2 1 5 2 2 3 1 9 2 5 1 2 3 0 2 0 2 6 我的目标是使用以下条件填充缺失值将上述两列之间的成对相关性表示为 R 大约 0 68 将
带频率图的 R 热图类型图

I am trying to create a plot like the following 我已经使用 ggplot2 中的 geom tile 粗略地得到了左侧图但我无法弄清楚如何生成右侧图以及如何将两个图放在一起 Example
引起原因：com.datastax.driver.core.exceptions.InvalidQueryException：日期长度应为 8 或 0 字节 (13)

我正在尝试使用 spring data cassandra 插入数据但是当我的应用程序使用 Spring Boot 版本是 1 5 3 运行时我遇到了以下错误我在spring data中添加了一个实现CrudResposity的自定义
以有效的方式从 BigQuery 读取到 Spark 中？

使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据我发现它首先将所有数据复制到 G
R 中第三维的平均值

R中是否有任何快速方法或内置函数来计算基于第三维的平均值例如我的数组是 1 1 2 1 1 3 2 2 4 2 1 2 1 11 13 2 12 14 3 1 2 1 21 23 2 22 24 我的输出是 1 2 1 mean 1 11
R+Hadoop：如何从HDFS读取CSV文件并执行mapreduce？

在以下示例中 small ints to dfs 1 1000 mapreduce input small ints map function k v cbind v v 2 MapReduce函数的数据输入是一个名为small ints的
R2WinBUGS - 使用模拟数据进行逻辑回归

我只是想知道是否有人有一些使用 R2WinBUGS 包来运行逻辑回归的 R 代码理想情况下使用模拟数据来生成真相和两个连续协变量 Thanks 基督教 PS 生成人工数据一维情况并通过 r2winbugs 运行 winbugs 的
rvest open.connection(x, "rb") 中出现错误：已达到超时

我正在尝试从中抓取内容http google com http google com 错误信息就出来了 library rvest html http google com open connection x rb 中的错误已达到超时另外
PCA 图中带有名称的工具提示

我想用 ggplotly 生成交互式绘图工具提示应该显示变量的名称 interactive lt ggplotly pca dynamicTicks T tooltip c x y label list pca 是 PCA 的可视化 su
使用 R 中绘制的标准误差创建条形图

我试图找到在 R 中创建条形图并显示标准错误的最佳方法我看过其他文章但我无法弄清楚与我自己的数据一起使用的代码之前没有使用过 ggplot 这似乎是最常用的方法而 barplot 不与数据框合作我需要在两种情况下使用它我为此创建
计算分组序列中两个值之间的差异

这是这篇文章的后续问题循环遍历 R 中的数据帧并测量两个值之间的时间差 https stackoverflow com questions 44885856 loop through dataframe in r and measure
Spark 执行器 STDOUT 到 Kubernetes STDOUT

我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
尝试通过列表递归时，在 R 中出现错误“递归索引在级别 2 失败”

当我尝试递归遍历图形顶点列表将它们的值与列表中的一组颜色进行匹配时出现错误递归索引在级别 2 失败我的颜色列表如下 colrs lt list l blue c red n gray50 然后我有一个 igraph 中的顶点列表vs
R 语言 - 等待用户使用 scan 或 readline 输入

我试图让用户输入一些关键字进行查询在我的脚本中我使用了 scan 或 readline 我使用 R 嵌入脚本编辑器 Windows 进行了尝试但是当我执行代码时它使用我的下一行脚本作为标准输入这是我的部分脚本 keywords
如何在 conda 中静音或抑制 gfortran （或 clang？）后端？

我一直致力于构建一个非常特殊的 conda 环境专为python and R与串扰使用rpy2 我想出的方法可以安装正确的R包如下 install main environment sh now date T echo Start Tim

随机推荐

如何减少基于位置的 Android 应用程序的功耗？

如何减少应用程序的功耗我可以使用什么代码来实现这个有几种不同的方法可以减少尝试获取位置信息时所用的电量 Use the 最后已知位置 http developer android com reference android locati
HtmlAgilityPack 设置节点 InnerText

我想用其他文本替换 HTML 标签的内部文本我正在使用 HtmlAgilityPack我使用这段代码来提取所有文本 HtmlDocument doc new HtmlDocument doc Load some path foreach
Spring MVC：在表单处理操作中有多个@ModelAttribute

上下文我在两个实体之间有一个简单的关联 Category and Email NtoM 我正在尝试创建用于浏览和管理它们的网络界面要浏览类别并将电子邮件添加到该类别中我使用包含以下内容的控制器 RequestMapping带有类别 I
使用线程或异步任务的位图工厂动画

这个问题是我在这个论坛上提出的多个问题的后续问题这些问题涉及为什么我一直在尝试的动画不起作用简单回答一下之前的问题我的动画作为 2 个班级的单独项目工作但无法工作当包含在我的包含多个类的项目中时使用 finish 类关闭了导致我
如何在 Visual Studio Code 中的事件上使用 JSDoc 自定义 EventEmitter？

我一直致力于 Node js 项目只是注意到 Visual Studio Code 提供了有关基本 EventEmitter 对象的信息所以我想也应该可以为自定义提供 JSDoc 我已经尝试遵循 JSDochttp usejsdoc o
sql查询使用pivot动态添加会计月份

ALTER PROCEDURE dbo sp GetDMActivityTrackerReport CoachId VARCHAR 7 Month INT FiscalYear INT AS BEGIN INSERT FiscalMonth
如何计算 CNN 第一个线性层的维度

目前我正在使用 CNN 其中附加了一个完全连接的层并且我正在使用尺寸为 32x32 的 3 通道图像我想知道是否有一个一致的公式可以用来计算第一个线性层的输入尺寸和最后一个卷积最大池层的输入我希望能够计算第一个线性层的尺寸仅给出
错误：连接超时：连接

我将Android Studio 1 5 1的gradle版本从1 5更改为2 10 然后单击立即同步错误图像 https i stack imgur com E3MVE png但出现以下错误错误连接超时连接如果您使用 HTTP
c# UWP - 将字节数组转换为 InMemoryRandomAccessStream/IRandomAccessStream

我在将字节数组转换为InMemoryRandomAccessStream or IRandomAccessStream在 Windows 8 中这是我的代码但它不起作用 internal static async Task
将一个 Excel 工作表中的两列与另一工作表中的两列进行比较，如果匹配，则从另一列复制数据

我一直在考虑使用 Excel VLOOKUP 函数来完成此任务但我对此非常不熟悉我需要执行以下操作在第一张纸上 A 列和 B 列包含 3000 行名字和姓氏我需要将其与第二张纸进行比较第二张纸也有名字和姓氏第三列包含电子邮件地址
Android studio 2.3 canary 在“SDK Manager”中缺少“Launch Standalone SDK Manager”选项

我无意中接受了 android studio 的升级建议到 2 3 金丝雀尽管我一直将其设置为检查开发者频道而不是金丝雀不知何故它被切换了现在我的 SDK 管理器窗口中不再有启动独立 SDK 管理器选项我喜欢独立管理器有
仅验证选定的休息端点：spring boot

我有一个 Spring Boot Web 应用程序暴露了一些休息端点我想知道如何仅为选定的其余端点启用基本身份验证假设我只想 employee id 请求进行身份验证并忽略所有其他其余端点我正在使用以下代码我的问题是antMatc
C++ 中的 Java HashSet 等效项

我很好奇 C 中是否有类似于 Java HashSet 的东西 IE 一个快速查看的数据结构因为我只会运行 contains e 在上面同样如果你能启发我如何做 contains 无论您提出什么数据结构我都会非常感激 O 请不要发帖
服务器发送的事件在脚本完成之前不会更新

我有一个更新数据库的小脚本目前处理时间大约需要一分钟左右但是随着数据库的增加时间也会增加我想在脚本运行时向用户提供更新以便他们知道脚本的状态并且它仍在运行我实现了服务器端事件虽然它有效但在脚本完全完成之前不会将任何更新发布
如何使 TextBlock 可选择，以便用户可以复制其文本[重复]

这个问题在这里已经有答案了可能的重复有什么方法可以使 WPF 文本块可选择吗 https stackoverflow com questions 136435 any way to make a wpf textblock select
用Java从剪贴板中提取所有图像和文本

例如如果我打开浏览器并复制页面的所有文本和图像 CTRL A 然后粘贴到 Microsoft Word 中则文本和图像都会被粘贴我正在尝试编写 Java 代码从剪贴板内容中提取文本和所有图像以便在程序中使用文本图像例如稍后在
android.view.InflateException：二进制 XML 文件第 6 行：膨胀类片段时出错

应用程序启动时出现此错误我收到主题中显示的许多此类错误这些错误似乎是偶然的我无法重现它们从堆栈中我可以了解到我的不同布局资源可能会发生此类错误 XML 的行也各不相同谁能解释为什么会出现这个错误我能做些什么来解决这个问题 09
如何使用 snapshotChanges() 方法获取键值并过滤数据？

我正在开发一个 Angular Firebase 项目我需要过滤数据库并获取键值目前我正在使用值更改我的服务代码中的方法 getUnreadBooks 和 getFavouriteBooks 方法内部如下所示来获取数据并对其进行过
如何在 AS3 中设置 swf 的宽度和高度？

如何在 AS3 中设置 swf 的宽度和高度到目前为止这是我的代码 package import flash display Sprite public class Game extends Sprite 现在加载时它处于任意默认大小
通过sparklyr将cassandra表导入spark - 可以仅选择某些列吗？

我一直在与sparklyr要将大型 cassandra 表带入 Spark 请使用 R 注册它们并执行dplyr对他们进行操作我已经成功导入 cassandra 表代码如下 import cassandra table into spa

通过sparklyr将cassandra表导入spark - 可以仅选择某些列吗？

通过sparklyr将cassandra表导入spark - 可以仅选择某些列吗？ 的相关文章

随机推荐

热门标签

通过sparklyr将cassandra表导入spark - 可以仅选择某些列吗？的相关文章