如何在 Spark 中以小块形式迭代大型 Cassandra 表

2024-01-12

在我的测试环境中，我有 1 个 Cassandra 节点和 3 个 Spark 节点。我想迭代大约有 200k 行的明显大表，每行大约占用 20-50KB。

CREATE TABLE foo (
  uid timeuuid,
  events blob,
  PRIMARY KEY ((uid))
)

这是在 Spark 集群中执行的 scala 代码

val rdd = sc.cassandraTable("test", "foo")

// This pulls records in memory, taking ~6.3GB
var count = rdd.select("events").count()  

// Fails nearly immediately with 
// NoHostAvailableException: All host(s) tried for query failed [...]
var events = rdd.select("events").collect()

Cassandra 2.0.9、Spark：1.2.1、Spark-cassandra-connector-1.2.0-alpha2

我试着只跑collect，没有count- 在这种情况下，它很快就会失败NoHostAvailableException.

问题：一次迭代大表读取和处理小批量行的正确方法是什么？

Cassandra Spark Connector 中有 2 个设置用于调整块大小（将它们放在 SparkConf 对象中）：

Spark.cassandra.input.split.size：每个 Spark 分区的行数（默认 100000）
Spark.cassandra.input.page.row.size：每个获取页面的行数（即网络往返）（默认1000）

此外，您不应该使用collect在您的示例中执行操作，因为它将获取驱动程序应用程序内存中的所有行，并可能引发内存不足异常。您可以使用collect仅当您确定它会产生少量行时才采取行动。这count动作不同，它只产生一个整数。因此，我建议您像以前一样从 Cassandra 加载数据，处理它，然后存储结果（在 Cassandra、HDFS 等中）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

cassandra

apachespark

RDD

如何在 Spark 中以小块形式迭代大型 Cassandra 表的相关文章

Pyspark UDF AttributeError：“NoneType”对象没有属性“_jvm”

我有一个 udf 函数 staticmethod F udf array
Spark - 构建时出现 scala 初始化错误

我正在尝试在我的 scala 应用程序中使用 Spark 这是我正在使用的 Spark 依赖项
Scala 函数作为对象与类

trait MyFunctionTrait extends Int Int gt Double class MyFunction1 extends MyFunctionTrait override def apply a Int b Int
Cassandra 会话与集群有什么可分享的？

考虑 Cassandra 的 Session 和 Cluster 类 Java 驱动程序我想知道有什么区别在 Hibernate 中每次都会创建一个会话并共享会话工厂从许多来源我了解到它被认为是创建一个会话并在多个线程之间共享它
指定 Parquet 属性 pyspark

如何在 PySpark 中指定 Parquet 块大小和页面大小我到处搜索但找不到任何有关函数调用或导入库的文档根据火花用户档案 https mail archives apache org mod mbox spark user 2
在 scalaz 中免费实施

Haskell 中的免费实现是 data Free f a Pure a Free f Free f a 而 Scalaz 中的实现是 sealed abstract class Free S A private case class Re
警告 ReliableDeliverySupervisor：与远程系统的关联失败，地址现已门控 [5000] 毫秒。原因：[已解除关联]

我正在 aws Spark 上运行以下句子 val sqlContext new org apache spark sql SQLContext sc import sqlContext implicits case class Wiki
如何在 Scala mutable.Seq 上追加或前置

Scala 有一些我不明白的地方collection mutable Seq http www scala lang org api current index html scala collection mutable Seq 它描述了所
使用 scala 进行重复的所有排列

我正在寻找 scala 方法来给出所有排列而不重复我知道这个网站上已经有一些帖子但它们似乎有一个稍微不同的问题我正在寻找所有重复的排列例如 combine List A C G 应该产生 List List A A A List A
如何在 Scala 中使用 Circe 解码 JSON 列表/数组

我有代码片段 cursor downField params downField playlist downField items as List Clip 其中 Clip 是字符串和数字的简单 case 类传入的 Json 应包含一个
在 Scala 中创建 Java 对象

我有一个 Java 类 Listings 我在 Java MapReduce 作业中使用它如下所示 public void map Object key Text value Context context throws IOExcept
如何在 Scala 用户定义注释中使用命名参数？

在下面的代码中我能够获得第一个注释对象 Publishable 但不能获得第二个第二个使用命名参数它转换为 x 2 x 3 x 1 作为 AST 中的参数我该如何正确地做到这一点 class Publishable val path
使用 Elastic4s 进行动态 ElasticSearch 映射

我有一个文档要在elasticSearch上建立索引该文档包含一些我事先无法知道的动态键例如以下示例中的西班牙语或法语 contents title spanish Hola amigos french Bonjour les a
如何知道 Cassandra 中键空间和列族的大小？

最近我开始使用 cassandra 的 Java 驱动程序 cassandra driver core 2 0 2 进行 Grails 与 Cassandra 的集成因此我很好奇如何知道我们的表在 cassandra DB 中存储数据
如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中？

当我尝试在 Spark conf 中设置包依赖项 spark sftp 时我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
在 pyspark 中创建一个包含单列元组的数据框

我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框我得到的最接近的是 schema Str
使用 Glue 将数据输入到 AWS Elastic Search

我正在寻找使用 AWS Glue python 或 pyspark 将数据插入 AWS Elastic Search 的解决方案我见过用于 Elastic Search 的 Boto3 SDK 但找不到任何将数据插入 Elastic Se
Scala Stream 按需要调用（惰性）与按名称调用

所以我知道按需要呼叫只是按名称呼叫的记忆版本在 Martin Odersky 在 Coursera 上的 FP 课程中第 7 3 讲惰性评估中他提到如果 Streams 是使用按名称调用来实现的那么它可能会导致计算复杂性的激增
java.lang.NoSuchMethodError：com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时

我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例在一个主服务器和两个从服务器 spark2

随机推荐

如何转到 Chrome 开发者工具中的特定文件？

我正在开发一个采用重型前端方法的 Web 应用程序通过使用 Dojo 和 AMD 方式我目前的测试屏幕可以轻松加载一百多个不同的 javascript 文件当我想要调试任何特定问题或者验证是否看到特定文件的旧版本时我发现很难在 C
使用 loginPopup 时 Microsoft 身份验证反应“hash_empty_error”

我无法理解在尝试使用 Micrsoft Authentication 库 for React PWA 对用户进行身份验证时遇到的错误我需要帮助理解为什么尝试使用 loginPopup 方法登录用户时失败在某些情况下身份验证按预期工作
WordPress 小部件更新需要标签的项目的实例

最近我意识到在开发主题中的侧边栏时我没有充分利用 WordPress 中的小部件因此我花了几天时间研究如何正确开发它们在查看了大量教程后我发现其中一些关于自定义构建小部件的教程已经过时了我确实看到了应该在哪里使用该构造 func
如何在 Swift 中反转数组？

如何以相反的顺序打印以下数组 var toDoListReverse Take out garbage Pay bills Cross off finished items 这是 swift 3 的代码 let array IOS A IO
Android toast.makeText 上下文错误

我在位置侦听器内调用 toast Maketext 时遇到问题上下文不可用我做错了什么 private LocationListener ll new LocationListener public void onLocationCha
用于显示 PHP 警告和错误的 Sublime Text 扩展

我最近安装了 Sublime Text 2 还在适应中我已经安装了 Package Control 和大部分 PHP 扩展我希望有一个能够强调语法错误的工具就像 Netbeans 那样有没有一个包可以做到这一点 Use Sublim
Macports 选择默认的 Python 解释器来执行脚本？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案 I used python select 它似乎没有改变执行脚本的默认 python 例如django admin py runserver 前面没有
MSDTC - 需要多少个端口

我有一个使用 MSDTC 的相当大的应用程序我应该打开多少个端口有什么办法可以确定吗 EDIT I know what我需要打开的端口我不知道how many I need 当我们必须进行这种调试时这篇文章特别有用如何解决 MS
Spring MockRestServiceServer 处理多个异步请求

我有一个协调器 Spring Boot 服务它向外部服务发出几个异步休息请求我想模拟这些服务的响应我的代码是 mockServer expect requestTo http localhost retrieveBook book1
如何使用简单注入器注册 Windows 窗体

背景我正在构建一个 winforms 应用程序其中使用 IoC 容器 SimpleInjector 来注册我的类型在我的应用程序中大多数屏幕即表单在任何给定时间都只有一个实例 Problem 对于在任何给定时间只需要一个实例的表
想要在jquery中旋转元素

我在尝试着旋转一个元素任何元素 div p handle handle gt div 我放置在元素的top left角落现在我的问题是该元素没有完全旋转到 360 度任何人都可以帮忙 elementid live mouseover
Word 2010 VBA - 操作编号列表

我正在尝试获取在 Outlook 中创建的编号列表并根据顶级列表项对其进行操作不幸的是我发现操作列表的唯一方法是通过 ListParagraph 类型它平等地分解所有列表项包括子项而不是对列表中的每个级别具有不同的访问权限有没
带 rollup 和 redux 的 lit-element：未定义流程

我正在尝试将基于 lit element 的应用程序中的状态管理从简单的全局变量切换为 redux 按照 redux 教程我安装了 redux 工具包并创建了一个简单的减速器和存储使用汇总构建应用程序成功但当我在 Chrome 中加载
Java机器人鼠标移动：设置速度？

Java Robot 类允许人们移动鼠标就像移动实际的物理鼠标一样然而如何以一种人性化而非即时的方式将鼠标从 Point1 移动到 Point2 又名如何设置移动速度如果Robot类不可能达到这样的速度那么如果鼠标只能瞬时移
如何解决 FATAL:超出非超级用户的连接限制

我写了一个用于批量插入的java代码我使用复制命令为不同的表导入和创建不同的连接对象但在执行时程序抛出以下错误 FATAL connection limit exceeded for non superusers 您已超出 Postg
如何防止弹出基本身份验证表单

我有一个 Java 应用程序 JSF 它使用 javascript 连接到需要基本身份验证的网站我想要配合的事情与我在弹出表单中输入用户名和密码时发生的事情完全相同我已经尝试了许多关于该主题的不同方法但没有一个有效奇怪的是 ajax
以编程方式单击 jetpack compose 中的文本字段

有没有一种方法可以以编程方式单击文本字段以便当我的搜索屏幕弹出时它会自动单击文本字段并弹出键盘或者有没有办法知道文本字段的触摸事件 With 1 0 x您可以将焦点放在该组件上就像是 var text by remember mu
使列等高 - 通过嵌套

我的设计使用两个外部列并在标题部分的外部列之一和下面的另外两列中如下所示 header out1 out2 footer
MockMVC 对异步服务执行后期测试

我需要测试调用异步服务的控制器控制器代码 RequestMapping value path method RequestMethod POST produces MediaType APPLICATION JSON VALUE Resp
如何在 Spark 中以小块形式迭代大型 Cassandra 表

在我的测试环境中我有 1 个 Cassandra 节点和 3 个 Spark 节点我想迭代大约有 200k 行的明显大表每行大约占用 20 50KB CREATE TABLE foo uid timeuuid events blob

如何在 Spark 中以小块形式迭代大型 Cassandra 表

如何在 Spark 中以小块形式迭代大型 Cassandra 表 的相关文章

随机推荐

热门标签

如何在 Spark 中以小块形式迭代大型 Cassandra 表的相关文章