如何从迭代器创建 Spark RDD？

2024-04-12

为了说清楚，我不是从像这样的数组/列表中寻找RDD

List<Integer> list = Arrays.asList(1, 2, 3, 4, 5, 6, 7); // sample
JavaRDD<Integer> rdd = new JavaSparkContext().parallelize(list);

如何从 java 迭代器创建 Spark RDD 而无需完全缓冲它在记忆中吗？

Iterator<Integer> iterator = Arrays.asList(1, 2, 3, 4).iterator(); //sample iterator for illustration
JavaRDD<Integer> rdd = new JavaSparkContext().what("?", iterator); //the Question

附加问题：

是否要求源可重复读取（或能够多次读取）才能为 RDD 提供弹性？换句话说，由于迭代器基本上是一次性读取的，因此是否有可能从迭代器创建弹性分布式数据集（RDD）？

正如其他人所说，您可以使用 Spark Streaming 做一些事情，但对于纯粹的 Spark 来说，您不能，原因是您所要求的内容违背了 Spark 的模型。让我解释。为了分配和并行化工作，spark 必须将其分成块。从 HDFS 读取时，HDFS 会为 Spark 完成“分块”，因为 HDFS 文件是按块组织的。 Spark 通常会为每个块生成一个任务。现在，迭代器只提供对数据的顺序访问，因此 Spark 不可能将其组织成块无需将其全部读入内存.

也许可以构建一个具有单个可迭代分区的 RDD，但即便如此，也无法确定是否可以将可迭代的实现发送给工作人员。当使用 sc.parallelize() 时，spark 创建的分区实现serializable因此每个分区都可以发送给不同的工作人员。可迭代可以通过网络连接或本地文件系统中的文件进行，因此除非它们缓冲在内存中，否则它们无法发送给工作人员。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

SparkStreaming

如何从迭代器创建 Spark RDD？的相关文章

如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
Spark：替换嵌套列中的空值

我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
Kubernetes WatchConnectionManager：执行失败：HTTP 403

我遇到错误Expected HTTP 101 response but was 403 Forbidden 在我使用以下命令设置新的 Kubernetes 集群之后Kubeadm当我提交下面遇到的 pyspark 示例应用程序时只有一个主
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
在 Spark MLlib 上使用 Java 中的 Breeze

在尝试从Java使用MLlib时使用微风矩阵运算的正确方法是什么例如scala 中的乘法很简单 matrix vector 相应的功能在Java中是如何表达的有一些方法例如 colon times 可以通过正确的方式调用 breez
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
如何将 Dataframe 列名称与 Scala 案例类属性相匹配？

本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l

随机推荐

在 Apache 中使用 mod_rewrite 处理中文字符

我无法找到有关使用中文字符的 Apache mod rewriting 的信息我能找到的所有信息都与数字有关我想重写 character php character 宠其中字符是搜索结果因此会有所不同 character 宠这是我
共享主机帐户中的 php.ini 配置更改

我尝试使用 htaccess ini set 覆盖默认的 php ini 配置但在执行脚本时配置没有得到反映这里 PHP 安装为 fastcgi 并位于共享托管帐户中有什么方法可以更改 php ini 设置或者我需要将我的帐户升级到
Rails 2.3：如何将此 SQL 语句转换为named_scope

弄清楚如何从这个 SQL 查询创建一个named scope 有点困难 select from foo where id NOT IN select foo id from bar AND foo category ORDER BY RAN
mysql如何连接两个表？

我有两张桌子 services id client service and clients id name email 如何列出餐桌服务并汇总顾客餐桌上的顾客姓名表中的客户服务字段有客户表中客户的id 我很感谢你现在的帮助 SELECT
是否可以从maven编译grunt项目？

我正在尝试从 Maven 中执行 grunt 任务而不需要安装 Node js 或任何东西这是因为我不希望 Jenkins 打包我的工件并且我无法在那台机器上安装 Node js 我知道使用 npm 和一些命令就可以让它工作很容易但
如何使用 Java 将 JMS 消息排入 Oracle AQ 中

我有一个队列类型为 SYS AQ JMS TEXT MESSAGE 的 Oracle AQ 我想做的是将文本从 java 应用程序插入到提到的队列中等效的 SQL 查询是 declare r enqueue options DBMS AQ
Cytoscape.js 的性能和布局

我正在测试 Cytoscape js 的渲染性能我的图表包含大约 5000 个节点和 5000 个边没有 x y 位置使用 Cytoscape js 的自动布局但欧拉布局扩展在渲染完所有节点和边后需要花费超过15秒的时间在下次操作
Google Plus 登录集成错误 iOS

您好我正在尝试在我的 iOS 应用程序上集成 google 登录我已按照此说明进行操作link https developers google com mobile ios getting started 这些示例工作正常但是当我尝试
谷歌的 oauth2 范围有深入研究吗？

我正在寻找有关 google 使用 oauth 范围的一些深入的详细信息我的云端硬盘应用程序is工作所以我可以简单地使用范围但是我有以下详细问题问题我指定了两次范围一旦进入我的应用程序然后也进入 API 安慰这两个范围分别有
MS Graph API 中的分页

图形API分页 https graph microsoft io en us docs concepts paging解释响应将包含一个字段 odata nextLink其中将包含一个skiptoken指向下一页内容当我测试 API 时
Instagram API。 “无法到达回调 URL”

好的伙计们这是设置我正在开发一个节日网站需要使用 Instragram API 客户希望自动从 Instagram 加载使用特定主题标签的图片没问题 Instagram API 支持此功能以及更多功能但是当我尝试进行订阅通过
我可以编写一个断言多个不变量的类型保护吗？

我可以编写一个类型保护来断言一个或多个子对象一个论点在伪代码中它可能看起来像这样 class C a number b string function assertInitialized this a is number and thi
如何验证 has_many :through 连接模型的唯一性？

我有通过投票模型加入的用户和问题用户可以对问题进行投票他们可以投票赞成或反对这记录在投票模型中首先我希望能够阻止用户向一个方向投多次票其次我想让用户投反对票因此如果他们投了赞成票他们仍然应该能够投反对票这将取代赞成票
使用 RestructedText 和 Sphinx 包含预格式化文件

我正在尝试使这个片段发挥作用 Version History These are the versions over time include CHANGES txt 也就是说使用 include 指令将文件作为块引用包含在内一旦进入块
OCR 解析获取复选框或单选按钮值

I need to parse OCR image file and get all texts and checkbox values How to get Checkbox or Radio Button value from OCR
如何获取Titan DB版本1.0.0中顶点或边元素的属性

在旧版本中泰坦数据库 0 5 2 版 the 泰坦顶点 and 泰坦之刃实施泰坦元素有方法的接口getProperties String key 我用来检索元素属性值这个方法在新版本的Titan中被删除了我使用的是1 0 0版本我找到
了解“apply-templates”匹配

我的想法正确吗 apply templates声明应匹配all哪些模板可用于选择例如给定以下 xml 片段
PHP::当数组 1 的值位于偶数位置而数组 2 的值位于奇数位置时，如何合并 2 个数组？ [复制]

这个问题在这里已经有答案了当数组 1 的值位于偶数位置而数组 2 的值位于奇数位置时如何合并两个数组 Example arr1 array 11 34 30 arr2 array 12 666 output array 11 12 34
在 Bash 中用数字对字符串进行排序[重复]

这个问题在这里已经有答案了我经常想对其中包含数字的字符串进行排序以便在排序时例如abc 2 abc 1 abc 10结果是abc 1 abc 2 abc 10 我见过的每一种排序机制都是abc 1 abc 10 abc 2 即从左侧开
如何从迭代器创建 Spark RDD？

为了说清楚我不是从像这样的数组列表中寻找RDD List

如何从迭代器创建 Spark RDD？

如何从迭代器创建 Spark RDD？ 的相关文章

随机推荐

热门标签

如何从迭代器创建 Spark RDD？的相关文章