如何从sparkContext读取特定行

2024-04-07

您好，我正在尝试使用 Spark 从文本文件中读取特定行。

SparkConf conf = new SparkConf().setAppName(appName).setMaster(master);
sc = new JavaSparkContext(conf);
JavaRDD<String> lines = sc.textFile("data.txt");
String firstLine = lines.first();

它可以使用 .first() 命令来获取 data.text 文档的第一行。如何访问文档的第N行？我需要java解决方案。

Apache Spark RDD 不适合用于查找。最“高效”的获取方式nth 行将是lines.take(n + 1).get(n)。每次执行此操作时，它都会读取第一个n文件的行。你可以跑lines.cache以避免这种情况，但它仍然会首先移动n网络上的线路以一种非常低效的方式舞蹈。

如果数据可以容纳在一台机器上，只需将其全部收集一次，然后在本地访问：List<String> local = lines.collect(); local.get(n);.

如果数据无法容纳在一台机器上，则需要一个支持高效查找的分布式系统。流行的例子是 HBase 和 Cassandra。

您的问题也有可能可以通过 Spark 有效解决，但不能通过查找来解决。如果你在一个单独的问题中解释更大的问题，你可能会得到这样的解决方案。（查找在单机应用程序中非常常见，但分布式算法必须以不同的方式思考。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何从sparkContext读取特定行的相关文章

如何将 javax.persistence.Column 定义为 Unsigned TINYINT？

我正在基于 MySQL 数据库中的现有表创建 Java 持久性实体 Bean 使用 NetBeans IDE 8 0 1 我在这个表中遇到了一个字段其类型为无符号 TINYINT 3 我发现可以执行以下操作将列的类型定义为 unsign
“java.net.MalformedURLException：未找到协议”读取到 html 文件

我收到一个错误 java net MalformedURLException Protocol not found 我想读取网络上的 HTML 文件 mainfest uses permission android name android
是否有任何简单（且最新）的 Java 框架可用于在 Swing 应用程序中嵌入电影？

我正在构建一个小型 Swing 应用程序我想在其中嵌入一部电影重要的是这个应用程序是一个 WebStart 应用程序并且该库应该能够打包在我启动的 jnlp 中即不依赖于本机库我知道并尝试过 JMF 但我认为与其他框架相比其
Java：在 eclipse 中导出到 .jar 文件

我正在尝试将 Eclipse 中的程序导出到 jar 文件在我的项目中我添加了一些图片和 PDF s 当我导出到 jar 文件时似乎只有main已编译并导出我的意愿是如果可能的话将所有内容导出到 jar 文件因为这样我想将其转换为
org.hibernate.QueryException：无法解析属性：文件名

我正在使用休眠Criteria从列中获取值filename在我的桌子上contaque recording log 但是当我得到结果时它抛出异常 org hibernate QueryException 无法解析属性文件名 com co
当客户端关闭连接时，Spring StreamingResponseBody 请求线程未清理

我在控制器中有一个端点它返回一个StreamingResponseBody 用于向客户端发送文件其代码大致如下 RestController RequestMapping value api public class Controlle
是否可以通过编程方式查找 logback 日志文件？

自动附加日志文件以支持电子邮件会很有用我可以以编程方式设置路径如以编程方式设置 Logback Appender 路径 https stackoverflow com questions 3803184 setting logback
如何避免 ArrayIndexOutOfBoundsException 或 IndexOutOfBoundsException？ [复制]

这个问题在这里已经有答案了如果你的问题是我得到了java lang ArrayIndexOutOfBoundsException在我的代码中我不明白为什么会发生这种情况这意味着什么以及如何避免它这应该是最全面的典范 https me
了解joda时间PeriodFormatter

我以为我明白了但显然我不明白你能帮我通过这些单元测试吗 Test public void second assertEquals 00 00 01 OurDateTimeFormatter format 1000 Test public
如何在 Spring 属性中进行算术运算？
HashMap 值需要不可变吗？

我知道 HashMap 中的键需要是不可变的或者至少确保它们的哈希码 hashCode 不会改变或与另一个具有不同状态的对象发生冲突但是 HashMap中存储的值是否需要与上面相同为什么或者为什么不这个想法是能够改变值例如在其上调
在 SWT/JFace RCP 应用程序中填充巨大的表

您将如何在 SWT 表中显示大量行巨大是指超过 20K 行 20 列的东西不要问我为什么需要展示那么多数据这不是重点关键是如何让它尽可能快地工作这样最终用户就不会厌倦等待每行显示某个对象的实例列是其属性一些我想使用 JFa
是否可以使用 Java Guava 将函数应用于集合？

我想使用 Guava 将函数应用于集合地图等基本上我需要调整 a 的行和列的大小Table分别使所有行和列的大小相同执行如下操作 Table
Java Swing：需要一个高质量的带有复选框的开发 JTree

我一直在寻找一个 Tree 实现其中包含复选框其中当您选择一个节点时树中的所有后继节点都会被自动选择当您取消选择一个节点时树中其所有后继节点都会自动取消选择当已经选择了父节点并且从其后继之一中删除了选择时节点颜色将发生变化
Hamcrest Matchers - 断言列表类型

问题我目前正在尝试使用 Hamcrest Matchers 来断言返回的列表类型是特定类型例如假设我的服务调用返回以下列表 List
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
Android：无法发送http post

我一直在绞尽脑汁试图弄清楚如何在 Android 中发送 post 方法这就是我的代码的样子 public class HomeActivity extends Activity implements OnClickListener pr
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
泛型、数组和 ClassCastException

我想这里一定发生了一些我不知道的微妙事情考虑以下 public class Foo
配置“DataSource”以使用 SSL/TLS 加密连接到 Digital Ocean 上的托管 Postgres 服务器

我正在尝试托管数据库服务 https www digitalocean com products managed databases on 数字海洋网 https en wikipedia org wiki DigitalOcean 创建了

随机推荐

Django 无法加载静态文件

对 django 来说是全新的在我的 settings py 文件中我有 STATIC URL static INSTALLED APPS django contrib admin django contrib auth django
如何将我的 Sqlite 数据库移植到 GAE？

我的本地硬盘中有一个 SQLite 格式的数据库我希望将数据库升级到 GAE 以便我可以使用它来创建某些很酷的网络应用程序我已经四处浏览寻找一种方法来做到这一点然而大多数可用的项目都是将GAE中的数据库备份到我的本地硬盘是否有现有
将 Clojure 函数作为 java.util.Function 传递

正如在主题中一样我想使用一个以 Function 作为参数的 Java 方法并为其提供一个Clojure函数无论是匿名函数还是常规函数任何人都知道如何做到这一点 java util function Function是一个接口您需
如何向 jfreechart 创建的图表添加缩放功能

我使用 jfree 绘制了 XY 图表现在我想为其添加缩放功能这必须使用图表底部的滑块来完成如何添加 Windows 照片查看器中提供的缩放功能另外当用户将鼠标悬停在绘制的线上时我想将图表的当前 Y 值显示为工具提示我没有得到
redirect_uri 不属于应用程序

类似的问题和答案都没有解决我的问题我有两个 Facebook 应用程序一个是另一个的测试版本因此它们几乎相同我测试时没有任何问题但在实时应用程序上我收到 redirect uri 不属于应用程序错误这个申请就是一个很好的例子
矢量化和尴尬并行之间有什么关系？

这个问题说明了一切在我看来矢量化与令人尴尬的并行问题密切相关换句话说所有可矢量化的程序都必须是极其并行的程序它是否正确对令人尴尬的并行性的快速总结一个代码是尴尬地平行如果代码可以毫不费力地并行化特别是处理数据依赖性请注意
如何将焦点设置到 NSButton？

I m writing a small menubar application for OS X Yosemite When clicking on the menubar icon a popover appears with a num
类模板可以在没有成员的情况下实例化吗？

The 维基百科文章 http en wikipedia org wiki Template metaprogramming说实例化类模板不会导致其成员定义被实例化我无法想象 C 中的任何类被实例化无论是否从模板中类成员也没有被实例
将表单值附加到 Go 中的 GET/POST 请求

我想定义一个http Client自动将表单值附加到所有 GET POST 请求我天真地尝试实施http RoundTripper从另一个库复制粘贴时使用此技术来修改每个请求的标头 type Transport struct Trans
如何在 IntelliJ IDEA 中自动完成 lambda？

I m using IntelliJ IDEA 13 with Java 8 and wonder how to autocomplete lambdas Before Java 8 I used anonymous inner class
循环遍历模型并在视图中为每个属性创建文本框

我有一个具有 5 6 个属性的模型是否可以循环遍历模型中的所有属性公共属性并在每次迭代的视图中创建一个文本框而不是繁琐地编写一行代码来在视图中创建文本框 Thanks 是的你可以使用 Html EditorForModel 或者
Emacs：持续突出显示一个区域

Emacs 扩展markerpen el 链接文本 http www emacswiki org emacs MarkerPens 允许您突出显示缓冲区中的任意区域使用此扩展一旦您终止缓冲区添加的突出显示就会丢失然而如果能够以持
是否可以向我没有源代码的类添加断点？

我想在 Eclipse 中的类中添加断点但我没有它的源代码是否可以在其中添加断点就我而言我实际上只需要知道何时调用方法附带说明有人有 j2ee api 1 3 jar 的源代码吗如果打开大纲视图您可以选择一种方法右键单击并
IntelliJ 社区找不到 Web 应用程序 Artifact 来生成 WAR

我在用着IntelliJ IDEA 社区版生成一个war来自 Maven 项目的文件当谈到生成这个战争文件时我在工件中找不到战争选项我尝试过 1 前往文件 gt 项目结构 gt 工件 gt 类型但是没有提到WAR 2 右键单击项目模
绑定 Span 的内容

我有一个显示文本的窗口文本有两部分第一部分是固定的而第二部分需要是在窗口上声明的 DependencyProperty 的内容我考虑使用包含两个 Span 的 TextBlock 第一个包含固定内容第二个包含可变内容但我在 Sp
SQL Server 2008存储过程结果作为列默认值

首先谢谢各位当我什至找不到词语来解释我到底想做什么时你总是知道如何指导我我的几个表上的列的默认值需要等于其他表中其他列上的一些复杂计算的结果我的第一个想法是简单地让列默认值等于存储过程的结果我还会从调用表的列中提取一个或多个参数
在 CakePHP 应用程序中启用 CORS

我正在尝试为 CakePHP 中内置的 API 启用 CORS 以便可以通过 AppController 中的以下内容访问所有请求 public function beforeFilter header Access Control All
尽管文件可访问，但“Lighthouse 无法下载 robots.txt 文件”

我有一个NodeJS NextJS应用程序运行于http www schandilla com http www schandillia com 该项目有一个机器人 txt文件可访问于http www schandillia com rob
Spark 与 scala [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案考虑 2 个数据框holiday df and everyday df有 3 列如下假期 df 5 条记录 Count
如何从sparkContext读取特定行

您好我正在尝试使用 Spark 从文本文件中读取特定行 SparkConf conf new SparkConf setAppName appName setMaster master sc new JavaSparkContext co

如何从sparkContext读取特定行

如何从sparkContext读取特定行 的相关文章

随机推荐

热门标签

如何从sparkContext读取特定行的相关文章