使用 java Spark 从 csv 读取列

2024-04-12

我尝试用java和spark读取csv。

现在我这样做：

    String master = "local[2]";
    String csvInput = "/home/username/Downloads/countrylist.csv";
    String csvOutput = "/home/username/Downloads/countrylist";

    JavaSparkContext sc = new JavaSparkContext(master, "loadwholecsv", System.getenv("SPARK_HOME"), System.getenv("JARS"));

    JavaRDD<String> csvData = sc.textFile(csvInput, 1);
    JavaRDD<List<String>> lines = csvData.map(new Function <String, List<String>>() {
        @Override
        public List<String> call(String s) {
            return new ArrayList<String>(Arrays.asList(s.split("\\s*,\\s*")));
        }
    });

所以我将 csv 文件的所有“行”作为我的 RDD 中的一行。我还编写了这个方法来获取列：

public static JavaRDD<String> getColumn (JavaRDD<List<String>> data, final int index)
{
    return data.flatMap(
        new FlatMapFunction <List<String>, String>() 
        {
            public Iterable<String> call (List<String> s) 
            {
                return Arrays.asList(s.get(index));
            }
        }
    );
}

但后来我想对列进行许多转换并更改列的位置等。因此，将 RDD 中的列填充为数组列表而不是行会更容易。

有谁知道如何实现这一目标？我不想多次调用“getColumn()”。

如果你能帮助我那就太好了。

解释：我的 csvData 看起来像这样：

one, two, three
four, five, six
seven, eight, nine

我的 RDD 线路如下所示：

[one, two, three]
[four, five, six]
[seven, eigth, nine]

But我要这个：

[one, four, seven]
[two, five, eight]
[three, six, nine]

要进行基于映射缩减的矩阵转置（这基本上就是所要求的），您将继续执行以下操作：

将您的行转换为索引元组：（提示：使用 zipWithIndex 和 map）

[(1,1,one), (1,2,two), (1,3,three)]
[(2,1,four), (2,2,five), (2,3,six)]
[(3,1,seven), (3,2,eigth), (3,3,nine)]

将列作为键添加到每个元组：（提示：使用映射）

[(1,(1,1,one)), (2,(1,2,two)), (3,(1,3,three))]
[(1,(2,1,four)), (2,(2,2,five)),(3,(2,3,six))]
[(1,(3,1,seven)), (2,(3,2,eigth)), (3,(3,3,nine))]

按键分组

[(1,[(3,1,seven), (1,1,one), (2,1,four)])]
[(2,[(1,2,two), (3,2,eigth), (2,2,five)])]
[(3,[,(2,3,six),(1,3,three), (3,3,nine))])]

按顺序对值进行排序并删除索引工件（提示：地图）
```
[ one, four, seven ]
[ two, five, eigth ]
[ three, six, nine ]
```

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

csv

apachespark

使用 java Spark 从 csv 读取列的相关文章

Java，顺序流在哪个线程中执行？

在阅读有关流的文档时我遇到了以下句子 attempting to access mutable state from behavioral parameters presents you with a bad choice if you
类型已知，但方法指的是缺失类型

我对 java 和 Eclipse 不太有经验但遇到以下问题我正在写类似的东西 Point3D myPoint myClass myMethod arg 我收到错误方法 myMethod myType arg 引用缺失的类型 Poin
是否可以使用 Java 读写 Parquet，而不依赖 Hadoop 和 HDFS？

我一直在寻找这个问题的解决方案在我看来如果不引入对 HDFS 和 Hadoop 的依赖就无法在 Java 程序中嵌入读写 Parquet 格式它是否正确我想在 Hadoop 集群之外的客户端计算机上进行读写我开始对 Apache
垂直 ViewPager 中的动画

我需要垂直制作这个动画ViewPager https www youtube com watch v wuE 4jjnp3g https www youtube com watch v wuE 4jjnp3g 这是我到目前为止所尝试的 vi
在 Eclipse 3.5 上安装旧版 TestNG 插件时出现问题

我正在尝试在 eclipse 3 5 上安装 TestNG 5 11 并获得以下信息 eclipse buildId unknown java version 1 6 0 19 java vendor Sun Microsystems In
Java Junit 测试 HTTP POST 请求

我需要测试以下方法而不改变方法本身该方法向服务器发出 POST 方法但我需要制作一个独立于服务器的测试用例在将其重定向到本地文件之前我测试了类似的方法但为此我将协议指定为文件主机名指定为 localhost 端口指定为 1 我的
java项目中无法加载类“org.slf4j.impl.StaticLoggerBinder”错误？ [复制]

这个问题在这里已经有答案了我越来越Failed to load class org slf4j impl StaticLoggerBinder 错误我想将记录器写入文件所以我使用了 log4j jar 并使用 apache tomca
使用 Jena 查询维基数据

目前 Wikidata 有一个 SPARQL 端点 https query wikidata org https query wikidata org 我想使用 Jena 3 0 1 查询此网站我使用以下代码但收到错误消息端点返回的
是否可以手动检查 LocateRegistry 是否存在？

I 已经发现 https stackoverflow com a 8338852 897090一种安全的方式获得LocateRegistry 即使注册表尚不存在 Registry registry null try registry Loc
错误膨胀类 android.support.design.widget.NavigationView [启动时崩溃]

该应用程序应该有一个导航抽屉可以从左侧拉出并显示各种活动但是一旦将导航栏添加到 XML Activity homescreen 文档中应用程序一启动就会崩溃主屏幕 java package com t99sdevelopment c
Java HashSet 是线程安全的只读吗？

如果我通过 Collections unmodifyingSet 运行 HashSet 实例后它是线程安全的吗我问这个是因为 Set 文档声明它不是但我只是执行读取操作来自 Javadoc 请注意此实现不是同步的如果多个线程同时
接口是否像对象一样对待？

为什么下面的代码可以工作 interface I class A implements I public String toString return in a class B extends A public String toStrin
如何在 spring-data 中强制使用 CrudRepository 进行预加载？

我有一个实体其中包含List就是这样lazy默认加载 interface MyEntityRepository extends CrudRepository
JPA Web 应用程序管理策略

我们目前正在开发一个 J2EE Web 应用程序使用 JPA 作为我们的数据访问层我们目前正在研究几种不同的策略来在我们的应用程序中利用缓存 Create an EntityManager per request 在请求范围内获取缓存
无法连接到docker中的elasticsearch容器

我正在尝试使用 docker 的官方 elasticsearch 镜像我遵循了本指南 https www elastic co guide en elasticsearch reference current docker html但是当
在java中执行匿名pl/sql块并获取结果集

我想执行匿名 PL SQL 并需要获取结果集对象我得到了可以通过在 PL SQL 块内使用游标来完成的代码但 PL SQL 块本身将以文本形式来自数据库所以我无法编辑该 PL SQL 块并且它只会返回两个值其列名始终相同它将返回
检查按钮是否可用？如果没有，请等待 5 秒钟，然后再次检查？

基本上我想看看此刻是否可以单击按钮如果没有我想再试一次所以我需要某种 goto 函数来返回到代码的前一行尽管我怀疑我写得非常糟糕但它本来可以做得更容易 try driver findElement By xpath button i
com.sun.xml.ws.message.saaj.SAAJHeader 无法转换为 com.sun.xml.ws.security.opt.impl.outgoing.SecurityHeader

我正在尝试访问第三方 Web 服务该服务要求我创建一个传递时间信息用户名和密码的安全标头我在网上搜索了可行的示例并尝试了多种方法我正在尝试使用 Java 6 中内置的内容来做到这一点我不确定我做错了什么从 WSDL 生成 We
Android ClassNotFoundException：在路径上找不到类

10 22 15 29 40 897 E AndroidRuntime 2561 FATAL EXCEPTION main 10 22 15 29 40 897 E AndroidRuntime 2561 java lang Runtime
如何使用socket.io发送图像文件（二进制数据）？

我无法从以下位置发送数据Android Client to NodeJS Server I use Socket IO 客户端 https github com socketio socket io client java我的客户端中的ja

随机推荐

生成谷歌地图图像[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我想允许我的网站的最终用户生成谷歌地
如何使用Logback以JSON方式登录？

我是 SLF4J 和 Logback 的新手我正在尝试记录以下 API 的每个请求和响应link https pivotal io de application transformation recipes observability r
内容可编辑和非按钮元素

如果使用按钮我可以轻松地对内容可编辑的选择执行 execcommand 但是使用任何其他元素都会失败 http jsbin com atike edit http jsbin com atike edit 为什么会这样以及如何使用 div
具有通用向量和对类型的对向量，模板的模板

我想将一个成对的向量传递给一个函数实际的向量实现以及对的类型应该是模板参数我想到了这样的事情 template
jquery - firefox 中的 event.preventDefault()

我有问题event preventDefault 在 Firefox 中它不起作用这是 jquery 代码 facebook del 1 click function event preventDefault var selector
MVC（模型-视图-控制器）——能用简单的术语解释一下吗？ [关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我需要向一位不太懂技术的经理解释 MVC 模型视图控制器概念但遇到了麻烦问题是解释需要处于你的奶奶会明白的水平例如即使是相当简单的解释
如何快速发送自动短信？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想在我的应用程序中自动发送短信我怎样才能快速做到这一点我使用 MFMessageComposeViewController 发送
对 Map 列表进行排序

我有一个像这样创建的列表变量 List
观察者 - 显式指定感兴趣的修改 - JAVA 实现

I asked here https stackoverflow com questions 65198966 observer pattern observe attributes independently当我需要通知时我应该如何处理这
为什么“System.out.println”在 Android 中不起作用？

我想在控制台中打印一些内容以便我可以调试它但由于某种原因我的 Android 应用程序中没有打印任何内容那我该如何调试呢 public class HelloWebview extends Activity WebView webv
Angular 2 引导选项 - AOT 与 JIT

刚开始使用 Angular 2 Angular 2 中的各种 Bootstrapping 选项有哪些为什么当我进行更改并刷新时 index html 只需要很少的时间来检索 HTML 标记它们之间的区别有两种选择动态引导使用的编译
如何为 Debian/Ubuntu 打包 Mono 应用程序

是否有任何用于为 Debian Ubuntu 打包 Mono 应用程序的指南或工具比如将应用程序附带的程序集放在哪里等 Mono 有一些关于打包的一般准则但这些准则并非特定于 Debian Ubuntu 它们的做法可能有所不同 http
C：将x86指令放入数组并执行它们[重复]

这个问题在这里已经有答案了有没有办法将处理器指令放入数组中使其内存段可执行并将其作为简单函数运行 int main char myarr 13 0x90 0xc3 void myfunc void myarr myfunc return
Google Calendar API - 通过服务帐户访问自己的日历

我想访问 Google Calendar API 以使用 Python 插入条目我创建了一个服务帐号在Google API控制台上添加私钥下载它但是当我尝试修改同一帐户上的任何日历时我收到以下错误消息读书作品 Code is
scala 框架中支持 PostgreSQL 特定的 array_agg 函数吗？

是否有一些 scala 关系数据库框架 anorm squeryl 等使用类似 postgres 的聚合器在分组后生成列表或者至少模拟其使用我期望有两个层次的实施一个标准的其中至少任何带有 array agg 的 SQL 分组
我的 Rails 应用程序的捆绑包安装冻结

有时在使用 Rails 应用程序时运行bundle install命令在处理 Rails Gemfile 时冻结我尝试过清除缓存但没有任何改善请务必仔细检查并确保您声明的是 Rails 版本如果不声明版本 Bundler 最终可
将值传递给 Android 中的自定义视图

Cheers 我有一个接收用户输入 2 个数字宽度和高度的应用程序理论上根据该输入我有一个应该绘制网格宽度和高度的自定义视图 Note 应在视图尝试绘制自身之前接收这两个值这两个值不是恒定的因此我认为 XML 方法没有帮助
在 R 中使用 igraph 获取连接组件

我想找到一张图的所有连接组件其中组件具有多个元素使用clusters给出不同集群的成员资格并使用cliques不给出连通分量这是后续 R中列表的多重交集 https stackoverflow com questions 304065
C++ #include 语义

这是同一预处理指令的多个问题 1 或除了 MSDN 中找到的信息之外 include 指令 C C https msdn microsoft com en us library 36k2cdd4 aspx 1 a 这两种表示法有什么区别
使用 java Spark 从 csv 读取列

我尝试用java和spark读取csv 现在我这样做 String master local 2 String csvInput home username Downloads countrylist csv String csvOutpu

使用 java Spark 从 csv 读取列

使用 java Spark 从 csv 读取列 的相关文章

随机推荐

热门标签

使用 java Spark 从 csv 读取列的相关文章