如何在 Spark Java 中遍历/迭代数据集？

2024-03-29

我正在尝试遍历数据集来进行一些字符串相似度计算，例如 Jaro winkler 或余弦相似度。我将数据集转换为行列表，然后使用 for 语句进行遍历，这不是有效的 Spark 方法。所以我期待 Spark 中有更好的方法。

public class sample {

    public static void main(String[] args) {
        JavaSparkContext sc = new JavaSparkContext(new SparkConf().setAppName("Example").setMaster("local[*]"));
        SQLContext sqlContext = new SQLContext(sc);
        SparkSession spark = SparkSession.builder().appName("JavaTokenizerExample").getOrCreate();

        List<Row> data = Arrays.asList(RowFactory.create("Mysore","Mysuru"),
                RowFactory.create("Name","FirstName"));
        StructType schema = new StructType(
                new StructField[] { new StructField("Word1", DataTypes.StringType, true, Metadata.empty()),
                        new StructField("Word2", DataTypes.StringType, true, Metadata.empty()) });

        Dataset<Row> oldDF = spark.createDataFrame(data, schema);
        oldDF.show();
        List<Row> rowslist = oldDF.collectAsList(); 
    }
}

我发现了很多我不清楚的JavaRDD示例。数据集的示例将对我有很大帮助。

您可以使用org.apache.spark.api.java.function.ForeachFunction像下面这样。

oldDF.foreach((ForeachFunction<Row>) row -> System.out.println(row));

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

apachespark

Iterator

apachespark20

apachesparkdataset

如何在 Spark Java 中遍历/迭代数据集？的相关文章

Thread.yield()之后线程的Thread.State是什么？

是什么Thread State之后的一个线程Thread yield 是不是一个Thread State WAITING 谢谢不线程仍会在RUNNABLE http download oracle com docs cd E17409
Java 中的递归回溯解决填字游戏

我需要在给定初始网格和单词的情况下解决填字游戏单词可以多次使用或根本不使用初始网格如下所示这是一个单词列表示例 pain nice pal id 任务是填充占位符水平或垂直长度 gt 1 像那样 p pain pal id i c
Spring MVC 配置启用

我正在从头开始建立一个项目目前我正在配置Spring MVC 4 1 5使用java配置整个应用程序正在 tomcat gradle 插件上运行有人可以解释一下为什么我需要对班级进行以下调用DefaultServletHandlerC
Java 8 列表到带有总和的 EnumMap

我有以下课程 public class Mark private Long id private Student student private Integer value 0 private Subject subject public
从 Spark-Shell (pyspark) 查询 Spark 流应用程序

我正在关注这个example http cdn2 hubspot net hubfs 438089 notebooks spark2 0 Structured 20Streaming 20using 20Python 20DataFrame
从 Java 监听系统鼠标点击

我的主要目的是计算特定应用程序上的鼠标点击次数想象一下我在 PC 上打开了 Microsoft Word 和 Web 浏览器我的 Java 代码应该告诉我单击 Word 和 Web 浏览器的次数我需要应用程序名称和点击次数我怎样才
Hamcrest 与 MockMvc：检查键是否存在，但值可能为空

我正在使用 MockMvc 进行一些测试我想验证 JSON 响应的结构具体来说我想确保属性的键存在并且值是某种类型或为 null keyToNull null This may be null or a String keyToSt
实现一个java UDF并从pyspark调用它

我需要创建一个在 pyspark python 中使用的 UDF 它使用 java 对象进行内部计算如果它是一个简单的 python 我会做类似的事情 def f x return 7 fudf pyspark sql functions
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
将 LinkedHashset 内容复制到新的 ArrayList？

我有一个最初包含一些内容的 listView 如果它得到相同的内容我通过删除重复linkedhashset 现在我想复制linkedhashset内容即没有重复的内容到新的ArrayList 我尝试复制通过 p addAll 0 lh
谷歌gson LinkedTreeMap类转换为myclass

我知道这个问题以前已经被问过由于我对java和android的新手技能我一个多星期都无法解决这个问题我和我的一位朋友正在开发一个 Android 项目其中有一些类似的事情最奇怪的部分是只有当我从 Google Play 商店下载
有人使用 Hibernate 使用 Elasticache 作为二级缓存吗？

我发现一些线程说这是可行的但没有找到具体的说明或配置信息我也想从 Beanstalk 执行此操作应用程序应该部署到 beanstalk 并使用将 hibernate 指向 elasticache 实例的配置是的我们能够使用二级缓存
如何将 HTML 转换为保留换行符的文本

我如何将 HTML 转换为保留换行符的文本由 br p div 等元素生成可能使用NekoHTML http nekohtml sourceforge net 或任何足够好的 HTML 解析器 Example Hello br Worl
如何处理MaxUploadSizeExceededException

MaxUploadSizeExceededException当我上传的文件大小超过允许的最大值时会出现异常我想在出现此异常时显示错误消息如验证错误消息我该如何处理这个异常以便在 Spring 3 中执行类似的操作 Thanks 这
如何使用放心发送Content-Type表单数据请求？

我需要使用 Rest Assured 调用表单数据类型 API 这是我的代码 private Map
在 IntelliJ Scala 控制台中运行时如何设置 Spark MemoryStore 大小？

我正在 Linux 64 Fedora 25 上的 Intellij CE 2017 1 Scala 控制台中将 Spark 代码作为脚本运行我在开始时设置了 SparkContext import org apache spark Sp
GWT 和身份验证

保护 GWT Tomcat 应用程序执行身份验证和授权的最佳策略是什么有两种基本策略确保入口点安全确保远程服务的安全确保入口点安全最简单的方法是使用常规 Web 应用程序安全工具限制对 GWT 生成的 html js 文件的访问
缓冲区溢出（与）缓冲区溢出（与）堆栈溢出[重复]

这个问题在这里已经有答案了可能的重复堆栈溢出和缓冲区溢出有什么区别 https stackoverflow com questions 1120575 what is the difference between a stack ove
Oracle 的商业 Hotspot JVM 相对于 OpenJDK 有哪些性能优势？

正如这个问题中所描述的 OpenJDK 与 Java HotspotVM https stackoverflow com q 44335605 1593077 Oracle 的商业 Hotspot JVM 本质上是 OpenJDK 加上一些
像 Java 一样覆盖 Objective-C 类中的方法

我经常使用此语句来扩展类而不需要编写整个单独的文件假设 ClassFromFramework 是库中包含的框架的一部分的类 public ClassFromFramework public String myMethod operati

随机推荐

无法更改样式：使用 getelementsbyclassname 显示

document getElementByClassName xyz style display none 我无法隐藏课程内容 document getElementsByClassName返回一个类似数组的对象您可以为此使用以下脚本 d
如何减少Flutter的build_runner构建时间

我的项目变得非常大每次运行 build runner 都会花费太多时间来构建我减少构建时间的想法是仅构建实际需要构建的文件这些文件是我当前功能目录的文件有没有办法只为单个文件夹或单个文件运行 build runner 您可以在 bu
Android 中的语音通话录音应用

我想做一个录音通话的应用程序可以吗我期待 Android 领域经验丰富的人提供一些适当的指导我在android中看到了android media MediaRecorder类我需要使用那个类吗感谢致敬帕瓦蒂卡玛隆抱歉开发人
右值到左值转换 Visual Studio

在 Visual Studio 2012RC 中存在一些非标准扩展例如这段代码编译 include
Puppeteer：从使用延迟加载的页面中抓取整个 html

我正在尝试获取使用延迟加载的网页上的整个 html 我尝试过的是一直滚动到底部然后使用 page content 我还尝试在滚动到底部后滚动回页面顶部然后使用 page content 两种方法都会抓取表格的一些行但不是全部这是我的
ActionBar.Tab 类型已弃用

我正在尝试在 Eclipse 中创建滑动选项卡但是当我导入时android app ActionBar Tab 它警告我导入 ActionBar Tab 类型已弃用它使我的大部分代码成为警告并删除它 import android sup
当浏览器忙于执行一些长时间运行的 JavaScript 时，WebDriver API 阻塞行为

我在文档中的某个地方读到 WebDriver API 是非阻塞的除了一些像 driver get 的 API 因此执行 WebElement click 或 isDisplayed 通常应该是异步的当然假设启用了本机事件我有一个简
Django：渲染快捷函数中的 context_instance 参数有什么用？

有关渲染快捷方式的文档 https docs djangoproject com en 1 3 topics http shortcuts render 根据上面的链接上下文实例参数定义为用于渲染模板的上下文实例默认情况下模板将
查找张量中沿轴的非零元素的数量

我想找到沿特定轴的张量中非零元素的数量有没有 PyTorch 函数可以做到这一点我尝试使用非零 http pytorch org docs master torch html highlight nonzero torch nonzer
NSMutableArray 在 iPhone 应用程序中使用 NSLog 时不显示实际值

我正在做一个数组的 NSLog 但它显示以下值而不是数据我不知道如何解决这个问题并从数组中获取值 if surveyQuestions surveyQuestions NSMutableArray alloc init Total Sur
pandas 中没有“from_csv”方法

当我尝试使用时from csvpython 3 7 中的方法我收到归因错误 import pandas as pd pd DataFrame from csv adr AttributeError type object DataFram
从javascript中的日期获取月份数

我有一个 daterangepicker 函数它以 2016 年 5 月 6 日的格式返回选定的日期我想要做的是将月份提取为整数因此从上面我应该能够返回数字 5 这是返回所选日期的代码行 getDateString new Date
列表理解创建嵌套列表

我想创建每月天数列表每年列表的嵌套列表 31 29 31 30 31 28 31 30 with mm 1 2 3 4 yy 2012 2013 但我的代码 result append calendar monthrange y m 1 f
透明菜单/导航栏

我无法解决 CSS 问题我有一个应该是透明的导航栏但由于不透明度属性以及它们是透明导航栏的子元素其上的链接也会变得透明你能帮我解决这个问题吗如果您不希望链接文本受到影响您应该修改以下规则容器选择器看起来像这样 containe
使用wireshark或其他工具绘制RTT直方图

我有一个小型办公室网络但我遇到了巨大的互联网链接延迟我们有一个简单的网络拓扑一台配置为运行 ubuntu 服务器 10 10 的路由器的计算机 2 个网卡一个连接互联网另一个连接办公室网络和一个连接 20 台计算机的交换机我在
私有继承 VS 组合：什么时候使用哪个？

私有继承VS组合我有点困惑何时使用它们由于私有继承在某种程度上密封了继承链给出 class A private int z protected int y public int x class B private A B s data
QTreeView自定义各行的行高

是否可以重新定义某个行中某些单独行的行高QTreeView 我有一个习惯QTreeView 风俗QAbstractItemModel和一个习惯QStyledItemDelegate 但似乎所有的sizeHint方法要么只调用一次最初要么
如何在CARET中自定义模型来执行PLS-[Classifier]两步分类模型？

这个问题是同一线程的延续here https stats stackexchange com questions 81727 what is the best strategy to train and validate classific
iOS 错误：“xxxx”没有可见的 @interface 声明选择器“alloc”

这是我的 TextValidator 类 TextValidator h import
如何在 Spark Java 中遍历/迭代数据集？

我正在尝试遍历数据集来进行一些字符串相似度计算例如 Jaro winkler 或余弦相似度我将数据集转换为行列表然后使用 for 语句进行遍历这不是有效的 Spark 方法所以我期待 Spark 中有更好的方法 public cl

如何在 Spark Java 中遍历/迭代数据集？

如何在 Spark Java 中遍历/迭代数据集？ 的相关文章

随机推荐

热门标签

如何在 Spark Java 中遍历/迭代数据集？的相关文章