apachesparkdataset

将案例类传递给函数参数

抱歉问了一个简单的问题我想将案例类传递给函数参数并且想在函数内部进一步使用它到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因我无法正确使用它或者可能是我没有看到正确的位置用例与此类似 case c

scala apachespark apachesparkdataset caseclass classtag

如何查找组中第一个非空值？（使用dataset api进行二次排序）

我正在研究一个代表事件流的数据集例如从网站跟踪事件时触发所有事件都有一个时间戳我们经常遇到的一个用例是尝试查找给定字段的第一个非空值例如类似的东西最能让我们到达那里 val eventsDf spark read json jso

apachespark apachesparksql apachesparkdataset

Spark 编码器：何时使用 beans()

我在使用Spark的缓存机制时遇到了内存管理问题我目前正在使用Encoder我正在使用 Kryo 想知道切换到 beans 是否可以帮助我减少缓存数据集的大小基本上在使用时使用 beans 相对于 Kryo 序列化有哪些优点和缺点En

Spark 数据集编码器：kryo() 与 bean()

在 Spark 中处理数据集时我们需要指定编码器来序列化和反序列化对象我们可以选择使用Encoders bean Class

apachespark apachesparkdataset Encoder kryo

如何在 Spark Java 中遍历/迭代数据集？

我正在尝试遍历数据集来进行一些字符串相似度计算例如 Jaro winkler 或余弦相似度我将数据集转换为行列表然后使用 for 语句进行遍历这不是有效的 Spark 方法所以我期待 Spark 中有更好的方法 public cl

Java apachespark Iterator apachespark20 apachesparkdataset

SparkContext、JavaSparkContext、SQLContext 和 SparkSession 之间的区别？

有什么区别SparkContext JavaSparkContext SQLContext and SparkSession 是否有任何方法可以使用 a 来转换或创建上下文SparkSession 我可以使用一个条目完全替换所有上下文吗Sp

Java scala apachespark RDD apachesparkdataset

Spark SQL 中的数组交集

我有一个表其中包含名为的数组类型列writer其值如下array value1 value2 array value2 value3 ETC 我在做self join获得数组之间具有共同值的结果我试过 sqlContext sql SE

apachespark apachesparksql HiveQL apachesparkdataset

将 sql 查询转换为等效的 Spark 查询

我在用spark sql 2 4 1v用java8 我有如下所示的场景片段 Dataset

apachespark java8 apachesparksql apachesparkdataset

Spark 2.0 DataSets groupByKey 和除法操作以及类型安全

我对 Spark 2 0 DataSets 非常满意因为它的编译时类型安全但这里有几个我无法解决的问题我也没有找到很好的文档问题 1 对聚合列进行除法运算考虑下面的代码我有一个 DataSet MyCaseClass 我想对 c

scala apachespark apachesparksql apachesparkdataset

如何在 Spark DataFrame/DataSet 中将行拆分为不同的列？

假设我有如下数据集 Name Subject Y1 Y2 A math 1998 2000 B 1996 1999 science 2004 2005 我想分割该数据集的行以便消除 Y2 列如下所示 Name Subject Y1 A

apachespark apachesparksql apachesparkdataset

使用 typedcolumn 选择 Spark 数据集

看着select Spark DataSet 上的函数有各种生成的函数签名 c1 TypedColumn MyClass U1 c2 TypedColumn MyClass U2 这似乎暗示我应该能够直接引用 MyClass 的成员并且类型

scala apachespark apachesparkdataset

Spark 读取镶木地板文件时出现问题

我有 2 个镶木地板零件文件part 00043 0bfd7e28 6469 4849 8692 e625c25485e2 c000 snappy parquet 是 2017 年 11 月 14 日运行的部分文件和part 00199

scala apachespark parquet apachesparkdataset

如何将Spark Row的数据集转换为字符串？

我已经编写了使用 SparkSQL 访问 Hive 表的代码这是代码 SparkSession spark SparkSession builder appName Java Spark Hive Example master local

Java string apachespark apachesparksql apachesparkdataset

仅覆盖分区 Spark 数据集中的部分分区

我们如何覆盖分区数据集但只覆盖我们要更改的分区例如重新计算上周的日常工作并且只覆盖上周的数据 Spark 的默认行为是覆盖整个表即使只写入某些分区从 Spark 2 3 0 开始这是覆盖表时的一个选项要覆盖它您需要设置新的

apachespark hive apachesparkdataset

Spark 数据集唯一 id 性能 - row_number 与 monotonically_increasing_id

我想为我的数据集行分配一个唯一的 ID 我知道有两种实现选项第一个选项 import org apache spark sql expressions Window ds withColumn id row number over Win

scala apachespark apachesparksql apachesparkdataset

Spark 2数据集空值异常

在 Spark Dataset filter 中出现此 null 错误输入 CSV name age stat abc 22 m xyz s 工作代码 case class Person name String age Long stat

scala apachespark apachesparksql apachesparkdataset

Spark java：使用给定模式创建新数据集

我有这段代码在 scala 中运行良好 val schema StructType Array StructField field1 StringType true StructField field2 TimestampType true

Java scala apachespark apachesparkdataset

Spark / Scala：用最后的良好观察填充 nan

我正在使用 Spark 2 0 1 并希望用列中最后一个已知的值填充 nan 值我能找到的唯一关于火花的参考Spark Scala 使用最后一次观察进行前向填充 or 用 pyspark 之前已知的良好值填充 null似乎使用RDD 我宁

scala apachespark apachesparksql NaN apachesparkdataset

如何在spark结构化流连接中选择最新记录

我使用的是spark sql 2 4 x版本 datastax spark cassandra connector用于Cassandra 3 x版本和卡夫卡一起我有货币样本的汇率元数据如下 val ratesMetaDataDf Seq

apachespark apachesparksql SparkStreaming apachesparkdataset

自定义类型编码后无法操作？ Spark数据集

假设你有这个编码自定义类型的解决方案来自这个线程 assume we handle custom type class MyObj val i Int val j String implicit val myObjEncoder org

apachespark apachesparkdataset kryo apachesparkencoders