Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
将案例类传递给函数参数
抱歉问了一个简单的问题 我想将案例类传递给函数参数 并且想在函数内部进一步使用它 到目前为止我已经尝试过这个TypeTag and ClassTag但由于某种原因 我无法正确使用它 或者可能是我没有看到正确的位置 用例与此类似 case c
scala
apachespark
apachesparkdataset
caseclass
classtag
如何查找组中第一个非空值? (使用dataset api进行二次排序)
我正在研究一个代表事件流的数据集 例如从网站跟踪事件时触发 所有事件都有一个时间戳 我们经常遇到的一个用例是尝试查找给定字段的第一个非空值 例如 类似的东西最能让我们到达那里 val eventsDf spark read json jso
apachespark
apachesparksql
apachesparkdataset
Spark 编码器:何时使用 beans()
我在使用Spark的缓存机制时遇到了内存管理问题 我目前正在使用Encoder我正在使用 Kryo 想知道切换到 beans 是否可以帮助我减少缓存数据集的大小 基本上 在使用时使用 beans 相对于 Kryo 序列化有哪些优点和缺点En
Spark 数据集编码器:kryo() 与 bean()
在 Spark 中处理数据集时 我们需要指定编码器来序列化和反序列化对象 我们可以选择使用Encoders bean Class
apachespark
apachesparkdataset
Encoder
kryo
如何在 Spark Java 中遍历/迭代数据集?
我正在尝试遍历数据集来进行一些字符串相似度计算 例如 Jaro winkler 或余弦相似度 我将数据集转换为行列表 然后使用 for 语句进行遍历 这不是有效的 Spark 方法 所以我期待 Spark 中有更好的方法 public cl
Java
apachespark
Iterator
apachespark20
apachesparkdataset
SparkContext、JavaSparkContext、SQLContext 和 SparkSession 之间的区别?
有什么区别SparkContext JavaSparkContext SQLContext and SparkSession 是否有任何方法可以使用 a 来转换或创建上下文SparkSession 我可以使用一个条目完全替换所有上下文吗Sp
Java
scala
apachespark
RDD
apachesparkdataset
Spark SQL 中的数组交集
我有一个表 其中包含名为的数组类型列writer其值如下array value1 value2 array value2 value3 ETC 我在做self join获得数组之间具有共同值的结果 我试过 sqlContext sql SE
apachespark
apachesparksql
HiveQL
apachesparkdataset
将 sql 查询转换为等效的 Spark 查询
我在用spark sql 2 4 1v用java8 我有如下所示的场景 片段 Dataset
apachespark
java8
apachesparksql
apachesparkdataset
Spark 2.0 DataSets groupByKey 和 除法操作以及类型安全
我对 Spark 2 0 DataSets 非常满意 因为它的编译时类型安全 但这里有几个我无法解决的问题 我也没有找到很好的文档 问题 1 对聚合列进行除法运算 考虑下面的代码 我有一个 DataSet MyCaseClass 我想对 c
scala
apachespark
apachesparksql
apachesparkdataset
如何在 Spark DataFrame/DataSet 中将行拆分为不同的列?
假设我有如下数据集 Name Subject Y1 Y2 A math 1998 2000 B 1996 1999 science 2004 2005 我想分割该数据集的行 以便消除 Y2 列 如下所示 Name Subject Y1 A
apachespark
apachesparksql
apachesparkdataset
使用 typedcolumn 选择 Spark 数据集
看着select Spark DataSet 上的函数有各种生成的函数签名 c1 TypedColumn MyClass U1 c2 TypedColumn MyClass U2 这似乎暗示我应该能够直接引用 MyClass 的成员并且类型
scala
apachespark
apachesparkdataset
Spark 读取镶木地板文件时出现问题
我有 2 个镶木地板零件文件part 00043 0bfd7e28 6469 4849 8692 e625c25485e2 c000 snappy parquet 是 2017 年 11 月 14 日运行的部分文件 和part 00199
scala
apachespark
parquet
apachesparkdataset
如何将Spark Row的数据集转换为字符串?
我已经编写了使用 SparkSQL 访问 Hive 表的代码 这是代码 SparkSession spark SparkSession builder appName Java Spark Hive Example master local
Java
string
apachespark
apachesparksql
apachesparkdataset
仅覆盖分区 Spark 数据集中的部分分区
我们如何覆盖分区数据集 但只覆盖我们要更改的分区 例如 重新计算上周的日常工作 并且只覆盖上周的数据 Spark 的默认行为是覆盖整个表 即使只写入某些分区 从 Spark 2 3 0 开始 这是覆盖表时的一个选项 要覆盖它 您需要设置新的
apachespark
hive
apachesparkdataset
Spark 数据集唯一 id 性能 - row_number 与 monotonically_increasing_id
我想为我的数据集行分配一个唯一的 ID 我知道有两种实现选项 第一个选项 import org apache spark sql expressions Window ds withColumn id row number over Win
scala
apachespark
apachesparksql
apachesparkdataset
Spark 2数据集空值异常
在 Spark Dataset filter 中出现此 null 错误 输入 CSV name age stat abc 22 m xyz s 工作代码 case class Person name String age Long stat
scala
apachespark
apachesparksql
apachesparkdataset
Spark java:使用给定模式创建新数据集
我有这段代码在 scala 中运行良好 val schema StructType Array StructField field1 StringType true StructField field2 TimestampType true
Java
scala
apachespark
apachesparkdataset
Spark / Scala:用最后的良好观察填充 nan
我正在使用 Spark 2 0 1 并希望用列中最后一个已知的值填充 nan 值 我能找到的唯一关于火花的参考Spark Scala 使用最后一次观察进行前向填充 or 用 pyspark 之前已知的良好值填充 null似乎使用RDD 我宁
scala
apachespark
apachesparksql
NaN
apachesparkdataset
如何在spark结构化流连接中选择最新记录
我使用的是spark sql 2 4 x版本 datastax spark cassandra connector用于Cassandra 3 x版本 和卡夫卡一起 我有货币样本的汇率元数据如下 val ratesMetaDataDf Seq
apachespark
apachesparksql
SparkStreaming
apachesparkdataset
自定义类型编码后无法操作? Spark数据集
假设你有这个 编码自定义类型的解决方案来自这个线程 assume we handle custom type class MyObj val i Int val j String implicit val myObjEncoder org
apachespark
apachesparkdataset
kryo
apachesparkencoders
1
2
»