apachespark20

如何在 Spark Java 中遍历/迭代数据集？

我正在尝试遍历数据集来进行一些字符串相似度计算例如 Jaro winkler 或余弦相似度我将数据集转换为行列表然后使用 for 语句进行遍历这不是有效的 Spark 方法所以我期待 Spark 中有更好的方法 public cl

Java apachespark Iterator apachespark20 apachesparkdataset

UDAF 与 Spark 中聚合器的性能比较

我正在尝试在 Spark 中编写一些注重性能的代码并想知道是否应该编写一个聚合器 https spark apache org docs latest api java org apache spark Aggregator html o

避免以编程方式启动使用创建的上下文的 HiveThriftServer2

在 Spark 2 0 0 中我们尝试使用 ThriftServer 从 Spark 临时表中查询数据首先我们创建了启用了 Hive 支持的 SparkSession 目前我们使用 sqlContext 启动 ThriftServe

Hadoop apachespark hive apachesparksql apachespark20

程序执行期间Apache-Spark出现超时异常

我正在 MAC 中运行 Bash 脚本该脚本多次调用用Scala语言编写的spark方法我目前正在尝试使用 for 循环调用此 Spark 方法 100 000 次在运行少量迭代大约 3000 次迭代后代码退出并出现以下异常 o

scala apachespark sparkgraphx apachespark20

使用 extraOptimizations 改造 Spark SQL AST

我想将 SQL 字符串作为用户输入然后在执行之前对其进行转换特别是我想修改顶级投影 select 子句注入要由查询检索的附加列我希望通过使用 Catalyst 来实现这一点sparkSession experimental ext

apachespark apachesparksql apachespark20

在scala Spark2中运行saveAsNewAPIHadoopDataset到hbase时出现空指针异常

我正在使用 saveAsNewAPIHadoopDataset 将 RDD 保存到 Hbase 中以下是我的工作创建和提交 val outputTableName test3 val conf2 HBaseConfiguration cr

scala Hbase apachespark20

集群部署模式下的 Spark-Submit 将应用程序 ID 获取到控制台

我陷入了一个需要快速解决的问题我已经阅读了许多关于 Spark 集群部署模式的帖子和教程但我对这种方法一无所知因为我被困了几天我的用例我有很多使用 spark2 submit 命令提交的 Spark 作业提交后我需要在控制台中打

apachespark logging Log4j log4j2 apachespark20

通过保留顺序，根据 id 列将 Spark DataFrame 拆分为两个 DataFrame（70% 和 30%）

我有一个 Spark 数据框就像 id start time feature 1 01 01 2018 3 567 1 01 02 2018 4 454 1 01 03 2018 6 455 2 01 02 2018 343 4 2 01

apachespark PySpark apachespark20

任务仅在 Spark 中的一个执行器上运行[重复]

这个问题在这里已经有答案了我正在使用 Java 在 Spark 中运行以下代码 Code 测试 java package com sample import org apache spark SparkConf import org ap

apachespark apachespark20 sparksubmit

java.lang.IllegalStateException：读取增量文件时出错，使用 kafka 进行 Spark 结构化流处理

我在我们的项目中使用结构化流 Kafka 进行实时数据分析我使用的是 Spark 2 2 kafka 0 10 2 我在应用程序启动时从检查点进行流式查询恢复期间遇到问题由于单个 kafka 流点派生有多个流查询并且每个流查询都有不同

ApacheKafka apachespark20 SparkStructuredStreaming checkpoint

如何将Spark结构化流数据写入Hive？

如何将Spark结构化流数据写入Hive 有df write saveAsTable tablename 但是我不确定这是否会写入流数据我通常这样做df writeStream trigger new ProcessingTime 100

apachespark hive apachespark20

将系统属性传递给spark-submit并从类路径或自定义路径读取文件

我最近发现一种使用 logback 代替 log4j 的方法 https stackoverflow com a 45480145 1549135在 Apache Spark 中既适合本地使用也适合spark submit 然而还缺少

Java scala apachespark apachespark20 sparksubmit

toDF 的值不是 org.apache.spark.rdd.RDD[(Long, org.apache.spark.ml.linalg.Vector)] 的成员

在 SPARK 2 0 中使用 SCALA 将 pre LDA 转换转换为数据帧时遇到编译错误抛出错误的具体代码如下 val documents PreLDAmodel transform mp listing lda df select

apachespark apachespark20

如何从下载 Spark 页面的源代码构建 Spark？

我尝试在 Ubuntu 16 04 的 Ubuntu VM 上安装和构建 Spark 2 0 0 如下所示安装Java sudo apt add repository ppa webupd8team java sudo apt get u

scala Ubuntu sbt apachespark20

Spark 2.1.0中读取大文件时出现内存不足错误

我想使用 Spark 将大型 51GB XML 文件在外部 HDD 上读取到数据帧中使用Spark XML 插件 https github com databricks spark xml 进行简单的映射过滤重新排序然后将其作为

xml scala apachespark apachespark20 apachesparkxml

到处导入 Spark 隐式的解决方法

我是 Spark 2 0 的新手并且在我们的代码库中使用数据集我有点注意到我需要import spark implicits 在我们的代码中随处可见例如 File A class A def job spark SparkSessio

scala apachespark apachesparksql apachespark20 implicits

不支持 Any 类型的架构

我正在尝试创建一个 Spark UDF 以从用户定义的案例类中提取键值对的映射 scala 函数似乎工作正常但是当我尝试将其转换为 Spark2 0 中的 UDF 时我遇到了不支持 Any 类型的架构错误 case class

scala apachespark apachesparksql UDF apachespark20

从 JDBC 创建 Spark 数据帧时如何指定 sql 方言？

我在使用 Spark 通过自定义 JDBC 读取数据时遇到问题我将如何覆盖通过 jdbc url 推断的 sql 方言有问题的数据库是 vitess https github com youtube vitess 它运行一个 mysql

apachespark JDBC apachesparksql apachespark20 vitess

将新的拟合阶段添加到现有 PipelineModel 中，无需再次拟合

我想将几个经过训练的管道连接到一个这类似于 Spark 将新的拟合阶段添加到现有 PipelineModel 中无需再次拟合但是下面的解决方案适用于 PySpark gt pipe model new PipelineModel st

apachespark pipeline apachesparkml apachespark20

Apache Spark Dataframe - 从 CSV 文件的第 n 行加载数据

我想处理一个巨大的订单 CSV 文件 5GB 在文件开头有一些元数据行标题列在第 4 行中表示以 h 开头后跟另一个元数据行描述可选性数据行以 d 开头 m Version v1 0 m Type xx m

apachespark apachesparksql apachespark20