Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何在 Spark Java 中遍历/迭代数据集?
我正在尝试遍历数据集来进行一些字符串相似度计算 例如 Jaro winkler 或余弦相似度 我将数据集转换为行列表 然后使用 for 语句进行遍历 这不是有效的 Spark 方法 所以我期待 Spark 中有更好的方法 public cl
Java
apachespark
Iterator
apachespark20
apachesparkdataset
UDAF 与 Spark 中聚合器的性能比较
我正在尝试在 Spark 中编写一些注重性能的代码 并想知道是否应该编写一个聚合器 https spark apache org docs latest api java org apache spark Aggregator html o
避免以编程方式启动使用创建的上下文的 HiveThriftServer2
在 Spark 2 0 0 中 我们尝试使用 ThriftServer 从 Spark 临时表中查询数据 首先 我们创建了启用了 Hive 支持的 SparkSession 目前 我们使用 sqlContext 启动 ThriftServe
Hadoop
apachespark
hive
apachesparksql
apachespark20
程序执行期间Apache-Spark出现超时异常
我正在 MAC 中运行 Bash 脚本 该脚本多次调用用Scala语言编写的spark方法 我目前正在尝试使用 for 循环调用此 Spark 方法 100 000 次 在运行少量迭代 大约 3000 次迭代 后 代码退出并出现以下异常 o
scala
apachespark
sparkgraphx
apachespark20
使用 extraOptimizations 改造 Spark SQL AST
我想将 SQL 字符串作为用户输入 然后在执行之前对其进行转换 特别是 我想修改顶级投影 select 子句 注入要由查询检索的附加列 我希望通过使用 Catalyst 来实现这一点sparkSession experimental ext
apachespark
apachesparksql
apachespark20
在scala Spark2中运行saveAsNewAPIHadoopDataset到hbase时出现空指针异常
我正在使用 saveAsNewAPIHadoopDataset 将 RDD 保存到 Hbase 中 以下是我的工作创建和提交 val outputTableName test3 val conf2 HBaseConfiguration cr
scala
Hbase
apachespark20
集群部署模式下的 Spark-Submit 将应用程序 ID 获取到控制台
我陷入了一个需要快速解决的问题 我已经阅读了许多关于 Spark 集群部署模式的帖子和教程 但我对这种方法一无所知 因为我被困了几天 我的用例 我有很多使用 spark2 submit 命令提交的 Spark 作业 提交后我需要在控制台中打
apachespark
logging
Log4j
log4j2
apachespark20
通过保留顺序,根据 id 列将 Spark DataFrame 拆分为两个 DataFrame(70% 和 30%)
我有一个 Spark 数据框 就像 id start time feature 1 01 01 2018 3 567 1 01 02 2018 4 454 1 01 03 2018 6 455 2 01 02 2018 343 4 2 01
apachespark
PySpark
apachespark20
任务仅在 Spark 中的一个执行器上运行[重复]
这个问题在这里已经有答案了 我正在使用 Java 在 Spark 中运行以下代码 Code 测试 java package com sample import org apache spark SparkConf import org ap
apachespark
apachespark20
sparksubmit
java.lang.IllegalStateException:读取增量文件时出错,使用 kafka 进行 Spark 结构化流处理
我在我们的项目中使用结构化流 Kafka 进行实时数据分析 我使用的是 Spark 2 2 kafka 0 10 2 我在应用程序启动时从检查点进行流式查询恢复期间遇到问题 由于单个 kafka 流点派生有多个流查询 并且每个流查询都有不同
ApacheKafka
apachespark20
SparkStructuredStreaming
checkpoint
如何将Spark结构化流数据写入Hive?
如何将Spark结构化流数据写入Hive 有df write saveAsTable tablename 但是我不确定这是否会写入流数据 我通常这样做df writeStream trigger new ProcessingTime 100
apachespark
hive
apachespark20
将系统属性传递给spark-submit并从类路径或自定义路径读取文件
我最近发现一种使用 logback 代替 log4j 的方法 https stackoverflow com a 45480145 1549135在 Apache Spark 中 既适合本地使用 也适合spark submit 然而 还缺少
Java
scala
apachespark
apachespark20
sparksubmit
toDF 的值不是 org.apache.spark.rdd.RDD[(Long, org.apache.spark.ml.linalg.Vector)] 的成员
在 SPARK 2 0 中使用 SCALA 将 pre LDA 转换转换为数据帧时遇到编译错误 抛出错误的具体代码如下 val documents PreLDAmodel transform mp listing lda df select
apachespark
apachespark20
如何从下载 Spark 页面的源代码构建 Spark?
我尝试在 Ubuntu 16 04 的 Ubuntu VM 上安装和构建 Spark 2 0 0 如下所示 安装Java sudo apt add repository ppa webupd8team java sudo apt get u
scala
Ubuntu
sbt
apachespark20
Spark 2.1.0中读取大文件时出现内存不足错误
我想使用 Spark 将大型 51GB XML 文件 在外部 HDD 上 读取到数据帧中 使用Spark XML 插件 https github com databricks spark xml 进行简单的映射 过滤 重新排序 然后将其作为
xml
scala
apachespark
apachespark20
apachesparkxml
到处导入 Spark 隐式的解决方法
我是 Spark 2 0 的新手 并且在我们的代码库中使用数据集 我有点注意到我需要import spark implicits 在我们的代码中随处可见 例如 File A class A def job spark SparkSessio
scala
apachespark
apachesparksql
apachespark20
implicits
不支持 Any 类型的架构
我正在尝试创建一个 Spark UDF 以从用户定义的案例类中提取 键 值 对的映射 scala 函数似乎工作正常 但是当我尝试将其转换为 Spark2 0 中的 UDF 时 我遇到了 不支持 Any 类型的架构 错误 case class
scala
apachespark
apachesparksql
UDF
apachespark20
从 JDBC 创建 Spark 数据帧时如何指定 sql 方言?
我在使用 Spark 通过自定义 JDBC 读取数据时遇到问题 我将如何覆盖通过 jdbc url 推断的 sql 方言 有问题的数据库是 vitess https github com youtube vitess 它运行一个 mysql
apachespark
JDBC
apachesparksql
apachespark20
vitess
将新的拟合阶段添加到现有 PipelineModel 中,无需再次拟合
我想将几个经过训练的管道连接到一个 这类似于 Spark 将新的拟合阶段添加到现有 PipelineModel 中 无需再次拟合 但是下面的解决方案适用于 PySpark gt pipe model new PipelineModel st
apachespark
pipeline
apachesparkml
apachespark20
Apache Spark Dataframe - 从 CSV 文件的第 n 行加载数据
我想处理一个巨大的订单 CSV 文件 5GB 在文件开头有一些元数据行 标题列在第 4 行中表示 以 h 开头 后跟另一个元数据行 描述可选性 数据行以 d 开头 m Version v1 0 m Type xx m
apachespark
apachesparksql
apachespark20
1
2
»