apachespark

Scala 和 Spark：如何浏览图像？

我有一些图像的二进制文件我想遍历它们分配像素集群的每个节点必须获取与另一个节点的像素不同的一组像素的 RGB 并将这些 RGB 存储到斯卡拉集合我在用SparkContext binaryFiles但我不知道如何让 Apache S

scala apachespark

使用 Spark collectionAccumulator 时出现 ConcurrentModificationException

我尝试在 Azure HDInsight 按需群集上运行基于 Spark 的应用程序并且看到记录了大量 SparkException 由 ConcurrentModificationException 引起当我启动本地 Spark 实例

scala Azure apachespark azurehdinsight

连接到 Hive 时使用 Spark 进行 Kinit

我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗更新我的 Spark 与 Hadoop 位于不同的集

apachespark hive HDFS kerberos

PySpark 将“map”类型的列转换为数据框中的多列

Input 我有一个专栏Parameters类型的map形式 from pyspark sql import SQLContext sqlContext SQLContext sc d Parameters foo 1 bar 2 baz

python apachespark DataFrame PySpark apachesparksql

Spark Dataframe 列可为 null 的属性更改

我想更改 Spark Dataframe 中特定列的可为空属性如果我当前打印数据框的模式它看起来如下所示 col1 string nullable false col2 string nullable true col3 string

scala apachespark apachesparksql

Spark超时可能是由于HDFS中文件超过100万个的binary Files()

我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好但在纱线上失败并显示 client token N A diagnostics Application app

Hadoop apachespark

Apache Spark 中的混洗与非混洗合并

在将 RDD 写入文件之前执行以下转换时它们之间有什么区别合并 1 随机播放 true 合并 1 随机播放假代码示例 val input sc textFile inputFile val filtered input filter

scala apachespark distributedcomputing

在 Windows 上安装 Apache Spark

我需要安装阿帕奇火花 http spark apache org 在 Windows 机器上根据文档我应该在我的机器上安装 sbt 并覆盖其默认选项以使用最大 2G RAM 经过多次尝试后我决定选择 maven 我覆盖了默认选项以使用

apachespark

如何找到两个数组列之间的共同元素？

我有两个以逗号分隔的字符串列 sourceAuthors and targetAuthors val df Seq Author1 Author2 Author3 Author2 Author3 Author1 toDF source ta

scala apachespark apachesparksql

使用“容器ip”连接到docker容器

我在 mac 上运行 docker 我想使用 docker 容器的 ip 不是虚拟机的 ip 连接到它原因是 Spark 驱动程序将自身注册到容器 IP 172 17 0 2 并且从 mac 运行的客户端尝试连接到该地址有没有办法从 m

apachespark Docker

在 IntelliJ Scala 控制台中运行时如何设置 Spark MemoryStore 大小？

我正在 Linux 64 Fedora 25 上的 Intellij CE 2017 1 Scala 控制台中将 Spark 代码作为脚本运行我在开始时设置了 SparkContext import org apache spark Sp

scala apachespark intellijidea fedora25

了解 mesos 上 Spark 作业的资源分配

我正在 Spark 中开发一个项目最近从使用 Spark Standalone 切换到使用 Mesos 进行集群管理我现在发现自己对新系统下提交作业时如何分配资源感到困惑在独立模式下我使用了类似的东西遵循一些建议这篇 Cloude

apachespark mesos

Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana

python Hadoop apachespark apachesparkmllib sentimentanalysis

实现一个java UDF并从pyspark调用它

我需要创建一个在 pyspark python 中使用的 UDF 它使用 java 对象进行内部计算如果它是一个简单的 python 我会做类似的事情 def f x return 7 fudf pyspark sql functions

Java python apachespark PySpark py4j

从 Spark-Shell (pyspark) 查询 Spark 流应用程序

我正在关注这个example http cdn2 hubspot net hubfs 438089 notebooks spark2 0 Structured 20Streaming 20using 20Python 20DataFrame

apachespark PySpark SparkStructuredStreaming

如何解决错误“AttributeError：‘SparkSession’对象没有属性‘序列化器’？

我正在使用 pyspark 数据框我有一些代码试图在其中转换dataframe to an rdd 但我收到以下错误 AttributeError SparkSession 对象没有属性序列化器可能是什么问题 training tes

apachespark PySpark apachesparksql

Spark，执行器加载/查询数据 - 性能非常低

我的用例如下写作RDD归档依据saveAsTable 对于 ORC 文件也是如此每次保存都会创建新文件因此1000 000著作给我1000 000ORC 文件我知道每个 RDD 都会创建新的 ORC 文件这是很自然的但是我不知

apachespark

线程“main”中的异常 java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)

我收到此错误的原因是什么最初 Scala 的 IDE 插件是 2 12 3 但由于我使用的是 Spark 2 2 0 所以我手动将其更改为 Scala 2 11 11 Using Spark s default log4j profile

scala apachespark intellijidea sbt

无法在 Spark 中读取具有自定义一元转换器的管道模型

我在 Spark 中定义了一个新的自定义 UnaryTransformer 示例代码中的 cleanText 并在 Pipeline 中使用它当我保存安装的管道并尝试读回它时出现以下错误 java lang NoSuchMethodEx

apachespark apachesparkmllib

Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间

我正在尝试从大文本文档集合 TF IDF 向量在 MLLib 上运行 KMeans 文档通过 Lucene 英语分析器发送稀疏向量由 HashingTF transform 函数创建无论我使用的并行程度如何通过合并函数 KMea

scala apachespark OutOfMemory kmeans apachesparkmllib