Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Scala 和 Spark:如何浏览图像?
我有一些图像的二进制文件 我想遍历它们 分配像素 集群的每个节点必须获取与另一个节点的像素不同的一组像素的 RGB 并将这些 RGB 存储到斯卡拉集合 我在用SparkContext binaryFiles但我不知道如何让 Apache S
scala
apachespark
使用 Spark collectionAccumulator 时出现 ConcurrentModificationException
我尝试在 Azure HDInsight 按需群集上运行基于 Spark 的应用程序 并且看到记录了大量 SparkException 由 ConcurrentModificationException 引起 当我启动本地 Spark 实例
scala
Azure
apachespark
azurehdinsight
连接到 Hive 时使用 Spark 进行 Kinit
我正在尝试从独立的 Spark 连接到 Hive hadoop 集群具有 kerberos 身份验证 有人可以让我知道如何在 Spark 程序中执行 kinit 我可以连接到配置单元吗 更新 我的 Spark 与 Hadoop 位于不同的集
apachespark
hive
HDFS
kerberos
PySpark 将“map”类型的列转换为数据框中的多列
Input 我有一个专栏Parameters类型的map形式 from pyspark sql import SQLContext sqlContext SQLContext sc d Parameters foo 1 bar 2 baz
python
apachespark
DataFrame
PySpark
apachesparksql
Spark Dataframe 列可为 null 的属性更改
我想更改 Spark Dataframe 中特定列的可为空属性 如果我当前打印数据框的模式 它看起来如下所示 col1 string nullable false col2 string nullable true col3 string
scala
apachespark
apachesparksql
Spark超时可能是由于HDFS中文件超过100万个的binary Files()
我正在通过以下方式读取数百万个 xml 文件 val xmls sc binaryFiles xmlDir 该操作在本地运行良好 但在纱线上失败并显示 client token N A diagnostics Application app
Hadoop
apachespark
Apache Spark 中的混洗与非混洗合并
在将 RDD 写入文件之前执行以下转换时 它们之间有什么区别 合并 1 随机播放 true 合并 1 随机播放 假 代码示例 val input sc textFile inputFile val filtered input filter
scala
apachespark
distributedcomputing
在 Windows 上安装 Apache Spark
我需要安装阿帕奇火花 http spark apache org 在 Windows 机器上 根据文档 我应该在我的机器上安装 sbt 并覆盖其默认选项以使用最大 2G RAM 经过多次尝试后 我决定选择 maven 我覆盖了默认选项以使用
apachespark
如何找到两个数组列之间的共同元素?
我有两个以逗号分隔的字符串列 sourceAuthors and targetAuthors val df Seq Author1 Author2 Author3 Author2 Author3 Author1 toDF source ta
scala
apachespark
apachesparksql
使用“容器ip”连接到docker容器
我在 mac 上运行 docker 我想使用 docker 容器的 ip 不是虚拟机的 ip 连接到它 原因是 Spark 驱动程序将自身注册到容器 IP 172 17 0 2 并且从 mac 运行的客户端尝试连接到该地址 有没有办法从 m
apachespark
Docker
在 IntelliJ Scala 控制台中运行时如何设置 Spark MemoryStore 大小?
我正在 Linux 64 Fedora 25 上的 Intellij CE 2017 1 Scala 控制台中将 Spark 代码作为脚本运行 我在开始时设置了 SparkContext import org apache spark Sp
scala
apachespark
intellijidea
fedora25
了解 mesos 上 Spark 作业的资源分配
我正在 Spark 中开发一个项目 最近从使用 Spark Standalone 切换到使用 Mesos 进行集群管理 我现在发现自己对新系统下提交作业时如何分配资源感到困惑 在独立模式下 我使用了类似的东西 遵循一些建议这篇 Cloude
apachespark
mesos
Spark MLLib 存在问题,导致概率和预测对于所有内容都相同
我正在学习如何将机器学习与 Spark MLLib 结合使用 目的是对推文进行情感分析 我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
python
Hadoop
apachespark
apachesparkmllib
sentimentanalysis
实现一个java UDF并从pyspark调用它
我需要创建一个在 pyspark python 中使用的 UDF 它使用 java 对象进行内部计算 如果它是一个简单的 python 我会做类似的事情 def f x return 7 fudf pyspark sql functions
Java
python
apachespark
PySpark
py4j
从 Spark-Shell (pyspark) 查询 Spark 流应用程序
我正在关注这个example http cdn2 hubspot net hubfs 438089 notebooks spark2 0 Structured 20Streaming 20using 20Python 20DataFrame
apachespark
PySpark
SparkStructuredStreaming
如何解决错误“AttributeError:‘SparkSession’对象没有属性‘序列化器’?
我正在使用 pyspark 数据框 我有一些代码试图在其中转换dataframe to an rdd 但我收到以下错误 AttributeError SparkSession 对象没有属性 序列化器 可能是什么问题 training tes
apachespark
PySpark
apachesparksql
Spark,执行器加载/查询数据 - 性能非常低
我的用例如下 写作RDD归档依据saveAsTable 对于 ORC 文件也是如此 每次保存都会创建新文件 因此1000 000著作给我1000 000ORC 文件 我知道每个 RDD 都会创建新的 ORC 文件 这是很自然的 但是 我不知
apachespark
线程“main”中的异常 java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)
我收到此错误的原因是什么 最初 Scala 的 IDE 插件是 2 12 3 但由于我使用的是 Spark 2 2 0 所以我手动将其更改为 Scala 2 11 11 Using Spark s default log4j profile
scala
apachespark
intellijidea
sbt
无法在 Spark 中读取具有自定义一元转换器的管道模型
我在 Spark 中定义了一个新的自定义 UnaryTransformer 示例代码中的 cleanText 并在 Pipeline 中使用它 当我保存安装的管道并尝试读回它时 出现以下错误 java lang NoSuchMethodEx
apachespark
apachesparkmllib
Apache Spark MLLib - 使用 IDF-TF 向量运行 KMeans - Java 堆空间
我正在尝试从 大 文本文档集合 TF IDF 向量 在 MLLib 上运行 KMeans 文档通过 Lucene 英语分析器发送 稀疏向量由 HashingTF transform 函数创建 无论我使用的并行程度如何 通过合并函数 KMea
scala
apachespark
OutOfMemory
kmeans
apachesparkmllib
«
1
2
3
4
5
6
7
8
...100
»