Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
pyspark:将 schemaRDD 保存为 json 文件
我正在寻找一种将数据从 Apache Spark 以 JSON 格式导出到各种其他工具的方法 我认为一定有一种非常简单的方法来做到这一点 示例 我有以下 JSON 文件 jfile json key value a1 key2 value
python
json
apachespark
Spark Worker 在 Heartbeater 中与 Spark Driver 通信的超时时间为 3600 秒
我没有配置任何超时值 而是使用默认设置 在哪里配置3600秒超时 怎么解决呢 错误信息 18 01 10 13 51 44 WARN Executor Issue communicating with driver in heartbeat
apachespark
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark
我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark
Hadoop
apachespark
hive
Spark - java.lang.OutOfMemoryError:请求的数组大小超出 VM 限制
我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作 该集群位于总 RAM 约为 512GB 的 7 节点集群上 我的代码如下 ndf ndf repartition 20000 by user
apachespark
PySpark
如何使用 Spark 执行插入覆盖?
我正在尝试将我们的 ETL Hive 脚本之一转换为 Spark 其中 Hive ETL 脚本维护一个表 其中需要在每晚新同步之前删除部分数据 Hive ETL 使用插入覆盖的方式将主表删除超过 3 天的数据 基本上创建一个临时表 其中的数
scala
apachespark
apachesparksql
Twitter API 与 Scala 2.12 一起使用
我正在使用 Scala 2 12 使用 SBT 构建 构建 Spark 3 0 0 流应用程序 鉴于所有用于执行此操作的库均适用于 Scala EDIT 我尝试使用库构建时得到的示例输出 object twitter is not a me
scala
apachespark
twitter
sbt
Spark:有没有办法打印出spark-shell和spark的类路径?
我可以在 Spark shell 中成功运行 Spark 作业 但是当它打包并通过 Spark submit 运行时 我收到 NoSuchMethodError 这向我表明类路径存在某种不匹配 有没有办法可以比较两个类路径 某种日志记录语句
scala
apachespark
Spark:如何从spark shell运行spark文件
我正在使用CDH 5 2 我能够使用火花外壳运行命令 如何运行包含 Spark 命令的文件 file spark 有没有办法在没有 sbt 的情况下在 CDH 5 2 中运行 编译 scala 程序 在命令行中 您可以使用 spark sh
scala
apachespark
clouderacdh
clouderamanager
使用列值作为 Spark DataFrame 函数的参数
考虑以下数据框 letter rpt X 3 Y 1 Z 2 可以使用以下代码创建 df spark createDataFrame X 3 Y 1 Z 2 letter rpt 假设我想重复每行列中指定的次数rpt 就像这样questio
apachespark
PySpark
apachesparksql
在Python Spark中查看RDD内容?
在 pyspark 中运行一个简单的应用程序 f sc textFile README md wc f flatMap lambda x x split map lambda x x 1 reduceByKey add 我想使用 forea
python
apachespark
scala.collection.Seq 不适用于 Java
Using 阿帕奇火花2 0 1 Java 7 在 Apache Spark Java API 文档中 DataSet 类出现了一个example http spark apache org docs latest api java org
Java
scala
apachespark
pyspark:计算窗口上的不同值
我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数 计数 不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数 这是一些示例代码 from py
apachespark
PySpark
apachesparksql
windowfunctions
distinctvalues
pyspark中的稀疏向量RDD
我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
apachespark
PySpark
sparsematrix
apachesparkmllib
tfidf
如何查找组中第一个非空值? (使用dataset api进行二次排序)
我正在研究一个代表事件流的数据集 例如从网站跟踪事件时触发 所有事件都有一个时间戳 我们经常遇到的一个用例是尝试查找给定字段的第一个非空值 例如 类似的东西最能让我们到达那里 val eventsDf spark read json jso
apachespark
apachesparksql
apachesparkdataset
Spark:shuffle操作导致GC长时间暂停
我在跑Spark 2我正在尝试洗牌大约 5 TB 的 json 我在洗牌期间遇到了很长的垃圾收集暂停Dataset val operations spark read json inPath as MyClass operations re
scala
apachespark
garbagecollection
apachesparksql
g1gc
保存的数据带有不需要的引号
我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
python
csv
apachespark
PySpark
Spark 数据框添加带有随机数据的新列
我想向数据框中添加一个新列 其值由 0 或 1 组成 我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
python
apachespark
PySpark
apachesparksql
使用Log4j在日志中输出Spark应用程序id
我有一个用于 Spark 应用程序的自定义 Log4j 文件 我想输出 Spark 应用程序 ID 以及消息和日期等其他属性 因此 JSON 字符串结构如下所示 name time date level thread message app
json
scala
apachespark
Log4j
将数据作为 RDD 保存回 Cassandra
我试图从 Kafka 读取消息 处理数据 然后将数据添加到 cassandra 中 就像它是 RDD 一样 我的麻烦是将数据保存回 cassandra 中 from future import print function from pys
python
apachespark
cassandra
PySpark
sparkcassandraconnector
AWS EMR PySpark 连接到 mysql
我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作 但是当我尝试使用 EMR 时 pyspark 无法正确启动 我在我的机器上使用的命令 pyspark conf spark executo
mysql
JDBC
apachespark
PySpark
elasticmapreduce
«
1 ...
4
5
6
7
8
9
10
...100
»