Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark scala - 按数组列分组[重复]
这个问题在这里已经有答案了 我对 Spark Scala 很陌生 感谢你的帮助 我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
Arrays
scala
apachespark
MapReduce
非时间戳列上的 Spark 结构化流窗口
我收到以下形式的数据流 id timestamp val xxx 1 12 15 25 50 1 2 12 15 25 30 1 3 12 15 26 30 2 4 12 15 27 50 2 5 12 15 27 30 3 6 12 15
Spark parquet 分区:大量文件
我正在尝试利用 Spark 分区 我试图做类似的事情 data write partitionBy key parquet location 这里的问题是每个分区都会创建大量镶木地板文件 如果我尝试从根目录读取 则会导致读取速度变慢 为了避
apachespark
apachesparksql
RDD
apachespark20
Bigdata
如何在spark Scala中读取s3中的多个目录?
我在 s3 中有以下格式的目录
apachespark
apachesparksql
Spark Mongo 连接器,MongoShardedPartitioner 不起作用
出于测试目的 我配置了一个 4 节点集群 每个节点都有一个 Spark Worker 和一个 MongoDB Shard 这些是详细信息 四台 Debian 9 服务器 名为 Visa0 Visa 1 Visa 2 Visa 4 个节点上的
MongoDB
apachespark
PySpark
Sharding
mongodbcluster
为什么 format("kafka") 失败并显示“无法找到数据源:kafka”。 (即使使用 uber-jar)?
我使用 HDP 2 6 3 0 和 Spark2 包 2 2 0 我正在尝试使用结构化流 API 编写 Kafka 消费者 但将作业提交到集群后出现以下错误 Exception in thread main java lang ClassN
apachespark
apachesparksql
SparkStructuredStreaming
uberjar
Spark 2.0:4 行。 IllegalArgumentException:界限必须为正
我正在 Amazon EMR 5 0 上的 Spark 2 0 上尝试一个超级简单的测试程序 from pyspark sql types import Row from pyspark sql types import import py
apachespark
Pyspark 可为空的 uuid 类型 uuid 但表达式的类型为字符变化
给定一个表格设计不可为 null 的 uuid列和a可为空的 uuid列 如何使用 python 3 7 9 与 Pyspark 2 4 3 数据帧和 postgresql 42 2 18 jar 驱动程序进行插入 table df spa
python
postgresql
apachespark
PySpark
Spark DataFrame 删除重复项并保留第一个
问题 在 pandas 中 当删除重复项时 您可以指定要保留哪些列 Spark Dataframes 中有等效的吗 Pandas df sort values actual datetime ascending False drop dup
DataFrame
apachespark
PySpark
apachesparksql
duplicates
如何加入数据框(来自数据集的集合)?
我正在寻找并找出最好的加入方式nSpark 数据帧 Example List df1 df2 df3 dfN 哪里都df有一个我可以参加的约会 递归 像这样 List df1 df2 df3 dfN reduce a b gt a join
scala
apachespark
apachesparksql
找出分区号/id
Spark中有没有一种方法 方法 可以找出分区ID 编号 在这里举这个例子 val input1 sc parallelize List 8 9 10 3 val res input1 reduce x y gt println Insid
apachespark
Pyspark 将多个列合并为一个 json 列
我不久前问过 python 的问题 但现在我需要在 PySpark 中做同样的事情 我有一个像这样的数据框 df cust id address store id email sales channel category 1234567 1
python
DataFrame
apachespark
PySpark
如何从 Spark UI 检索输出大小和写入记录等指标?
如何在任务或作业完成后立即在控制台 Spark Shell 或 Spark 提交作业 上收集这些指标 我们使用 Spark 将数据从 Mysql 加载到 Cassandra 数据非常庞大 例如 200 GB 和 600M 行 当任务完成后
左反加入Spark?
我定义了两个表 如下所示 val tableName table1 val tableName2 table2 val format new SimpleDateFormat yyyy MM dd val data List List mi
scala
apachespark
在 Spark Dataframe 中将空值替换为 null
我有一个包含 n 列的数据框 我想用空值替换所有这些列中的空字符串 我尝试使用 val ReadDf rawDF na replace columnA Map gt null and val ReadDf rawDF withColumn
scala
apachespark
DataFrame
apachesparksql
优化spark sql中分区数据写入S3
我在每个 Spark 作业运行中从 HDFS 读取大约 700 GB 的数据 我的工作读取这些数据 过滤大约 60 的数据 将其分区如下 val toBePublishedSignals hiveCtx sql some query toB
scala
apachespark
amazons3
apachesparksql
Spark 使用自定义架构读取镶木地板
我正在尝试使用自定义架构导入镶木地板格式的数据 但它返回 类型错误 option 缺少 1 个必需的位置参数 值 ProductCustomSchema StructType StructField id sku IntegerType T
apachespark
PySpark
apachesparksql
Jupyter Notebook 上未显示结构化流输出
我有两个笔记本 第一个笔记本正在使用 tweepy 从 twitter 读取推文并将其写入套接字 其他笔记本正在使用 Spark 结构化流 Python 从该套接字读取推文并将其结果写入控制台 不幸的是我没有在 jupyter 控制台上得到
在 pyspark 中实现递归算法以查找数据帧中的配对
我有一个火花数据框 prof student df 列出了时间戳的学生 教授对 每个时间戳有 4 位教授和 4 位学生 每个教授 学生对都有一个 分数 因此每个时间范围有 16 行 对于每个时间范围 我需要找到教授 学生之间的一对一配对 以
python
apachespark
PySpark
apachesparksql
如何从 Databricks Notebook 中调用 Cluster API 并启动集群?
目前 我们正在使用一堆笔记本来处理 azure databricks 中的数据 主要使用 python pyspark 我们想要实现的是确保我们的集群在开始数据处理之前启动 预热 因此 我们正在探索从 databricks 笔记本内访问 C
apachespark
PySpark
Databricks
azuredatabricks
«
1
2
3
4
5
6
7
...100
»