Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在Python Spark中查看RDD内容?
在 pyspark 中运行一个简单的应用程序 f sc textFile README md wc f flatMap lambda x x split map lambda x x 1 reduceByKey add 我想使用 forea
python
apachespark
scala.collection.Seq 不适用于 Java
Using 阿帕奇火花2 0 1 Java 7 在 Apache Spark Java API 文档中 DataSet 类出现了一个example http spark apache org docs latest api java org
Java
scala
apachespark
pyspark:计算窗口上的不同值
我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数 计数 不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数 这是一些示例代码 from py
apachespark
PySpark
apachesparksql
windowfunctions
distinctvalues
pyspark中的稀疏向量RDD
我一直在使用 mllib 的功能通过 Python Pyspark 实现此处描述的 TF IDF 方法 https spark apache org docs 1 3 0 mllib feature extraction html http
apachespark
PySpark
sparsematrix
apachesparkmllib
tfidf
如何查找组中第一个非空值? (使用dataset api进行二次排序)
我正在研究一个代表事件流的数据集 例如从网站跟踪事件时触发 所有事件都有一个时间戳 我们经常遇到的一个用例是尝试查找给定字段的第一个非空值 例如 类似的东西最能让我们到达那里 val eventsDf spark read json jso
apachespark
apachesparksql
apachesparkdataset
Spark:shuffle操作导致GC长时间暂停
我在跑Spark 2我正在尝试洗牌大约 5 TB 的 json 我在洗牌期间遇到了很长的垃圾收集暂停Dataset val operations spark read json inPath as MyClass operations re
scala
apachespark
garbagecollection
apachesparksql
g1gc
保存的数据带有不需要的引号
我使用以下代码将数据框导出到 csv data write format com databricks spark csv options delimiter t codec org apache hadoop io compress Gz
python
csv
apachespark
PySpark
Spark 数据框添加带有随机数据的新列
我想向数据框中添加一个新列 其值由 0 或 1 组成 我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
python
apachespark
PySpark
apachesparksql
使用Log4j在日志中输出Spark应用程序id
我有一个用于 Spark 应用程序的自定义 Log4j 文件 我想输出 Spark 应用程序 ID 以及消息和日期等其他属性 因此 JSON 字符串结构如下所示 name time date level thread message app
json
scala
apachespark
Log4j
将数据作为 RDD 保存回 Cassandra
我试图从 Kafka 读取消息 处理数据 然后将数据添加到 cassandra 中 就像它是 RDD 一样 我的麻烦是将数据保存回 cassandra 中 from future import print function from pys
python
apachespark
cassandra
PySpark
sparkcassandraconnector
AWS EMR PySpark 连接到 mysql
我正在尝试使用 jdbc 通过 pyspark 连接到 mysql 我可以在 EMR 之外完成此操作 但是当我尝试使用 EMR 时 pyspark 无法正确启动 我在我的机器上使用的命令 pyspark conf spark executo
mysql
JDBC
apachespark
PySpark
elasticmapreduce
如果为 null 则替换为 0,否则在同一列中使用默认值
在SparkR shell 1 5 0中 创建了一个示例数据集 df test lt createDataFrame sqlContext data frame mon c 1 2 3 4 5 year c 2011 2012 2013 2
r
apachespark
sparkr
在Spark的客户端模式下,驱动程序需要网络访问远程执行程序?
使用火花时在客户端模式 例如yarn client 运行驱动程序的本地计算机是否直接与运行远程执行程序的集群工作节点通信 如果是 是否意味着机器 运行驱动程序 需要具有对工作节点的网络访问权限 那么master节点向集群请求资源 并将wor
apachespark
hadoopyarn
参数为动态的 Spark 滞后函数
我需要在spark中实现lag函数 我可以像下面这样做 使用 hive temp Spark 表中的一些数据 假设 DF 有这些行 lagno value 0 100 0 200 2 null 3 null 其中第一列是您要使用的实际滞后数
apachespark
apachesparksql
按分区“内”键进行高效分组
我正在尝试调整一个流程来激发火花 基本上 该过程分析来自 JDBC 数据源的批量数据 每条记录都有一个batchId 还有一个更高级别的groupId 批次数量较大 提前未知 组数约为 100 RAM 中可以容纳每个批次的记录数 实际的分析
JDBC
apachespark
Spark数据框中过滤的多个条件
我有一个包含四个字段的数据框 其中一个字段名称是 Status 我尝试在 filter 中对数据帧使用 OR 条件 我尝试了以下查询 但没有运气 df2 df1 filter Status 2 Status 3 df2 df1 filter
apachespark
apachesparksql
如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段? [复制]
这个问题在这里已经有答案了 Florian 的示例代码 ball column keep the hall column 0 7 14 1 8 15 2 9 16 3 10 17 4 11 18
python
apachespark
PySpark
apachesparksql
获取 Spark 中组的最后一个值
我有一个 SparkR DataFrame 如下所示 Create R data frame custId lt c rep 1001 5 rep 1002 3 1003 date lt c 2013 08 01 2014 01 01 20
apachespark
PySpark
apachesparksql
sparkr
TaskSchedulerImpl:初始作业尚未接受任何资源;
这就是我正在尝试做的事情 我创建了DataStax企业集群的两个节点 在其上创建了一个java程序来获取一张表 Cassandra数据库表 的计数 该程序是在 eclipse 中构建的 实际上是来自 windows 盒子 从 Windows
Java
apachespark
cassandra
datastax
Spark JDBC 仅返回带有列名的数据帧
我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
scala
apachespark
JDBC
hive
«
1
2
3
4
5
6
...100
»