Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit:ivy-cache 文件未找到错误
我一整天都在与它斗争 我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境 我的火花版
apachespark
PySpark
ivy
sparksubmit
graphframes
如何在 Mac 上使用 homebrew 安装 apache-spark 2.3.3
brew install apache spark只安装最新版本的 Spark 2 4 和 brew search apache spark没有给出任何其他选项 有没有办法用自制程序安装旧版本的 Spark Type brew tap ed
apachespark
Homebrew
如何使用 Scala 在 Spark 中漂亮地打印 JSON 数据帧?
我有一个数据帧 我想将其作为有效的 json 写入 json 文件 我当前的代码如下所示 val df DataFrame myFun df toJSON saveAsTextFile myFile json 输出的格式为 如何将文件内容组
scala
apachespark
从 pandas udf 记录
我正在尝试从 python 转换中调用的 pandas udf 进行日志记录 因为在执行器上调用的代码不会显示在驱动程序的日志中 我一直在寻找一些选项 但到目前为止最接近的选项是这个one https stackoverflow com q
apachespark
logging
PySpark
userdefinedfunctions
palantirfoundry
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列? [复制]
这个问题在这里已经有答案了 对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时 我只得到输出中的最小值 d
python
apachespark
PySpark
apachesparksql
Spark 执行器 STDOUT 到 Kubernetes STDOUT
我在 Spark Worker 中运行的 Spark 应用程序将执行程序日志输出到特定文件路径 worker home directory app xxxxxxxx 0 stdout I used log4j properties将日志从
apachespark
Kubernetes
logging
Log4j
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接
我有一个 DynamoDB 表 需要将其连接到 EMR Spark SQL 才能对该表运行查询 我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档 使用 Spark 分
Hadoop
amazonwebservices
apachespark
amazondynamodb
如何过滤 pyspark 列表中值的列?
我有一个数据框原始数据 我必须在 X 列上应用值 CB CI 和 CR 的过滤条件 所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
apachespark
PySpark
apachesparksql
如何在 Apache Spark 中基于列的子集实现“ except ”?
我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
scala
apachespark
apachesparksql
如何更改 SparkContext.sparkUser() 设置(在 pyspark 中)?
我是新来的Spark and pyspark 我使用 pyspark 之后我rdd处理中 我试图将其保存到hdfs使用saveAsTextfile 功能 但我得到一个 没有权限 错误消息 因为 pyspark 尝试写入hdfs使用我的本地帐
scala
apachespark
PySpark
司机下令停车后 Spark 工作人员停下来
基本上 主节点也充当从节点之一 一旦主服务器上的从服务器完成 它就会调用 SparkContext 来停止 因此该命令传播到所有从服务器 从而在处理过程中停止执行 其中一名工作人员登录时出错 信息 SparkHadoopMapRedUtil
apachespark
apachesparkstandalone
以有效的方式从 BigQuery 读取到 Spark 中?
使用时BigQuery 连接器 https cloud google com hadoop examples bigquery connector spark example要从 BigQuery 读取数据 我发现它首先将所有数据复制到 G
apachespark
googlebigquery
googleclouddataproc
googlehadoop
将 Spark 数据框中的时间戳转换为日期
我见过 这里 如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
python
python3x
apachespark
PySpark
apachesparksql
异常:java.lang.Exception:使用 master 'yarn' 运行时,必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中
我是新的阿帕奇火花 我已经在spark独立模式下测试了一些应用程序 但我想运行应用程序yarn模式 我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
Hadoop
apachespark
PySpark
hadoopyarn
Python Spark DataFrame:用 SparseVector 替换 null
在 Spark 中 我有以下名为 df 的数据框 其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
python
apachespark
PySpark
apachesparksql
Spark SQL / PySpark 中的逆透视
我手头有一个问题陈述 其中我想在 Spark SQL PySpark 中取消透视表 我已经浏览了文档 我可以看到仅支持pivot 但到目前为止还不支持取消透视 有什么方法可以实现这个目标吗 让我的初始表如下所示 When I pivotPy
apachespark
PySpark
apachesparksql
Pivot
unpivot
如何使用列的平均值将列添加到 DataFrame
有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的 可以使用以下方法避免额外的操作broadcas
apachespark
DataFrame
apachesparksql
Spark 按列重新分区,每列动态分区数
如何根据列中的项目数对 DataFrame 进行分区 假设我们有一个包含 100 人的 DataFrame 列是first name and country 我们希望为一个国家 地区的每 10 个人创建一个分区 如果我们的数据集包含 80
apachespark
在 Spark Dataframe 中提取数组索引
我有一个带有数组类型列的数据框 例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin
scala
apachespark
DataFrame
Spark 中的广播 Annoy 对象(对于最近邻居)?
由于 Spark 的 mllib 没有最近邻居功能 我正在尝试使用Annoy https github com spotify annoy为近似最近邻 我尝试广播 Annoy 对象并将其传递给工人 然而 它并没有按预期运行 下面是可重复性的
python
apachespark
PySpark
nearestneighbor
KNN
1
2
3
4
5
6
...100
»