PySpark

使用 PySpark 时如何将 jdbc 驱动程序添加到类路径？

如何在哪里安装 Spark sql 的 jdbc 驱动程序我正在运行全火花笔记本docker 镜像并尝试将一些数据直接从 sql 数据库提取到 Spark 中据我所知我可以告诉我需要将驱动程序包含在我的Classpath 我只是不

PySpark apachesparksql

如何在 PySpark 中使用列值作为字典的键？

我有一个小的 PySpark DataFramedf index col1 0 1 1 3 2 4 还有一本字典 LOOKUP 0 2 1 5 2 5 3 4 4 6 我现在想添加一个额外的列col2 to df 等于LOOKUP的值col

python DataFrame apachespark PySpark apachesparksql

Spark.python.worker.memory 与 Spark.executor.memory 有何关系？

这张图对于不同 YARN 和 Spark 内存相关设置之间的关系非常清楚除了涉及到spark python worker memory 如何spark python worker memory适合这个内存模型吗 Python 进程是否受以

memory apachespark PySpark hadoopyarn

在 PYSPARK 中运行收集时出错

我正在尝试将网站名称与 URL 分开例如如果 URL 是 www google com 则输出应为 google 我尝试了下面的代码除了最后一行 websites collect 之外一切正常我使用数据框来存储网站名称然后将其转

python apachespark PySpark RDD

pySpark forEachPartition - 代码在哪里执行

我正在使用 2 3 版本的 pySpark 在我当前的开发系统中无法更新到 2 4 并且有以下关于对于每个分区首先是一些背景信息据我了解 pySpark UDFs强制 Python 代码在 Python 实例中的 Java 虚拟机 JV

python pandas apachespark PySpark

比较两个数据帧 Pyspark

我正在尝试比较具有相同列数的两个数据框即两个数据框中以 id 作为关键列的 4 列 df1 spark read csv path to data1 csv df2 spark read csv path to data2 csv 现在我

python DataFrame apachespark PySpark apachesparksql

在 Spark 结构化流中保留给定键的最后一行

与 Kafka 的日志压缩类似有很多用例需要仅保留给定键的最后更新并使用结果来连接数据如何将其存档在 Spark 结构化流中最好使用 PySpark 例如假设我有桌子 key time value A 1 foo B 2 foobar

apachespark PySpark SparkStructuredStreaming

从 Spark RDD 中删除空分区

我正在从 HDFS 获取数据并将其存储在 Spark RDD 中 Spark根据HDFS块的数量创建分区的数量这会导致大量空分区这些空分区也会在管道传输过程中得到处理为了消除这种开销我想从 RDD 中过滤掉所有空分区我知道合并和重

Hadoop apachespark PySpark RDD

异常：应通过 PYTHONHASHSEED 禁用字符串哈希的随机性在 pyspark 中意味着什么？

我正在尝试从 pyspark 中的列表创建字典我有以下列表 rawPositions Gives 1009794 LPF6 Comdty BC22 Enterprise 3 0 3904 125 390412 5 1009794 LPF6

python3x apachespark PySpark

Pyspark 中的多个 WHEN 条件实现

我有我的 T SQL 代码我已在 Pyspark 中对其进行了转换但出现了错误 CASE WHEN time on site eventaction IN AND time on site next action OUT AND tim

TSQL PySpark apachesparksql CaseWhen when

Python - PySpark 的 Pickle Spacy

The Spacy 2 0 文档提到开发人员添加了允许对 Spacy 进行 pickle 的功能以便它可以由 PySpark 接口的 Spark 集群使用但是他们没有给出如何执行此操作的说明有人可以解释一下我如何pickle Spa

python apachespark PySpark userdefinedfunctions

“pyspark.sql.functions.window”函数的“startTime”参数有什么作用？

官方文档中只有一个简单的例子 startTime 是相对于 1970 01 01 00 00 00 UTC 的偏移量从哪开始窗口间隔例如为了让每小时滚动窗口从 15 分钟开始过了一个小时例如12 15 13 15 13 15 1

apachespark DataFrame PySpark apachesparksql

在 pyspark 列表中对不同数据帧列求和的正确方法是什么？

我想对 Spark 数据框中的不同列求和 Code from pyspark sql import functions as F cols A p1 B p1 df spark createDataFrame 1 2 4 89 12 60

python apachespark PySpark apachesparksql

Spark.read.csv() 是一个关于转换的操作吗

Bill在 Spark权威指南一书中说阅读是一种转变而且是一种狭义的转变现在如果我运行下面的 Spark 代码并尝试查看 Spark UI 我会看到创建的作业df spark read csv path to file 现在根据我

python apachespark PySpark

如何融化Spark DataFrame？

PySpark 或至少 Scala 中的 Apache Spark 中是否有等效的 Pandas Melt 函数到目前为止我一直在 Python 中运行示例数据集现在我想对整个数据集使用 Spark 火花 gt 3 4 在 Spark

apachespark PySpark apachesparksql melt

如何从 PySpark MultilayerPerceptronClassifier 获取分类概率？

我在 python 中使用 Spark 2 0 1 我的数据集位于 DataFrame 中因此我使用 ML 不是 MLLib 库进行机器学习我有一个多层感知器分类器但只有两个标签我的问题是是否不仅可以获得标签还可以获得或仅该

apachespark machinelearning neuralnetwork PySpark apachesparkml

weekofyear() 返回 1 月 1 日看似不正确的结果

我不太确定为什么我的代码给出 52 作为以下问题的答案 weekofyear 01 JAN 2017 有人对此有可能的解释吗有一个更好的方法吗 from pyspark sql import SparkSession functions

apachespark PySpark apachesparksql weeknumber

如何计算Spark结构化流中的滞后差？

我正在编写 Spark 结构化流程序我需要创建一个具有滞后差的附加列为了重现我的问题我提供了代码片段这段代码消耗data json文件存储在data folder id 77 type person timestamp 153260

apachespark PySpark apachesparksql SparkStructuredStreaming

如何将 Row 类型转换为 Vector 以馈送到 KMeans

当我尝试将 df2 提供给 kmeans 时出现以下错误 clusters KMeans train df2 10 maxIterations 30 runs 10 initializationMode random 我得到的错误 Can

apachespark PySpark kmeans apachesparkmllib apachesparksql

pyspark 在没有 pandas 的情况下将一列拆分为多列

我的问题是如何将一列拆分为多列我不知道为什么df toPandas 不起作用例如我想将 df test 更改为 df test2 我看到很多使用 pandas 模块的例子还有别的办法吗先感谢您 df test sqlContext

python apachespark PySpark apachesparksql