Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 PySpark 时如何将 jdbc 驱动程序添加到类路径?
如何 在哪里安装 Spark sql 的 jdbc 驱动程序 我正在运行全火花笔记本docker 镜像 并尝试将一些数据直接从 sql 数据库提取到 Spark 中 据我所知 我可以告诉我需要将驱动程序包含在我的Classpath 我只是不
PySpark
apachesparksql
如何在 PySpark 中使用列值作为字典的键?
我有一个小的 PySpark DataFramedf index col1 0 1 1 3 2 4 还有一本字典 LOOKUP 0 2 1 5 2 5 3 4 4 6 我现在想添加一个额外的列col2 to df 等于LOOKUP的值col
python
DataFrame
apachespark
PySpark
apachesparksql
Spark.python.worker.memory 与 Spark.executor.memory 有何关系?
这张图对于不同 YARN 和 Spark 内存相关设置之间的关系非常清楚 除了涉及到spark python worker memory 如何spark python worker memory适合这个内存模型吗 Python 进程是否受以
memory
apachespark
PySpark
hadoopyarn
在 PYSPARK 中运行收集时出错
我正在尝试将网站名称与 URL 分开 例如 如果 URL 是 www google com 则输出应为 google 我尝试了下面的代码 除了最后一行 websites collect 之外 一切正常 我使用数据框来存储网站名称 然后将其转
python
apachespark
PySpark
RDD
pySpark forEachPartition - 代码在哪里执行
我正在使用 2 3 版本的 pySpark 在我当前的开发系统中无法更新到 2 4 并且有以下关于对于每个分区 首先是一些背景信息 据我了解 pySpark UDFs强制 Python 代码在 Python 实例中的 Java 虚拟机 JV
python
pandas
apachespark
PySpark
比较两个数据帧 Pyspark
我正在尝试比较具有相同列数的两个数据框 即两个数据框中以 id 作为关键列的 4 列 df1 spark read csv path to data1 csv df2 spark read csv path to data2 csv 现在我
python
DataFrame
apachespark
PySpark
apachesparksql
在 Spark 结构化流中保留给定键的最后一行
与 Kafka 的日志压缩类似 有很多用例需要仅保留给定键的最后更新并使用结果来连接数据 如何将其存档在 Spark 结构化流中 最好使用 PySpark 例如假设我有桌子 key time value A 1 foo B 2 foobar
apachespark
PySpark
SparkStructuredStreaming
从 Spark RDD 中删除空分区
我正在从 HDFS 获取数据并将其存储在 Spark RDD 中 Spark根据HDFS块的数量创建分区的数量 这会导致大量空分区 这些空分区也会在管道传输过程中得到处理 为了消除这种开销 我想从 RDD 中过滤掉所有空分区 我知道合并和重
Hadoop
apachespark
PySpark
RDD
异常:应通过 PYTHONHASHSEED 禁用字符串哈希的随机性在 pyspark 中意味着什么?
我正在尝试从 pyspark 中的列表创建字典 我有以下列表 rawPositions Gives 1009794 LPF6 Comdty BC22 Enterprise 3 0 3904 125 390412 5 1009794 LPF6
python3x
apachespark
PySpark
Pyspark 中的多个 WHEN 条件实现
我有我的 T SQL 代码 我已在 Pyspark 中对其进行了转换 但出现了错误 CASE WHEN time on site eventaction IN AND time on site next action OUT AND tim
TSQL
PySpark
apachesparksql
CaseWhen
when
Python - PySpark 的 Pickle Spacy
The Spacy 2 0 文档提到开发人员添加了允许对 Spacy 进行 pickle 的功能 以便它可以由 PySpark 接口的 Spark 集群使用 但是 他们没有给出如何执行此操作的说明 有人可以解释一下我如何pickle Spa
python
apachespark
PySpark
userdefinedfunctions
“pyspark.sql.functions.window”函数的“startTime”参数有什么作用?
官方文档中只有一个简单的例子 startTime 是相对于 1970 01 01 00 00 00 UTC 的偏移量 从哪开始 窗口间隔 例如 为了让每小时滚动窗口从 15 分钟开始 过了一个小时 例如12 15 13 15 13 15 1
apachespark
DataFrame
PySpark
apachesparksql
在 pyspark 列表中对不同数据帧列求和的正确方法是什么?
我想对 Spark 数据框中的不同列求和 Code from pyspark sql import functions as F cols A p1 B p1 df spark createDataFrame 1 2 4 89 12 60
python
apachespark
PySpark
apachesparksql
Spark.read.csv() 是一个关于转换的操作吗
Bill在 Spark权威指南 一书中说 阅读是一种转变 而且是一种狭义的转变 现在 如果我运行下面的 Spark 代码并尝试查看 Spark UI 我会看到创建的作业df spark read csv path to file 现在根据我
python
apachespark
PySpark
如何融化Spark DataFrame?
PySpark 或至少 Scala 中的 Apache Spark 中是否有等效的 Pandas Melt 函数 到目前为止 我一直在 Python 中运行示例数据集 现在我想对整个数据集使用 Spark 火花 gt 3 4 在 Spark
apachespark
PySpark
apachesparksql
melt
如何从 PySpark MultilayerPerceptronClassifier 获取分类概率?
我在 python 中使用 Spark 2 0 1 我的数据集位于 DataFrame 中 因此我使用 ML 不是 MLLib 库进行机器学习 我有一个多层感知器分类器 但只有两个标签 我的问题是 是否不仅可以获得标签 还可以获得 或仅 该
apachespark
machinelearning
neuralnetwork
PySpark
apachesparkml
weekofyear() 返回 1 月 1 日看似不正确的结果
我不太确定为什么我的代码给出 52 作为以下问题的答案 weekofyear 01 JAN 2017 有人对此有可能的解释吗 有一个更好的方法吗 from pyspark sql import SparkSession functions
apachespark
PySpark
apachesparksql
weeknumber
如何计算Spark结构化流中的滞后差?
我正在编写 Spark 结构化流程序 我需要创建一个具有滞后差的附加列 为了重现我的问题 我提供了代码片段 这段代码消耗data json文件存储在data folder id 77 type person timestamp 153260
apachespark
PySpark
apachesparksql
SparkStructuredStreaming
如何将 Row 类型转换为 Vector 以馈送到 KMeans
当我尝试将 df2 提供给 kmeans 时 出现以下错误 clusters KMeans train df2 10 maxIterations 30 runs 10 initializationMode random 我得到的错误 Can
apachespark
PySpark
kmeans
apachesparkmllib
apachesparksql
pyspark 在没有 pandas 的情况下将一列拆分为多列
我的问题是如何将一列拆分为多列 我不知道为什么df toPandas 不起作用 例如 我想将 df test 更改为 df test2 我看到很多使用 pandas 模块的例子 还有别的办法吗 先感谢您 df test sqlContext
python
apachespark
PySpark
apachesparksql
«
1 ...
40
41
42
43
44
45
46
»