Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何在 Databricks 中使用 OPTIMIZE ZORDER BY
我有两个数据框 来自三角洲湖表 它们通过 id 列进行左连接 sd1 sd2 sql select a columnA b columnB from sd1 a left outer join sd2 b on a id b id 问题是我
PySpark
Databricks
azuredatabricks
deltalake
databrickssql
如何将 Pyspark Dataframe 标题设置到另一行?
我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框 使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行 新表应如下所示 id na
python
apachespark
PySpark
获取 int() 参数必须是字符串或数字,而不是“Column”- Apache Spark
如果我使用以下代码 我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
python
apachespark
PySpark
如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据?
更多源数据来自我需要定期轮询的 Web 服务端点 获得数据后 我可以使用 pyspark 执行传统的 ETL 并最终将数据写入 S3 和 Redshift 我不确定如何进行初始提取 甚至不确定我应该在 AWS Glue 文档中查找什么内容
WebServices
amazonwebservices
PySpark
awsglue
pyspark flatmat 错误:TypeError:“int”对象不可迭代
这是我书中的示例代码 from pyspark import SparkConf SparkContext conf SparkConf setMaster spark chetan ThinkPad E470 7077 setAppNam
apachespark
PySpark
python35
flatMap
如何使用 PySpark 预处理图像?
我有一个项目 需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型 我的问题是了解如何使用 PySpark 操作图像数据 但无法在
python
DataFrame
apachespark
imageprocessing
PySpark
以编程方式结束/退出粘合作业
我正在使用 Glue 书签来处理数据 我的工作是每天安排的 但也可以 手动 启动 由于我使用书签 有时胶水作业可以在没有新数据要处理的情况下启动 然后读取的数据帧为空 在这种情况下 我想好好地结束我的工作 因为它没有什么关系 我试过 if
python
PySpark
awsglue
exit
awsgluespark
PySpark:如何将带逗号的列指定为小数
我正在使用 PySpark 并加载csv文件 我有一列包含欧洲格式的数字 这意味着逗号替换点 反之亦然 例如 我有2 416 67代替2 416 67 My data in csv file looks like this ID Reven
csv
PySpark
numberformatting
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值?
import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
apachespark
PySpark
apachesparksql
通过过滤对 Pyspark Dataframe 进行分组
我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户 看看他们有多少要求 看看
python
apachespark
PySpark
apachesparksql
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用?
我正在 Python Spark ml 中进行正态性测试 看到了我的结果think是一个错误 这是设置 我有一个标准化的数据集 范围 1 到 1 当我做直方图时 我可以清楚地看到数据不正常 gt gt gt prices norm hist
python
PySpark
apachesparkmllib
kolmogorovsmirnov
使用 pyspark 计算所有可能的单词对
我有一个文本文档 我需要找到整个文档中重复单词对的可能数量 例如 我有下面的word文档 该文档有两行 每行用 分隔 文档 My name is Sam My name is Sam My name is Sam My name is Sa
python
apachespark
PySpark
RDD
Spark:出现心跳错误后丢失数据
我有一个在 Spark 集群上运行的 Python 程序 有四个工作线程 它处理一个包含大约 1500 万条记录的巨大 Oracle 表 检查结果后发现大约有600万条记录没有插入 我的写入功能如下 df write format jdbc
scala
apachespark
PySpark
apachesparksql
列对象不可调用 Spark
我尝试安装 Spark 并运行教程中给出的命令 但出现以下错误 https spark apache org docs latest quick start html https spark apache org docs latest q
apachespark
PySpark
pyspark:将多个数据帧字段传递给 udf
我是 Spark 和 Python 的新手 任何帮助表示赞赏 我有一个 UDF 并使用 US zipcd 纬度和经度创建了一个 Spark 数据框 UDF import math def distance origin destinatio
PySpark
如何将多行标签 xml 文件转换为 dataframe
我有一个包含多个行标签的 xml 文件 我需要将此 xml 转换为正确的数据帧 我使用了spark xml 它只处理单行标签 xml数据如下
apachespark
PySpark
apachesparkxml
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit:ivy-cache 文件未找到错误
我一整天都在与它斗争 我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境 我的火花版
apachespark
PySpark
ivy
sparksubmit
graphframes
从 pandas udf 记录
我正在尝试从 python 转换中调用的 pandas udf 进行日志记录 因为在执行器上调用的代码不会显示在驱动程序的日志中 我一直在寻找一些选项 但到目前为止最接近的选项是这个one https stackoverflow com q
apachespark
logging
PySpark
userdefinedfunctions
palantirfoundry
为什么 PySpark 中的 agg() 一次只能汇总 DataFrame 的一列? [复制]
这个问题在这里已经有答案了 对于下面的数据框 df spark createDataFrame data Alice 4 300 Bob 7 677 schema name High 当我尝试找到最小值和最大值时 我只得到输出中的最小值 d
python
apachespark
PySpark
apachesparksql
如何过滤 pyspark 列表中值的列?
我有一个数据框原始数据 我必须在 X 列上应用值 CB CI 和 CR 的过滤条件 所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
apachespark
PySpark
apachesparksql
1
2
3
4
5
6
...46
»