PySpark

在python中按时间（TimestampType）连接两个spark数据帧

我有两个数据帧我想基于一列连接它们但需要注意的是该列是一个时间戳并且该时间戳必须在一定的偏移量 5 秒内才能连接记录更具体地说记录在dates df with date 1 3 2015 00 00 00应该加入events

join apachespark apachesparksql PySpark

如何将 Spark Streaming 数据转换为 Spark DataFrame

到目前为止 Spark还没有创建用于流数据的DataFrame 但是当我在进行异常检测时使用DataFrame进行数据分析更加方便快捷我已经完成了这部分但是当我尝试使用流数据进行实时异常检测时出现了问题我尝试了多种方法仍然无法将

python PySpark SparkStreaming

连接两个连接键不同的 DataFrame，并且仅选择某些列

我想做的是连接两个 DataFrameA and B使用各自的id列a id and b id 我想从中选择所有列A和两个特定的列B 我尝试了类似下面用不同引号放置的内容但仍然不起作用我觉得在 pyspark 中应该有一个简单的方法

apachespark join PySpark apachesparksql

Pandas 无法读取在 PySpark 中创建的 parquet 文件

我正在通过以下方式从 Spark DataFrame 编写镶木地板文件 df write parquet path myfile parquet mode overwrite compression gzip 这将创建一个包含多个文件的文件

python pandas apachespark PySpark parquet

Pyspark 列转换：计算列中每个组的百分比变化

我在本地计算机上使用 Pyspark 我有一个包含 450 万行和大约 30 000 种不同股票的 Spark 数据框我需要计算每只股票随时间变化的百分比我已经运行了 orderBy 以便将所有股票分组在一起如下例所示下面是一个简化

PySpark

将 PySpark 数据帧列的聚合值存储到变量中

我在这里使用 PySpark 数据框 test1 是我的 PySpark 数据帧 event date 是 TimestampType 因此当我尝试获取 event date 的不同计数时结果是一个整数变量但是当我尝试获取同一列的最大

apachespark PySpark

AWS Glue 谓词下推条件无效

我有一个 MySQL 源我从中创建一个具有谓词下推条件的 Glue 动态框架如下所示 datasource glueContext create dynamic frame from catalog database source ca

mysql python3x amazonwebservices PySpark awsglue

Py4JJavaError：调用 o1670.collectToPython 时发生错误

我正在尝试将 Spark RDD 转换为 Pandas DataFrame 我使用 csv 文件作为示例该文件有 10 以下是前 3 行可堆叠储物架的 Eldon 底座铂金 Muhammed MacIntyre 3 213 25 38

apachespark PySpark py4j

如何从 Apache Spark 中的数据帧中选择相同大小的分层样本？

我在 Spark 2 中有一个数据框如下所示其中用户有 50 到数千个帖子我想创建一个新的数据框其中包含原始数据框中的所有用户但每个用户只有 5 个随机抽样的帖子 user id post id text 67778705 447

apachespark PySpark apachesparksql

如何在 pyspark pandas_udf 中记录/打印消息？

我已经测试过logger and print无法打印消息pandas udf 无论是在集群模式还是客户端模式测试代码 import sys import numpy as np import pandas as pd from pyspa

pandas apachespark PySpark userdefinedfunctions

如何使用 pyspark 更新结构体嵌套列中的值

我尝试做非常简单的事情更新嵌套列的值但是我不知道如何环境阿帕奇火花2 4 5 数据块 6 4 Python 3 7 dataDF Jon Smith 1580 01 06 M 3000 schema StructType Stru

python apachespark PySpark apachesparksql

如何处理 Spark 中数据帧列名称中的空格

我从 df 注册了一个 tmp 表该表的列标题中有空格如何在通过 sqlContext 使用 sql 查询时提取该列我尝试使用反勾但它不起作用 df1 sqlContext sql select Company Sector Indu

apachespark PySpark apachesparksql

pyspark“DataFrame”对象没有属性“_get_object_id”

我正在尝试运行一些代码但出现错误 DataFrame 对象没有属性 get object id 代码 items 1 12 1 float Nan 1 14 1 10 2 22 2 20 2 float Nan 3 300 3 float

python DataFrame apachespark PySpark

PySpark 根据名称将列表分解为多列

您好我正在处理一种稍微困难的文件格式我正在尝试清理该格式以供将来处理我一直在使用 Pyspark 将数据处理成数据帧该文件看起来类似于 AA 1234 ZXYW BB A 890 CC B 321 AA 1234 LMNO BB D

python apachespark PySpark apachesparksql

对 PySpark DataFrame 进行分组后如何应用描述函数？

我想找到最干净的方法来应用describe函数到分组的 DataFrame 这个问题也可以扩展到将任何 DF 函数应用于分组的 DF 我测试了分组聚合 Pandas UDF 但没有成功总有一种方法可以通过将每个统计数据传递到agg功能但

python apachespark PySpark apachesparksql

为什么 pyspark 中没有数据帧的映射函数，而 Spark 等效项却有它？

目前正在研究 PySpark 没有地图功能DataFrame 并且必须去RDD for map功能在Scala中有一个map on DataFrame 这有什么原因吗 Dataset map不属于DataFrame Dataset Row

apachespark PySpark

合并pySpark RDD中的列表列表

我有一些元组列表我想将它们组合成一个列表我已经能够使用 lambda 和列表理解来处理数据我已经接近能够使用 reduceByKey 但不确定如何合并列表那么格式 0 14 0 24 1 19 1 50 我希望它是这样的 0 14

python apachespark PySpark

在 Pyspark Dataframe 上透视字符串列

我有一个像这样的简单数据框 rdd sc parallelize 0 A 223 201603 PORT 0 A 22 201602 PORT 0 A 422 201601 DOCK 1 B 3213 201602 DOCK 1 B 321

python apachespark DataFrame PySpark apachesparksql

如果 Spark 数据帧特定列中的所有条目均为空，则删除

使用 Pyspark 我如何选择保留所有columns包含非空值的 DataFrame 或等效地删除所有不包含数据的列编辑根据 Suresh 请求 for column in media columns if media select

python apachespark PySpark

Apache Spark：如何从 DataFrame 创建矩阵？

我在 Apache Spark 中有一个带有整数数组的 DataFrame 源是一组图像我最终想对其进行 PCA 但我在从数组创建矩阵时遇到了麻烦如何从 RDD 创建矩阵 gt imagerdd traindf map lambda r

python matrix apachespark PySpark apachesparkmllib