Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在python中按时间(TimestampType)连接两个spark数据帧
我有两个数据帧 我想基于一列连接它们 但需要注意的是 该列是一个时间戳 并且该时间戳必须在一定的偏移量 5 秒 内才能连接记录 更具体地说 记录在dates df with date 1 3 2015 00 00 00应该加入events
join
apachespark
apachesparksql
PySpark
如何将 Spark Streaming 数据转换为 Spark DataFrame
到目前为止 Spark还没有创建用于流数据的DataFrame 但是当我在进行异常检测时 使用DataFrame进行数据分析更加方便快捷 我已经完成了这部分 但是当我尝试使用流数据进行实时异常检测时 出现了问题 我尝试了多种方法 仍然无法将
python
PySpark
SparkStreaming
连接两个连接键不同的 DataFrame,并且仅选择某些列
我想做的是 连接两个 DataFrameA and B使用各自的id列a id and b id 我想从中选择所有列A和两个特定的列B 我尝试了类似下面用不同引号放置的内容 但仍然不起作用 我觉得在 pyspark 中 应该有一个简单的方法
apachespark
join
PySpark
apachesparksql
Pandas 无法读取在 PySpark 中创建的 parquet 文件
我正在通过以下方式从 Spark DataFrame 编写镶木地板文件 df write parquet path myfile parquet mode overwrite compression gzip 这将创建一个包含多个文件的文件
python
pandas
apachespark
PySpark
parquet
Pyspark 列转换:计算列中每个组的百分比变化
我在本地计算机上使用 Pyspark 我有一个包含 450 万行和大约 30 000 种不同股票的 Spark 数据框 我需要计算每只股票随时间变化的百分比 我已经运行了 orderBy 以便将所有股票分组在一起 如下例所示 下面是一个简化
PySpark
将 PySpark 数据帧列的聚合值存储到变量中
我在这里使用 PySpark 数据框 test1 是我的 PySpark 数据帧 event date 是 TimestampType 因此 当我尝试获取 event date 的不同计数时 结果是一个整数变量 但是当我尝试获取同一列的最大
apachespark
PySpark
AWS Glue 谓词下推条件无效
我有一个 MySQL 源 我从中创建一个具有谓词下推条件的 Glue 动态框架 如下所示 datasource glueContext create dynamic frame from catalog database source ca
mysql
python3x
amazonwebservices
PySpark
awsglue
Py4JJavaError:调用 o1670.collectToPython 时发生错误
我正在尝试将 Spark RDD 转换为 Pandas DataFrame 我使用 csv 文件作为示例 该文件有 10 以下是前 3 行 可堆叠储物架的 Eldon 底座 铂金 Muhammed MacIntyre 3 213 25 38
apachespark
PySpark
py4j
如何从 Apache Spark 中的数据帧中选择相同大小的分层样本?
我在 Spark 2 中有一个数据框 如下所示 其中用户有 50 到数千个帖子 我想创建一个新的数据框 其中包含原始数据框中的所有用户 但每个用户只有 5 个随机抽样的帖子 user id post id text 67778705 447
apachespark
PySpark
apachesparksql
如何在 pyspark pandas_udf 中记录/打印消息?
我已经测试过logger and print无法打印消息pandas udf 无论是在集群模式还是客户端模式 测试代码 import sys import numpy as np import pandas as pd from pyspa
pandas
apachespark
PySpark
userdefinedfunctions
如何使用 pyspark 更新结构体嵌套列中的值
我尝试做非常简单的事情 更新嵌套列的值 但是 我不知道如何 环境 阿帕奇火花2 4 5 数据块 6 4 Python 3 7 dataDF Jon Smith 1580 01 06 M 3000 schema StructType Stru
python
apachespark
PySpark
apachesparksql
如何处理 Spark 中数据帧列名称中的空格
我从 df 注册了一个 tmp 表 该表的列标题中有空格 如何在通过 sqlContext 使用 sql 查询时提取该列 我尝试使用反勾但它不起作用 df1 sqlContext sql select Company Sector Indu
apachespark
PySpark
apachesparksql
pyspark“DataFrame”对象没有属性“_get_object_id”
我正在尝试运行一些代码 但出现错误 DataFrame 对象没有属性 get object id 代码 items 1 12 1 float Nan 1 14 1 10 2 22 2 20 2 float Nan 3 300 3 float
python
DataFrame
apachespark
PySpark
PySpark 根据名称将列表分解为多列
您好 我正在处理一种稍微困难的文件格式 我正在尝试清理该格式以供将来处理 我一直在使用 Pyspark 将数据处理成数据帧 该文件看起来类似于 AA 1234 ZXYW BB A 890 CC B 321 AA 1234 LMNO BB D
python
apachespark
PySpark
apachesparksql
对 PySpark DataFrame 进行分组后如何应用描述函数?
我想找到最干净的方法来应用describe函数到分组的 DataFrame 这个问题也可以扩展到将任何 DF 函数应用于分组的 DF 我测试了分组聚合 Pandas UDF 但没有成功 总有一种方法可以通过将每个统计数据传递到agg功能 但
python
apachespark
PySpark
apachesparksql
为什么 pyspark 中没有数据帧的映射函数,而 Spark 等效项却有它?
目前正在研究 PySpark 没有地图功能DataFrame 并且必须去RDD for map功能 在Scala中有一个map on DataFrame 这有什么原因吗 Dataset map不属于DataFrame Dataset Row
apachespark
PySpark
合并pySpark RDD中的列表列表
我有一些元组列表 我想将它们组合成一个列表 我已经能够使用 lambda 和列表理解来处理数据 我已经接近能够使用 reduceByKey 但不确定如何合并列表 那么格式 0 14 0 24 1 19 1 50 我希望它是这样的 0 14
python
apachespark
PySpark
在 Pyspark Dataframe 上透视字符串列
我有一个像这样的简单数据框 rdd sc parallelize 0 A 223 201603 PORT 0 A 22 201602 PORT 0 A 422 201601 DOCK 1 B 3213 201602 DOCK 1 B 321
python
apachespark
DataFrame
PySpark
apachesparksql
如果 Spark 数据帧特定列中的所有条目均为空,则删除
使用 Pyspark 我如何选择 保留所有columns包含非空值的 DataFrame 或等效地删除所有不包含数据的列 编辑 根据 Suresh 请求 for column in media columns if media select
python
apachespark
PySpark
Apache Spark:如何从 DataFrame 创建矩阵?
我在 Apache Spark 中有一个带有整数数组的 DataFrame 源是一组图像 我最终想对其进行 PCA 但我在从数组创建矩阵时遇到了麻烦 如何从 RDD 创建矩阵 gt imagerdd traindf map lambda r
python
matrix
apachespark
PySpark
apachesparkmllib
«
1 ...
41
42
43
44
45
46
47
48
»