Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
将 Spark 数据框中的时间戳转换为日期
我见过 这里 如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
python
python3x
apachespark
PySpark
apachesparksql
Python Spark DataFrame:用 SparseVector 替换 null
在 Spark 中 我有以下名为 df 的数据框 其中包含一些空条目 id features1 features2 185 5 0 1 4 0 1 0 null 220 5 0 2 3 0 1 0 10 1 2 6 0 1 225 null
python
apachespark
PySpark
apachesparksql
Spark SQL / PySpark 中的逆透视
我手头有一个问题陈述 其中我想在 Spark SQL PySpark 中取消透视表 我已经浏览了文档 我可以看到仅支持pivot 但到目前为止还不支持取消透视 有什么方法可以实现这个目标吗 让我的初始表如下所示 When I pivotPy
apachespark
PySpark
apachesparksql
Pivot
unpivot
如何使用列的平均值将列添加到 DataFrame
有没有更好的办法 val mean df select avg date first getDouble 0 df withColumn mean lit mean 我认为避免采取行动是值得的 可以使用以下方法避免额外的操作broadcas
apachespark
DataFrame
apachesparksql
如何从 PySpark 中某个表中找到的多个表中获取所有数据?
我正在使用 pyspark SQL 我有一个包含三列的表 MAIN TABLE DATABASE NAME TABLE NAME SOURCE TYPE 我想从 DATABASE NAME 和 TABLE NAME 列中的主表下找到的实际数
sql
PySpark
apachesparksql
pysparkschema
消息:Hive 架构版本 1.2.0 与 Metastore 的架构版本 2.1.0 不匹配 Metastore 未升级或损坏
环境 spark2 11 hive2 2 hadoop2 8 2 hive shell 运行成功 并且没有错误或警告 但是当运行application sh时 启动失败 usr local spark bin spark submit cl
hive
apachesparksql
计算行的排名
我想根据一个字段对用户 ID 进行排名 对于相同的字段值 排名应该相同 该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点 可以使用ra
scala
apachespark
DataFrame
hive
apachesparksql
Spark:Aggregator和UDAF有什么区别?
在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化 用户定义聚合的基类 可以是 在数据集操作中用于获取组中的所有元素并 将它们减少到单个值 用户定义的聚合函数是 抽象类 UserDefinedAgg
apachespark
apachesparksql
Aggregate
如何在 Spark 中创建空数据帧
我有一组基于 Avro 的配置单元表 我需要从中读取数据 由于Spark SQL使用hive serdes从HDFS读取数据 因此比直接读取HDFS慢很多 因此 我使用数据块 Spark Avro jar 从底层 HDFS 目录读取 Avr
scala
apachespark
apachesparksql
Avro
sparkavro
如何使用 Spark 执行插入覆盖?
我正在尝试将我们的 ETL Hive 脚本之一转换为 Spark 其中 Hive ETL 脚本维护一个表 其中需要在每晚新同步之前删除部分数据 Hive ETL 使用插入覆盖的方式将主表删除超过 3 天的数据 基本上创建一个临时表 其中的数
scala
apachespark
apachesparksql
使用列值作为 Spark DataFrame 函数的参数
考虑以下数据框 letter rpt X 3 Y 1 Z 2 可以使用以下代码创建 df spark createDataFrame X 3 Y 1 Z 2 letter rpt 假设我想重复每行列中指定的次数rpt 就像这样questio
apachespark
PySpark
apachesparksql
pyspark:计算窗口上的不同值
我刚刚尝试做一个countDistinct越过一个窗口并得到这个错误 AnalysisException 不支持不同的窗口函数 计数 不同颜色 1926 有没有办法在 pyspark 的窗口上进行不同的计数 这是一些示例代码 from py
apachespark
PySpark
apachesparksql
windowfunctions
distinctvalues
错误:从列表创建 Spark 数据帧时 TimestampType 无法接受对象
我正在尝试从以下列表创建一个数据框 data 1 abc 2020 08 20 10 00 00 I 1 abc 2020 08 20 10 01 00 U 1 abc 2020 08 21 10 02 00 U 2 pqr 2020 08
PySpark
apachesparksql
如何查找组中第一个非空值? (使用dataset api进行二次排序)
我正在研究一个代表事件流的数据集 例如从网站跟踪事件时触发 所有事件都有一个时间戳 我们经常遇到的一个用例是尝试查找给定字段的第一个非空值 例如 类似的东西最能让我们到达那里 val eventsDf spark read json jso
apachespark
apachesparksql
apachesparkdataset
Spark:shuffle操作导致GC长时间暂停
我在跑Spark 2我正在尝试洗牌大约 5 TB 的 json 我在洗牌期间遇到了很长的垃圾收集暂停Dataset val operations spark read json inPath as MyClass operations re
scala
apachespark
garbagecollection
apachesparksql
g1gc
Spark 数据框添加带有随机数据的新列
我想向数据框中添加一个新列 其值由 0 或 1 组成 我使用了 randint 函数 from random import randint df1 df withColumn isVal randint 0 1 但我收到以下错误 spark
python
apachespark
PySpark
apachesparksql
如何计算 pyspark dataframe 中的每日基础(时间序列)
所以我有一个数据框 我想计算一些数量 比如说每天 假设我们有 10 列 col1 col2 col3 col4 coln 其中每列都依赖于值col1 col2 col3 col4 等等 日期根据id date col1 id col2 co
apachesparksql
PySpark
参数为动态的 Spark 滞后函数
我需要在spark中实现lag函数 我可以像下面这样做 使用 hive temp Spark 表中的一些数据 假设 DF 有这些行 lagno value 0 100 0 200 2 null 3 null 其中第一列是您要使用的实际滞后数
apachespark
apachesparksql
Spark数据框中过滤的多个条件
我有一个包含四个字段的数据框 其中一个字段名称是 Status 我尝试在 filter 中对数据帧使用 OR 条件 我尝试了以下查询 但没有运气 df2 df1 filter Status 2 Status 3 df2 df1 filter
apachespark
apachesparksql
如何将我自己的函数添加为 ML pyspark Pipeline 中的自定义阶段? [复制]
这个问题在这里已经有答案了 Florian 的示例代码 ball column keep the hall column 0 7 14 1 8 15 2 9 16 3 10 17 4 11 18
python
apachespark
PySpark
apachesparksql
«
1
2
3
4
5
6
...43
»