如何取消堆叠数据集（使用数据透视）？

2024-01-22

我在 1.6 上尝试了新的“枢轴”功能更大的堆叠数据集 https://www.kaggle.com/worldbank/world-development-indicators/downloads/world-development-indicators-release-2016-01-28-06-31-53.zip。它有 5,656,458 行，IndicatorCode列有 1344 个不同的代码。

这个想法是使用枢轴来“拆散”（用 pandas 术语）这个数据集，并为每个 IndicatorCode 有一列。

schema = StructType([ \
   StructField("CountryName", StringType(), True), \
   StructField("CountryCode", StringType(), True), \
   StructField("IndicatorName", StringType(), True), \
   StructField("IndicatorCode", StringType(), True), \
   StructField("Year", IntegerType(), True), \
   StructField("Value", DoubleType(), True)  \
])

data = sqlContext.read.load('hdfs://localhost:9000/tmp/world-development-indicators/Indicators.csv', 
                            format='com.databricks.spark.csv', 
                            header='true', 
                            schema=schema)

data2 = indicators_csv.withColumn("IndicatorCode2", regexp_replace("indicatorCode", "\.", "_"))\
                      .select(["CountryCode", "IndicatorCode2", "Year", "Value"])

columns = [row.IndicatorCode2 for row in data2.select("IndicatorCode2").distinct().collect()]

data3 = data2.groupBy(["Year", "CountryCode"])\
             .pivot("IndicatorCode2", columns)\
             .max("Value")

虽然这成功返回了，data3.first()从未返回结果（10 分钟后我使用 3 个核心中断了我的独立操作）。

我的方法使用RDD and aggregateByKey效果很好，所以我不是在寻找有关如何执行此操作的解决方案，而是使用 DataFrames 进行透视是否也可以解决问题。

好吧，一般而言，旋转并不是一个非常有效的操作，并且您对此无能为力DataFrameAPI。你可以尝试的一件事是repartition您的数据：

(data2
  .repartition("Year", "CountryCode")
  .groupBy("Year", "CountryCode")
  .pivot("IndicatorCode2", columns)
  .max("Value"))

甚至聚合：

from pyspark.sql.functions import max

(df
    .groupBy("Year", "CountryCode", "IndicatorCode")
    .agg(max("Value").alias("Value"))
    .groupBy("Year", "CountryCode")
    .pivot("IndicatorCode", columns)
    .max("Value"))

申请之前pivot。两种解决方案背后的想法是相同的。而不是移动大扩展Rows移动狭窄的密集数据并在本地扩展。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

如何取消堆叠数据集（使用数据透视）？的相关文章

如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
Spark 有没有办法捕获执行器终止异常？

在执行我的 Spark 程序期间有时其原因对我来说仍然是个谜 yarn 会杀死容器执行器并给出超出内存限制的消息我的程序确实恢复了但 Spark 通过生成一个新容器重新执行任务但是在我的程序中任务还会在磁盘上创建一些中间文
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
错误：无法找到或加载主类 org.apache.spark.launcher.Main [重复]

这个问题在这里已经有答案了如果有人能帮我解决以下路径问题我将不胜感激我非常怀疑这与缺少路径设置有关但不知道如何修复它 rxie ubuntu Downloads spark echo PATH usr bin java usr lo
根据 pyspark 中的条件从数据框中删除行

我有一个包含两列的数据框 col1 col2 22 12 2 1 2 1 5 52 1 2 62 9 77 33 3 我想创建一个新的数据框它只需要行 col1 的值 gt col2 的值就像注释一样col1 很长类型和col2 有双
纱线上的火花，连接到资源管理器 /0.0.0.0:8032

我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点当然都在linux机器上我在idea IDE中以spark独立模式运行spark程序它运行成功
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段，如何为它设置参数？

我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
pyspark加入多个条件

我如何指定很多条件当我使用pyspark时 join 例子与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current

随机推荐

如何让 Git 忽略符号链接？

我的项目文件夹中有符号链接以便当我在 Windows 10 计算机上的本地开发服务器中运行项目时可以访问大型视频和图像目录问题是 Git 不允许我执行 add 因为当存在符号链接时它会给我这个错误 error readlink Pro
您如何向没有 Javascript 之外的编程经验的人解释 Javascript 类型数组？

最近我经常使用 Canvas 开发一些关于网络游戏的想法因此我最近遇到了 Javascript 类型数组我已经读过一些书例如MDN https developer mozilla org en US docs Web JavaScr
错误：自构建预编译头以来系统文件已被修改

我刚刚下载了 xcode 6 的最终版本并编译了一个我正在使用测试版的项目现在显然生成了以下错误模拟器有人可以帮助我解决这个问题 fatal error file Applications Xcode app Contents Deve
如何在asp .net core web api中获取后台服务中的主机URL？

我有一个 Asp Net core Web api 它将运行后台服务来每天安排一些任务并发送一些邮件在邮件中我需要有 api 的 url 除了控制器之外还有什么方法可以在后台服务中获取主机 URL 后台服务在 Web 请求的范围之外运行
javax.xml.soap.MessageFactory的实例是线程安全的吗？

有人知道 javax xml soap MessageFactory 的实例是否是线程安全的吗我找不到任何与之相关的文档如果您没有看到任何关于某些东西是否是线程安全的文档您应该假设它不是如果你假设它是但事实并非如此这将避免很多头
postgresql 中 mmm yyyy 格式的日期

我有一个表其中有一列没有时区的时间戳类型我想选择该列mmm yyyy格式例如 2011 年 3 月怎么格式化成这样呢我试过 select cast now as date 但它给了我不正确的格式 SELECT TO CHAR NO
用 React 计算 SVG 边界框？

我正在编写一个使用 React 生成 SVG 的可视化应用程序我需要的部分之一是标签即文本由封闭框包围带有可变文本可能会旋转和设置样式所以我有一个组件NodeLabel 目前具有固定尺寸 render return
使用多列的参数化 IN 子句

我有一个沿着这些线的查询我试图通过比较元组来过滤结果集例如SQL IN 子句中的多列 https stackoverflow com questions 13027708 sql multiple columns in in claus
Xcode UI 测试无密码身份验证

我应该如何测试我的 iPhone 应用程序无密码认证 https medium com ninjudd passwords are obsolete 9ed56d483eb 要注册或登录 Xcode 中的 UI 测试 https devel
Solr 到应用程序洞察

如何配置 Solr 日志以发送到 Azure Application Insights 我看到可以使用 Log4J 附加程序 https learn microsoft com en us azure application insight
我必须在哪里以及为什么必须放置“template”和“typename”关键字？

在模板中我必须在哪里以及为什么要放置typename and template关于从属名称到底什么是从属名称我有以下代码 template
更改 FileStream 写入编码类型

这是我的代码 public static string DownloadFile string FtpUrl string FileNameToDownload string userName string password string
在将 json 对象转换为字符串或字节时，Json 对象包含转换为“\n”的换行符

包含换行符的 Json 对象被转换为 n 将 json 对象转换为字符串或字节时如果我选择以下任何一种方式它将新行字符转换为 n byte json objectMapper writeValueAsBytes jsonObject S
根据条件替换并合并 pandas 中的行

我有一个数据框 lft rel rgt num 0 t3 r3 z2 3 1 t1 r3 x1 9 2 x2 r3 t2 8 3 x4 r1 t2 4 4 t1 r1 z3 1 5 x1 r1 t2 2 6 x2 r2 t4 4 7 z3
外观更改时更新 Widget

我需要知道你们中是否有人知道 SwiftUI 中的系统在外观发生变化时更新小部件light模式为dark模式反之亦然我可以更改文本和图像但我使用一种方法来显示地图的屏幕截图并且每次外观发生变化时我都应该运行它以获得正确的地图颜色创
如何计算 mongodb 中的 $lookup 字段？

我对 mongodb 很陌生现在我需要计算 lookup 字段这可能吗我有这样的事情 result await company aggregate lookup from userFocus localField id foreign
WinPhone 8 AppBar 图标大小

The Windows Phone 8 应用栏指南 http msdn microsoft com en us library windowsphone develop ff431806 28v vs 105 29 aspx规定 AppBa
ghci 应用性的特殊情况？

In ghci gt t pure 1 pure 1 Applicative f Num a gt f a gt show pure 1
使用 chron() 将日期/时间戳转换为正确的 R 格式

提前致谢这是我正在处理的日期样本 n 10 这些来自 Excel csv 我需要将它们转换为可识别的 R 格式以便执行基本算术间隔天数等这是 dput 的输出 help data lt structure c 55L 49L 50L
如何取消堆叠数据集（使用数据透视）？

我在 1 6 上尝试了新的枢轴功能更大的堆叠数据集 https www kaggle com worldbank world development indicators downloads world development indi

如何取消堆叠数据集（使用数据透视）？

如何取消堆叠数据集（使用数据透视）？ 的相关文章

随机推荐

热门标签

如何取消堆叠数据集（使用数据透视）？的相关文章