读取特定 Parquet 列时，将读取所有列而不是 Parquet-Sql 中给出的单个列

2024-02-29

我在 Parquet Documentation 中读到，只有我查询的列，才会读取并处理该列的数据。但是当我看到 Spark-UI 时，我发现完整的文件已被读取。

以下是编写 parquet 文件并在 Spark-Sql 中读取的代码。

object ParquetFileCreator_simple {
  def datagenerate(schema: Schema, ind: Long): GenericRecord ={
    var data: GenericRecord = new GenericData.Record(schema)
    data.put("first", "Pg20 " + ind )
    data.put("appType", "WAP" + ind)
    data
  }
  def main (args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[2]").set("spark.app.name", "merger").set("spark.eventLog.enabled", "true")
    val sc = new SparkContext(conf)
    val sqlc = new org.apache.spark.sql.SQLContext(sc)

    val schemaPath = "/home/a.avsc"
    val schema = new Schema.Parser().parse(new FileInputStream(schemaPath))
    val outFile = "/home/parquet_simple.parquet"
    val outPath: org.apache.hadoop.fs.Path = new org.apache.hadoop.fs.Path(outFile);
    var writer: AvroParquetWriter[GenericRecord] = new AvroParquetWriter[GenericRecord](outPath, schema);
    for(ind <- 1 to 50000000) {
      var r = datagenerate(schema, ind)
      writer.write(r);
    }

    writer.close();

    val df = sqlc.read.parquet(outFile)
    df.registerTempTable("nestedread")
    //var results = df.select("address.pincode")
    val results = sqlc.sql("SELECT first FROM nestedread ")
    results.count()
    //results.foreach(x=>println(x))

    Thread.sleep(60000)
  }

}

我的 Avro 架构是：a.avsc

 {
    "type": "record",
    "name": "FullName",
    "namespace": "com.snapdeal.event.avro",
    "fields": [{
        "name": "first",
        "type": ["string", "null"]
    },  {
                   "name" : "appType",
                   "type" :   {
                     "name" : "app_types",
                     "type" : "enum",
                     "symbols" : [ "WAP", "WEB", "APP" ]
                   }
                 }
    ]
 }

我已经在本地运行了这个。我首先创建了一个 1.7GB 的文件，Parquet 读取该文件。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

parquet

读取特定 Parquet 列时，将读取所有列而不是 Parquet-Sql 中给出的单个列的相关文章

Scala REPL 中的递归重载语义 - JVM 语言

使用 Scala 的命令行 REPL def foo x Int Unit def foo x String Unit println foo 2 gives error type mismatch found Int 2 required
Spark：出现心跳错误后丢失数据

我有一个在 Spark 集群上运行的 Python 程序有四个工作线程它处理一个包含大约 1500 万条记录的巨大 Oracle 表检查结果后发现大约有600万条记录没有插入我的写入功能如下 df write format jdbc
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
Scala 中抛出异常，什么是“官方规则”

我正在 Coursera 上学习 Scala 课程我也开始阅读 Odersky 的 Scala 书我经常听到的是在函数式语言中抛出异常不是一个好主意因为它破坏了控制流并且我们通常返回一个失败或成功的 Either Scala 2
以编程方式启动 Scala REPL？

我想从命令行启动 Scala Swing 应用程序然后在应用程序启动后放入 Scala REPL 中以用作控制界面理想情况下我还想预先绑定一些变量名称更好的是使用 REPL 的 Java2D 终端模拟器但我找不到任何合适的东西
通用 scala 函数，其输入是变量数量的函数

我想定义一个函数f需要另一个函数g 我们需要g采取采取n双打对于某些固定n 并返回一个 Double 函数调用f g 应该返回具体值n 例如 f Math max 2因为 Math sin 具有类型 Double Double gt Do
Scala（或 Java）中泛型函数的特化

是否可以在 Scala 中专门化泛型函数或类例如我想编写一个将数据写入 ByteBuffer 的通用函数 def writeData T buffer ByteBuffer data T buffer put data 但由于 put
减少/折叠幺半群列表，但减少器返回任一

我发现自己遇到过几次这样的情况我有一个减速器组合 fn 如下所示 def combiner a String b String Either String String a b asRight String 它是一个虚拟实现但 fn
多个 scala 库导致 intellij 出错？

我正在使用 intellij 14 和 scala 2 11 6 使用 homebrew 安装并使用符号链接 ln s usr local Cellar scala 2 11 6 libexec src usr local Cellar s
如何使用 PySpark 预处理图像？

我有一个项目需要为 1 设置大数据架构 AWS S3 SageMaker 的概念验证使用 PySpark 预处理图像 2 执行 PCA and 3 训练一些机器或深度学习模型我的问题是了解如何使用 PySpark 操作图像数据但无法在
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
更改 build.sbt 自定义任务中的版本

我在 build sbt 中定义了一个自定义任务 val doSmth taskKey Unit smth doSmth version 1 0 SNAPSHOT 但它不会改变版本我真正想要的是自定义 sbt 发布任务它将始终将相同的版
具有上限的联合类型

我正在遵循这个问题的公认答案中提出的技术如何定义类型析取联合类型 https stackoverflow com questions 3508077 does scala have type disjunction union type
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
Play框架：单属性案例类的JSON读取

我正在尝试为包含单个属性的案例类创建隐式 JSON Reads 但收到错误 Reads Nothing 不符合预期类型这是代码 import play api libs functional syntax import play api
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
Scala中有类似Java Stream的“peek”操作吗？

在Java中你可以调用peek x gt println x 在 Stream 上它将对每个元素执行操作并返回原始流这与 foreach 不同 foreach 是 Unit Scala 中是否有类似的东西最好是适用于所有 Monady
andThen 类型不匹配的 Scala 链接函数

我有一堆函数可以清理文本并将它们分成单词最小的例子 val txt Mary had a little nlamb val stopwords Seq a def clean text String String text replace
Slick和bonecp：org.postgresql.util.PSQLException：FATAL：抱歉，太多客户端已经错误

当我在本地开发应用程序时我使用以下命令启动我的 play2 应用程序sbt run 我喜欢如何更改代码然后重新加载浏览器以查看我的更改在大约 10 次代码更改之后我收到 postgresql 太多连接错误见下文我的数据库连接使用
Spark DataFrame 序列化为无效 json

TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储

随机推荐

使用 SQL Server 2012 生成包含一天中各小时的日历表

问题陈述我在消防部门工作正在对我的数据进行统计分析一个问题是生成一个日历年中每天每小时的服务呼叫数量我需要一张可以连接到一年中每一天和每天每小时的火灾事件的表我希望的是以下内容使用军事时间 2017 年 1 月 1 日 00 0
如何隐藏任务栏条目但保留窗口窗体？

我想隐藏任务栏条目以最大化有效空间因为该应用程序有一个系统托盘图标我不需要任务栏条目该应用程序不允许您只有一个系统托盘而不是两者都有如何隐藏任务栏条目但保留窗口窗体您的申请是用什么语言编写的你想要的API调用被称为设置窗口长度
删除 UIPopoverPresentationController 后面的调光视图

我正在尝试删除使用 UIPopoverPresentationController 呈现的弹出窗口后面的变暗视图我已经实现了自定义 UIPopoverBackgroundView 但似乎没有办法摆脱这种变暗视图我已经使用视图层次结构检查
initializer_list c++11 中的求值顺序

在下面的代码中是否需要f1之前被调用f2 或反之亦然还是未指定 int f1 int f2 std initializer list
在 Python 列表推导式中缓存值

我正在使用以下列表理解 resources obj get file for obj in iterator if obj get file None 有没有办法缓存 obj get file 当它在 if 语句中检查时这样就不必调用g
使用 Google OAuth 2.0 的 Nginx 代理

我有一个 Ubuntu 14 04 服务器并且有一个运行在以下位置的流星应用程序localhost 3000在此服务器上我的服务器的公共 FQDN 是sub example com Meteor 应用程序使用 Google OAuth
窗口调整大小指令

我试图在窗口调整大小时调整 div 大小环顾四周后似乎使用指令是最好的解决方案模板 div div 指示 myApp directive elheightresize window function window return lin
如何编辑 WKWebView 显示的键盘附件视图？

我在 Swift 应用程序中使用 WKWebView 来呈现一些文本字段我设置了一些外观属性来匹配特定的设计在这种情况下其背景必须是蓝色的但是当 WKWebView 触发键盘时它会对外观属性执行一些操作并以我的颜色的浅色外观显示
Python 多处理管道非常慢（>100ms）

我目前正在用 Python 3 x 编写一个图像处理程序需要以低延迟目前我正在使用管道向子进程发送命令最重要的是在框架更新时通知它们在测量父级的 send 命令和子级的 receive 命令之间的时间时延迟始终 gt 100 毫
将 HTML 返回到 AJAX Rails 调用

读完大卫海涅迈尔汉森之后博客文章 https 37signals com svn posts 3697 server generated javascript responses关于服务器生成的 javascript 我决定回顾一下在
将表达式传递给 NHibernate 中的方法会导致“ConstantExpression”类型的对象无法转换为“LambdaExpression”类型

这个问题在 NHibernate 2 和 3 中都会出现我有一个类 A 它有一个类 B 的成员集直接查询类可以很好地执行但是当我将涉及类 B 的表达式之一传递到方法中时出现以下错误 System ArgumentException
Airflow - 分支连接运算符

我正在尝试加入 Airflow 中的分支操作员我这样做了 op1 gt gt op2 op3 op4 op2 gt gt op5 op3 gt gt op6 op4 gt gt op7 op5 op6 op7 gt gt op8 它给出了
涉及异步调用时，如何设置具体的执行顺序？

我是 JavaScript 世界的新手 2 天我之前唯一的编码经验是 Java 其中语句的执行是按顺序进行的我明白或者至少我读过 JavaScript 是异步的这意味着如果有一个语句需要很长时间才能执行则执行下一个语句而不会阻止
您是否混淆过您的商业 Java 代码？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我想知道是否有人在他自己的商业产品上使用商业免费的 java 混淆器我只知道一个项目在发布的 ant 构建步骤中实际上有一个令人困惑的步骤
如何访问conda环境.yml中预定义的环境变量？

我希望与其他人共享一个environment yml 文件以重现与我相同的设置我们使用的代码取决于环境变量 PWD 我希望在environment yml 中设置一个新的环境变量我可以在其中访问 PWD 例如我能够做到 variab
继承层次：构造函数和析构函数的执行顺序

Here http www parashift com c faq lite multiple inheritance html http www parashift com c faq lite multiple inheritance
在Python中使用lambda表达式在循环内生成函数[重复]

这个问题在这里已经有答案了如果我制作两个函数列表 def makeFun i return lambda i a makeFun i for i in range 10 b lambda i for i in range 10 为什么要列
空合并运算符的右结合如何表现？

空合并运算符是右结合的这意味着以下形式的表达式第一的第二第三被评估为第一的第二个第三个根据上述规则我认为以下翻译是不正确的 From Address contact user ContactAddress if cont
MSBuild 运行单元测试

我正在尝试配置 CruiseControl net 以定期构建我们的存储库代码并运行解决方案中包含的测试我已经配置了从 svn 服务器和构建部分检索代码但我无法对其进行测试 MSBuild 一直在抱怨这一点错误 MSB4057 目标
读取特定 Parquet 列时，将读取所有列而不是 Parquet-Sql 中给出的单个列

我在 Parquet Documentation 中读到只有我查询的列才会读取并处理该列的数据但是当我看到 Spark UI 时我发现完整的文件已被读取以下是编写 parquet 文件并在 Spark Sql 中读取的代码 obj

读取特定 Parquet 列时，将读取所有列而不是 Parquet-Sql 中给出的单个列

读取特定 Parquet 列时，将读取所有列而不是 Parquet-Sql 中给出的单个列 的相关文章

随机推荐

热门标签

读取特定 Parquet 列时，将读取所有列而不是 Parquet-Sql 中给出的单个列的相关文章