使用 typedcolumn 选择 Spark 数据集

2024-01-13

看着select()Spark DataSet 上的函数有各种生成的函数签名:

(c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....)

这似乎暗示我应该能够直接引用 MyClass 的成员并且类型安全,但我不确定如何......

ds.select("member")当然有效..看起来像ds.select(_.member)也可能以某种方式起作用?


在 Scala DSL 中select,有很多方法可以识别Column:

  • 从一个符号:'name
  • 从字符串:$"name" or col(name)
  • 从一个表达式来看:expr("nvl(name, 'unknown') as renamed")

为了得到一个TypedColumn from Column你只需使用myCol.as[T].

例如:ds.select(col("name").as[String])

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 typedcolumn 选择 Spark 数据集 的相关文章

  • 如何列出所有 sbt 依赖项?

    我需要列出所有 sbt 依赖项 以便检查是否已存在 debian 软件包 我还注意到有一个 DEB 包 http www scala sbt org 0 13 tutorial Installing sbt on Linux html但似乎
  • 将类型安全配置conf文件传递给DataProcSparkOperator

    我正在使用 Google dataproc 提交 Spark 作业 并使用 google Cloud Composer 来安排它们 不幸的是 我面临着困难 我依靠 conf文件 类型安全配置文件 将参数传递给我的 Spark 作业 我正在将
  • akka http配置中的idle-timeout和request timeout有什么区别?

    我查阅了文档并发现了这些 空闲连接自动关闭的时间 设置infinite完全禁用空闲连接超时 空闲超时 10 秒 Defines the default time period within which the application has
  • Spark 与 Webhdfs/httpfs

    我想通过 httpfs 或 Webhdfs 将文件从 HDFS 读入 Spark 类似的东西 sc textFile webhdfs myhost 14000 webhdfs v1 path to file txt 或者 理想情况下 sc
  • createOrReplaceTempView 在 Spark 中如何工作?

    我是 Spark 和 Spark SQL 的新手 如何createOrReplaceTempView在 Spark 工作 如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
  • 如何在 akka actor 中测试公共方法?

    我有一个 akka 演员 class MyActor extends Actor def recieve def getCount id String Int do a lot of stuff proccess id do more st
  • 如何将多个 parquet 文件附加到 Pandas 中的一个数据帧

    我正在使用 Spark 和 Pandas 解压缩 snappy parquet 文件 我有 180 个文件 我的 Jupyter 笔记本中有 7GB 数据 根据我的理解 我需要创建一个循环来获取所有文件 用 Spark 解压缩它们并附加到
  • 带可变参数的 Spark UDF

    如文档中所示 列出最多 22 个参数是唯一的选择吗 https spark apache org docs 1 5 0 api scala index html org apache spark sql UDFRegistration ht
  • Scala 警告、IntelliJ 和编译器标志

    我目前正在试用 IntelliJ Scala 插件 有件事让我有点烦恼 编译时我收到 3 个警告 Warning scala Recompiling 4 files Warning scala Warning scala there wer
  • 使用 PySpark 从 azure blob 存储读取 csv 文件

    我正在尝试使用 Microsoft Azure 上的 PySpark HDInsight 集群来做一个机器学习项目 要在我的集群上进行操作 请使用 Jupyter 笔记本 另外 我的数据 一个 csv 文件 存储在 Azure Blob 存
  • 如何在Scala中表达这个类型?存在类型类(即隐式)限制吗?

    我正在使用 Play 框架的 JSON 库 它使用类型类来实现Json toJson功能 http www playframework org documentation api 2 0 4 scala index html play ap
  • 创建自定义 scala 集合,其中映射默认返回自定义集合?

    特质TraversableLike A Repr 允许人们在其中进行收藏some函数将返回一个Repr 而其他人则继续返回类型参数That在功能上 有没有办法定义一个CustomCollection A 其中函数如map 其他的默认That
  • 无法在 Windows 10 中启动 Spark Master

    我是 Spark 新手 我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
  • scala.math.BigDecimal :1.2 和 1.20 相等

    将 Double 或 String 转换为 scala math BigDecimal 时如何保持精度和尾随零 用例 在 JSON 消息中 属性的类型为 String 值为 1 20 但是在 Scala 中读取这个属性并将其转换为 BigD
  • Build.scala中%和%%符号含义

    我是新来玩的 Framework 2 1 java版本 并且没有scala经验 我不明白什么是以及什么是 and 在 Build scala 中表示 我用谷歌搜索了它们但找不到它们的含义 在我的 Build scala 文件中 我有 org
  • 为什么我不需要在 Databricks 中创建 SparkSession?

    为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗 还是其他人帮我做的 这仅在笔记本中完成 以简化用户的工作并避免他们指定不同的参数 其中许多参数不会产生任何效果
  • 按元素聚合数组

    Spark scala 相当新 我想知道是否有一种简单的方法以按列方式聚合 Array Double 这是一个例子 c1 c2 c3 1 1 1 0 1 0 3 4 1 2 1 0 0 0 4 3 2 1 0 0 0 0 0 0 2 3 1
  • 如何在 Spark 数据帧 groupBy 中执行 count(*)

    我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
  • xsbt 插件 1.0.0-M7 和 scalatra

    我尝试在我的 scalatra 项目中将 xsbt 插件升级到 1 0 0 M7 但 scalatra 似乎与此版本不兼容 当我尝试重新加载项目时 出现以下错误 我尝试过 scalatra 2 3 0 版本 问候 德斯 java lang
  • Akka中有轻量级的actor吗?

    我的用例非常简单 在两个对象之间交换少量 现在我正在从 Scala Actors 迁移到 Akka 但是我再也找不到那些轻量级 Actors 使用Akka 我不仅需要为Actor创建创建ActorSystem Props 还需要照顾Acto

随机推荐

  • C++ 父类调用子虚函数

    我想要一个纯虚拟父类来调用函数的子实现 如下所示 class parent public void Read read stuff virtual void Process 0 parent Read Process class child
  • 在单元测试中模拟 python 类并验证实例

    我正在尝试对 SFTP 帮助程序类进行单元测试 该类对 pysftp 模块进行一些调用 我想模拟来自 pysftp 的实际网络调用 这样就不会产生副作用 并且只需确保该类使用正确的参数正确调用底层 SFTP 方法即可 这是到目前为止我的代码
  • 如何在 ngRepeat 数组之间推送 AngularJS 中的对象

    所以我是 AngularJS 的新手 我正在尝试构建一个非常简单的列表应用程序 我可以在其中创建一个 ng repeat 项目列表 然后将选定的项目推送到另一个 ng repeat 列表中 虽然我的问题看起来很简单 但我还没有找到合适的解决
  • 在 JQGrid 中显示 Twitter Bootstrap 下拉菜单

    我使用自定义单元格格式化程序向每个 JQGrid 行添加了 twitter bootstrap 下拉菜单 当我单击菜单时 它不完全可见 我应该应用什么样式来在 JQGrid 行的最顶部显示下拉菜单 HTML td title Actions
  • 如何将数据从AppDelegate传递到ViewController?

    我正在使用 Safari 浏览网页 单击此页面上的按钮后 我的 iPad 将启动我的应用程序 所以我实现了该方法 BOOL application UIApplication application handleOpenURL NSURL
  • JPA 2.0 子选择/子查询按条件 api 的 order by 子句

    我想使用 JPA 2 0 criteria api 来构建带有子选择的 order by 子句 我知道你可以用普通的 SQL 来做到这一点 但是它可以用标准 api 来映射吗 有人可以给出代码示例吗 Example Order name a
  • 在 C++ 中可以锁定变量以防止对其进行更改吗?

    我正在使用一个成员变量 并且在程序的某个时刻我想更改它 但我更喜欢在其他地方 锁定它 以防止意外更改 代码解释 class myClass int x This should be prevented to being changed mo
  • 如果 JavaScript 构造函数失败,应该返回什么?

    如果我有一个无法实例化的 javascript 类 构造函数应该返回我可以测试的内容 构造函数总是返回一个对象 因此如果构造函数失败 我不能返回 null function SomeClass id if typeof id number
  • 使用 D3.js 沿连续路径进行插值

    我正在改编迈克 博斯托克的作品沿路径点插值 http bl ocks org mbostock 1705868模型接受数组n单独的路径并沿着每个路径进行插值连续地 对于 D3 来说 下面的代码相对较新 据我所知 它是为两条路径运行点插值同时
  • 在 Google App Engine 日志中查看 POST 请求的参数

    我有一个通过 Google App Engine 运行的服务器 我正在通过控制台查看服务器的请求日志 它们位于Google Cloud Platform gt Stackdriver Logging gt Logs 我想查看 POST 请求
  • 在 Python 中模拟远程主机

    我正在使用 paramiko 编写一些函数来执行命令并在远程主机上创建文件 我想为它们编写一些单元测试 但我不知道实现此目的最简单的方法是什么 这是我设想的代码大纲示例 import os import paramiko import py
  • 无法找到或加载主类org.apache.zookeeper.server.quorum.QuorumPeerMain [重复]

    这个问题在这里已经有答案了 我正在运行 apache kafka 的教程 在 apache kafka 网站上 并且必须使用帮助教程 http janschulte wordpress com 2013 10 13 apache kafka
  • Ruby on Rails - 根据查询在数据库中搜索

    我有一个简单的表单 我在其中设置了一个我想要浏览的查询 例如松下维埃拉 这是我在数据库中搜索术语的方式 Product where name ilike params q order price 查询看起来像 松下维埃拉 但我需要这样搜索查
  • 需要适用于 Iphone、Android、Windows/XP 的兼容 AES 代码加密/解密

    我需要能够从 Windows 向各种手机发送安全信息 我在 iPhone 和 Android 开发方面都是新手 但需要为每个环境创建一个易于使用的应用程序 与收到的短信交互也很好 我想获取适用于 iPhone Android 和 Windo
  • 如何在android活动中使用gradle.properties中的属性?

    如何在android活动中使用gradle properties中的属性 每当我构建代码时 它都会抛出错误 是否有可以在活动内部访问属性的特定方式 在 gradle properties 中 SIMPLE STRING ABC 在 buil
  • 记忆斐波那契的时间复杂度

    我最近遇到了这个 Haskell 记忆斐波那契实现 fibonacci Int gt Integer fibonacci map fib 0 where fib 0 0 fib 1 1 fib n fibonacci n 1 fibonac
  • 了解从整数到浮点数的转换

    有人能解释一下 32 位机器上这个奇怪的输出吗 include
  • 直接在视图中绑定模型属性

    我在 Prism 中找到了这段文字文档 http msdn microsoft com en us library gg405484 28v pandp 40 29 aspx 我开始使用 MVVM 但我迷失了方向 我可以 应该 在视图中绑定
  • ggplot2 中的蠕虫图残差图

    I m trying to plot the Worm plot residuals on a model fitted using the gamlss function from the gamlss package The inter
  • 使用 typedcolumn 选择 Spark 数据集

    看着select Spark DataSet 上的函数有各种生成的函数签名 c1 TypedColumn MyClass U1 c2 TypedColumn MyClass U2 这似乎暗示我应该能够直接引用 MyClass 的成员并且类型