Spark 数据帧的 null 值和 countDistinct

2023-11-26

我有一个非常简单的数据框

  df = spark.createDataFrame([(None,1,3),(2,1,3),(2,1,3)], ['a','b','c'])

  +----+---+---+
  |   a|  b|  c|
  +----+---+---+
  |null|  1|  3|
  |   2|  1|  3|
  |   2|  1|  3|
  +----+---+---+

当我申请一个countDistinct在此数据框上，我发现根据方法不同的结果：

第一种方法

  df.distinct().count()

2

这是我的结果，除了最后两行相同，但第一行与其他两行不同（因为空值）

第二种方法

  import pyspark.sql.functions as F
  df.agg(F.countDistinct("a","b","c")).show()

1

看来是这样的方式F.countDistinct涉及null价值对我来说并不直观。

对你来说它看起来是错误还是正常？如果正常的话，我如何编写一些输出与第一种方法完全相同的结果但与第二种方法具有相同精神的东西。

countDistinct工作方式与Hive count(DISTINCT expr[, expr]):

count(DISTINCT expr[ expr]) - 返回所提供的表达式唯一且非 NULL 的行数。

不包括第一行。这对于 SQL 函数来说很常见。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

PySpark

apachesparksql

Spark 数据帧的 null 值和 countDistinct 的相关文章

将 IndexToString 应用于 Spark 中的特征向量

Context 我有一个数据框其中所有分类值都已使用 StringIndexer 进行索引 val categoricalColumns df schema collect case StructField name StringType
如何设置SPARK_HOME变量？

按照链接中的气泡水步骤进行操作http h2o release s3 amazonaws com sparkling water rel 2 2 0 index html http h2o release s3 amazonaws com
Scala Spark 包含与不包含

我可以使用 contains 过滤 RDD 中的元组如下所示但是使用不包含来过滤 RDD 又如何呢 val rdd2 rdd1 filter x gt x 1 contains 我找不到这个的语法假设这是可能的并且我没有使用Dat
Spark 中的 Distinct() 函数如何工作？

我是 Apache Spark 的新手正在学习基本功能有一个小疑问假设我有一个元组键值的 RDD 并且想从中获取一些唯一的元组我使用distinct 函数我想知道该函数基于什么基础认为元组是不同的是基于键值还是两者 di
Spark/Gradle -- 在 build.gradle 中获取 IP 地址以用于启动 master 和worker

我在基本层面上了解 build gradle 构建脚本的各个移动部分但无法将它们全部结合在一起在 Apache Spark 独立模式下只需尝试从 build gradle 在同一个机器上启动 master 和worker 稍后将使用
在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map
从 pyspark.sql 中的列表创建数据框

我完全陷入了有线的境地现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
如何根据条件添加新列（而不面临 JaninoRuntimeException 或 OutOfMemoryError）？

尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Spark 请求最大计数

我是 Spark 的初学者我尝试请求允许我检索最常访问的网页我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练
如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题

我正在尝试以 JSON 格式向 kafka 写入一个数据帧并在 Scala 中向该数据帧添加一个键我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
如何将 Spark DataFrame 以 csv 格式保存在磁盘上？

例如这样的结果 df filter project en select title count groupBy title sum 将返回一个数组如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l

随机推荐

NSCollectionViewItem 从不实例化

我在这里有点迷失我创建了一个像 colorPicker 一样的按钮单击它会在弹出窗口中显示一个 collectionView 我首先使用包含视图 collectionView 嵌入为scrollView clipView 的nib fi
如何在 Nvidia Shield 上正确计时 Android RenderScript 代码

我在 RenderScript 中实现了一个小型 CNN 想要分析不同硬件上的性能在我的 Nexus 7 上时间有意义但在 NVIDIA Shield 上则不然 CNN LeNet 采用队列中的 9 层实现计算按顺序执行每一层都是
python将数字添加到字符串[重复]

这个问题在这里已经有答案了尝试将 count int 添加到字符串末尾网址 Code count 0 while count lt 20 Url http www ihiphopmusic com music page Url Url
如何使用 bluebird 来 promisify MySql 函数？

前段时间我决定从 PHP 切换到 Node 在我的第一个项目中我不想使用任何 ORM 因为我认为我不需要让我的生活变得如此复杂学习另一件事目前我正在学习 Node 和 Angular 因此我决定使用 mysql 包而不需要使用 my
ng-focus 和 ng-blur 事件在 Angularjs 中未触发
Android“repo”文档可用吗？

关于用于 Android 存储库管理的谷歌 repo 工具的唯一文档是 https sites google com a android com opensource download using repo 这比什么都没有可用的帮助与键入
SwingWorker 的原理是什么？

据我所知它用于在 swing 应用程序中调度一个新线程来执行一些后台工作但是使用它而不是普通线程有什么好处使用新线程并在完成时使用 SwingUtilities invokeLater 调用某些 GUI 方法是不一样的我在这
如何在 SQL Server 中创建外键？

我从来没有为 SQL Server 手工编码过对象创建代码并且外键声明在 SQL Server 和 Postgres 之间似乎是有区别的到目前为止这是我的 sql drop table exams drop table questi
为什么我的 Python App Engine 应用程序使用 Translate API 时出现 ImportError 错误：没有名为 apiclient.discovery 的模块？

我收到这个错误谷歌应用程序引擎Python使用过谷歌翻译API 但不知道怎么解决
我可以将 PHPUnit 打包为 phar 吗？

我想将 PHPUnit 和各种其他测试依赖项打包到 phar 中并将其放入 svn 中这样我就可以在任何客户端机器上运行 phpunit 而不需要 pear 这可以做到吗当前状态 phpunit phar 的工作已开始于phpunit
使用类中的静态函数而不命名类

如何访问类中的函数而不必每次都命名该类我知道如何使用 using 这样我就不必命名命名空间但我希望有一种方法可以处理这个静态函数这样我就可以像调用同一个类中的函数一样调用它们使用静态yournamespace yourclassna
Date.getTime() 与 Date.getTime() 对比日期.now()

我注意到 now 只能由 Date 对象调用 getTime 只能由日期实例调用 var dd1 new Date console log dd1 now Throws error gt TypeError Object Mon Aug 1
如何在 TypeScript 文件中调用 NodeJS？

如何加载常规 NodeJS 模块来自node modules 从一个TypeScript class 当我尝试编译时 ts文件包含 var sampleModule require modulename 编译器提示我不能在此范围内使用 r
核心数据加密

我有关于核心数据加密的问题我将一些敏感的用户数据存储在 Core Data SQLite 数据库中关键值都是可转换的我使用 AES256 来即时加密和解密它们包括每个值的单独 IV 加密密钥是用户选择的密码的 SHA512 哈希
获取流中符合条件的第一个元素

如何获取流中与条件匹配的第一个元素我已经尝试过这个但不起作用 this stops stream filter Stop s gt s getStation getName equals name 该标准不起作用过滤器方法是在 Stop
使用 Powershell 将 XML 转换为哈希表

我想转换 XML
扩展打字稿接口

在 TypeScript 中扩展 Express Request 接口时我遇到了这个问题我想使用外部库定义但无法导入外部库因为它会导致错误 gt 错误 4 28 TS1147 内部模块中的导入声明无法引用外部模块编辑这是一个 d
ReferenceError：未定义要求

我目前正在开发 Mozilla Firefox 插件我已经设置了一个面板并附加了一个内容脚本我需要在内容脚本和 main js 之间进行通信我为此使用 addon sdk 的端口 api 然而由于某种原因我什至无法在两者之间传递简单
向量储备 C++

我有一个非常大的多维向量其大小一直在变化当我只知道大小的近似值时使用 vector reserve 函数有什么意义吗所以基本上我有一个向量 A 256 256 x y 其中程序中的每次迭代 x 都会从 0 变化到 50 然后再次变
Spark 数据帧的 null 值和 countDistinct

我有一个非常简单的数据框 df spark createDataFrame None 1 3 2 1 3 2 1 3 a b c a b c null 1 3 2 1 3 2 1 3 当我申请一个countDistinct在此数据框上我发

Spark 数据帧的 null 值和 countDistinct

第一种方法

第二种方法

Spark 数据帧的 null 值和 countDistinct 的相关文章

随机推荐

热门标签