pyspark sql查询：根据条件计算不同值

2024-02-16

我有一个数据框如下：

+-----------+------------+-------------+-----------+
| id_doctor | id_patient | consumption | type_drug |
+-----------+------------+-------------+-----------+
| d1        | p1         |        12.0 | bhd       |
| d1        | p2         |        10.0 | lsd       |
| d1        | p1         |         6.0 | bhd       |
| d1        | p1         |        14.0 | carboxyl  |
| d2        | p1         |        12.0 | bhd       |
| d2        | p1         |        13.0 | bhd       |
| d2        | p2         |        12.0 | lsd       |
| d2        | p1         |         6.0 | bhd       |
| d2        | p2         |        12.0 | bhd       |
+-----------+------------+-------------+-----------+

我想统计每位医生服用 bhd 的消耗量

我尝试了以下查询，但它不起作用：

dataframe.groupBy(col("id_doctor")).agg(
    countDistinct(col("id_patient")).where(
        col("type_drug") == "bhd" & col("consumption") < 16.0
    )
)

有什么帮助吗？

thanks!

PySpark 中的另一个解决方案无需添加另一列：

dataframe.groupBy("id_doctor").agg(
    F.countDistinct(
        F.when(
            col("type_drug") == "bhd" & col("consumption") < 16.0, col("id_doctor")
        ).otherwise(None)
    )
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

sql

apachespark

PySpark

apachesparksql

pyspark sql查询：根据条件计算不同值的相关文章

DataFrame 分区到单个 Parquet 文件（每个分区）

我想重新分区合并我的数据以便将其保存到每个分区的一个 Parquet 文件中我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity
SQL 分隔符上的逗号分隔列

这是一个 split 函数它可以应用为dbo Split sf we fs we 当我将字符串更改为列名时它不起作用例如dbo Split table columnName Select from dbo Split email pr
从java运行sqlplus脚本的简单方法

我有包含 sqlplus 特定脚本的 sql 文件它包括或作为语句终止符执行存储过程的 EXEC 等我需要从 java jdbc 执行此脚本而不需要 sqlplus sql ant任务 maven sql插件无法处理不同的终止符
在实体框架 6 中使用 SqlQuery>

我正在尝试在 EF 6 中执行 SQL 查询 select查询返回两个字符串列例如select a b 并且可以有任意数量的行我想将结果映射到字典但我无法摆脱以下错误错误 1 无法将类型 System Data Entity Inf
单个查询删除并显示重复记录

采访中提出的问题之一是一张表有100条记录其中 50 个是重复的是否可以用单个查询删除重复记录从表中以及选择和显示剩余 50 条记录这可以在单个 SQL 查询中实现吗 Thanks SNA 对于 SQL Server 你会使
MySQL，连接两列

MySQL 表中有两列 SUBJECT and YEAR 我想生成一个字母数字唯一编号其中包含主题和年份的串联数据我怎样才能做到这一点是否可以使用像这样的简单运算符您可以使用CONCAT http dev mysql com doc
从 Presto 中的 JSON 列获取特定值

我有一个带有 JSON 列的表points其中一行为 0 0 2 1 1 2 2 0 5 15 1 2 20 0 7 我想获取键的值 1 and 20 并将它们存储为别名例如first and second在查询中到目前为止我所做的是
如何调试参数化 SQL 查询

我使用 C 连接到数据库然后使用 Ad hoc SQL 来获取数据这个简单的 SQL 查询非常方便调试因为我可以记录 SQL 查询字符串如果我使用参数化 SQL 查询命令有没有办法记录 sql 查询字符串以进行调试我想就是这样的
PL/SQL 过程：如何返回 select 语句？

我想创建一个存储过程 on ORACLE数据库服务器我的问题是我不知道如何返回 select 语句这是程序中应包含的逻辑输入参数过滤器1 int 过滤器2 字符串 with cte as select val1 val2 stdde
如何在postgresql中编写有关最大行数的约束？

我认为这是一个很常见的问题我有一张桌子user id INT 和一张桌子photo id BIGINT owner INT 所有者是一个参考user id 我想向表照片添加一个约束以防止每个用户将超过 10 张照片输入数据库写这个的最
如何插入包含“&”的字符串

如何编写包含字符的插入语句例如如果我想将 J J Construction 插入数据库的列中我不确定这是否有什么不同但我正在使用 Oracle 9i 我总是忘记这一点然后又回到它我认为最好的答案是迄今为止提供的答复的组合首先
获取从开始日期到结束日期的活跃周数

我的订阅数据如下所示数据显示用户何时购买订阅它有user id subscription id start date and end date 我已经得出wk start and wk end从中 user subscription i
在 SQL 中如何获得整数的最大值？

我试图从 MySQL 数据库中找出整数有符号或无符号的最大值有没有办法从数据库本身提取这些信息是否有我可以使用的内置常量或函数标准 SQL 或 MySQL 特定的 At http dev mysql com doc refman
pyspark：聚合列中最常见的值

aggregrated table df input groupBy city income bracket agg count suburb alias suburb sum population alias population sum
INTEGER 到 DATETIME 的转换与 VB6 不同

我正在查看一些遗留的 VB6 代码比我的时代早很多年它对 SQL 2005 数据库运行查询它提供了日期限制WHERE子句其中日期作为整数值给出CLng VB6 中的日期 e g WHERE SomeDateField gt 4006
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
索引在 NOT IN 或 <> 子句中起作用吗？

我读过至少 Oracle 数据库中的普通索引基本上是 B 树结构因此存储处理适当根节点的记录小于根的记录被迭代地存储在树的左侧部分而大于根的记录被存储在右侧部分正是这种存储方法有助于通过树遍历实现更快的扫描因为深度和广度都
如何重置 SQL Server 中表的 IDENTITY 列？ [复制]

这个问题在这里已经有答案了我怎样才能重置我的IDENTITY我已经填充的表中的列我尝试过类似的方法但它不起作用 WITH TBL AS SELECT ROW NUMBER OVER ORDER BY profile id AS RN
如何访问 Spark Streaming 应用程序的统计端点？

从 Spark 2 2 0 开始 API 中有新的端点用于获取有关流作业的信息我在 EMR 集群上运行 Spark 在集群模式下使用 Spark 2 2 0 当我到达流作业的端点时它给我的只是错误消息没有附加到的流侦听器我已经深入研

随机推荐

Rails 路线 - 斜杠字符与哈希字符

在 url 和 Rails 路由中使用斜杠字符与井号井号字符有什么区别这些工作 get static pages about get about to static pages about as about 这些不 get stat
MVC - 一个模型可以由几个其他模型组成吗？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
当同步/异步与串行/并发队列混合时，调度程序如何工作？

在 Grand Central Dispatch 中调度程序如何处理不同的队列 serial and concurrent 当使用dispatch sync函数和dispatch async功能首先我们需要两种类型queue one s
使用 Spring Data Mongo 的 ObjectId 进行 Facet + 聚合查询问题

我正在开发Spring Boot Spring Data Mongo 我真的很努力 public Page
命令组合设计模式

有没有人有 Ruby 中使用组合命令的好例子这是我在各种设计模式文献中看到的一种设计模式混合体听起来相当强大但一直无法找到任何有趣的用例或代码受到总体想法的启发这篇博文中的示例模式实现 http blog ashwinraghav
INVD指令有什么用？

The x86 INVD http faydoc tripod com cpu invd htm使缓存层次结构无效without显然将内容写回内存我很好奇这样的指令有什么用鉴于人们对各个缓存级别中可能存在哪些数据的控制非常少甚至对
jsp页面中使用spring bean的教程

我不熟悉与 HTML 交付相关的技术例如 JSP 但我知道基本概念在我的应用程序中我使用 Spring Beans 和 Spring Security 以及 Blaze DS 通过 AMF 协议与 Flex 应用程序进行通信一切都很
Google 地图 API 中的建议路线选项？

我需要显示源和目的地之间的多条路线例如如果我选择源和目的地我就能够找到一条路线但就像在谷歌地图中一样我们有一个建议的路线选项我需要实现它但我所有的尝试都失败了请找到下面的代码例如它显示源和目的地之间的单个路由如果我错过
在 php 中测量字符串大小（以字节为单位）

我正在为一个门户网站做一个房地产提要它告诉我字符串的最大长度应该是 20 000 字节 20kb 但我以前从未遇到过这个我怎样才能测量byte的大小varchar string 所以我可以做一个 while 循环来修剪它您可以使用 m
java中的资源是什么？为什么使用完后要关闭它？

java中资源一词的含义是什么尽管垃圾收集器在jvm中运行为什么我们在使用后必须关闭它为什么我们必须在finally块中编写资源清理代码资源是数量有限的东西例如数据库连接和文件描述符 GC 释放内存但您仍然必须释放资源例如
Nestjs ConfigModule.forRoot() 异步

我想从具有 REST API 的配置服务器加载 Nestjs 中的配置以允许集中式应用程序配置但是 ConfigModule forRoot 函数没有异步版本因此配置返回为undefined 有没有办法解决通过创建返回 Nest C
如何将系统音量与媒体播放器应用程序同步

我刚刚开发了一个简单的媒体播放器可以播放歌曲并且有一个可以调节歌曲音量的搜索栏这是我的代码 public class MainActivity extends AppCompatActivity Button playBtn Seek
在 Windows 中使用两只鼠标执行完全不同的操作

我目前正在尝试开发一个应用程序以使用两只鼠标在 Windows 中执行完全不同的操作然而在花了几天时间之后我开始怀疑使用 Windows API 是否可以实现我想要做的事情由于我远不是 Windows API 方面的专家因此我想
是否可以使用 jQuery.attr() 函数设置多个数据属性？

这有效 myObj attr data test 1 num1 myObj attr data test 2 num2 但这并没有 myObj attr data test 1 num1 data test 2 num2 我在这里错过了一些
当 Firebase 函数发送时，时间戳会在 BigQuery 上返回错误

我正在尝试从 Firebase 函数将时间戳字段发送到 BigQuery 我正在发送 admin firestore FieldValue serverTimestamp BigQuery 上的字段是 TIMESTAMP 类型我收到一个错
以科学记数法打印 cpp_dec_float ，不带尾随零

我在用着cpp dec float http www boost org doc libs 1 55 0 libs multiprecision doc html boost multiprecision tut floats cpp de
dyld：警告，未知环境变量：DYLD_LIBRARY_PATH_64 位

我使用 Mac OS X 开发人员工具捆绑的属性列表编辑器将环境变量 DYLD LIBRARY PATH 64 位设置为文件 MacOSX environment plist 中的值 path to dylib 我保存了该文件并退出重新登
将 PHP for 循环转换为 foreach [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我对算法不太熟悉有人可以帮我把这个 for 循环转换为 foreach 吗 for i 0 i lt count cartBookI
无线 iphone 应用程序分发 - itms 服务协议问题

我已经遵循了所有的指示Apple http developer apple com library ios featuredarticles FA Wireless Enterprise App Distribution Introduct
pyspark sql查询：根据条件计算不同值

我有一个数据框如下 id doctor id patient consumption type drug d1 p1 12 0 bhd d1 p2 10 0 lsd d1 p1 6 0 bhd d1 p1

pyspark sql查询：根据条件计算不同值

pyspark sql查询：根据条件计算不同值 的相关文章

随机推荐

热门标签

pyspark sql查询：根据条件计算不同值的相关文章