检查 Spark 中矩阵每列中唯一值的数量

2024-04-12

我有一个 csv 文件当前存储为 Spark 中的数据框

scala> df
res11: org.apache.spark.sql.DataFrame = [2013-03-25 12:49:36.000: string, OES_PSI603_EC1: string, 250.3315__SI: string, 250.7027__SI: string, 251.0738__SI: string, 251.4448__SI: string, 251.8159__SI: string, 252.1869__SI: string, 252.5579__SIF: string, 252.9288__SI: string, 253.2998__SIF: string, 253.6707__SIF: string, 254.0415__CI2: string, 254.4124__CI2: string, 254.7832__CI2: string, 255.154: string, 255.5248__NO: string, 255.8955__NO: string, 256.2662__NO: string, 256.6369: string, 257.0075: string, 257.3782: string, 257.7488: string, 258.1193: string, 258.4899: string, 258.8604__NO: string, 259.2309__NO: string, 259.6013__NO: string, 259.9717__N2: string, 260.3421__N2: string, 260.7125__N2: string, 261.4531: string, 261.8234: string, 262.1937: string, 262.5639: string, 262.9341: s...
scala> 

我想计算每列中唯一元素的数量。我怎样才能做到这一点?


您可以使用countDistinct每列上的函数。

例如,在 pyspark 中:

df = spark.createDataFrame([ (1, 1), (1, 3), (2, 1), (3, 2), (3, 3) ], ["user_id", "genre_id"])
>>> df.show()
+-------+--------+
|user_id|genre_id|
+-------+--------+
|      1|       1|
|      1|       3|
|      2|       1|
|      3|       2|
|      3|       3|
+-------+--------+

>>> import pyspark.sql.functions as F
>>> df.select( [ F.countDistinct(cn).alias("c_{0}".format(cn)) for cn in df.columns ] ).show()
+---------+----------+
|c_user_id|c_genre_id|
+---------+----------+
|        3|         3|
+---------+----------+
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

检查 Spark 中矩阵每列中唯一值的数量 的相关文章

随机推荐

  • D3.js 的 Python 等效项

    谁能推荐一个可以做到这一点的Python库交互的图形可视化 我特别想要类似的东西d3 js https d3js org 但对于python理想情况下它也是 3D 的 我看过 NetworkX https networkx readthed
  • 如何从文件名中提取一个下划线分隔的字段?

    我有一个文件名列表 如下所示 REG 2016120200hourly d01 20161202 00 00 00 nc 我想提取这个名称并将其放入一个变量中 1 日期20161202 for file in path do filenam
  • Squid - 监听多个端口并转发到不同的代理

    我想设置一个侦听多个端口的代理 每个端口将请求转发到不同的代理 例如 LISTEN FORWARD TO 1 2 3 4 3128 gt 5 6 7 8 3128 1 2 3 4 3129 gt 5 6 7 9 3128 1 2 3 4 3
  • iPhone 应用程序支持哪些字体? [关闭]

    Closed 这个问题是无关 help closed questions 目前不接受答案 我在这里找到了 iPhone 支持的字体列表 http daringfireball net misc 2007 07 iphone osx font
  • 为什么 Java EE 具有可扩展性?

    我从各种来源听说 Java EE 具有高度可扩展性 但对我来说 似乎永远无法将 Java EE 应用程序扩展到谷歌搜索引擎或任何其他大型网站的水平 我想听听它具有如此可扩展性的技术原因 Java EE 被认为是可扩展的 因为如果您考虑 EJ
  • 在 Android 2.x 中获取 ActionBarSherlock actionBarSize

    我正在使用 ActionBarSherlock 此 XML 行在 Android 2 x 中崩溃 android layout height android attr actionBarSize 有没有办法获取 ABS 的 ActionBa
  • Flutter Webview - 在浏览器或窗口中打开外部链接

    我有一个使用 Flutter Webview 制作的 Android 应用程序 当用户单击外部链接时 我希望该链接在浏览器中打开 我该怎么做 事实上 像 Instagram 那样在窗口中打开外部链接会很好 有没有办法做到这一点 Edit w
  • 具有两个参数的自定义 Liquid 标签

    如何编写 调用带有两个参数的自定义 Liquid 标签 上下文 Jekyll 2 1 1 我有一些页面作为选项卡集呈现 我的页面前部允许为某些页面定义额外的选项卡 如下所示 blah blah extra tabs A page a pag
  • 我可以使用JS序列化当前的DOM吗?

    我想使用 javascript 将 DOM 树的当前状态序列化为字符串 虽然我更喜欢 html 但结果格式并不重要 是否有捷径可寻 作为记录 我想使用 PhantomJs 自动下载页面 使用 js 脚本操作它 并保存页面的当前状态 但不是图
  • 减去 r 中的时间

    我有一个包含两个时间变量的数据集 EndVisitTime and BoxTime 我每天都会制作数据集 因此这些观察结果都是在一天内进行的 Date lt 2014 8 12 EndVisitTime lt c 00 00 32 00 0
  • Pandas:如果字符串存在于几列中的任何一列中,我想对计数进行求和,并将该计数添加到具有搜索术语的另一个数据框中

    我有一个视频数据框 其中包含几列标签 字符串 如下所示 import pandas as pd videos 1 cool video drama horror 2 great video sports drama 3 super vide
  • Flutter - 如何下载视频并将其保存到内部存储?

    我正在 flutter 中开发一个项目 我需要实现从服务器下载视频功能 我正在考虑使用 Dio 库并将下载的视频保存到getApplicationDocumentsDirectory 但我还没有找到我想要实现的目标的示例 我尝试了一些示例并
  • 什么是守护进程?它们的实际用途是什么?与php一起使用?

    有人能用两个词解释一下什么是守护进程以及它们在 php 中的用途吗 我 知道这是一个进程 一直在运行 但我不明白它在 php 应用程序中有什么用 有人可以给出使用示例吗 我可以使用守护进程来减少应用程序的内存使用量吗 据我了解 守护进程可以
  • 在 Scala 中模拟可变参数模板

    假设你想要类似的东西可变参数模板 http en wikipedia org wiki Variadic Templates 为泛型类定义 n 个类型参数的能力 在 Scala 中 例如你不想定义Tuple2 T1 T2 and Tuple
  • jQuery 可排序/禁用选择问题

    我的 jQuery 可排序列表出现问题 其中文本被选中 我发现了这个功能disableSelection 但似乎无法让它发挥作用 这是js ul current projects sortable placeholder drop zone
  • 如何在 Asp.net C# 中使用 LDAP 在 Active Directory 中搜索用户

    如何在 asp net c 中从 Active Directory 服务器获取所有记录 在中创建连接字符串LDAP提供username and Password可以与服务器通信并具有管理员权限 假设直流电是me com and userna
  • 当c#程序崩溃时如何知道原因?

    我的程序经常因某种原因崩溃 在这种情况下 我确实看到带有 关闭 按钮的 Windows 消息 每次发生这样的事情我都非常想知道到底发生了什么 感谢社区 我已经知道如何 处理 某些情况 我在程序的开头添加了这样的代码 static void
  • 在简单的 CSS 工具提示上淡入和淡出

    新手问题 尝试制作一个简单的 css 工具提示来淡入和淡出 但无法使其工作 搜索了很多但找不到简单的答案 我假设我把过渡 css3 放在错误的地方 但它在其他地方也不起作用
  • 具有动态名称的 Django 模型字段

    我想通过一种常见的 mixin 或抽象模型向现有模型添加新的 CharFields 但这些字段的名称取决于配置 因此 一个模型将具有 someprefix1 title 字段 而另一个模型将具有 someprefix2 title 字段 是
  • 检查 Spark 中矩阵每列中唯一值的数量

    我有一个 csv 文件当前存储为 Spark 中的数据框 scala gt df res11 org apache spark sql DataFrame 2013 03 25 12 49 36 000 string OES PSI603