删除 Spark 数据框中重复的所有记录

2024-02-06

我有一个包含多列的 Spark 数据框。我想找出并删除列中具有重复值的行（其他列可能不同）。

我尝试使用dropDuplicates(col_name)但它只会删除重复的条目，但仍会在数据框中保留一条记录。我需要的是删除最初包含重复条目的所有条目。

我正在使用 Spark 1.6 和 Scala 2.10。

我会为此使用窗口函数。假设您想删除重复项id rows :

import org.apache.spark.sql.expressions.Window

df
  .withColumn("cnt", count("*").over(Window.partitionBy($"id")))
  .where($"cnt"===1).drop($"cnt")
  .show()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

duplicates

删除 Spark 数据框中重复的所有记录的相关文章

Spark scala：大量列上的简单 UDF 会导致性能下降

我有一个包含 1 亿行和约 10 000 列的数据框这些列有两种类型标准 C i 和动态 X i 这个dataframe是经过一些处理后得到的性能很快现在只剩下2步了 Goal 需要使用 C i 列的相同子集对每个 X i 执行特定
在 AKKA 中，对主管调用 shutdown 是否会停止其监督的所有参与者？

假设我有一位主管连接了 2 位演员当我的应用程序关闭时我想优雅地关闭这些参与者调用supervisor shutdown 是否会停止所有参与者还是我仍然需要手动停止我的参与者 gracias 阻止主管 https github co
pyspark。数据框中的 zip 数组

我有以下 PySpark DataFrame id data 1 10 11 12 2 20 21 22 3 30 31 32 最后我想要以下 DataFrame id data
导入 sbt 项目时出错，服务器访问错误，未解决的依赖项

我正在尝试从 IntelliJ IDE 15 0 2 的 build sbt 中导入我的项目中的库我不断收到未解决的依赖项错误我尝试更新不同论坛的设置来解决该问题但没有任何效果我尝试过的几件事使用代理设置更新 sbtconfig
删除计算中的重复行？

我在 openoffice calc 中有一个专栏其中包含一组代码例如 B1 B1 Br Bh Ht C3 C3 所以我想做的是删除所有重复项这样我就只剩下 Br Bh Ht 非常感谢任何帮助 Cheers 选择包含要过滤的数据的整个
Pyspark - 一次聚合数据帧的所有列[重复]

这个问题在这里已经有答案了我想将数据框分组到单个列上然后对所有列应用聚合函数例如我有一个包含 10 列的 df 我希望对第一列 1 进行分组然后对所有剩余列均为数字应用聚合函数 sum 与此等效的 R 是 summarise
在 pyspark 中包装 java 函数

我正在尝试创建一个用户定义的聚合函数我可以从 python 调用它我试图遵循答案this https stackoverflow com questions 33233737 spark how to map python with s
Scala 将集合转变为按键映射的最佳方法？

如果我有一个收藏c类型的T并且有一个属性p on T 类型P 说最好的方法是什么按提取键映射 val c Collection T val m Map P T 一种方法如下 m new HashMap P T c foreach t gt
如何不让 Gradle 立即退出 Scala 的 REPL？

这些简单的线条在build gradle暴露一个repl理想情况下会启动 scala REPL 的任务点燃并保持活力就是这样 repl 加载后它立即收到 quit 命令并退出的重要部分build gradle dependencies
Scala案例类使用浅拷贝还是深拷贝？

case class Person var firstname String lastname String val p1 Person amit shah val p2 p1 copy p1 firstname raghu p1 p2 p
如何在 scala 中的二维数组上使用 contains 方法

我有一个二维数组我想检查二维数组内是否存在数组我努力了 var arr Array Array 2 1 Array 4 3 var contain arr contains Array 4 3 println contain 这应该打印
将spark.local.dir设置为不同的驱动器

我正在尝试在 Windows 10 上设置独立 Spark 我想设置spark local dir to D spark tmp tmp 目前它似乎正在使用C Users
Scala 中的模式匹配是如何在字节码级别实现的？

Scala 中的模式匹配是如何在字节码级别实现的是不是像一系列if x instanceof Foo 构造还是其他什么它对性能有何影响例如给出以下代码来自Scala 示例 http www scala lang org docu
我们可以在 UDF 中使用关键字参数吗

我的问题是我们可以像下面那样在 Pyspark 中使用关键字参数和 UDF 吗 conv 方法有一个关键字参数 conv type 默认情况下它被分配给特定类型的格式化程序但是我想在某些地方指定不同的格式由于关键字参数这在 udf 中
Spark JSON 文本字段到 RDD

我有一个 cassandra 表其中有一个名为 snapshot 的文本类型字段其中包含 JSON 对象 identifier timestamp snapshot 我了解到为了能够使用 Spark 对该字段进行转换我需要将该 RD
如何处理 Spark 数据框中外连接的数据倾斜

我有两个数据框正在对 5 列执行外连接下面是我的数据集的示例 uniqueFundamentalSet PeriodId SourceId StatementTypeCode StatementCurrencyId FinancialS
Scala：不变性和路径依赖的类型兼容性

我围绕这个主题提出了一些问题但这次我想让它成为一个更一般性的讨论因为在我看来 Scala 缺少一些非常重要的块考虑以下代码从我的真实项目中简化 trait World type State lt StateIntf def evol
Scala 函数作为对象与类

trait MyFunctionTrait extends Int Int gt Double class MyFunction1 extends MyFunctionTrait override def apply a Int b Int
S3A：失败，而 S3：在 Spark EMR 中工作

我将 EMR 5 5 0 与 Spark 结合使用如果我使用一个简单的文件写入 s3s3 网址写得很好但如果我使用s3a 地址它失败了Service Amazon S3 Status Code 403 Error Code Acces
带有泛型参数的抽象类的 JsonFormat

我正在尝试为具有通用参数的抽象类编写 JsonFormat 如下所示 abstract class Animal A def data A def otherStuff String stuff case class CatData cat

随机推荐

Python UCS2 从十六进制字符串解码

我正在使用 python 2 7 需要将十六进制字符串解码为 un icode 字符串在 php 中我做了以下简单的操作 line hex2bin line finish iconv UCS 2BE UTF 8 nline 例如十六进制
我可以在 android xml 布局或字符串值文件中编写 java 代码吗？

我想知道是否可以在 android XML 布局或字符串值文件中编写 java 代码我的意思是这样的
给定3个点，如何构造穿过它们的弧？

假设我有 3 个连续点 P1 P2 P3 如何构造一条经过所有3个点的弧弧必须具有以下 3 个属性开始弧度结束弧度中心点弧线是从Start Radian to End Radian以逆时针方向我已经尝试过解决方案here htt
东向北转纬度经度

我有东向北向格式的位置坐标但我需要将其转换为正确的经纬度以使其在 bing 地图中居中有任何公式或详细信息如何将东距北距转换为纬度经度吗编辑更具体地说我需要将 SVY21 坐标转换为 WGS84 东距和北距分别是基点向东和
EMR-5.32.0 上的 Spark 未生成请求的执行程序

我在 EMR 版本 5 32 0 上的 Py Spark 中遇到了一些问题大约一年前我在 EMR 集群上运行了相同的程序我认为版本一定是 5 29 0 然后我可以使用配置我的 PySpark 程序spark submit正确地论证但
正在验证 MVC 隐藏字段

我的页面上有一些字段它们的显示和消失取决于您在页面上所做的下拉选择所以举例来说我有 section Html LabelFor model gt model AuctionTypeId div Html DropDownList A
在我的下一个 Android 应用程序更新中使用新的数据库版本覆盖现有的已发布 Sqlite DB

我想覆盖旧应用程序版本附带的现有数据库并在下一个应用程序更新中使用新完全填充的数据库然而 onUpgrade 永远不会被调用尽管我尝试在将 DB version 传递给 SQLiteOpenHelper 类时更改它 public cl
FTDI 的 libMPSSE 上“遇到 NULL 表达式”

我的问题是针对 FTDI 的 libMPSSE 库在 Linux 上与 USB 转串口 SPI I2C 等适配器配合使用的问题当我执行与该库链接的任何程序时会调用方法 Init libMPSSE 无需显式调用并抛出以下消息 Infr
如何在 Python 中的 Opencv Cam 窗口中提供启动、停止、捕获和关闭按钮

如何在视频捕获窗口中提供开始停止捕获和关闭按钮来启动停止拍摄快照关闭窗口我使用以下代码打开相机进行视频流 import cv2 cv as cv cv NamedWindow camera 1 capture cv Captur
3ds Max .NET SDK 和创建参考制作器

我有 Net DLL for Max 和 ui 我想对视口中某些节点的参数更改做出反应我想到的最简单的解决方案是创建 ReferenceMaker 插件并为我想要观看的节点设置参考根据文档应该是 public class Referen
Valgrind 导致长双精度数字问题

我的代码中有以下函数用于检查数字是否具有允许的值在日志空间中 template
ASP.NET MVC 3 模型绑定资源

我正在寻找一个很好的资源它非常全面地描述了模型绑定如何与 ASP NET MVC 3 或在较小程度上 MVC 2 和不同的方法一起工作除了零碎的内容之外我找不到关于这个主题的任何好的资源网上的信息更多的是关于如何做 X 而不是解释
ASP.NET MVC3 - 您如何处理探测请求？

我们的网站上线了当然我们开始收到大量的探测请求喜欢 blog wp login php admin admin php etc 所以问题是你用它们做什么现在在每种情况下都会抛出 404 错误并且 elmah 会发送有关该错误的
为什么我们不能在某个进程上接受（）套接字并从其子进程中接收（）数据？

我正在尝试在 Linux 上实现一个简单的 Web 服务器它连接到客户端浏览器接收来自客户端的一些请求例如 GET 然后用所需的文件发回响应我正在使用套接字通信我想在服务器启动时创建一个工作进程子进程池其工作是处理传入的请
如何将肥皂基本身份验证请求添加到 WSDL

我怎样才能对 WSDL 进行 Soap AUTH BASIC 身份验证以便阅读 WSDL 的人知道我需要针对特定方法进行该操作使用下面的示例我成功地将 SOAP 基本身份验证传递到另一端的 php Web 服务 PHP net So
PHP imageftbbox imagettftext - 简单的字母间距/字距调整？

有谁知道使用 imagettftext 进行字母间距字距调整的简单方法我的脚本按照我现在的需要工作但我确实可以使用具有 CSS 样式的生成文本 letter spacing 0 01em 所以它与页面上的标准文本相匹配但我没有看到任
如何选择列表中所有无序的元素？

这个问题源于评论里的讨论这个答案 https stackoverflow com questions 1390832 how to sort nearly sorted array in the fastest time possible
如何使用executeReader()方法检索一个单元格的值

我需要执行以下命令并将结果传递给标签我不知道如何使用 Reader 来做到这一点有人可以帮我吗 String sql SELECT FROM learer WHERE learer id index SqlCommand cmd new
使用 CoreData 嵌套撤消组

我想将撤消管理器添加到 coredata 支持的 iPhone 应用程序中当用户尝试添加新对象通过点击按钮时我加载一个新的模式视图控制器并在 viewDidLoad 中启动一个新的撤消组当用户按下取消按钮时我想回滚 can
删除 Spark 数据框中重复的所有记录

我有一个包含多列的 Spark 数据框我想找出并删除列中具有重复值的行其他列可能不同我尝试使用dropDuplicates col name 但它只会删除重复的条目但仍会在数据框中保留一条记录我需要的是删除最初包含重复条目的所有条

删除 Spark 数据框中重复的所有记录

删除 Spark 数据框中重复的所有记录 的相关文章

随机推荐

热门标签

删除 Spark 数据框中重复的所有记录的相关文章