通过维护顺序来聚合重复记录，并且还包括重复记录

2024-03-14

我正在尝试解决一个有趣的问题，很容易只做一个 groupBy 来进行聚合，如求和、计数等。但这个问题略有不同。让我解释：

这是我的元组列表：

val repeatSmokers: List[(String, String, String, String, String, String)] =
  List(
    ("ID76182", "sachin", "kita MR.", "56308", "1990", "300"),
    ("ID76182", "KOUN", "Jana MR.", "56714", "1990", "100"),
    ("ID76182", "GANGS", "SKILL", "27539", "1990", "255"),
    ("ID76182", "GANGS", "SKILL", "27539", "1990", "110"),
    ("ID76182", "SEMI", "GAUTAM A MR.", "45873", "1990", "20"),
    ("ID76182", "SEMI", "GAUTAM A MR.", "45873", "1990", "6750"),
    ("ID76182", "DOWNES", "RYAN", "47542", "1990", "2090"),
    ("ID76182", "DRAGON", "WARS", "49337", "1990", "200"),
    ("ID76182", "HULK", "PAIN MR.", "47542", "1990", "280"),
    ("ID76182", "JAMES", "JIM", "30548", "1990", "300"),
    ("ID76182", "KIMMELSHUE", "RUTH", "55345", "1990", "2600"),
    ("ID76182", "DRAGON", "WARS", "49337", "1990", "370"),
    ("ID76182", "COOPER", "ANADA", "45873", "1990", "2600"),
    ("ID76182", "SEMI", "GAUTAM A MR.", "45873", "1990", "2600"),
    ("ID76182", "HULK", "PAIN MR.", "47542", "1990", "256")
  )

这些记录的架构是(Idnumber, name, test_code, year, amount)。从这些元素中，我只想要重复的记录，我们在上面的列表中定义唯一组合的方式是采用(sachin, kita MR.,56308)name 和 test_code 的组合。这意味着如果相同的名称和测试代码重复，则这是重复吸烟者记录。为简单起见，您可以仅假设 test_code 作为唯一值，如果它重复，您可以说它是重复吸烟者记录。

下面是确切的输出：

ID76182,27539,1990,255,1 
ID76182,27539,1990,365,2
ID76182,45873,1990,20,1 
ID76182,45873,1990,6770,2 
ID76182,45873,1990,9370,3
ID76182,49337,1990,200,1
ID76182,49337,1990,570,2
ID76182,47542,1990,280,1
ID76182,47542,1990,536,2

最后，这里具有挑战性的部分是维护每秒重复吸烟者记录的顺序和总计，并添加发生次数。

例如：此记录架构为：ID76182,47542,1990,536,2

ID号、测试代码、年份、金额、发生次数

因为它发生了两次，我们看到上面的 2。

Note:

输出可以是任何集合的列表，但它应该采用与我上面提到的相同的格式

下面是一些 Scala 代码，但它实际上是用 Scala 编写的 Java 代码：

import java.util.ArrayList
import java.util.LinkedHashMap
import scala.collection.convert._


type RawRecord = (String, String, String, String, String, String)
type Record = (String, String, String, String, Int, Int)
type RecordKey = (String, String, String, String)
type Output = (String, String, String, String, Int, Int, Int)
val keyF: Record => RecordKey = r => (r._1, r._2, r._3, r._4)
val repeatSmokersRaw: List[RawRecord] =
  List(
    ("ID76182", "sachin", "kita MR.", "56308", "1990", "300"),
    ("ID76182", "KOUN", "Jana MR.", "56714", "1990", "100"),
    ("ID76182", "GANGS", "SKILL", "27539", "1990", "255"),
    ("ID76182", "GANGS", "SKILL", "27539", "1990", "110"),
    ("ID76182", "SEMI", "GAUTAM A MR.", "45873", "1990", "20"),
    ("ID76182", "SEMI", "GAUTAM A MR.", "45873", "1990", "6750"),
    ("ID76182", "DOWNES", "RYAN", "47542", "1990", "2090"),
    ("ID76182", "DRAGON", "WARS", "49337", "1990", "200"),
    ("ID76182", "HULK", "PAIN MR.", "47542", "1990", "280"),
    ("ID76182", "JAMES", "JIM", "30548", "1990", "300"),
    ("ID76182", "KIMMELSHUE", "RUTH", "55345", "1990", "2600"),
    ("ID76182", "DRAGON", "WARS", "49337", "1990", "370"),
    ("ID76182", "COOPER", "ANADA", "45873", "1990", "2600"),
    ("ID76182", "SEMI", "GAUTAM A MR.", "45873", "1990", "2600"),
    ("ID76182", "HULK", "PAIN MR.", "47542", "1990", "256")
  )
val repeatSmokers = repeatSmokersRaw.map(r => (r._1, r._2, r._3, r._4, r._5.toInt, r._6.toInt))

val acc = new LinkedHashMap[RecordKey, (util.ArrayList[Output], Int, Int)]
repeatSmokers.foreach(r => {
  val key = keyF(r)
  var cur = acc.get(key)
  if (cur == null) {
    cur = (new ArrayList[Output](), 0, 0)
  }
  val nextCnt = cur._2 + 1
  val sum = cur._3 + r._6
  val output = (r._1, r._2, r._3, r._4, r._5, sum, nextCnt)
  cur._1.add(output)
  acc.put(key, (cur._1, nextCnt, sum))
})
val result = acc.values().asScala.filter(p => p._2 > 1).flatMap(p => p._1.asScala)
// or if you are clever you can merge filter and flatMap as
// val result = acc.values().asScala.flatMap(p => if (p._1.size > 1) p._1.asScala else Nil)

println(result.mkString("\n"))

它打印

(ID76182,帮派,技能,27539,1990,255,1)
(ID76182,帮派,技能,27539,1990,365,2)
(ID76182,SEMI,GAUTAM A MR.,45873,1990,20,1)
（ID76182，SEMI，GAUTAM A先生，45873，1990，6770，2）
(ID76182,SEMI,GAUTAM A MR.,45873,1990,9370,3)
(ID76182,龙,战争,49337,1990,200,1)
(ID76182,龙,战争,49337,1990,570,2)
(ID76182,浩克,痛苦先生,47542,1990,280,1)
(ID76182,浩克,痛苦先生,47542,1990,536,2)

这段代码的主要技巧是使用Java的LinkedHashMap https://docs.oracle.com/javase/8/docs/api/java/util/LinkedHashMap.html作为累加器集合，因为它保留插入顺序。额外的技巧是在里面存储一些列表（因为我使用 Java 集合，无论如何我决定使用ArrayList对于内部累加器，但您可以使用任何您喜欢的东西）。因此，我们的想法是构建一个 key => 吸烟者列表的映射，并另外为每个密钥存储当前计数器和当前总和，以便可以将“聚合”吸烟者添加到列表中。当构建映射时，通过它过滤掉那些没有积累至少 2 条记录的键，然后将列表的映射转换为单个列表（这就是重要的一点LinkedHashMap使用是因为在迭代期间保留了插入顺序）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

通过维护顺序来聚合重复记录，并且还包括重复记录的相关文章

IntelliJ IDEA 13：新的 Scala SBT 项目尚未生成 src 目录结构

我按照 Jetbrains 网站上的入门视频设置 IntelliJ IDEA 13 1 Community Edition 以与 Scala 配合使用 Scala 插件 v0 36 431 已安装当我使用向导创建一个新的 Scala SB
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
Python 有不可变列表吗？

python 有不可变列表吗假设我希望具有元素有序集合的功能但又想保证它不会改变如何实现呢列表是有序的但它们可以改变是的它被称为一个tuple 所以而不是 1 2 这是一个list并且可以突变 1 2 is a tuple并
Python：两个列表之间的成对比较：列表 a >= 列表 b？

如果我想检查列表中的所有元素 a 1 2 3 6 大于或等于另一个列表中对应的元素 b 0 2 3 5 如果 a i gt b i 对于所有i的则返回 true 否则返回 false 这有逻辑功能吗比如a gt b 谢谢你可以这样做
Scala：如何将可变参数指定为类型？

代替 def foo configuration String String 我希望能够写 type Configuration String String def foo configuration Configuration 主要用例是
模拟 BlazeClientBuilder[IO] 以返回模拟客户端[IO]

我正在使用BlazeClientBuilder IO resource方法得到Client IO 现在我想模拟客户端进行单元测试但不知道该怎么做有没有一个好的方法来嘲笑这个我会怎么做 class ExternalCall val r
Spark SQL 失败，因为“常量池已超过 JVM 限制 0xFFFF”

我在 EMR 4 6 0 Spark 1 6 1 上运行此代码 val sqlContext SQLContext getOrCreate sc val inputRDD sqlContext read json input try inp
Python range() 和 zip() 对象类型

我了解功能如何range and zip 可以在 for 循环中使用然而我期望range 输出一个列表很像seq在 Unix shell 中如果我运行以下代码 a range 10 print a 输出是range 10 表明它不是一
对两种类型之间的二元关系进行建模

有企业也有人用户可以对某个企业点赞或发表评论但效果是一样的can not发生在一个人身上当用户发布有关某个企业的内容或对其点赞时该企业就被称为target喜欢或帖子 trait TargetingRelation Targetin
python中的列表列表的集合

我有一个列表列表 mat 1 2 3 4 5 6 1 2 3 7 8 9 4 5 6 我想转换成set即删除重复列表并从中创建一个新列表其中仅包含unique lists 在上述情况下所需的答案将是 1 2 3 4 5 6 7 8 9
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
检查子字符串是否在字符串列表中？

我之前已经找到了这个问题的一些答案但它们对于当前的Python版本来说似乎已经过时了或者至少它们对我不起作用我想检查字符串列表中是否包含子字符串我只需要布尔结果我找到了这个解决方案 word to check or wordlis
为什么用scala写的代码比用java写的慢6倍？

我不确定我在编写 scala 代码时是否犯了一些错误问题是 The four adjacent digits in the 1000 digit number that have the greatest product are 9 9
andThen 类型不匹配的 Scala 链接函数

我有一堆函数可以清理文本并将它们分成单词最小的例子 val txt Mary had a little nlamb val stopwords Seq a def clean text String String text replace
如何在超时的情况下在单独的调度程序上运行 Akka Streams 图？

这个问题是基于我做过的一个宠物项目这个SO https stackoverflow com questions 34641861 akka http blocking in a future blocks the server 34645
具有继承类型的 Aux 模式推理失败

我有一个复杂的玩具算法我希望纯粹在类型级别上表示根据饮食要求选择当天菜肴的修改对卷积表示歉意但我认为我们需要每一层才能达到我想要使用的最终界面我的代码有一个问题如果我们表达一个类型约束Aux 模式生成的类型基于另一个泛型类型它
应对失败的“未来”

给出以下两种方法 def f Future Int Future 10 def g Future Int Future 5 我想把它们写成 scala gt import scala concurrent Future import sca
如何在 JavaFX 中连接可观察列表？

我所说的串联是指获得一个新列表该列表侦听所有串联部分的更改方法的目的是什么FXCollections concat ObservableList
IntelliJ：线程“主”java.lang.NoClassDefFoundError中的异常：org/apache/spark/sql/types/DataType

附言有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
如何通过 javascript 和 ajax 调用 Scala 中的方法？

我不知道我的标题是否有点误导但这是我真正需要帮助的我正在获取这个网址 get fb login fbEmail function data console log data 这是我的路线 GET fb login email prese

随机推荐

获取对象 SpreadsheetApp.Range 上的方法或属性 setRichTextValues 时出现意外错误

如何处理 RichTextValues 中的空值我已经研究这段代码几天了我开始只是在活动工作表上构建每月日历这不可避免地导致我希望将我的事件放置在它们上这最终导致我想要添加富文本以更好地处理较小字体大小的附加文本的格式但是最近我
如何修复错误：TypeError：elements.classList 未定义？ [复制]

这个问题在这里已经有答案了我正在尝试使用 classList 将一个名为 blackbackdrop 的类添加到具有名为 icon 的类的每个元素不幸的是由于错误它不起作用TypeError elements classList i
Sinatra 模板内的 If 语句

我想仅在特定路线页面上显示消息本质上如果在 route 上会显示一条消息我尝试浏览 Sinatra 文档但找不到具体的方法有没有 Ruby 方法可以实现这个功能编辑这是我想做的一个例子 get do erb index en
使用jquery easyui，如何通过选项卡中的链接创建选项卡？

标签文档 http www jeasyui com documentation tabs php 我想从选项卡中的链接创建一个新选项卡例如在选项卡 a 中有一个链接打开选项卡 b 它应该添加一个选项卡 b 我尝试了当链接不在选项卡中
从网络服务器发送的电子邮件会导致 Gmail 被视为网络钓鱼。如何摆脱这个？

我正在从我的 net 应用程序发送帐户激活电子邮件我将发件人地址设置为电子邮件受保护 cdn cgi l email protection 以及名称 xyz 其中 xyz 是域名即我们的网站当我们使用 Google 的 SMTP 服
迭代时从集合中删除元素

AFAIK 有两种方法迭代集合的副本使用实际集合的迭代器例如 List
将一个元素水平居中并将另一个元素放在其右侧

正如标题所示我试图将一个元素水平居中并将另一个元素放在它的右侧而不将两个元素居中我只希望两个元素之一居中而另一个元素位于其右侧在本例中位于同一行以下是我能得到的最接近的但是两个元素都居中而不是仅包含 CENTER 的元素
仅使用一行交换 pandas 数据框中选定行的列值的正确语法是什么？

我在用pandas http pandas pydata org 版本 0 14 1 和 Python 2 7 5 我有一个包含三列的数据框例如 import pandas as pd d L left right left right
如何找到ajax更新/渲染组件的客户端ID？找不到带有从“bar”引用的表达式“foo”的组件

以下代码受到 PrimeFaces DataGrid DataTable 教程的启发并放入
在 php 中使用 excel 文件 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案与 php 一起使用来在基于网页的页面上读取写入和显示 excel 文件的组件的最佳 php 库是什么我会使用 PHPExcel 来编
Visual Studio 2008 中的 ADO.Net 或实体框架

如果您现在正在 NET 2008 中编写一个小型数据库应用程序您会使用普通的 ADO Net 或 ADO Net Entity Framework 或两者都使用我正在使用 Visual Studio 2008 来学习 Net 我已经在
Stripe：持卡人姓名验证

我怎样才能实现这个场景 1 使用信用卡付款时用户填写他她的名字和姓氏 2 如果输入的名字和姓氏与卡上的名字和姓氏打印不匹配我们我自己或条纹拒绝交易正如我在示例中看到的 https stripe com docs custom
express.js无法直接获取url的hash段？

express provide some simple access to request url as request query request body must i use url parse request originalUrl
在 DataContext 中使用时无法删除文件

我的应用程序在屏幕上显示图像基于本地计算机上的文件的图像用户可以根据需要删除它们每次我尝试删除文件时都会出现以下错误消息 The process cannot access the file C Users Dave Desktop
在使用 Web 服务器加载 Asp.Net Aspx 页面之前，如何编译它们？

Visual Studio 隐藏了 aspx 页面中的拼写错误而不是隐藏的代码这真的很烦人如果编译器编译它们我会得到一个编译错误在编译时编译页面请参阅 Mike Hadlow 的帖子 http mikehadlow blogsp
Rust 的词法语法是规则的、上下文无关的还是上下文相关的？

大多数编程语言的词法语法都相当缺乏表达力无法快速对其进行词法分析我不确定 Rust 的词法语法属于什么类别大多数看起来很正常可能除了原始字符串文字 https doc rust lang org reference tokens h
.NET Framework 4.6.2 和 .NET Standard 2.0 不兼容

项目目标 NET框架4 6 2 项目使用 NuGet 包 Entity Framework Core 引用 NET 标准 2 0 它出现在packages folder 据我所知 NET 4 6 2 and NET 标准 2 0不兼容它会
D3 中的鼠标事件和画笔

我目前正在尝试自定义时间序列图表的示例该示例位于http nvd3 com ghpages lineWithFocus html http nvd3 com ghpages lineWithFocus html 这是使用 d3 之上的库
Reactjs 和砌体布局 - 未定义

我已经在 masonry layout 上完成了 npm 安装但是当我渲染这个组件时它出现了一个元素未定义的错误无法设置未定义的属性元素这是一个jsfiddle http jsfiddle net 0ht35rpb 82 http
通过维护顺序来聚合重复记录，并且还包括重复记录

我正在尝试解决一个有趣的问题很容易只做一个 groupBy 来进行聚合如求和计数等但这个问题略有不同让我解释这是我的元组列表 val repeatSmokers List String String String String

通过维护顺序来聚合重复记录，并且还包括重复记录

通过维护顺序来聚合重复记录，并且还包括重复记录 的相关文章

随机推荐

热门标签

通过维护顺序来聚合重复记录，并且还包括重复记录的相关文章