依赖于自身的 Spark 窗口函数

2024-01-10

假设我在 DataFrame 中有一列已排序的时间戳。我想编写一个函数，向该 DataFrame 添加一列，根据以下规则将时间戳切割成连续的时间片：

从第一行开始并继续迭代到最后
对于每一行，如果您在当前组中走了 n 行，或者您在当前组中走了超过时间间隔 t，则进行剪切
返回一个新列，其中包含每行的组分配，该列应该是一个递增的整数

英文：每组不应超过 n 行，且跨度不应超过 t 时间

例如：（使用整数作为时间戳来简化）

INPUT

OUTPUT（在 n = 3 和 t = 5 的切片函数之后）

     time | group
----------|------
        1 |     1
        2 |     1
        3 |     1
        5 |     2 // cut because there were no cuts in the last 3 rows
       10 |     2
      100 |     3 // cut because 100 - 5 > 5
     2000 |     4 // cut because 2000 - 100 > 5
     2001 |     4
     2002 |     4
     2003 |     5 // cut because there were no cuts in the last 3 rows

我感觉这可以通过 Spark 中的窗口函数来完成。毕竟，创建窗口函数是为了帮助开发人员计算移动平均值。您基本上会计算 n 行的每个窗口的一列（股票价格）的合计（在本例中为平均值）。

在这里应该能够完成同样的事情。对于每一行，如果最后n行不包含cut，或者最后一次cut与当前时间戳之间的时间跨度大于t，cut = true, o.w. cut = false。但我似乎无法弄清楚如何让窗口函数意识到自己。这就像知道最后一个移动平均线的特定行的移动平均线。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachesparksql

依赖于自身的 Spark 窗口函数的相关文章

Scala UpperBound 和 LowerBound 概念

下面是我尝试运行的代码 class Student def printDetails println I am a student def printSomeOtherDetails println I love Studying clas
Spark Shuffle 写入超慢

为什么对于 1 6MB shuffle 写入和 2 4MB 输入 spark shuffle 阶段如此缓慢为什么 shuffle 写入仅发生在一个执行器上我正在运行一个 3 节点集群每个集群有 8 个核心火花用户界面 Code Ja
Scala 中的超时未来

假设我有一个函数它调用一个阻塞可中断的手术我想在超时的情况下异步运行它也就是说我想在超时到期时中断该功能所以我正在尝试做这样的事情 import scala util Try import scala concurrent Fut
如何在 PySpark 中累计聚合一天内超过“1 小时”的窗口

我有一个如下所示的 Spark DataFrame group id event time XXXX 2017 10 25 14 47 02 717013 XXXX 2017 10 25 14 47 25 444979 XXXX 2017
使用 Spark sql DataFrame 删除功能

我需要为我的 Spark 应用程序从 postgres 数据库加载删除特定记录为了加载我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
Scala 函数定义参数列表中不同的括号样式

Scala 中以下两个函数定义有什么区别 1 def sum f Int gt Int a Int b Int Int code 2 def sum f Int gt Int a Int b Int Int code SBT 的控制台 RE
Playframework 2.0 在视图模板中定义函数

我正在开发一个使用 PlayFramework 2 0 的项目在阅读了一些 scala 之后我想在视图模板中嵌入一些动态代码所以我做了以下事情 def getMystring sequence Int if patternForm
为什么我的代码在 Spark Pregel 中执行需要很长时间？

我在 Spark 中使用 Pregel 编写了处理图形的代码但对于小数据集来说它的执行速度非常非常慢我以前用pregel写过程序但是这段代码运行速度确实很慢我的集群由 2 个工作人员组成每个都有核心 i5 CPU 和 6 GB
Scala：如何定义带有变量参数列表的匿名函数？

在 Scala 中如何定义接受可变数量参数的匿名函数 scala gt def foo blah Int gt 3
Akka/Scala：映射 Future 与 pipelineTo

In Akka参与者在发送一个Future结果给另一个演员 A 映射Future发挥作用tell结果给演员 B 定义一个onSuccess未来的回调其中tell结果给演员 C 管道Future结果给演员pipeTo 其中一些选项已在上一
scala 中的模拟案例类：Mockito

在我的游戏应用程序中我打算模拟一个案例类我可以这样做但它创建了一个所有成员变量都为空的对象有没有办法创建案例类的模拟对象以便该对象可以初始化一些成员 case class User name String address Stri
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
为什么我可以使用 Scala REPL 中的 Java 库，但不能使用脚本中的 Java 库？

我正在开发一个使用 Joda Time 的 Scala 脚本直到今天这一切都运行良好不知怎的有些东西发生了变化它不再起作用了这有效 scala cp lib Welcome to Scala version 2 9 1 fina
在 scala 中保留推导的更高类型

我有一个高阶类型并致力于用它构建一些 DSL 我正在寻找一种方法来定义可以接受类型而无需显式指定此类型的函数自我描述示例 class Wrap T val data T class DSL def doSomething T x Wra
获取两个顶点之间的边属性值时出现 ClassCastException

我正在尝试获取两个顶点之间的边缘属性值并低于异常 java lang ClassCastException 无法将 java lang String 转换为 scala runtime Nothing 环境内存中的泰坦 Code val
如何在cassandra中保存spark流数据

构建 sbt以下是build sbt文件中包含的内容 val sparkVersion 1 6 3 scalaVersion 2 10 5 resolvers Spark Packages Repo at https dl bintray
Scala 条件列表构造

我正在使用 Scala 2 9 2 并且想根据某些条件构建一个列表考虑以下情况其中 cond 是采用谓词 p 和类型 T 的值在本例中为 t3 的某个函数 t1 t2 cond p t3 t4 我想要的行为如下如果 p 为真则应给
Scala 中的 Apply 和 lambda

我有下面的代码 scala gt val builder new StringBuilder foo bar baz builder StringBuilder foo bar baz scala gt 0 until 5 foreach
尝试创建 jar 时出现 UNRESOLVED DEPENDENCIES 错误

我正在尝试构建一个 Scala jar 文件以在 Spark 中运行它我正在关注这个tutorial http spark apache org docs latest quick start html 当尝试使用 sbt 作为构建 ja
在 Spark 中将多行汇总为单行和单列

我有一个如下的火花 DF 我需要汇总具有与单行相同 ID 的多行但值应该不同 id values 1 hello 1 hello Sam 1 hello Tom 2 hello 2 hello Tom 预期输出 id values 1 h

随机推荐

延迟加载或巨大的 CSS-sprite（大小为 9MB）

条件这是一个电影网站约有 1000 张 15kb 的图像大约 70 的图像将在页面访问时加载图像的有效期很长我想我会选择 CSS sprites 因为大多数图像都会被访问者以任何方式加载但所有图像的 CSS sprite 都是
使用XMPP或WebSocket，为什么用户之间的实时通信需要服务器？

在底层都是关于套接字通信的如果有某种方法可以获取两个用户的IP 为什么不能直接在用户之间建立连接而必须通过中间的服务器我的2分钱没有人强迫我们拥有基于服务器的实时通信模型事实上 XMPP 有一个扩展名为无服务器消息传递 htt
使用 stat_summary 的标准误差线

以下代码使用 Hmisc ddply 和 ggplot 生成带有标准误差条的条形图 means se lt ddply mtcars cyl function df smean sdl df qsec mult sqrt length df
adb 设备与 ADB wireless 离线

由于某些原因我的手机无法再使用电缆我在互联网上看到可以通过 Wifi 将 adb 连接到但是我尝试了一下得到了这个 adb devices List of devices attached 192 168 1 2 5555 offl
Django + Google SSO openid

我想要我的申请http app acquee com designer http app acquee com designer接受谷歌帐户作为登录我找到了一堆 django 库但大多数都是在我不使用的现有 Django 身份验证系统之
Django 开发服务器消息 - 它们是什么意思？

如果我运行 Django 开发服务器并在浏览器中查看我的应用程序我会收到如下消息 08 一月 2011 18 12 45 获取 HTTP 1 1 200 2714 08 一月 2011 18 12 45 获取 static style c
嵌套列表：对列表中每个子元素的不同元素应用不同的函数

我必须加载两种类型的数据集使用不同的函数进行处理然后连接在一起我有每种类型的多个数据集它们的名称存储在嵌套列表中我想将两个不同的函数或一个标识嵌套列表中每个数据集的函数应用于嵌套列表中的每个子元素我尝试了 lapply sa
Java中的动态ArrayList

我对java有一个疑问我们可以创建动态的吗 ArrayList or String 在 for 循环内例如在我的应用程序中有类别字段不是静态的从服务器获取我想创建ArrayList or String 基于类别大小的对象如何
允许任何语言的字母（如“ñ”）的正则表达式

尝试让用户使用其他语言例如西班牙语或法语中的特殊字符我原来有这个 A Za z0 9 i 然后将其更改为 p L p N i 但仍然不起作用应允许使用诸如之类的字母谢谢修订我发现在开头加上 UTF8 有助于解决问题所以我使
Nodejs 可以与 Cakephp 集成吗？

我想实时监控用户输入的数据comments桌子我有一个 Apache 服务器正在运行并且假设它在端口 1337 上有一个节点服务器每次有人保存新数据时我该怎么做例如返回表中的总行数comment并显示在view 也许方法是使 th
自动展开PropertyGrid中的一些属性

我想通过使用该类的属性来自动展开加载了我的 SettingsStructure 类的实例的 PropertyGrid 中的一些节点另外如果用户在 PropertyGrid 上再次加载该实例我试图让实例记住每个属性是否已展开我做了
在SQL中显示表的结构

有人可以向我更好地解释一下吗如何显示表的结构我运行select from table 当然它会显示表中的所有内容但是我被要求显示表的结构这是什么意思命令是什么这是我的下表 SQL gt select from dept DEP
我应该在 Python 中使用“公共”属性还是“公共”属性？

在 Python 中我有以下示例类 class Foo self attr 0 property def attr self return self attr attr setter def attr self value self at
从 data.table 聚合返回多列[重复]

这个问题在这里已经有答案了我想用data table作为替代aggregate or ddply 因为这两种方法没有像希望的那样有效地扩展到大型对象不幸的是我还没有弄清楚如何让向量返回聚合函数在结果中生成多列data table 例如
Bootstrap 3：嵌套选项卡

我试图将一个选项卡放在一个选项卡内但是每当我单击内部嵌套选项卡时整个内部嵌套选项卡行就会消失这是 jsfiddle 中的示例 http jsfiddle net jNWMY 1 http jsfiddle net jNWMY 1 尝试
创建原始数据包来欺骗 UDP 数据包

我正在寻找使用 Java 欺骗 UDP 数据包有没有好的 Java 库可以让您创建自己的原始套接字我会使用一个 Java API 来包装libpcap http www tcpdump org libpcap 有一个注入功能允许您
如何不在nginx访问日志中记录get请求参数？

我需要启用访问日志但出于合规性原因无法在访问日志中记录敏感 GET 请求参数的数据虽然我知道我可以解析日志事后并清理它们但这不是一个可接受的解决方案因为出于合规性原因日志不能被篡改如何防止 sensitive data
正则表达式匹配除某些之外的所有集合

我确定以前曾问过这个问题但我似乎找不到它或知道要搜索的正确措辞基本上我想要一个匹配除连字符之外的所有非字母数字的正则表达式所以基本上匹配 W 除了排除我不知道如何从预制集中排除特定的 W是一个简写 w So w 一些背景知识定义
识别批处理文件的运行实例

这些对我不起作用有什么帮助可以明确纠正以下四个示例吗即使我打开了三个 CMD exe EXAMPLE01 也只是回显继续示例 01 echo off wmic process where name cmd exe find cmd
依赖于自身的 Spark 窗口函数

假设我在 DataFrame 中有一列已排序的时间戳我想编写一个函数向该 DataFrame 添加一列根据以下规则将时间戳切割成连续的时间片从第一行开始并继续迭代到最后对于每一行如果您在当前组中走了 n 行或者您在当前组中走了

依赖于自身的 Spark 窗口函数

依赖于自身的 Spark 窗口函数 的相关文章

随机推荐

热门标签

依赖于自身的 Spark 窗口函数的相关文章