哪种数据聚类算法适合检测时间序列事件中未知数量的聚类？

2024-05-09

这是我的场景。考虑在不同地点和时间发生的一组事件 - 例如，考虑有人在高空记录暴风雨期间城市中的雷击。就我的目的而言，闪电是瞬时的，只能击中某些位置（例如高层建筑）。还可以想象每次雷击都有一个唯一的 ID，以便以后可以参考该雷击。这个城市大约有100,000个这样的地点（正如你猜的那样，这是一个类比，因为我现在的雇主对实际问题很敏感）。

对于第 1 阶段，我的输入是（罢工 ID、罢工时间、罢工位置）元组的集合。所需的输出是短时间内击中同一位置的 1 个以上事件的集群集合。簇的数量事先是未知的（因此 k 均值在这里没那么有用）。可以针对给定的聚类尝试预定义被视为“短”的内容。也就是说，我可以将其设置为 3 分钟，然后运行算法；稍后尝试 4 分钟或 10 分钟。也许算法可以确定聚类的“强度”，并建议对于给定的输入，通过使用“短”的特定值来实现最紧凑的聚类，但这最初不是必需的。

对于第二阶段，我想考虑罢工的幅度（即实数）并寻找在短时间内且具有相似幅度的集群。

我用谷歌搜索并检查了这里有关数据聚类的答案。这些信息有点令人困惑（下面是我发现有用的链接列表）。 AFAIK，k-means 和相关算法不会有用，因为它们需要先验指定簇的数量。我并不是要求有人来解决我的问题（我喜欢解决它），但为了节省一些时间，数据聚类算法的大世界中的一些方向将是有用的。具体来说，当聚类数量未知时，什么聚类算法适合。

编辑：我意识到位置是无关紧要的，因为虽然事件一直在发生，但我只需要按位置对它们进行聚类。因此，每个位置都有自己的事件时间序列，因此可以独立分析。

一些技术细节：
- 由于数据集不是那么大，它可以容纳所有内存。
- 并行处理是一个很好的选择，但不是必需的。我只有一台 4 核机器，MapReduce 和 Hadoop 就太多了。
- 我最熟悉的语言是Java。我还没有使用过 R，对于我所给的时间来说，它的学习曲线可能会太多。无论如何，我会在空闲时间看一下。
- 目前，使用工具来运行分析是可以的，我不必只生成代码。我提到这一点可能是因为Weka http://www.cs.waikato.ac.nz/ml/weka/将会被建议。
- 可视化会很有用。由于数据集足够大，因此无法容纳在内存中，因此可视化至少应该支持缩放和平移。需要澄清的是：我不需要构建可视化 GUI，它只是一个很好的功能，可用于检查工具生成的结果。

谢谢。我发现有用的问题是：如何找到数字簇的中心？统计问题？ https://stackoverflow.com/questions/2027252, 报童的聚类算法 https://stackoverflow.com/questions/562904, Java集群库 https://stackoverflow.com/questions/2129269, 如何对对象进行聚类（没有坐标） https://stackoverflow.com/questions/691922, 检测点“簇”的算法 https://stackoverflow.com/questions/356035

我建议你调查一下均值平移聚类 http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/TUZEL1/MeanShift.pdf。均值漂移聚类背后的基本思想是获取数据并执行核密度估计 http://en.wikipedia.org/wiki/Kernel_density_estimation，然后找到密度估计中的模式，数据点向模式的收敛区域定义了簇。

均值漂移聚类的好处是不必提前指定聚类的数量。

我没有使用Weka，所以我不确定它是否有均值漂移聚类。但是，如果您使用 MATLAB，这里有一个工具箱（KDE工具箱 http://www.ics.uci.edu/~ihler/code/kde.html）去做吧。希望有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

哪种数据聚类算法适合检测时间序列事件中未知数量的聚类？的相关文章

有人可以解释以下异或属性

我的一个论坛提到给定的数组n数字 arr 0 n 1 以下条件成立 is the xor运算符 f l r f 0 r f 0 l 1 where f l r arr l arr l 1 arr r 我检查了上面的数组数量和不同的值l an
在 C++ 中通过引用传递 std 算法谓词

我正在尝试从 a 中删除元素std list并保留已删除元素的一些统计信息为此我使用列表中的remove if 函数并且我有一个谓词我想使用这个谓词来收集统计数据这是谓词的代码 class TestPredicate privat
分而治之策略来确定列表中是否有超过 1/3 的相同元素

我正在使用分治算法来确定列表中是否有超过 1 3 的元素相同例如 1 2 3 4 不所有元素都是唯一的 1 1 2 4 5 是的其中 2 个是相同的没有排序是否有分而治之的策略我陷入了如何划分的困境 def is valid i
KMeans 对不平衡数据进行聚类

我有一组包含 50 个特征 c1 c2 c3 的数据行数超过 80k 每行包含标准化数值范围 0 1 它实际上是一个标准化的虚拟变量其中一些行只有很少的特征 3 4 即如果没有值则分配 0 大多数行大约有 10 20 个特征我使用
生成所有多集大小为 n 的分区的算法

我一直在试图找出一种方法来生成多重集的所有不同的大小为 n 的分区但到目前为止却空手而归首先让我展示一下我想要实现的目标假设我们有一个输入向量uint32 t std vector
快速约会算法

我在一家咨询公司工作大部分时间都在客户所在地正因为如此我很少见到同事为了更好地了解彼此我们将安排一个晚宴会有很多小桌子方便人们聊天为了在聚会期间与尽可能多的不同的人交谈每个人都必须每隔一段时间比如每小时换一张桌子如何
如何有效地找到距给定点最远的点（从一组点中）？

我正在寻找一种算法或数据结构来解决以下问题给你一组点 S 然后你会得到另一个点形式的 Q 查询对于每个查询找到集合中距离给定点最远的点集合中最多有 10 5 个点和 10 5 个查询所有点的坐标都在 0 到 10 5 范围内我想
给定一个具有多个重复条目的数组，找到一个重复条目 O(N) 时间和常数空间

我们得到了一个大小为 N 的数组其中包含 0 到 N 2 范围内的整数包括 0 和 N 2 该数组可以有多个重复的条目我们需要在 O N 时间和常量空间中找到重复条目之一我正在考虑取数组中所有条目的乘积和总和以及 0 到 N 2
如何从迭代器推导连续内存

不知何故本土stl copy VC Dinkumware 上的算法表明它可以使用memcpy 可以轻松复制的数据一个凡人能做到这一点吗假设每个元素都是普通可复制的 random access iterator 是否意味着连续内存标准
大数据使用什么数据结构

我有一个包含一百万行的 Excel 工作表每行有 100 列每行代表一个具有 100 个属性的类的实例列值是这些属性的值哪种数据结构最适合在这里使用来存储数百万个数据实例 Thanks 这实际上取决于您需要如何访问这些数据以及您想要
两组点之间的最佳匹配

I ve got two lists of points let s call them L1 P1 x1 y1 Pn xn yn and L2 P 1 x 1 y 1 P n x n y n 我的任务是找到它们点之间的最佳匹配以最小化它
以 O(1) 计算汉明权重 [重复]

这个问题在这里已经有答案了在二进制表示中汉明权重是 1 的数量我偶然发现了网络并找到了一个 O 1 的答案 v v v gt gt 1 0x55555555 v v 0x33333333 v gt gt 2 0x33333333 in
哪些不同的术语表示相同的事物（或不同的术语，但人们认为它们表示相同的意思）？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的
需要解释搜索最小大和的算法

我正在解决 Codility 问题作为练习但无法回答其中一个问题我在互联网上找到了答案但我不明白这个算法是如何工作的有人可以引导我逐步完成它吗这是问题 You are given integers K M and a non em
如何对对象进行排序？（画家算法）

所以我有 4 个矩形形状我正在尝试应用排序算法画家算法 https en wikipedia org wiki Painter 27s algorithm 来知道我需要先绘制哪些形状在 3d 中然后绘制哪个形状 Note 相机位于右
高效列出目录中的所有子目录

请参阅迄今为止所采取的建议的编辑我正在尝试使用 WinAPI 和 C 列出给定目录中的所有目录文件夹现在我的算法又慢又低效使用 FindFirstFileEx 打开我正在搜索的文件夹然后我查看目录中的每个文件使用 FindNex
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
选择一组数字以达到最小总数的算法

给定一组数字n 1 n 2 n 3 n x 还有一个数字M 我想找到最好的组合 n a n b n c n gt M 该组合应达到达到或超过 M 所需的最小值没有其他组合可以提供更好的结果将在 PHP 中执行此操作因此可以使用 PH
将名称字符串编码为唯一的数字

我有一大堆名字数以百万计他们每个人都有一个名字一个可选的中间名和一个姓氏我需要将这些名称编码为唯一代表这些名称的数字编码应该是一对一的即一个名称只能与一个数字相关联一个数字只能与一个名称相关联对此进行编码的明智方法是什么我
列出所有 k 元组，其条目总和为 n，忽略旋转

有没有一种有效的算法来查找所有序列k总和为的非负整数n 同时避免旋转如果可能的话完全避免顺序很重要但对于我正在解决的问题来说轮换是多余的例如与k 3 和n 3 我想要得到一个如下所示的列表 3 0 0 2 1 0 2 0 1

随机推荐

ScrollView 只能承载一个直接子级，但它只有一个

每当我开始活动时我都会收到此错误这是完整的堆栈跟踪 Process com example PID 28799 java lang RuntimeException Unable to start activity ComponentI
这个特定的 ReactJs 代码是如何执行的初学者问题？

我是初学者正在阅读大量代码现在我想知道下面的代码我明白这段代码在做什么我需要澄清的是代码流程当我运行它时我看到图像正在加载 React 是从上到下执行代码吗占位符图像异步获得正确的图像但会App如果需要时间组件会开始渲染但没
Accept() 是线程安全的吗？

我目前正在用 C 语言为我正在做的课程编写一个简单的网络服务器我们的一项要求是实现一个线程池来使用 pthread 处理连接我知道我将如何粗略地执行此操作在主线程中调用accept并将文件描述符传递给freee线程但是我的朋友建议了
首选项活动中的广告“没有足够的空间来显示广告！需要：<480, 75>，拥有：<432, 1073741823>”

我试图在偏好活动中展示广告但它从未出现 Logcat 始终显示消息没有足够的空间来显示广告想要有这就是我制作广告的方式我对广告有自定义偏好 public class AdmobPreference extends Prefere
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
GC.Add MemoryPressure() 如何知道要向哪个对象添加内存压力？

我最近需要使用GC 添加内存压力 http msdn microsoft com en us library system gc addmemorypressure aspx令我感到奇怪的是它不接受添加内存压力的对象作为参数我认为因为它
为什么 Redis TimeSeries 不捕获聚合中的最后一个元素？

我试图了解 Redis 的时间序列规则创建的工作原理但我很困惑为什么 Redis 会忽略聚合中的最后一项并想知道这是否是预期的行为我在中创建了示例代码redis cli为了显示 127 0 0 1 6379 gt FLUSHALL O
创建用于 Android 库分发的 JAR

我正在开发一个 android 库并希望导出一个 JAR 文件我可以分发该文件供其他人在他们的应用程序中使用我不想分发源代码因为它包含有关发布到我的网络服务器的详细信息我尝试使用在 bin 目录中创建的 JAR 文件并将该 jar
如何在intelliJ idea中创建java包的jar

我需要创建一个包含模块内部包中已编译类的 jar 我有一个 jar 文件它实际上是模块内部的一个包我需要重新创建它我可以创建整个模块的 jar 但无法创建包的 jar 文件我怎样才能按照想法做到这一点 Intellij IDEA 2
“TryParse / Parse like”模式：实现它的最佳方法是什么

这个问题是来自的后续问题如何指示方法不成功 https stackoverflow com questions 161822 how to indicate that a method was unsuccessful xxx Tryxxx
解析嵌套括号内包含的值

我只是在开玩笑奇怪地发现在简单的递归函数中解析嵌套括号有点棘手例如如果程序的目的是查找用户详细信息它可能来自 name surname age to Bob Builder age 然后到Bob Builder 20 这是一个用于在
在 keras 中使用自定义张量流操作

我在张量流中有一个脚本其中包含自定义张量流操作我想将代码移植到 keras 但我不确定如何在 keras 代码中调用自定义操作我想在 keras 中使用tensorflow 所以到目前为止我发现的教程描述了与我想要的相反的内容 htt
SASS/Compass可以将foo.scss编译为foo.min.css和foo.dbg.css吗？

我想整理一套 scss文件为不同的文件名在开发中我想编译例如 foo scss to foo dbg css 未缩小并带有评论在生产中我想要例如 foo min css 缩小有没有办法告诉 SASS Compass 使用什么作为目
为什么 dart 不允许方法重载？

我尝试在一些 dart 代码中使用方法重载并很快了解到 dart 中不提供重载我的问题是为什么不提供推荐的替代方案是什么是否有标准的命名约定因为执行相同操作但具有不同输入的方法必须具有不同的名称使用命名参数然后检查调用者是否提
Google BigQuery：如何使用 SQL 创建新列

我想在不使用旧版 SQL 的情况下向现有表添加一列基本的 SQL 语法是 ALTER TABLE table name ADD column name datatype 我格式化了 Google BigQuery 的查询 ALTER TA
ARM 系统调用的接口是什么？它在 Linux 内核中的何处定义？

我读过有关 Linux 中的系统调用的内容并且到处都给出了有关 x86 架构的描述 0x80中断和SYSENTER 但我无法追踪 ARM 架构中系统调用的文件和进程任何人都可以帮忙吗我知道的几个相关文件是 arch arm kerne
了解执行模型和事件循环

我读过很多关于JavaScript单线程执行模型事件循环和事件队列的文章但有一件事尚不清楚我创建了一个小提琴来说明我的问题 http jsfiddle net yzpmf67f http jsfiddle net yzpmf67f
在 PHP 中计算 Cookie 大小

我想使用 php 在服务器端读取 cookie 并计算其长度但找不到任何直接方法来执行此操作那么如何实现这个任务呢那这个呢 setcookie user Dino babu kannampuzha time 3600 if isset
PHP 使用 use 关键字导入类

到目前为止我还没有使用PHPuse词但现在必须索引 php内容 require once Classes MainClass php obj new Main echo obj gt test 类 MainClass php
哪种数据聚类算法适合检测时间序列事件中未知数量的聚类？

这是我的场景考虑在不同地点和时间发生的一组事件例如考虑有人在高空记录暴风雨期间城市中的雷击就我的目的而言闪电是瞬时的只能击中某些位置例如高层建筑还可以想象每次雷击都有一个唯一的 ID 以便以后可以参考该雷击这个城市大约有1

哪种数据聚类算法适合检测时间序列事件中未知数量的聚类？

哪种数据聚类算法适合检测时间序列事件中未知数量的聚类？ 的相关文章

随机推荐

热门标签

哪种数据聚类算法适合检测时间序列事件中未知数量的聚类？的相关文章