博客中最常见的 3 页序列

2024-03-22

给定一个由字段“用户”“页面 url”组成的网络日志。我们必须找出用户最常使用的 3 页序列。

有一个时间戳。并且不能保证单个用户访问将按顺序记录，它可能像 user1 Page1 user2 Pagex user1 Page2 User10 Pagex user1 Page 3 她的 User1 的页面顺序是 page1-> page2-> page 3

假设您的日志按时间戳顺序存储，这里有一个算法可以满足您的需要：

创建一个哈希表“user_visits”，将用户 ID 映射到您观察到的他们访问的最后两个页面
创建一个哈希表“visit_count”，将页面三元组映射到频率计数
For each entry (user, URL) in the log:
1. 如果 user_visits 中存在具有两个条目的“user”，则将 Visit_count 中与 URL 3 元组相对应的条目加一
2. 将“URL”附加到 user_visits 中的相关条目，如有必要，删除最旧的条目。
按值对访问计数哈希表进行排序。这是最流行的 URL 序列列表。

这是 Python 中的一个实现，假设您的字段是用空格分隔的：

fh = open('log.txt', 'r')
user_visits = {}
visit_counts = {}
for row in fh:
  user, url = row.split(' ')
  prev_visits = user_visits.get(user, ())
  if len(prev_vists) == 2:
    visit_tuple = prev_vists + (url,)
    visit_counts[visit_tuple] = visit_counts.get(visit_tuple, 0) + 1
  user_visits[user] = (prev_vists[1], url)
popular_sequences = sorted(visit_counts, key=lambda x:x[1], reverse=True)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Algorithm

博客中最常见的 3 页序列的相关文章

线性代数如何在算法中使用？

我的几个同行都提到学习算法时线性代数非常重要我研究了各种算法并学习了一些线性代数课程但我没有看到其中的联系那么线性代数如何应用在算法中呢例如图的连接矩阵可以带来哪些有趣的事情三个具体例子线性代数是现代 3D 图形的基础
在 O(n) 时间内找到 n x n 矩阵中的局部最小值

所以这不是我的家庭作业问题而是取自 coursera 算法和数据结构课程的未评分作业现已完成 You are given an n by n grid of distinct numbers A number is a local m
检索受“rowspan”影响的行的列索引的最有效方法是什么？

考虑下表 table thead tr th th th A th th B th th C th tr thead tbody tr th 1 th td Apples td td Oranges td td Pears td tr tb
如何从一组重叠的圆计算多边形集？

这个问题是一些计算细节的扩展这个问题 https stackoverflow com questions 1667310 combined area of overlapping circles 假设有一组可能重叠的圆并且希望计算这组
将字符串中的“奇怪”字符转换为罗马字符

我需要能够将用户输入仅转换为 a z 罗马字符不区分大小写所以我感兴趣的角色只有26个然而用户可以输入他们想要的任何形式的字符西班牙语 n 法语 e 和德语 u 都可以包含用户输入中的重音符号这些重音符号会被程序删除我已
数组中连续元素的最大乘积

我在现场面试的时候被问到了这个算法问题由于没有要求我签署保密协议我将其发布在这里寻求答案给定一个数组REAL不包含 0 的数字找到产生最大乘积的连续元素该算法应在线性时间内运行我考虑过以下方法使用两个数组第一个是利用DP思想
C 埃及分数

古埃及人仅使用以下形式的分数1 n因此任何其他分数都必须表示为这些单位分数的总和而且所有单位分数都是不同的在C或Java中使任何分数成为埃及分数总和越少越好的好方法是什么可以使用什么算法分支定界 a 例如 3 4 1 2 1
包围一组点的多边形

我有一组 S 点 2D 由 x 和 y 定义我想找到 P 包围该组所有点的最小含义具有最少数量的点多边形 P 是S 有没有已知的算法来计算这个我在这个领域缺乏文化令人惊讶感谢您的帮助对于这个问题有很多算法它被称为最小边界框
用 C++ 生成 AST

我正在用 C 制作一个解释器到目前为止我已经有了词法分析器来生成标记问题是我不确定如何生成行走解析树我正在考虑使用数组数组来制作解析树但我不确定如何以正确的顺序将标记实际插入到解析树中我不确定是自上而下左右还是自下而上左右
使用并集查找（又名不相交集）检测图是否是二分图

我正在 Spoj 上做一个问题基本上可以简化为检测图是否是二分图我正在尝试使用 dfs 为图表着色但它太慢了有人评论这个没有 bfs 没有 dfs 没有二部图简单的并查集就可以做到确实速度很快提示 1 偶数长度的环不会影响两
直接选择排序与交换选择排序

有什么区别直接选择排序 vs 交换选择排序今天我陷入了一场争论我的教授在他的讲义中使用了这两个术语维基百科和任何教科书或网站都会为您提供的选择排序就是他所说的交换选择排序我以前从未听说过交换选择排序这个术语仅选择排序并且
数学组合的完美最小哈希

首先定义两个整数N and K where N gt K 两者都在编译时已知例如 N 8 and K 3 接下来定义一组整数 0 N or 1 N 如果这使答案更简单并调用它S 例如 0 1 2 3 4 5 6 7 的子集数量S wi
计算两点之间的最短路线

过去几周我一直在开发一款多人 HTML5 游戏使用nodejs and websockets 我已经被这个问题困扰了一段时间想象一下我用数组实现了这个平铺地图如下所示 1 or 棕色瓷砖路上有障碍物玩家无法通过 0 or 绿色瓷
如何检查是否存在可能的路径？

我正在开发一个基于 javascript 的实验性游戏玩家必须在二维平铺地图上移动才能退出请随意检查这个小提琴并演奏 http jsfiddle net moonlife 74vLd 我只是随机放置障碍物但有时障碍物会挡住玩家和出口之
shell脚本中关联数组的时间复杂度

我想知道在 shell 脚本中使用关联数组时如何构造实现另外我想知道基于 shell 脚本的关联数组的时间复杂度是否是最佳的因为我们可以使用字母和数字作为它们各自的键编辑他们使用什么哈希函数如果您使用关联数组则不能通过使用
Florian 的 Grisu2 算法如何工作？

我遇到了一个关于将 double 转换为 ascii 的问题经过搜索我得到了 Florian 的论文使用整数快速准确地打印浮点数 http www cs tufts edu nr cs257 archive florian loits
在java中使用BUBBLE SORT对二维字符串数组进行排序

类似的问题已经被问过但从来没有关于二维字符串数组因此在尝试了很长时间之后我找不到我想要的我正在尝试使用 BubbleSort 对 java 中的 2D 字符串数组进行排序作为输入我收到一个二维字符串数组一个表以及您应该排序的
解开 Knuth 的结：如何重构意大利面条式代码？

这个问题的灵感来自如何将流程图转化为实施 https stackoverflow com questions 36647765它询问如何通过算法消除goto代码中的语句这answer https stackoverflow com a 3
动态规划 (DP) 中的重叠子问题是什么？

为了使动态规划适用问题必须具有两个关键属性最优子结构 and 重叠子问题 1 https en wikipedia org wiki Dynamic programming 对于这个问题我们只关注后一个属性有各种不同的定义重叠子问题
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出

随机推荐

测试两个列表列表是否相等

假设我在 Python 中有两个列表 l1 a 1 b 2 c 3 l2 b 2 c 3 a 1 测试它们是否相等的最优雅的方法是什么 l1只是元素的一些排列l2 注意对普通列表执行此操作see here https stackoverfl
在采用多个可选参数的方法中，如何指定除第一个参数之外的任何参数？

我有一个这样的方法 def foo fruit apple cut sliced topping ice cream some logic here end 我怎样才能调用它我只覆盖顶部参数但使用其他参数的默认值像这样 foo hot
导入使用 MultiProcessing Python 的模块

我希望使用多处理模块来加快某些运输规划模型的运行时间我已经通过正常方法尽可能多地进行了优化但其核心是一个荒谬的并行问题例如对 4 组不同的输入执行同一组矩阵运算所有信息都是独立的伪代码 for mat1 mat2 mat3
在 Java Servlet 中生成 HTML 响应

如何在 Java servlet 中生成 HTML 响应通常您会将请求转发到 JSP 进行显示 JSP 是一种视图技术它提供了一个用于编写普通 HTML CSS JS 的模板并提供了借助标签库和 EL 与后端 Java 代码变量进
折线百分比的纬度

如何沿折线返回给定百分比的 latLng 值我花了一天时间使用插值和单个节点来完成此任务他们是不是有一个更简单的函数可以让 grunt 工作谷歌地图 API v3 谢谢 http www geocodezip com scripts
是否可以在 java jit 上使用 Final boolean 删除跳转？

正如我们所知有些人说 java JIT 比 C 更快我有一些想法可以利用 JIT 并在运行时代码中删除一些指令这是我尝试过的示例代码 Created by kadirbasol on 4 6 14 public class Remo
jqplot 不同折线图的荧光笔

我有一系列折线图jqPlot图表我想要做的是关闭所有图表的突出显示除了我想要突出显示的一张图表我怎样才能做到这一点我还没有一个很好的例子来说明如何做到这一点也没有时间做一个但我会在完成时更新在所有事件中荧光笔插件都会为每个系
PrestaShop：生产前删除所有测试数据

我正在搜索一个在 MySql 上运行的脚本以删除截断表 PrestaShop 数据库版本 1 4 9 上的所有测试数据客户订单购物车等感谢帕斯卡安装 Prestashop Cleaner 并在配置中您可以选择删除目录订单和
RestAssured：如何禁用 PreAuthorize

我正在使用 RestAssured 测试 API 我调用的方法使用下一个注释 PreAuthorize hasAnyRole ROLE1 ROLE2 ROLE3 我的测试类包含用于测试的活动配置文件对于测试配置我们使用 yaml 文件
在 AngularJS 中使用“scope”从另一个控制器调用一个控制器的方法

我试图通过使用在第一个控制器中调用第二个控制器的方法scope多变的这是我的第一个控制器中的方法 scope initRestId function var catapp document getElementById SecondApp
Haskell 中的字符串格式化

Haskell 相当于什么 string str string Format 0 1 10 20 C 有一个Printf https hackage haskell org package base docs Text Printf htm
如何制作多列无序列表？

我正在尝试创建一个如下所示的项目列表主要要求是列表应该灵活可以在不接触代码的情况下添加或删除列表项到目前为止我发现的最好的解决方案是将所有列表项包括标题放入 li 标记并使用本文中介绍的技术之一对其进行样式设置分开列出文章 htt
重写 URL 并使新 URL 显示在地址栏中

我使用下面的代码来重写一些 URL RewriteEngine On Options FollowSymlinks RewriteBase RewriteRule New Hampshire a zA Z0 9 s html NH 请记住
如何在 DLL 边界上公开 STL 列表？

我有一个 DLL 需要访问主机应用程序中 STL 容器中存储的数据因为 C 没有标准的 ABI 而且我想支持不同的编译器所以应用程序和 DLL 之间的接口基本上必须保持普通旧数据对于向量来说这相对简单您可以简单地返回向量的内存块
如何在Python中的setup.py中包含并安装本地依赖项？

我正在创建一个setup py分发我的应用程序该应用程序有许多可以通过 pip 安装的依赖项它还有一些无法从 PyPI 安装的自定义依赖项所以我创建了一个custom package 0 1 whl它将包含在发行版中并且必须在之后
XMPP - 名册订阅说明

假设我的 Jabber 服务器上有 2 个用户 Alice 和 Bob 添加到名册中并订阅为both 我需要执行以下步骤 Alice 向 Bob 发送订阅请求当 Bob 收到请求时他会批准该请求 Bob 可能也对 Alice 的存在感兴
将 2 个参数 Lambda 表达式转换为 1 个参数 Lambda 表达式（指定一个参数）

我有表情 Expression
PHP-从字符串中删除所有制表符

我可以从字符串中删除所有单个选项卡 Copying and pasting the tab directly txt str replace txt 这只会删除单个选项卡但不会删除双选项卡然后我尝试了这个认为 t 足以找到选项卡 tx
Django Rest Framework 不允许我拥有多个权限

我的 Django Rest 框架和权限有问题例如 DRF 不允许我对我的观点拥有多个权限如果我以管理员用户身份登录 API 我可以使用此 mixin 进行访问 class PermissionMixin object permissi
博客中最常见的 3 页序列

给定一个由字段用户页面 url 组成的网络日志我们必须找出用户最常使用的 3 页序列有一个时间戳并且不能保证单个用户访问将按顺序记录它可能像 user1 Page1 user2 Pagex user1 Page2 User10

博客中最常见的 3 页序列

博客中最常见的 3 页序列 的相关文章

随机推荐

热门标签

博客中最常见的 3 页序列的相关文章