大数据项目-用flink实现用户行为分析二

2023-10-31

实时流量统计

利用用户的偏好行为,例如点击浏览等,对用户进行流量统计。

执行步骤

创建一个NetworkFlowAnalysis子模块,将apache服务器的日志文件复制到资源文件目录下,我们将从中读取数据。

1.基于服务器log的热门页面浏览量统计

我们需要用户登录的入口流量、不同页面的访问流量进行分析-这些都能从web服务器的日志中提取出来。
热门页面浏览数的统计,读取服务器日志中的每一行log,统计在一段时间内用户访问的每一个url的次数,然后排序输出显示。具体做法为:每隔5秒,输出最近10分钟访问量最多的前N个URL。在scala下创建NetworkFlow.scala文件,新建一个单例对象。定义样例类ApacheLogEvent,作为输入的日志数据流,此外还有UrlViewCount,这是窗口操作统计的输出数据类型。在main函数中创建StreamExecutionEnvironment并做配置,从apache.log文件中读取数据,并包装成ApacheLogEvent类型。

2.基于埋点日志数据的网络流量统计

我们发现,从 web 服务器 log 中得到的 url,往往更多的是请求某个资源地址(/.js、/.css),如果要针对页面进行统计往往还需要进行过滤。而在实际电商应用中,相比每个单独页面的访问量,我们可能更加关心整个电商网站的网络流量。这个指标,除了合并之前每个页面的统计结果之外,还可以通过统计埋点日志数据中的“pv”行为来得到。

3.网站总浏览量(PV)的统计

衡量网站流量一个最简单的指标,就是网站的页面浏览量(Page View,PV)。
用户每次打开一个页面便记录 1 次 PV,多次打开同一页面则浏览量累计。一般来说,PV 与来访者的数量成正比,但是 PV 并不直接决定页面的真实来访者数量,如同一个来访者通过不断的刷新页面,也可以制造出非常高的 PV。
我们知道,用户浏览页面时,会从浏览器向网络服务器发出一个请求(Request),网络服务器接到这个请求后,会将该请求对应的一个网页(Page)发送给浏览器,从而产生了一个 PV。所以我们的统计方法,可以是从 web 服务器的日志中去提取对应的页面访问然后统计,就向上一节中的做法一样;也可以直接从埋点日志中提取用户发来的页面请求,从而统计出总浏览量。所以,接下来我们用 UserBehavior.csv 作为数据源,实现一个网站总浏览量的统计。我们可以设置滚动时间窗口,实时统计每小时内的网站PV。
在src/main/scala下创建PageView.scala文件。

4.网站独立访客数(UV)的统计

UV指的是一段时间内访问网站的总人数,1天内同一访客的多次访问只记录为一个访客。通过IP和cookie一般是判断UV值的两种方式。当客户端第一次访问服务器时,服务器会给客户端电脑发送一个Cookie,在其中分配一个独一无二的编号。Cookie会进行更新,但是编号是不会变的。对于UserBehavior数据源,可以根据userId来区分不同的用户。
使用布隆过滤器的UV统计:将用户ID存在内存里,会占用比较大的内存,而用redis缓存对于上亿级的用户也不行,所以通过压缩处理,用一位(bit)表示一个用户,这个实现就是布隆过滤器。本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic
data structure),特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”。它本身是一个很长的二进制向量,既然是二进制的向量,那么显而易见的,存
放的不是 0,就是 1。相比于传统的 List、Set、Map 等数据结构,它更高效、占用空间更少,但是缺点是其返回的结果是概率性的,而不是确切的。我们的目标就是,利用某种方法(一般是 Hash 函数)把每个数据,对应到一个位图的某一位上去;如果数据存在,那一位就是 1,不存在则为 0。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

大数据项目-用flink实现用户行为分析二 的相关文章

随机推荐

  • Python Pygame 实现宝可梦对战场面

    宝可梦游戏是小时候最喜欢的掌机游戏之一 印象最深刻的是宝可梦 黄 宝可梦 金 银 还有红蓝宝石 游戏的设计很出色 画面精致 可以说是是掌机时代的代表了 本篇文章使用Pygame实现宝可梦的战斗场景 重温经典 目录 一 游戏效果展示 二 使用
  • 基于DNN神经网络的多输入多输出数据回归预测

    基于DNN神经网络的多输入多输出数据回归预测 神经网络是一种被广泛应用于机器学习和人工智能领域的工具 它可以通过训练来学习输入和输出之间的关系 在回归预测问题中 神经网络可以通过学习历史数据来预测未来的结果 本篇文章将介绍如何使用DNN神经
  • Halcon仿射变换图片(旋转、缩放、平移)

    一 实验要求 把图片中的书摆正 二 实现代码 仅旋转 旋转变换 read image Image C Users 86159 Pictures Saved Pictures 1作业图片 5 2 1 jpg dev close window
  • Android之阿里云推送实现

    一 效果图 二 实现步骤 去阿里云官方注册账号及随便认证一下 然后去控制台创建自己的应用 控制台 gt 产品与服务 gt 移动服务 gt 移动推送 创建自己的项目 新建产品 新建成功后点击图标进入应用管理 点击加号进行应用配置 输入软件名及
  • IR2104/03 TLP250

    闸门驱动电源范围从10 20V 欠电压锁定 高侧输出与输入同步 关闭输入将关闭这两个通道 两个信道的匹配传输延迟 IR2104 S 高压 高速功率MOSFTE和IGBT驱动器 具有依赖的高侧和低侧参考输出通道 绝对最大额定参数 表明设备损坏
  • uni-app 怎么修改自定义组件样式 uniapp 覆盖 组件样式

    前段时间说到 由于Android和ios开发的小伙伴比较忙 我被拉来开发一个App 今天记录一下 uni app小程序怎么修改自定义组件样式 测试了h5和App端是可以的 小程序端没有测试 如果使用过vue开发项目 可以知道 当
  • Elasticsearch使用中出现的错误

    Elasticsearch使用中出现的错误 1 分页查询异常 在分页的过程中出现了一个问题是当查询的数据超过10000条的时候报了异常 from size must be less than or equal to 10000 这个问题最快
  • C++中的拷贝构造函数和以传值方式传递对象参数

    今天写一个小题 设11和12均为顺序表 编写一个函数 找出并输出他们的 最大子前级串 并比较剩余串的大小 在将对象作为参数传递给compare函数时 使用传引用的方式传递对象参数 编译可以通过 然而当我使用传值方式传递对象参数 编译器报错
  • 目标检测算法的分类和优缺点

    前言 一 基于深层神经网络的目标检测 1 是否存在候选区 2 是否存在先验框 二 各类目标检测算法的机制 优势 局限性及适用场景 三 目标检测的基本原理 总结 前言 随着今年来科学技术的发展 尤其是人工智能和大数据技术的不断发展 不断应用于
  • Numpy 向量化操作加速计算,解决向量外积求和慢的问题

    在计算函数二阶导的时候 我们通常需要计算Hessian 矩阵 此时会遇到向量外积求和的问题 i 1 n u i v i u i R n 1 v i R 1 n sum i 1 n u i v i u i in mathbb R n time
  • 经典排序算法之:快速排序

    快速排序可能是应用最广泛的排序算法 快速排序流行的原因是它实现简单 适用于各种不同的输入数据且在一般应用中比其他排序算法都要快很多 此次 我们来学习一下快速排序算法 目录 一 快速排序算法含义 二 快速排序算法过程 三 快速排序算法的过程方
  • ES7.5.2 script_score查询的bug

    背景 1 需要用到dense vector script score来进行算分 排序 2 ES版本为7 5 2 用到了自定义的插件 短期无法升级到7 17 5 或更高版本 3 script score查询在加入date类型的字段作为查询条件
  • 线程同步与锁

    线程同步与锁 当多个线程同时操作一个数据源的时候 需要留意数据源操作被重复同时执行 这个时候就需要考虑线程同步与锁的问题 线程同步与锁 使用关键字syncronized 来同步 syncronized修饰实例方法 直接在方法返回类型与修饰符
  • bash download.sh命令直接执行可以成功,通过代码执行却失败

    遇到了一个特别坑的问题 浪费了差不多两天时间 很气 需求 通过wget命令下载一个xml gz 一个xml文件的压缩包 代码 Runtime getRuntime exec bash BASH FILE Thread sleep 60 10
  • CVPR 2019

    全球计算机视觉三大顶级会议之一 CVPR 2019 将于当地时间 6 月 16 20 日在美国洛杉矶举办 届时 旷视研究院将带领团队远赴盛会 助力计算机视觉技术的交流与落地 在此之前 旷视每周会介绍一篇被 CVPR 2019 接收的论文 本
  • 网络爆破实验

    本次实验主要是暴力破解 暴力破解的原理就是使用攻击者自己的用户名和密码字典 一个一个去枚举 尝试是否能够登录 因为理论上来说 只要字典足够庞大 枚举总是能够成功的 下面将详细讲述我的步骤 一 使用工具 phpstudy burp suite
  • python经典面试题之交换a和b两个数的值

    a b两个值交换 不借助第三个变量如何进行交换 通过异或 交换a b个值 我们要知道异或的规则 就是 0 0 0 1 1 0 0 1 1 0 5 5 0 x x x x 0 知道这个了之后 我们再去看下面的异或交换a b两个值 看看它是怎样
  • 二级域名的查找与扫描

    关于域名的概念我不在这里做过多介绍 关于查找和扫描二级域名的作用 我想对于每一个搞渗透的同志来说是至关重要的 就一点 当主站无从下手的时候 你可以从C段 同IP站点下手 但往往二级域名站点存在的潜在 漏洞 概率是非常高的 同时 这也对摸清目
  • 运维经验记录 在CentOS上挂载Windows共享磁盘

    1 需求 非root用户 普通用户 能够读写windows共享目录 比如查看文件 创建文件 修改文件 删除文件 让普通用户也可以正常读写 uid value and gid value Set the owner and group of
  • 大数据项目-用flink实现用户行为分析二

    实时流量统计 利用用户的偏好行为 例如点击浏览等 对用户进行流量统计 执行步骤 创建一个NetworkFlowAnalysis子模块 将apache服务器的日志文件复制到资源文件目录下 我们将从中读取数据 1 基于服务器log的热门页面浏览