程序员修仙之路--优雅快速的统计千万级别uv（留言送书）

2023-11-14

菜菜，咱们网站现在有多少PV和UV了？

Y总，咱们没有统计pv和uv的系统，预估大约有一千万uv吧

写一个统计uv和pv的系统吧

网上有现成的，直接接入一个不行吗？

别人的不太放心，毕竟自己写的，自己拥有主动权。给你两天时间，系统性能不要太差呀

好吧~~~

定义PV是page view的缩写，即页面浏览量，通常是衡量一个网络新闻频道或网站甚至一条网络新闻的主要指标。网页浏览数是评价网站流量最常用的指标之一，简称为PV

UV是unique visitor的简写，是指通过互联网访问、浏览这个网页的自然人。

通过以上的概念，可以清晰的看出pv是比较好设计的，网站的每一次被访问，pv都会增加，但是uv就不一定会增加了，uv本质上记录的是按照某个标准划分的自然人，这个标准其实我们可以自己去定义，比如：可以定义同一个IP的访问者为同一个UV，这也是最常见的uv定义之一，另外还有根据cookie定义等等。无论是pv还是uv，都需要一个时间段来加以描述，平时我们所说的pv，uv数量指的都是24小时之内（一个自然日）的数据。

pv相比较uv来说，技术上比较容易一些，今天咱们就来说一说uv的统计，为什么说uv的统计相对来说比较难呢，因为uv涉及到同一个标准下的自然人的去重，尤其是一个uv千万级别的网站，设计一个好的uv统计系统也许并非想象的那么容易。

那我们就来设计一个以一个自然日为时间段的uv统计系统，一个自然人（uv）的定义为同一个来源IP（当然你也可以自定义其他标准），数据量级别假设为每日千万uv的量级。

注意：今天我们讨论的重点是获取到自然人定义的信息之后如何设计uv统计系统，并非是如何获取自然人的定义。uv系统的设计并非想象的那么简单，因为uv可能随着网站的营销策略会出现瞬间大流量，比如网站举办了一个秒杀活动。

基于DB方案

服务端编程有一句名言曰：没有一个表解决不了的功能，如果有那就两个表三个表。一个uv统计系统确实可以基于数据库来实现，而且也不复杂，uv统计的记录表可以类似如下（不要太纠结以下表设计是否合理）：

字段	类型	描述
IP	varchar(30)	客户端来源ip
DayID	int	时间的简写，例如 20190629
其他字段	int	其他字段描述

当一个请求到达服务器，服务端每次需要查询一次数据库是否有当前IP和当前时间的访问记录，如果有，则说明是同一个uv，如果没有，则说明是新的uv记录，插入数据库。当然以上两步也可以写到一个sql语句中：

if exists( select 1 from table where ip='ip' and dayid=dayid )
　　Begin
　　　　return 0
　　End
else
　　Begin
 　　　 insert into table .......
　　End

所有基于数据库的解决方案，在数据量大的情况下几乎都更容易出现瓶颈。面对每天千万级别的uv统计，基于数据库的这种方案也许并不是最优的。

优化方案

面对每一个系统的设计，我们都应该沉下心来思考具体的业务。至于uv统计这个业务有几个特点：

1. 每次请求都需要判断是否已经存在相同的uv记录

2. 持久化uv数据不能影响正常的业务

3. uv数据的准确性可以忍受一定程度的误差

哈希表

基于数据库的方案中，在大数据量的情况下，性能的瓶颈引发原因之一就是：判断是否已经存在相同记录，所以要优化这个系统，肯定首先是要优化这个步骤。根据菜菜以前的文章，是否可以想到解决这个问题的数据结构，对，就是哈希表。哈希表根据key来查找value的时间复杂度为O（1）常数级别，可以完美的解决查找相同记录的操作瓶颈。

也许在uv数据量比较小的时候，哈希表也许是个不错的选择，但是面对千万级别的uv数据量，哈希表的哈希冲突和扩容，以及哈希表占用的内存也许并不是好的选择了。假设哈希表的每个key和value 占用10字节，1千万的uv数据大约占用 100M，对于现代计算机来说，100M其实不算大，但是有没有更好的方案呢？

优化哈希表

基于哈希表的方案，在千万级别数据量的情况下，只能算是勉强应付，如果是10亿的数据量呢？那有没有更好的办法搞定10亿级数据量的uv统计呢？这里抛开持久化数据，因为持久化设计到数据库的分表分库等优化策略了，咱们以后再谈。有没有更好的办法去快速判断在10亿级别的uv中某条记录是否存在呢？

为了尽量缩小使用的内存，我们可以这样设计，可以预先分配bit类型的数组，数组的大小是统计的最大数据量的一个倍数，这个倍数可以自定义调整。现在假设系统的uv最大数据量为1千万，系统可以预先分配一个长度为5千万的bit数组，bit占用的内存最小，只占用一位。按照一个哈希冲突比较小的哈希函数计算每一个数据的哈希值，并设置bit数组相应哈希值位置的值为1。由于哈希函数都有冲突，有可能不同的数据会出现相同的哈希值，出现误判，但是我们可以用多个不同的哈希函数来计算同一个数据，来产生不同的哈希值，同时把这多个哈希值的数组位置都设置为1，从而大大减少了误判率，刚才新建的数组为最大数据量的一个倍数也是为了减小冲突的一种方式（容量越大，冲突越小）。当一个1千万的uv数据量级，5千万的bit数组占用内存才几十M而已，比哈希表要小很多，在10亿级别下内存占用差距将会更大。

以下为代码示例：

class BloomFilter
    {
        BitArray container = null;
      public BloomFilter(int length)
        {
            container = new BitArray(length);
        }

        public void Set(string key)
        {
            var h1 = Hash1(key);
            var h2 = Hash2(key);
            var h3 = Hash3(key);
            var h4 = Hash4(key);
            container[h1] = true;
            container[h2] = true;
            container[h3] = true;
            container[h4] = true;

        }
        public bool Get(string key)
        {
            var h1 = Hash1(key);
            var h2 = Hash2(key);
            var h3 = Hash3(key);
            var h4 = Hash4(key);

            return container[h1] && container[h2] && container[h3] && container[h4];
        }

        //模拟哈希函数1
         int Hash1(string key)
        {
            int hash = 5381;
            int i;
            int count;
            char[] bitarray = key.ToCharArray();
            count = bitarray.Length;
            while (count > 0)
            {
                hash += (hash << 5) + (bitarray[bitarray.Length - count]);
                count--;
            }
            return (hash & 0x7FFFFFFF) % container.Length;

        }
         int Hash2(string key)
        {
            int seed = 131; // 31 131 1313 13131 131313 etc..
            int hash = 0;
            int count;
            char[] bitarray = (key+"key2").ToCharArray();
            count = bitarray.Length;
            while (count > 0)
            {
                hash = hash * seed + (bitarray[bitarray.Length - count]);
                count--;
            }

            return (hash & 0x7FFFFFFF)% container.Length;
        }
         int Hash3(string key)
        {
            int hash = 0;
            int i;
            int count;
            char[] bitarray = (key + "keykey3").ToCharArray();
            count = bitarray.Length;
            for (i = 0; i < count; i++)
            {
                if ((i & 1) == 0)
                {
                    hash ^= ((hash << 7) ^ (bitarray[i]) ^ (hash >> 3));
                }
                else
                {
                    hash ^= (~((hash << 11) ^ (bitarray[i]) ^ (hash >> 5)));
                }
                count--;
            }

            return (hash & 0x7FFFFFFF) % container.Length;

        }
        int Hash4(string key)
        {
            int hash = 5381;
            int i;
            int count;
            char[] bitarray = (key + "keykeyke4").ToCharArray();
            count = bitarray.Length;
            while (count > 0)
            {
                hash += (hash << 5) + (bitarray[bitarray.Length - count]);
                count--;
            }
            return (hash & 0x7FFFFFFF) % container.Length;
        }
    }

测试程序为：

BloomFilter bf = new BloomFilter(200000000);
            int exsitNumber = 0;
            int noExsitNumber = 0;

            for (int i=0;i < 10000000; i++)
            {
                string key = $"ip_{i}";
                var isExsit= bf.Get(key);
                if (isExsit)
                {
                    exsitNumber += 1;
                }
                else
                {
                    bf.Set(key);
                    noExsitNumber += 1;
                }
            }
            Console.WriteLine($"判断存在的数据量：{exsitNumber}");
            Console.WriteLine($"判断不存在的数据量：{noExsitNumber}");

测试结果：

判断存在的数据量：7017
判断不存在的数据量：9992983

占用内存40M，误判率不到千分之1，在这个业务场景下在可接受范围之内。在真正的业务当中，系统并不会在启动之初就分配这么大的bit数组，而是随着冲突增多慢慢扩容到一定容量的。

异步优化

当判断一个数据是否已经存在这个过程解决之后，下一个步骤就是把数据持久化到DB，如果数据量较大或者瞬间数据量较大，可以考虑使用mq或者读写IO比较大的NOSql来代替直接插入关系型数据库。

思路一转，整个的uv流程其实也都可以异步化，而且也推荐这么做。

福利送书

公众号的本文第5,15,30个留言者将获得技术书一本（自付邮费），添加菜菜微信领取吧。福利群内会经常送书哦！！

架构师之路，菜菜与君一起成长

长按识别二维码关注

转载于:https://www.cnblogs.com/zhanlang/p/11107398.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

程序员修仙之路--优雅快速的统计千万级别uv（留言送书）的相关文章

AI大模型应用入门实战与进阶：从AI模型应用到商业转化

1 背景介绍人工智能 AI 已经成为当今世界最热门的技术话题之一其在各个领域的应用也不断拓展大型AI模型是人工智能领域的核心它们在自然语言处理图像识别语音识别等方面的表现力和性能都有着重要的作用然而如何将这些大型AI模型应用
慢思维的力量：如何解决复杂问题

1 背景介绍在当今的快速发展和竞争激烈的环境中我们需要更有效地解决复杂问题这需要我们具备一种称为慢思维的思考方式它可以帮助我们更好地理解问题制定更好的解决方案本文将介绍慢思维的核心概念算法原理具体操作步骤以及数学模型公式并
6 - 数据备份与恢复｜innobackupex

数据备份与恢复 innobackupex 数据备份与恢复数据备份相关概念物理备份与恢复逻辑备份推荐使用binlog日志文件实现对数据的时时备份使用日志恢复数据
心灵与大脑的沟通：如何让大脑更好地理解我们的情感

1 背景介绍心理学和人工智能之间的界限已经不断模糊化尤其是在情感智能方面情感智能是一种新兴的人工智能技术旨在让计算机更好地理解和回应人类的情感这篇文章将探讨如何让大脑更好地理解我们的情感以及在这个过程中涉及的核心概念算法原理
如何利用CHAT做简单的总结体会？

问CHAT 在测试过程中使用appium python自动化的优点和体会 CHAT回复使用 Appium 配合 Python 进行自动化测试主要有以下几点优点 1 跨平台性 Appium 支持 iOS 和 Android 平台的应用自动化
【计算机毕业设计】病房管理系统

当下如果还依然使用纸质文档来记录并且管理相关信息可能会出现很多问题比如原始文件的丢失因为采用纸质文档很容易受潮或者怕火不容易备份需要花费大量的人员和资金来管理用纸质文档存储的信息最重要的是数据出现问题寻找起来很麻烦并且修改
【计算机毕业设计】Java图书馆智能选座系统

现代经济快节奏发展以及不断完善升级的信息化技术让传统数据信息的管理升级为软件存储归纳集中处理数据信息的管理方式本图书馆智能选座系统就是在这样的大环境下诞生其可以帮助使用者在短时间内处理完毕庞大的数据信息使用这种软件工具可以帮助管
【计算机毕业设计】北关村基本办公管理系统

在如今社会上关于信息上面的处理没有任何一个企业或者个人会忽视如何让信息急速传递并且归档储存查询采用之前的纸张记录模式已经不符合当前使用要求了所以对北关村基本办公信息管理的提升也为了对北关村基本办公信息进行更好的维护北关村基
38条Web测试经验分享

1 页面链接检查每一个链接是否都有对应的页面并且页面之间切换正确可以使用一些工具如LinkBotPro File AIDCS HTML Link Validater Xenu等工具 LinkBotPro不支持中文中文字符显示为乱码
2024年华数杯国际赛B题：光伏发电功率思路模型代码解析

2024年华数杯国际赛B题光伏发电功率 Photovoltaic Power 一问题描述中国的电力构成包括传统能源发电如煤油和天然气可再生能源发电如水电风能太阳能和核能以及其他形式的电力这些发电模式在满足中国对电力的巨
排序：计数排序

一概念计数排序是非比较排序是对哈希直接定址法的变形应用二思想利用数组统计相同数据出现的次数例如整型数据m出现n次就在数组m位置记录数据为n 最后从头遍历数组打印数据即可通俗来讲就是数组下标即为数据下标所指位置的值即为数
软件测试|SQLAlchemy环境安装与基础使用

简介 SQLAlchemy 是一个强大的 Python 库用于与关系型数据库进行交互它提供了高度抽象的对象关系映射 ORM 工具允许使用 Python 对象来操作数据库而不必编写原生SQL查询本文将介绍如何安装 SQLAlchem
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
【计算机毕业设计】趵突泉景区的智慧导游小程序_5ztvv

当今社会已经步入了科学技术进步和经济社会快速发展的新时期国际信息和学术交流也不断加强计算机技术对经济社会发展和人民生活改善的影响也日益突出人类的生存和思考方式也产生了变化传统趵突泉景区的智慧导游采取了人工的管理方法但这种管理方法存
【计算机毕业设计】OA公文发文管理系统_xtv98

近年来人们的生活方式以网络为主题不断进化 OA公文发文管理就是其中的一部分现在无论是大型的还是小型的网站都随处可见不知不觉中已经成为我们生活中不可或缺的存在随着社会的发展除了对系统的需求外我们还要促进经济发展提高工作效率
Oracle EBS AP发票导入 API Rejection List 第二部分

Oracle EBS AP发票导入 API Rejection List 第二部分 The report lists the reason the invoice could not be imported and prints a bri
Redis分布式锁--java实现

文章目录 Redis分布式锁方案 SETNX EXPIRE 基本原理比较好的实现会产生四个问题几种解决原子性的方案
温室气体排放更敏感的模型（即更高的平衡气候敏感性（ECS））在数年到数十年时间尺度上也具有更高的温度变化（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码数据
温室气体排放更敏感的模型（即更高的平衡气候敏感性（ECS））在数年到数十年时间尺度上也具有更高的温度变化（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Python代码数据
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金

随机推荐

re.compile(pattern,flags=0)中flags的用法

re正则表达式模块还包括一些有用的操作正则表达式的函数下面主要介绍compile函数定义 compile pattern flags 根据包含正则表达式的字符串创建模式对象通过python的help函数查看compile含义 1 he
【数电】如何使用74LS112（或74LS74）构成一个十四分频器（模七计数器）

IT精英们大家都学过数字电子技术吧尽管这东西没用不过这些基础课程对思维的培养还是很有好处的我不爱上课但不代表我不喜欢数电我们实验课老师为了加强实验难度把实验题改掉了用74LS112 或者74LS74 设计一个十四分频器原来
PHP文件包含

本地文件包含打开PHPstudy 打开网站根目录创建文件文件内容为在浏览器上查看所包含文件远程文件包含文件include php文件内容 print txt文件内容远程查看print txt 远程包含shell shell t
zookeeper入门到精通03——zookeeper集群搭建

zookeeper集群搭建 3 1 多虚拟机环境搭建 3 2 zookeeper集群搭建 3 1 多虚拟机环境搭建我们需要搭建zookeeper集群而由于zookeeper的的服务器数量需要设置为单数前文介绍了原因一个zookeep
2023年第47届（第二届）浙江技能大赛网络安全项目（世赛省选拔赛）A模块解析

2023年第47届第二届浙江技能大赛网络安全项目世赛省选拔赛 A模块解析模块A 企业基础设施安全 1 竞项赛目简介 1 1 介绍 1 2 任务描述 1 3 竞赛说明 2 竞赛项目工作任务 2 2 操作系统安全加固 2 2 1 Win
OpenCV3.4.13+OpenCV_contrib 双摄像头实时拼接环境配置

如题基于OpenCV3 4 13 VS2015做了个双摄像头实时拼接的代码是一个大项目的一个baseline的一部分下面先说配环境再给代码环境配置关于OpenCV VS的环境配置网上已经有很多了因为这份代码用到了OpenCV C
【微信小程序】实现根据某一属性值分类渲染数组内容

需求与效果实现根据某一属性值分类渲染数组需求是数组如下渲染在页面上时根据p num值进行分组渲染 p num相同的放在同一容器里容器外包裹边框 array content 内容1 id 1 p num 1 content 内容2
RabbitMQ系列（十一）RabbitMQ进阶-Queue队列详解-延时队列

RabbitMQ进阶 Queue队列详解延迟队列文章目录 RabbitMQ进阶 Queue队列详解延迟队列 1 延迟队列场景 1 1 场景 2 延迟队列实现方式 3 TTL Exchange实现延迟队列 3 1 初始化死信交换机 3
正则匹配html内容中的图片路径

正则匹配html内容中的图片路径 let imgReg
事不避难，知难不难

My first article
Qt 中引入ffmpeg 动态库

1 前期准备在qt引入ffmpeg动态库的时候需要准备ffmpeg的动态库和头文件 2 打开qt项目在qt项目的 pro文件中添加以下几行代码 INCLUDEPATH PWD thirtLib ffmpeg4 2 include wi
使用R语言添加抖动数据点

使用R语言添加抖动数据点在数据可视化中抖动 jitter 是一种常用的技术用于在散点图中添加一定程度的随机扰动以解决数据重叠的问题本文将介绍如何使用R语言添加抖动数据点并提供相应的源代码首先我们需要准备一组数据用于绘制散点图
HTTP的演变

这个问题之前一直没有关注过后来在面试的过程中面试官总喜欢问http1 0和http1 1之间的区别是啥改进是啥以及优缺点在今天进行一个总结 Http1 0和Http1 1的对比这里讲俩放在一起进行对比学习相较于Http1 0而言
Java调用Python脚本报错cv2.error: OpenCV(4.8.0) D:\a\opencv-python\opencv-python\opencv\modules\imgproc\src

Java调用python脚本报错cv2 error OpenCV 4 8 0 D a opencv python opencv python opencv modules imgproc src resize cpp 4062 error
Android开机动画

Android开机动画 1 BootLoader开机图片 2 Kernel开机图片 3 系统启动时 BootAnimation 动画 3 1 bootanimation zip位置 3 2 bootanimation启动 3 3 Surfa
linux保存git用户名密码

1 创建git credentials gt vim git credentials https username password github com gitlab或github地址 2 执行git命令 gt git config gl
leetcode分类刷题：二分查找（Binary Search）（四、基于值域的数组/矩阵类型）

基于值域的二分法与基于定义域的题型不同它的目标是从一特殊排序序列中确定第k个元素值而不像基于定义域的题型是从排序序列中找小于等于特定target值的第一个索引同时针对特殊排序序列往往需要嵌套使用双指针法进行操作进一步增加
mysql数据库备份与表备份

一 Mysql中的数据备份 Mysql中数据备份使用的命令是 mysqldump命令将数据库中的数据备份成一个文本文件表的结构和表中的数据将存储在生成的文本文件中 mysqldump命令的工作原理很简单它先查出需要备份的表的结构再在
转码日记——Javascript笔记（13）修改css样式、事件冒泡和委派

使用JS控制css样式 1 修改css样式语法元素 style 样式名称样式值样式值必须是一个字符串修改box1的样式 box1 style width 300px 如果css中还有如background color 这种名称在
程序员修仙之路--优雅快速的统计千万级别uv（留言送书）

菜菜咱们网站现在有多少PV和UV了 Y总咱们没有统计pv和uv的系统预估大约有一千万uv吧写一个统计uv和pv的系统吧网上有现成的直接接入一个不行吗别人的不太放心毕竟自己写的自己拥有主动权给你两天时间系统性能不要太差呀

程序员修仙之路--优雅快速的统计千万级别uv（留言送书）

程序员修仙之路--优雅快速的统计千万级别uv（留言送书） 的相关文章

随机推荐

热门标签

程序员修仙之路--优雅快速的统计千万级别uv（留言送书）的相关文章