算法：海量日志数据，提取出某日访问百度次数最多的那个IP

2023-05-16

首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。

或者如下阐述（雪域之鹰）：
算法思想：分而治之+Hash

1、IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理；

2、可以考虑采用分而治之的思想，按照IP地址的Hash(IP) % 1024值，把海量IP日志分别存储到1024个小文件中，这样，每个小文件最多包含4MB个IP地址；

这里解释一下为什么用Hash(IP) % 1024值，如果不用，而直接分类的话，可能会出现这样一种情况，就是有个IP在每个小文件中都存在，而且这个IP并不一定在那个小文件中是数量最多的，那么最终可能选择的结果会有问题，所以这里用了Hash(IP)%1024值，这样的话，通过计算IP的Hash值，相同IP肯定会放到一个文件中，当然了不同的IP的Hash值也可能相同，就存在一个小文件中。

3、对于每一个小文件，可以构建一个IP为key，出现的次数为value的Hash Map，同时记录当前出现次数最多的那个IP地址；

4、可以得到1024个小文件中的出现次数最多的那个IP，再依据常规的排序算法得出总体上出现次数最多的IP。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

海量日志数据

提取出某日访问百度次数最多的那个

算法：海量日志数据，提取出某日访问百度次数最多的那个IP 的相关文章

vs2015 提示严重性代码说明项目文件行禁止显示状态错误C4996 'scanf': This function or variable may be unsafe.

在 vs2015 中使用scanf时总是提示 unsafe 报出错误 xff0c 解决办法是在已经建立的项目中 xff0c 以后可能需要经常进行再不同的项目进行这项操作 xff1a 项目 gt 属性 gt c c 43 43 gt 常规 g
base7. ThreadPool线程池类——生产者与消费者模型

ThreadPool类图数据成员 xff1a MutexLock mutex xff1a 一个MutexLock类型的互斥变量mutex Condition cond xff1a 一个Condition类型的条件变量cond string
Ubuntu下anaconda中PyCharm遇到的环境问题

Table of Contents 运行找不到包文件可以run xff0c 不能debug 运行找不到包文件解救办法 xff1a 将包的路径添加到interpreter中可以run xff0c 不能debug 去掉setting中py
origin画图——同一图中多组数据

origin画图同一图中多组数据 xff08 2维 xff09 导入数据分别确定X Y轴列数据 xff08 选中列 set as X Y xff0c 全选数据 xff0c 点击下方绘图图标
pacman用法

Pacman 是archlinux 下的包管理软件它将一个简单的二进制包格式和易用的构建系统结合了起来不管软件包是来自官方的 Arch 库还是用户自己创建 xff0c Pacman 都能方便得管理 pacman Sy abc 和源同步后
Spring注解-1-SpringBoot是如何处理注解的

本文基于Spring 5 2 7 这是个很大的话题 xff0c 但是是个非常实在的话题 xff0c 注解天天用 xff0c 处处用 xff0c 请问你知道他是怎么起作用的吗 xff1f 如果你使用了注解 xff0c 那么一定有代码在什么地方
Qt对当前界面进行截图并保存

Qt提供了对界面截图的功能 xff0c 非常简单 xff0c 只需要2行即可截图并保存下来 xff0c 如下 xff1a QPixmap pixMap 61 QPixmap grabWidget this pixMap save 34 my
Qt中通过Qpixmap设置图片透明度

最近看到美图秀秀的一些功能 xff0c 可以手动设置图片的透明度并显示在其它图片上 xff0c 所以自己动手做了个小Demo xff0c 实际效果如下 xff1a xff08 图片仅供参考使用 xff09 可以看到拖动下方进度条 xff0c
QTableWidget中添加QComboBox/QPushButton控件并响应控件点击

QTableWidget是QT程序中常用的显示数据表格的空间 xff0c 里面不仅仅可以添加文字 xff0c 也可以添加控件 xff0c 图片等等 xff0c 此处以添加QCombobox和QPushButton举例 xff0c 点击选择控
QMap的简单使用（增删改查等）

前言 QMap是Qt提供的容器类 xff0c 是一种由key到value的映射与C 43 43 中STL提供的map使用方法相同 xff0c 部分使用细节上 xff0c QMap做了优化插入 QMap lt int QString gt
vector<char>与char*相互转换

最近在做网络通信 xff0c 看到很多人使用vector lt char gt 来存储二进制网络数据 xff0c 而我有时需要用char 数据 xff0c 所以记录下二者的相互转换方法 xff0c 代码如下 xff1a include lt
Qt中自定义qDebug打印信息的宏（文件名，行数，时间等等）

前言 QDebug类提供用于调试信息的输出流当开发人员需要将调试或跟踪信息写到设备 xff0c 文件 xff0c 字符串或控制台时 xff0c 将使用QDebug 当我们使用qDebug 打印信息时 xff0c 只有我们所需要打印的信息
QT实现鼠标右键快捷菜单(QTableWidget)

对于右键点击事件 xff0c 这里用到的是Qt CustomContextMenu方法 xff0c 本例通过右点QTableWidget xff0c 显示下拉菜单 xff0c 同时获得点击的行号 ui界面如下图 xff1a customCo
git使用遇到问题

文中自己理解的偏多 xff0c 有错误的地方还请指正 xff08 会有很多错误 xff09 commit in detached head 解决办法 xff1a 进入到工程所在路径运行 git branch f master HEAD am
从零开始学写脚本【第一天】

废话我就不多说了 xff0c 直接开干新建一个项目安装 selenium selenium是浏览器自动化测试工具控制台输入 pip install selenium 下载Chromedriver 浏览器驱动 xff0c 代码打开浏览器
超简单图文并茂基于Linux使用Docker部署Node.js项目

一看就懂图文并茂基于CentOS Linux release 7 8 2003 Core 安装并Docker化你的Node js应用 64 TOC 基于CentOS Linux release 7 8 2003 Core 安装并使用Dock
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that c

1 ERROR 1064 42000 You have an error in your SQL syntax check the manual that corresponds to your MySQL server version f
Android 电量监控、关机、重启功能的实现

本文主要是介绍Android电量监控关机重启功能的实现 xff0c 需要具备的条件是手机需要root过 xff0c 才能实现相关操作 1 MainActivity java import java io IOException impo

随机推荐

拓扑排序１图文详解面试常考算法 —— 拓扑排序

前言 Topological sort 又称 Topological order xff0c 这个名字有点迷惑性 xff0c 因为拓扑排序并不是一个纯粹的排序算法 xff0c 它只是针对某一类图 xff0c 找到一个可以执行的线性顺序这个
Android签名总结

一为什么要签名开发Android 的人这么多 xff0c 完全有可能大家都把类名 xff0c 包名起成了一个同样的名字 xff0c 这时候如何区分 xff1f 签名这时候就是起区分作用的由于开发商可能通过使用相同的Package Na
消息队列技术介绍

一消息队列概述消息队列中间件是分布式系统中重要的组件 xff0c 主要解决应用耦合异步消息流量削锋等问题实现高性能高可用可伸缩和最终一致性架构是大型分布式系统不可缺少的中间件目前在生产环境 xff0c 使用较多的消息队列有
Ubuntu 循环登录解决办法

Ubuntu 经常出现循环登录的情况但需要根据不同原因采用不同的解决方案已知情况有 Xauthority 权限变为root 修改到自己账户权限即可nvidia 显卡驱动问题卸载重装即可 Xauthority 权限问题参考Ubunt
Kotlin基础（一）android studio中配置Kotlin

1 何为Kotlin xff1f Kotlin是一门运行在JVM之上的语言它由Jetbrains创建 xff0c 而Jetbrains则是诸多强大的工具 xff08 如知名的Java IDE IntelliJ IDEA xff09 背后的
关于Ubuntu18.04 root账户登录的问题

关于Ubuntu18 04 root账户登录的问题一 Ubuntu 18 04添加root用户登录1 设置root用户2 修改 root profile3 修改 96 etc pam d 96 目录下的 96 gdm autologin
Ubuntu下fcitx崩溃，搜狗输入法乱码

转载 xff1a https www findhao net res 786 预防原文删除 xff0c 侵删方法直接重启fcitx即可 xff1a fictx自带的重启 fcitx r 或者执行以下三条 xff1a 获得fcitx的进程
KVM虚拟化

KVM虚拟化文章目录 KVM虚拟化虚拟化简介 KVMKVM部署CPU虚拟化功能kvm管理界面安装虚拟化简介虚拟化 xff1a 在一台计算机上虚拟出多个逻辑的计算机 xff0c 而且每个逻辑计算机它可以是不同的操作系统虚拟化技术 xf
Android系统Camera图片反转的一个问题

一问题提出目前遇到项目问题 xff0c Camera预览图像是反的 xff0c 于是考虑设置180度反转以便正常通过如下两种方式 xff1a params setRotation 180 java部分 p set CameraPara
I2C总线的SDA和SCL

串行数据线SDA 负责在设备间传输串行数据串行时钟线SCL 负责产生同步时钟脉冲 SCL SDA是I2C总线的信号线 I2C总线是共享的总线系统 xff0c 因此可以将多个I2C设备连接到该系统上连接到I2C中总线上的设备既可以用作主设
ubuntu18.04输入密码登录不进去一直循环

我是把ubuntu分辨率调了之后变成这样的其实这个解决方法我也很无语自己乱按弄到的就是在登录的隔壁 xff0c 勾选第二个就可以了QUQ 评论区所知 xff1a 选择这个话 xff0c 会关掉nvidia显卡选择wayland进入后
rhce2

1 配置chrony时间服务器 xff0c 确保客户端主机能和服务主机同步时间两台机器第一台机器作为时间服务器从ntp aliyun com同步时间 xff08 注意包含意外情况 xff0c 如果不能上外网 xff0c 不能从阿里云同步
FFmpeg Android编译运行出现 Abort message: 'JniInvocation instance already initialized'

signal 5 SIGTRAP code 1 TRAP BRKPT fault addr 0x272000000d03 Abort message JniInvocation instance already initialized 把
layui图标用法总结

本文参考官方文档 layui图标使用官方文档 xff0c 建议先看此文章 xff0c 并结合本文的前两个步骤使用即可 1 下载layui js相关文档 xff0c layui js下载 xff0c 下载之后里面的内容如下 xff1a 只需要
Eggjs学习系列（一）使用TypeScript快速入门

Eggjs学习系列 xff08 一 xff09 使用TypeScript快速入门 Eggjs是一个node的渐近式开发框架 xff0c 用于服务端开发而 TypeScript 是 JavaScript的超集 xff0c 在兼容 JavaS
Golang实现小型CMS内容管理功能（二）：前端接入百度ueditor富文本编辑器

当我们把接口都做好以后 xff0c 我们需要去开发前端界面添加文章功能里面 xff0c 最重要的就是文章内容部分 xff0c 需要配置上富文本编辑器 xff0c 这样才能给我们的内容增加样式下载ueditor代码 ueditor已经很久
网络分析中数据包结构（含七层模型）

七层模型 xff1a 包 Packet 是TCP IP协议通信传输中的数据单位 xff0c 一般也称数据包有人说 xff0c 局域网中传输的不是帧 Frame 吗 xff1f 没错 xff0c 但是TCP IP协议是工作在OSI模型第
ubuntu下PyCharm遇到问题

第三方库没有自动补全功能 xff08 autocomplete xff09 190921补充 xff1a 这个问题就是环境配置的问题当初真是无知原因 xff1a PyCharm的人工编译环境和程序的运行环境不是同一个 xff08 说的太不
用java简单的实现单链表的基本操作

此代码仅供参考 xff0c 如有疑问欢迎评论 xff1a package com tyxh link 节点类 public class Node protected Node next 指针域 protected int data 数据域
算法：海量日志数据，提取出某日访问百度次数最多的那个IP

首先是这一天 xff0c 并且是访问百度的日志中的IP取出来 xff0c 逐个写入到一个大文件中注意到IP是32位的 xff0c 最多有个2 32个IP 同样可以采用映射的方法 xff0c 比如模1000 xff0c 把整个大文件映射为1

算法：海量日志数据，提取出某日访问百度次数最多的那个IP

算法：海量日志数据，提取出某日访问百度次数最多的那个IP 的相关文章

随机推荐

热门标签