布隆过滤器

2023-05-16

网页黑名单 垃圾邮件过滤系统 爬虫网站判重
哈希函数
特征:

  1. 典型的哈希函数都有无限的输入值域。
  2. 当给哈希函数传入相同的输入值时,返回值一样。
  3. 当给哈希函数传入不同的输入值时,返回值可能一样,也可能不一样。因为输出域统一为 S,所以会有不同的输入值对应 S 中一个元素上。
  4. 最重要的性质是很多不同的输入值所得到的返回值会均匀的分布在 S 上。

第 1-3 点性质是哈希函数的基础,第 4 点性质是评价一个哈希函数优劣的关键

bit map

每个 bit 只有 0 和 1 的两种状态。

int[] arr = new int[10]; //32bit * 10 -> bit
//arr[0] = int 0 ~ 31
//arr[1] = int 32 ~ 63

int x = 178;
//拿到 第 178 位的状态
int index = x / 32;
int bitIndex = x % 32;

int now  = (arr[index] >> (bitIndex)) & 1;
//把 178 位状态改成 1 
arr[index] = arr[index] | (1 << (bitIndex));
//把 178 位状态改成 0 
arr[index] = arr[index] & ( ~ (1 << (bitIndex)) );

假设有一个长度为 m 的 bit 类型的数组,即数组中的每一个位置只占一个 bit, 如我们所知,每一个 bit 只有 0。
在这里插入图片描述

布隆过滤器的步骤

  • 假设一共有 k 个哈希函数,这些函数的输出域 S 都大于或等于 m, 并且这些哈希函数都足够优 秀,彼此之间也完全独立。
  • 那么对同一对象输入(假设是一个字符串记为 URL),经过 k 个哈希函数算出来的结果是独立的,可能相同,也可能不同,但彼此相互独立。
  • 对算出来的每一个结果对 m 取余 (% m),然后在 bit array 上把相应的位置设为 1(涂黑)

在这里插入图片描述

至此布隆过滤器就基本实现了。

布隆过滤器失误度

数学公式: $ m = n * ln p / (ln 2) ^ 2 $
数学公式: $ k = ln 2 * m / n = 0.7 * m / n; $
数学公式: $ p = 1 - e ^ (-n * k / m) ^ k $

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

布隆过滤器 的相关文章

  • linux系统的7种运行级别

    Linux系统有7个运行级别 runlevel 运行级别0 xff1a 系统停机状态 xff0c 系统默认运行级别不能设为0 xff0c 否则不能正常启动 运行级别1 xff1a 单用户工作状态 xff0c root权限 xff0c 用于系
  • C语言:求 1! + 2! + 3! + ... + n!(for循环)

    解决问题 xff1a C语言利用 for循环 xff1a 求 1 43 2 43 3 43 43 n 代码实现 include lt stdio h gt int main void int n 61 0 int i 61 0 int m
  • Selenium之Css定位元素

    Selenium之Css定位元素 xff1a cssSelector定位 xff0c 属于CSS高级等位 xff0c 它的定位方式 xff0c 利用选择器进行的 在CSS 中 xff0c 选择器是一种模式 xff0c 用于选择需要添加样式的
  • Ubuntu双系统、ROS、软件安装教程

    一 win10下安装Ubuntu16 04双系统 1 制作系统U盘 下载Ubuntu16 04 我们首先去Ubuntu官网下一个Ubuntu16 04的iso镜像文件 利用软碟通制作 在制作系统U盘的时候我们需要去下一个软件 软碟通 xff
  • Matlab并行计算(新手)

    Matlab并行计算 1 Matlab不会自动开启多核并行2 Matlab并行过程 parpool3 电脑核数与parpool的关系4 说明 matlabpool与partool5 并行实现 parfor或SPMD5 1 parfor xf
  • linux打开防火墙端口

    先打开端口 firewall cmd zone 61 public add port 61 8888 tcp permanent 命令8888就是端口 xff0c 直接替换 然后重启防火墙 firewall cmd reload
  • CSS动画(animation)【一】

    1 动画 xff08 animation xff09 属性简介 2 动画实现 64 keyframes wave 0 css样式 10 css样式 100 css样式 3 示例 xff08 vue xff09 lt template gt
  • Js对象数组查找对象属性的值

    let students 61 name 39 小明 39 age 9 name 39 小李 39 age 14 name 39 小白 39 age 12 let index 61 studens findIndex function st
  • sql汇总

    一 xff1a SQLSERVER 1 dateadd 日减一 update tableName set time 61 DATEADD DAY 1 time 小时加10 update tableName set time 61 DATEA
  • 微信开发者工具 显示区域鼠标不显示的问题

    1 xff1a 打开控制面板 2 xff1a 硬件和声音 3 xff1a 鼠标 4 xff1a 勾选显示鼠标轨迹 OK
  • maven导入本地jar

    cmd 然后进入maven库根目录 mvn install install file Dfile 61 D maven lingpipe 4 1 2 jar DgroupId 61 com aliasi DartifactId 61 lin
  • MergeSort(迭代归并排序)——C语言实现

    前言 xff1a 归并排序跟快速排序有异曲同工之妙 xff0c 都是分治法的典型代表 但是这种分治法都有不小的弊端 xff0c 就是需要占用大量的系统栈 xff0c 很容易造成空间的大量浪费 xff0c 所以就有用迭代来优化递归的操作 这次
  • Spring boot @Async不起作用 的解决方法

    Spring boot 64 Async 为异步方法 但有时候往往会遇到注解不起作用的情况 xff0c 就我遇到的两种情况 xff0c 给出解决方法 1 64 Async 注解的方法不能跟调用它的方法房子一个类中 2 需要在Applicat
  • springboot jar包window服务器启动

    1 在idea中用maven将程序打成jar xff0c 放到运行的目录中 2 去github上面下载winsw xff1a https github com kohsuke winsw releases 将WinSW NET4 exe文件
  • salesforce 接口国内访问慢的解决方案

    最近接到一个客户 xff0c 他们需要用salesforce作为ToC的后端 xff0c 由salesforce直接提供api给前端页面 我们知道一般做salesforce的 xff0c 基本上是作为公司内部应用系统来使用的 xff0c 即
  • sql server跨库连接

    exec sp addlinkedserver kd SQLOLEDB 127 0 0 1 exec sp addlinkedsrvlogin kd 39 false 39 null 39 用户名 39 39 密码 select from
  • shell初探(一)

    1 文件夹创建 span class token function mkdir span p my sheel mkdir是在当前目录下创建文件夹 xff0c p是递归创建目录 2 编辑文件 span class token functio
  • shell初探(二)

    1 if条件语句 一般数值判断用到逻辑运算符 gt lt 的用双小括号 span class token shebang important bin bash span age1 span class token operator 61 s
  • shell初探(三)

    前面学了简单的shell编程 xff0c 那今天我们就根据前面学到的内容 xff0c 写一个小demo练习一下 需求 学生成绩录入查询系统 xff0c 带简单筛选功能 代码 span class token shebang importan
  • shell初探(四)

    1 for循环 循环1 100的数字 xff0c 并输出 span class token keyword for span span class token variable span class token punctuation sp

随机推荐

  • Idea 热部署 devtool

    第一步引入jar span class token generics function span class token punctuation lt span dependency span class token punctuation
  • zookeeper安装及遇到的问题解决

    一 安装 1 下载地址 http mirror bit edu cn apache zookeeper 2 定位到文件并解压 span class token function cd span data myzookeeper span c
  • 重签名ipa步骤及工具

    au signer win工具可以实现在Windows电脑直接重签名ipa xff0c 无需苹果电脑 xff01 对现用的ipa文件进行重签 xff0c 实现达到可以安装自己苹果手机的目的 扩展功能可以设置签名时间控制 xff0c 可以去除
  • Linux下Nacos安装集群配置及Mysql持久化配置

    安装配置1个ngix 43 3个nacos注册中心 43 1个mysql 一 Nacos下载安装 1 下载地址 xff1a https github com alibaba nacos releases tag 1 3 1 2 解压 把下载
  • centos 安装redis踩的两个坑

    redis 安装就不说 xff0c 面向百度编程 xff0c 主要记录下两个重要的点 xff1a 1 设置redis 密码 找到redis安装目录 xff0c 进入下面的bin目录 xff0c 找到redis conf文件 编辑redis
  • centos7安装mysql 8.0 简单全过程

    一 安装 依次执行以下命令 xff0c 遇到选项选Y span class token function sudo span yum localinstall https repo mysql com mysql80 community r
  • nacos注册地址服务名找不到问题记录

    项目构成 xff0c nacos 43 gateway 43 openfeigns xff0c 在做配置的时候使用服务名 xff08 spring application name xff09 找不到服务器 问题解决 xff1a 调用的微服
  • 做设计师还是程序员?一张图你就明白!

    平时大家相安无事 xff0c 可一旦项目滑了水 栽了坑 二重奏就开始没完没了的唱起来了 请看下图 xff1a 你的桌子是有什么 小编反手一摸 xff0c 还好小编的头发还再 你头发呢 xff1f 相信这里有很多学习java的朋友 xff0c
  • 查看数据库当前编码【Mariadb、Mysql、Flask】

    情景 在centos下部署flask项目 xff0c 使用的是mariadb xff0c xff08 本地mysql香香的 xff09 xff0c 用到sqlarchemy xff0c 插入前中文 xff0c 出入后查询乱码 xff0c 最
  • JVM之调优篇

    内存泄漏与内存溢出 内存溢出 指在程序申请内存时 xff0c 没有足够的内存可以分配 xff0c 就是OOM xff0c 即使垃圾回收之后也不能有足够的空间分配 内存泄漏 Memory Leak 是指在程序运行后 xff0c 没有释放所占用
  • 使用document解析xml文件

    在慕课上课时 xff0c 看到可以使用document来解析xml文件 xff0c 把上课的代码放出来 xff0c 先记录一下 大概步骤如下 xff1a 1 使用DocumentBuilderFactory 创建对象后再创建Document
  • 【STM32】HAL库开发教程(四)—串口FIFO使用

    前言 不必害怕未知 xff0c 无需恐惧犯错 xff0c 做一个Creator xff01 本文主要介绍STM32 HAL库开发中串口 FIFO的使用 一 开发步骤 1 Cubemx配置 在左侧引脚配置栏选择目标串口号在串口模式处配置串口模
  • mysql报错ORDER BY clause is not in SELECT list, references column ‘‘which is not in SELECT list解决方案

    mysql报错Expression 1 of ORDER BY clause is not in SELECT list references column 39 fusion m create time 39 which is not i
  • 文件管理

    彩蛋 操作系统总目录 戳我 文章目录 1 初始文件管理2 文件的逻辑结构无结构文件有结构文件顺序文件是否可以实现记录的随机存取变长记录定长记录 索引文件索引顺序文件多级索引顺序文件 3 文件目录文件控制块需要对目录进行哪些操作 目录结构单级
  • 设备管理

    彩蛋 操作系统总目录 戳我 文章目录 I O设备的基本概念与分类什么是I 0设备 I O设备分类按使用特性分类按照传输速度分类按照信息交换的单位分类 I O控制器I 0设备的机械部件I 0设备的电子部件 I 0控制器 I O控制器的组成内存
  • 进程管理

    彩蛋 操作系统总目录 戳我 进程 进程的概念 进程的定义 程序 就是一个指令序列 程序段 数据段 PCB三部分组成了进程实体 进程映像 一般情况下 xff0c 我们把进程实体就简称为进程 例如 xff0c 所谓创建进程 xff0c 实质上是
  • 哲学家进餐问题

    文章目录 哲学家进餐问题问题描述问题分析思想三代码小结 哲学家进餐问题 问题描述 一张圆桌上坐着5名哲学家 xff0c 每两个哲学家之间的桌上摆一根筷子 xff0c 桌子的中间是一碗米饭 哲学家们倾注毕生的精力用于思考和进餐 xff0c 哲
  • 进程同步和互斥

    彩蛋 操作系统总目录 戳我 文章目录 进程互斥的硬件实现方法中断屏蔽方法TestAndSet指令Swap指令小结 信号量机制信号量机制 整型信号量信号量机制 记录型信号量小结 用信号量机制实现信号量机制实现进程互斥信号量机制实现进程同步信号
  • Java Future

    Callable Doug Lea 大师 xff0c 在1 5的杰作 span class token comment 64 see Executor 64 since 1 5 64 author Doug Lea 64 param lt
  • 布隆过滤器

    网页黑名单 垃圾邮件过滤系统 爬虫网站判重 哈希函数 特征 xff1a 典型的哈希函数都有无限的输入值域 当给哈希函数传入相同的输入值时 xff0c 返回值一样 当给哈希函数传入不同的输入值时 xff0c 返回值可能一样 xff0c 也可能