什么是布隆过滤器？——超详细解析【建议收藏】

import java.util.BitSet;

class SimpleHash {

    public int cap;//当前容量
    public int seed;//随机

    public SimpleHash(int cap,int seed) {
        this.cap = cap;
        this.seed = seed;
    }

    //模仿库中哈希写哈希函数：
    //根据seed的不同，创建不同的哈希函数
    int hash(String key) {
        int h;
        return (key == null) ? 0 : (seed * (cap-1)) & ((h = key.hashCode()) ^ (h >>> 16));
    }

}
public class MyBloomFilter {
    //导入库中的位图
    public BitSet bitSet;

    //记录存储了多少数据
    public int usedSize;

    //随机种子
    public static final int[] seeds = {3,5,9,11,15,19,25,31};//这里面的数字是随便设置的

    public SimpleHash[] simpleHashes;

    public static final int SIZE = 1 << 20;//这个20是随意给的

    public MyBloomFilter() {
        bitSet = new BitSet(SIZE);
        simpleHashes = new SimpleHash[seeds.length];

        for(int i = 0;i<simpleHashes.length;i++) {
            simpleHashes[i] = new SimpleHash(SIZE,seeds[i]);
        }
    }

    /**
     * 添加数据 到布隆过滤器
     * @param val
     */
    public void add(String val) {
        //3个哈希函数，分别处理当前的数据
        //把他们都存储在位图中即可

    }

    /**
     * 是否包含val，会存在误判
     * @param val
     * @return
     */
    public boolean contains(String val) {

    }

}

补充上述代码空缺部分：

5.1、添加元素

    /**
     * 添加数据 到布隆过滤器
     * @param val
     */
    public void add(String val) {
        //3个哈希函数，分别处理当前的数据

        for (SimpleHash simpleHash : simpleHashes) {
            int index = simpleHash.hash(val);
            //把他们都存储在位图中即可
            bitSet.set(index);
        }
        usedSize ++;
    }

5.2、查询元素

    /**
     * 是否包含val，会存在误判
     * @param val
     * @return
     */
    public boolean contains(String val) {
        for (SimpleHash simpleHash : simpleHashes) {
            int index = simpleHash.hash(val);
            boolean flg = bitSet.get(index);
            if(!flg) {
                return false;
            }
        }
        return true;
    }

5.3、测试：

    //测试
    public static void main(String[] args) {
        MyBloomFilter myBloomFilter = new MyBloomFilter();
        myBloomFilter.add("baidu1");
        myBloomFilter.add("baidu2");
        myBloomFilter.add("tencent");

        System.out.println(myBloomFilter.contains("baidu1"));//true
        System.out.println(myBloomFilter.contains("haha"));//false
    }

6、guava实现布隆过滤器

创建一个maven项目
导入依赖
测试

依赖：

        <dependency>
            <groupId>com.google.guava</groupId>
            <artifactId>guava</artifactId>
            <version>19.0</version>
        </dependency>

测试：

import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;


public class Test {
    private static int size = 1000000;//预计要插入多少数据

    private static double fpp = 0.01;//期望的误判率

    private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size, fpp);

    public static void main(String[] args) {
        //插入数据
        for (int i = 0; i < 1000000; i++) {
            bloomFilter.put(i);
        }
        int count = 0;
        for (int i = 1000000; i < 2000000; i++) {
            if (bloomFilter.mightContain(i)) {
                count++;
                System.out.println(i + "误判了");
            }
        }
        System.out.println("总共的误判数:" + count);
    }
}

测试结果：

7、布隆过滤器适用场景

网页爬虫中对URL的去重，避免爬取相同的URL地址
垃圾邮件过滤，从数十亿个垃圾邮件列表中判断邮箱是否是垃圾邮箱
秒杀系统，查看用户是否重复购买
数据库防止穿库。 Google Bigtable，HBase 和 Cassandra 以及 Postgresql 使用BloomFilter来减少不存在的行或列的磁盘查找。避免代价高昂的磁盘查找会大大提高数据库查询操作的性能。
业务场景中判断用户是否阅读过某视频或文章，比如抖音或头条，当然会导致一定的误判，但不会让用户看到重复的内容。
缓存宕机、缓存击穿场景，一般判断用户是否在缓存中，如果在则直接返回结果，不在则查询db，如果来一波冷数据，会导致缓存大量击穿，造成雪崩效应，这时候可以用布隆过滤器当缓存的索引，只有在布隆过滤器中，才去查询缓存，如果没查询到，则穿透到db。如果不在布隆器中，则直接返回。
WEB拦截器，如果相同请求则拦截，防止重复被攻击。用户第一次请求，将请求参数放入布隆过滤器中，当第二次请求时，先判断请求参数是否被布隆过滤器命中。可以提高缓存命中率。Squid 网页代理缓存服务器在 cache digests 中就使用了布隆过滤器。Google Chrome浏览器使用了布隆过滤器加速安全浏览服务
Venti 文档存储系统也采用布隆过滤器来检测先前存储的数据。
SPIN 模型检测器也使用布隆过滤器在大规模验证问题时跟踪可达状态空间。

好啦！！！我们下期再见咯~

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

高阶数据结构

数据结构

什么是布隆过滤器？——超详细解析【建议收藏】的相关文章

机器学习（一）svm运用实例

机器学习一 svm运用实例这里我使用sklearn svm SVC函数首先介绍一下函数参数 sklearn svm SVC C 1 0 kernel rbf degree 3 gamma auto coef0 0 0 shrinkin
TCPIP四层协议

TCP IP四层协议在说TCP IP四层协议之前就不得不说OSI七层模型 OSI七层模型自底向上依次是物理层数据链路层网络层传输层会话层表示层应用层 TCP IP体系结构的优点 1 简化了计算机网络的结构从原来的七层模型
UITabBarItem

UITabBarController UITabBar UIBarItem UITabBarItem UITabBarItem就是UITabBar上显示的小按钮我们也可以定制系统UITabBarItem按钮只需通过UITabBarIte

随机推荐

C/C++的64位整型 zz

为了和DSP兼容 TSint64和TUint64设置成TSint40和TUint40一样的数结果VC中还是认为是32位的显然不合适 typedef signed long int TSint64 typedef unsigned lon
初始化 Repo错误错误信息：fatal: error [Errno 111] Connection refused

错误信息 fatal error Errno 111 Connection refused 解决方法修改home 目录下的 bashrc文件 gedit bashrc 在文件的末尾添加如下命令 export PATH bin PATH e
QT5.6静态编译添加ODBC数据库

qt5 6已经编译好现在添加ODBC数据库的支持 1 进入qt everywhere opensource src 5 6 3 qtbase src plugins sqldrivers odbc目录运行qmake exe 然后再运行n
C语言学生管理系统课程设计

include
cookie和session之间的关系

当登录接口依赖token的可以先登录后 token存到一个yaml或者json或者ini的配置文件里面后面所有的请求去拿这个数据就可以全局使用如果是cookies的参数可以用session自动关联详情如下一 cookie与ses
超全！深度学习在计算机视觉领域的应用一览

计算机视觉领域正在从统计方法转向深度学习神经网络方法计算机视觉中仍有许多具有挑战性的问题需要解决然而深度学习方法正在针对某些特定问题取得最新成果在最基本的问题上最有趣的不仅仅是深度学习模型的表现事实上单个模型可以从图像中学习意
MySQL查询数据库中所有表名及注释等信息

1 查询所有表名 select table name from information schema tables where table schema 当前数据库 2 查看所有字段和字段注释 SELECT COLUMN NAME 字段 c
torch.Size理解

torch Size括号中有几个数字就是几维第一层最外层中括号里面包含了两个中括号以逗号进行分割这就是 2 3 4 中的2 第二层中括号里面包含了三个中括号以逗号进行分割这就是 2 3 4 中的3 第三层中括号里面包含了四个数
Python中MD5加密

MD5是什么下面的概念是百度百科的 Message Digest Algorithm MD5 中文名为消息摘要算法第五版为计算机安全领域广泛使用的一种散列函数用以提供消息的完整性保护该算法的文件号为RFC 1321 R Rivest
ev3编程 python_乐高 EV3 高级编程 - 第四课：Python 模块

译者按使用 ev3dev Linux 系统并用 Python 编程的人数比例很低好像这一课这样写 Python 编程的就更少了你会发现程序的重用率会大大的提高 EV3 Lesson 4 Python Modules EV3 第 4 课
win10 电脑 .Net framework3.5 组件无法安装0x800f801f

最近在win10上安装了MotorControl Workbench 5 4 0软件需要用到 Net framework3 5 但是安装Net framework3 5老是出错无论是下载离线安装包安装还是通过控制面板中程序的启
【SSM框架系列】Spring IoC（控制反转） & DI（依赖注入）

Spring是什么 Spring是分层的 Java SE EE应用 full stack 轻量级开源框架以 IoC Inverse Of Control 反转控制和 AOP Aspect Oriented Programming 面向切
指数增强(股票)——Python量化

指数增强策略目录指数增强策略 1 策略原理 2 策略步骤 3 策略代码 4 回测结果和稳健性分析 1 策略原理说到指数增强就不得不说指数在进行股票投资时有一种分类方式是将投资分为主动型投资和被动型投资被动型投资是指完全复制指数
python对dataframe中series的json格式解析

方法1 如果df里只有一列json格式可以保存为txt 然后再删掉列名在进行处理 import pandas as pd result with open r C Users Administrator Desktop json处理 t
【你不知道的JavaScript】（05）作用域+闭包+编译执行过程

本文章仅针对我自己在看书过程中对一些不太清楚的知识点进行查漏补缺你不知道的JavaScript 上卷第一部分作用域和闭包编译与执行传统编译语言的编译过程词法分析语法分析代码生成而JavaScript语言则要更复杂 JS引擎不
mac 访问钥匙串中创建系统证书失败未知错误的解决方案

If you cannot store the certificate in the System keychain create it in the login keychain then exported it You can then
慢日志分析工具mysqldumpslow

慢查询分析工具mysqldumpslow mysqldumpslow OPTS LOGS 后跟参数以及log文件的绝对地址 s 按照那种方式排序 c 访问计数 l 锁定时间 r 返回记录 al 平均锁定时间 ar 平均访问记录数 at 平均
c#和js的交互(转)

如何在 C 中访问 JavaScript 函数答案如下 c 代码中执行 javaScript 函数方法一 1 Page RegisterStartupScript ggg 方法二使用 Literal 类然后 private void
Flutter实战项目-第四篇页面路由、provider状态管理

概要页面路由配置 provider 一路由配置创建router dart用于管理所有的路由然后再main dart MaterialApp中注册路由 router dart中第一个routeName 即是默认打开的页面 import
什么是布隆过滤器？——超详细解析【建议收藏】

目录 1 什么是布隆过滤器 2 实现原理 2 1 回顾哈希函数 2 1 1 哈希函数概念 2 1 2 散列函数的基本特性 2 2 布隆过滤器数据结构 3 特点 3 1 支持删除吗 3 2 优点 3 3 缺点 3 4 误判率 4 如何选择哈希

什么是布隆过滤器？——超详细解析【建议收藏】

1、什么是布隆过滤器？

2、实现原理

2.1、回顾哈希函数

2.1.1、哈希函数概念

2.1.2、散列函数的基本特性：

2.2、布隆过滤器数据结构

3、特点

3.1、支持删除吗？

3.2、优点

3.3、缺点

3.4、误判率

4、如何选择哈希函数个数和布隆过滤器长度？

5、手动模拟实现布隆过滤器

整体代码：

5.1、添加元素

5.2、查询元素

5.3、测试：

6、guava实现布隆过滤器

7、布隆过滤器适用场景

什么是布隆过滤器？——超详细解析【建议收藏】 的相关文章

随机推荐

热门标签

什么是布隆过滤器？——超详细解析【建议收藏】的相关文章