面试官问，如何在十亿级别用户中检查用户名是否存在？

2024-01-21

面试官问，如何在十亿级别用户中检查用户名是否存在？

前言

不知道大家有没有留意过，在使用一些app注册的时候，提示你用户名已经被占用了，需要更换一个，这是如何实现的呢？你可能想这不是很简单吗，去数据库里查一下有没有不就行了吗，那么假如用户数量很多，达到数亿级别呢，这又该如何是好？

数据库方案

第一种方案就是查数据库的方案，大家都能够想到，代码如下：

public class UsernameUniquenessChecker {
    private static final String DB_URL = "jdbc:mysql://localhost:3306/your_database";
    private static final String DB_USER = "your_username";
    private static final String DB_PASSWORD = "your_password";

    public static boolean isUsernameUnique(String username) {
        try (Connection conn = DriverManager.getConnection(DB_URL, DB_USER, DB_PASSWORD)) {
            String sql = "SELECT COUNT(*) FROM users WHERE username = ?";
            try (PreparedStatement stmt = conn.prepareStatement(sql)) {
                stmt.setString(1, username);
                try (ResultSet rs = stmt.executeQuery()) {
                    if (rs.next()) {
                        int count = rs.getInt(1);
                        return count == 0; // If count is 0, username is unique
                    }
                }
            }
        } catch (SQLException e) {
            e.printStackTrace();
        }
        return false; // In case of an error, consider the username as non-unique
    }

    public static void main(String[] args) {
        String desiredUsername = "new_user";
        boolean isUnique = isUsernameUnique(desiredUsername);
        if (isUnique) {
            System.out.println("Username '" + desiredUsername + "' is unique. Proceed with registration.");
        } else {
            System.out.println("Username '" + desiredUsername + "' is already in use. Choose a different one.");
        }
    }
}

这种方法会带来如下问题：
性能问题，延迟高。如果数据量很大，查询速度慢。另外，数据库查询涉及应用程序服务器和数据库服务器之间的网络通信。建立连接、发送查询和接收响应所需的时间也会导致延迟。
数据库负载过高。频繁执行 SELECT 查询来检查用户名唯一性，每个查询需要数据库资源，包括CPU和I/O。
可扩展性差。数据库对并发连接和资源有限制。如果注册率继续增长，数据库服务器可能难以处理数量增加的传入请求。垂直扩展数据库（向单个服务器添加更多资源）可能成本高昂并且可能有限制。

缓存方案

为了解决数据库调用用户名唯一性检查的性能问题，引入了高效的Redis缓存。

public class UsernameCache {

    private static final String REDIS_HOST = "localhost";
    private static final int REDIS_PORT = 6379; 
    private static final int CACHE_EXPIRATION_SECONDS = 3600; 

    private static JedisPool jedisPool;

    // Initialize the Redis connection pool
    static {
        JedisPoolConfig poolConfig = new JedisPoolConfig();
        jedisPool = new JedisPool(poolConfig, REDIS_HOST, REDIS_PORT);
    }

    // Method to check if a username is unique using the Redis cache
    public static boolean isUsernameUnique(String username) {
        try (Jedis jedis = jedisPool.getResource()) {
            // Check if the username exists in the Redis cache
            if (jedis.sismember("usernames", username)) {
                return false; // Username is not unique
            }
        } catch (Exception e) {
            e.printStackTrace();
            // Handle exceptions or fallback to database query if Redis is unavailable
        }
        return true; // Username is unique (not found in cache)
    }

    // Method to add a username to the Redis cache
    public static void addToCache(String username) {
        try (Jedis jedis = jedisPool.getResource()) {
            jedis.sadd("usernames", username); // Add the username to the cache set
            jedis.expire("usernames", CACHE_EXPIRATION_SECONDS); // Set expiration time for the cache
        } catch (Exception e) {
            e.printStackTrace();
            // Handle exceptions if Redis cache update fails
        }
    }

    // Cleanup and close the Redis connection pool
    public static void close() {
        jedisPool.close();
    }
}

这个方案最大的问题就是内存占用过大，假如每个用户名需要大约 20 字节的内存。你想要存储10亿个用户名的话，就需要20G的内存。
总内存 = 每条记录的内存使用量 * 记录数 = 20 字节/记录 * 1,000,000,000 条记录 = 20,000,000,000 字节 = 20,000,000 KB = 20,000 MB = 20 GB

布隆过滤器方案

直接缓存判断内存占用过大，有没有什么更好的办法呢？布隆过滤器就是很好的一个选择。
那究竟什么布隆过滤器呢？
布隆过滤器 （ Bloom Filter ）是一 种数据结构 ，用于快速检查一个元素是否存在于一个大型数据集中，通常用于在某些情况下快速过滤掉不可能存在的元素，以减少后续更昂贵的查询操作。布隆过滤器的主要优点是它可以提供快速的查找和插入操作，并且在内存占用方面非常高效
具体的实现原理和数据结构如下图所示：
布隆过滤器的核心思想是使用一个位数组（ bit array ）和一组哈希函数。
位数组（Bit Array） ：布隆过滤器使用一个包含大量位的数组，通常初始化为全0。每个位可以存储两个值，通常是0或1。这些位被用来表示元素的存在或可能的存在。
哈希函数（Hash Functions） ：布隆过滤器使用多个哈希函数，每个哈希函数可以将输入元素映射到位数组的一个或多个位置。这些哈希函数必须是独立且具有均匀分布特性。
那么具体是怎么做的呢？
添加元素 ：如上图所示，当将字符串“ xuyang ”，“ alvin ”插入布隆过滤器时，通过多个哈希函数将元素映射到位数组的多个位置，然后将这些位置的位设置为1。
查询元素 ：当要检查一个元素是否存在于布隆过滤器中时，通过相同的哈希函数将元素映射到位数组的相应位置，然后检查这些位置的位是否都为1。如果有任何一个位为0，那么可以确定元素不存在于数据集中。但如果所有位都是1，元素可能存在于数据集中，但也可能是误判。
本身redis支持布隆过滤器的数据结构，我们用代码简单实现了解一下：

import redis.clients.jedis.Jedis;
import redis.clients.jedis.JedisPool;
import redis.clients.jedis.JedisPoolConfig;

public class BloomFilterExample {
    public static void main(String[] args) {
        JedisPoolConfig poolConfig = new JedisPoolConfig();
        JedisPool jedisPool = new JedisPool(poolConfig, "localhost", 6379);

        try (Jedis jedis = jedisPool.getResource()) {
            // 创建一个名为 "usernameFilter" 的布隆过滤器，需要指定预计的元素数量和期望的误差率
            jedis.bfCreate("usernameFilter", 10000000, 0.01);
            
            // 将用户名添加到布隆过滤器
            jedis.bfAdd("usernameFilter", "alvin");
            
            // 检查用户名是否已经存在
            boolean exists = jedis.bfExists("usernameFilter", "alvin");
            System.out.println("Username exists: " + exists);
        }
    }
}

在上述示例中，我们首先创建一个名为 “ usernameFilter ” 的布隆过滤器，然后使用 bfAdd 将用户名添加到布隆过滤器中。最后，使用 bfExists 检查用户名是否已经存在。
优点：
节约内存空间 ，相比使用哈希表等数据结构，布隆过滤器通常需要更少的内存空间，因为它不存储实际元素，而只存储元素的哈希值。如果以 0.001 误差 概 率存储 10 亿条记录，只需要 1.67 GB 内存，对比原来的 20G ，大大的减少了。
高效的查找 ，布隆过滤器可以在常数时间内 （O(1)） 快速查找一个元素是否存在于集合中，无需遍历整个集合。
缺点：
误判率存在 ：布隆过滤器在判断元素是否存在时，有一定的误判率。这意味着在某些情况下，它可能会错误地报告元素存在，但不会错误地报告元素不存在。
不能删除元素 ：布隆过滤器通常不支持从集合中删除元素，因为删除一个元素会影响其他元素的哈希值，增加了误判率。

总结

Redis 布隆过滤器的方案为大数据量下唯一性验证提供了一种基于内存的高效解决方案，它需要在内存消耗和错误率之间取得一个平衡点。当然布隆过滤器还有更多应用场景，比如防止缓存穿透、防止恶意访问等。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

JAVA基础工作中实际总结

编程学习

Oracle

数据库

Java

面试官问，如何在十亿级别用户中检查用户名是否存在？的相关文章

Thread.yield()之后线程的Thread.State是什么？

是什么Thread State之后的一个线程Thread yield 是不是一个Thread State WAITING 谢谢不线程仍会在RUNNABLE http download oracle com docs cd E17409
Spring MVC 配置启用

我正在从头开始建立一个项目目前我正在配置Spring MVC 4 1 5使用java配置整个应用程序正在 tomcat gradle 插件上运行有人可以解释一下为什么我需要对班级进行以下调用DefaultServletHandlerC
如何将 Google proto 时间戳转换为 Java LocalDate？

我们需要将 Google Protobuf 时间戳转换为正常日期在这种情况下有没有办法将 Google Proto 缓冲区时间戳转换为 JavaLocalDate直接地 tl dr 作为 UTC 时刻转换为java time Inst
ORA-00972 标识符别名列名太长

我有一个查询例如 SELECT column as averyveryveryverylongalias more than 30 characters FROM Table name 它返回错误ORA 00972 标识符太长有什么技巧
在word文档的标题中添加图片时出现问题

我正在Word文档的标题中添加图片它显示图像的框架并显示当前无法显示图像如果我将文本添加到标题它会显示文本如果我在文档正文中添加图像它也会显示图像获取图像也是如此它在标题上显示文本但没有图像我的支票快用完了有人可以建议
如何将 SELECT...INTO 与 JOIN 一起使用？

我有以下示例代码 DECLARE myRow table rowtype myVar table2 column type BEGIN SELECT table col1 table col3 table col4 table2 colum
Spring：当我的类已经用@RestController注释时，为什么我仍然应该使用@RequestBody？

我目前正在将 Java 和 Spring 用于我的 Web 服务应用程序我正在使用 RestController希望消除使用注释的需要 ResponseBody and RequestBody注释不幸的是删除 RequestBody注
将一组 Java 对象转换为另一组对象的最佳方式是什么？

这是一个真正的新手提出的基本 Java 问题我有一组实现某个接口接口 MyIfc 的Java对象属于 MyClass 类我有一组这些对象存储在我的类中的私有变量中声明如下 protected Set
为什么 JPA/hibernate 不能映射到 MySQL blob 类型？

我收到以下错误 Caused by org hibernate HibernateException Wrong column type in TestTable for column PAYLOAD Found blob expected
无法向 openfire 服务器发送消息

我无法使用 SMACK API 向 openfire 服务器上的 XMPP 客户端发送消息我不确定我哪里出错了我在 gtalk 上测试了相同的代码它工作正常 public class SenderTest public static
0x0A 和 0x0D 之间的区别

我正在研究蓝牙我试图编写代码以在连接时继续监听输入流我遇到了以下代码片段 int data mmInStream read if data 0x0A else if data 0x0D buffer new byte arr byte
从文件执行db语句

我在我的应用程序中使用嵌入式 Apache derby 我有一个名为的 SQL 脚本创建的数据库 sql创建数据库中的所有表并用初始数据填充它例如 SET SCHEMA APP CREATE TABLE study study id bi
如何在javafx中通过事件传递参数？

我有以下示例我想将参数文本与事件一起传递当单击按钮 bla 时我该怎么做 EventHandler
使用 JSeperator - Java 时出现异常间隙

我一直在开发 Swing GUI 并在添加后出现一些不寻常和不需要的间隙JSeperator 知道如何删除它们吗或者任何其他选择来很好地实现这一目标视觉描述之前差距就很明显了JLabel 速度及之后JSlider 相关代码 cont
FileNotFoundException（系统找不到指定的路径）

我得到这个例外 java io FileNotFoundException C filename xml The system cannot find the path specified 使用此代码 FileWriter fileWrit
使用 Java 重新启动 Tomcat

我需要从 Java 代码重新启动 tomcat 例如如果某个查询在一段时间内没有执行那么它将自动重新启动 tomcat 我已经尝试了以下关闭和启动代码但是当我们关闭tomcat时 java代码将不会运行并且tomcat不会启动注意
如何启用 Genymotion 模拟器使用主机正在使用的 WIFI 互联网

我在 Genymotion 模拟器上运行的应用程序需要互联网互联网似乎无法在 Genymotion 模拟器上运行我试图通过打开浏览器来确认这一点这就是我得到的我在我的笔记本电脑上运行 Windows 7 并使用 Wifi 互联网我
如何在 Java 中以编程方式获取接口的所有实现的列表？

我可以通过反思或类似的方式来做到这一点吗我已经搜索了一段时间似乎有不同的方法这里总结一下反思 https github com ronmamo reflections如果您不介意添加依赖项该库非常受欢迎它看起来像这样 Refle
使用 Java 8 时间将时间从一个时区转换为另一时区

我正在尝试将日期转换为GMT 5 30 to EST与java 8ZonedDateTime String inputDate 2015 04 30 13 00 DateTimeFormatter sourceFormatter DateT
如何使用 GWT 2.4 在服务器端动态创建 UI

我正在尝试使用 Google Web Toolkit v2 4 创建用户界面由于多种原因我需要在运行时指定服务器上接口的内容我的意思不仅仅是按钮需要动态标签等而是整个 UI 需要在运行时创建我的大部分 UI 都可以指定为直接的 H

随机推荐

CAP与BASE理论

CAP与BASE理论 CAP 一个分布式系统最多只能同时满足一致性 Consistency 可用性 Availability 和分区容错性 Partition tolerance 这三项中的两项 C一致性状态的一致性缓存数据库集群等
图片翻译在线怎么用？分享翻译软件给你

作为一个不擅长学习语言的人我真是要被生活中似乎无处不在的英语搞蒙了想象一下你正在逛商场想买一瓶洗护用品拿起来却看到商品上满是看不懂英文说明是不是一头雾水或者你在浏览社交媒体时看到一张充满英文的趣味图片却因为语言障碍而错过
挖掘知识的宝藏：如何利用在线资源提升个人技能

在这个信息爆炸的时代互联网已经成为我们获取知识提升技能的重要途径无论是学习编程提高语言能力还是了解新的行业趋势网络资源都为我们提供了无限可能本文将探讨如何有效利用在线资源进行自我提升一选择合适的在线学习平台首先我们需要
电脑操作系统的发展史：从初级到高级的演变

自电脑诞生以来操作系统作为其重要组成部分不断推动着电脑技术的进步与发展本文将带您回顾电脑操作系统的发展历程探究其在不同阶段的特点与影响一早期操作系统真空管与批处理在电脑诞生初期真空管技术占主导地位此时的操作系统尚未形成完
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
鸿蒙开发Flex、栅格布局详解

Flex弹性布局一 direction 1 FlexDirection Row 主轴为水平方向子组件从起始端沿着水平方向开始排布 2 FlexDirection RowReverse 主轴为水平方向子组件从终点端沿着FlexDirec
独家 | 鸿蒙（HarmonyOS）开发详细学习笔记免费分享

前言华为宣布将在1月18日在北京上海杭州南京成都厦门武汉长沙 8 大城市同时召开大会届时将揭秘鸿蒙生态和 HarmonyOS NEXT 进阶新篇章简单的来说就是纯血鸿蒙系统即将彻底揭晓鸿蒙系统自推出来以来就一
SpringBoot中整合ElasticSearch快速入门以及踩坑记录

场景若依前后端分离版手把手教你本地搭建环境并运行项目若依前后端分离版手把手教你本地搭建环境并运行项目本地运行若依前后端分离 CSDN博客参考上面搭建项目 ElaticSearch Elasticsearch 是java开发的基于
会议设备：提升会议体验与效率的关键

在当今高度信息化的社会会议已成为企业机构和团队之间交流与合作的重要方式而会议设备的选择与使用对于提升会议的体验与效率具有举足轻重的地位本文将详细探讨会议设备的重要性以及如何选择和使用合适的会议设备以实现高效顺畅的沟通首先
Android Studio Android Flutter问题记录 - UNABLE TO FIND BUNDLED JAVA VERSION

前言有个紧急问题需要修复本以为很快就能解决继续休假没想到项目打开运行后Android端跑不起来了 iOS端正常运行这就有点莫名其妙明明放假前还是没问题的难道我拉取的最新代码有问题不会吧谁放假还敲代码啊樂看了下最新的提交记
30天精通Nodejs--第二十二天：express-认证和授权

目录引言理解JWT及其工作原理安装与引入JWT库生成JWT令牌验证JWT令牌注意事项与最佳实践结语引言在现代Web应用开发中 JSON Web Tokens JWT 作为一种轻量级自包含且安全的标准已被广泛用于实现用户
Kubernetes (十一) 存储——Secret配置管理

一简介从文件创建 echo n admin gt username txt echo n westos gt password txt kubectl create secret generic db user pass from fi
AI在保护环境、应对气候变化中的作用

对于AI生命周期数据领域的全球领导者而言暂时搁置我们惯常的AI见解和AI生命周期数据内容产出来认识诸如世界地球日这样的自然环境类活动日似乎是个奇怪的事情我们想要知道数据是否真的会影响我们的地球环境简而言之是确实如此但作为一
数据加密保障数据安全

一目标 1 1 预研需求数据加密是安全领域中常用的安全措施它们的主要作用是保护数据的机密性和完整性以防止未经授权的访问窃取篡改或泄漏敏感信息数据传输加密保护敏感数据在传输过程中的安全当数据通过网络传输时它们可能会经过多个
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
Kubernetes (十二) 存储——Volumes配置管理

一卷的概念官方地址卷 Kubernetes https v1 24 docs kubernetes io zh cn docs concepts storage volumes 二卷的类型及使用 emptyDir卷 1 创建编辑文件
JVM优化之 -Xss -Xms -Xmx -Xmn 参数设置

JVM优化之 Xss Xms Xmx Xmn 参数设置 XmnXmsXmxXss有什么区别 Xmn Xms Xmx Xss都是JVM对内存的配置参数我们可以根据不同需要区修改这些参数以达到运行程序的最好效果 Xms 堆内存的初始大小默
图片编辑软件有哪些好用的？这几款快收藏吧

你有没有过这样的经历精心拍摄了一组照片却发现有些角度不对光线不够好或者想要给图片加上一些特别的滤镜效果来达到心目中的样子这时你就需要一款合适的图片编辑软件了但是市面上的图片编辑软件琳琅满目哪一款才是适合自己的呢别担心今
30天精通Nodejs--第二十一天：express-依赖注入

目录引言 Express中的模块化实践依赖注入什么是依赖注入 Express中实现依赖注入结语引言在构建大型且复杂的Node js Express应用程序时良好的架构设计至关重要模块化编程可以帮助我们把代码分解为可复用易维
面试官问，如何在十亿级别用户中检查用户名是否存在？

面试官问如何在十亿级别用户中检查用户名是否存在前言不知道大家有没有留意过在使用一些app注册的时候提示你用户名已经被占用了需要更换一个这是如何实现的呢你可能想这不是很简单吗去数据库里查一下有没有不就行了吗那么假如用户数量

面试官问，如何在十亿级别用户中检查用户名是否存在？

面试官问，如何在十亿级别用户中检查用户名是否存在？

前言

数据库方案

缓存方案

布隆过滤器方案

总结

面试官问，如何在十亿级别用户中检查用户名是否存在？ 的相关文章

随机推荐

热门标签

面试官问，如何在十亿级别用户中检查用户名是否存在？的相关文章