35.app后端搜索入门

2023-05-16

         现在人们的网络生活已经离不开搜索了,遇到不懂的问题,想知道的事情,搜索一下,就知道答案。

 

在app中,最常见的搜索情景就是搜索用户。只有几百,几千的用户量时,可以直接用用like这样的模糊查询,但是,如果数据有几百万,甚至上千万的时候,一次like查询数据库就堵了。到了一定量级的时候,不得不考虑使用专门的搜索技术。

 

        

1.    一个简单的搜索例子

 

有三行数据:

 

(1)近2周8成股民亏损超10%。

(2)满仓中国梦。

(3)股民两天亏一套三居。

 

例如,有个需求,从上面的3行数据中,把包含“股民”这个关键词的数据找出来。

 

按照一般的做法,就是分别查找上面的每一行数据:

 

第一行数据从头到尾查找一次,发现有“股民”这个关键词。

第二行数据从头到尾查找一次,没有有“股民”这个关键词。

第三行数据从头到尾查找一次,发现有“股民”这个关键词。

 

         根据查找结果,第一,第三行数据包含“股民”这个关键词。

 

2.    搜索技术的基本原理

 

按照上面的过程,每次查找,都需要把每行数据从头到尾查一次。

如果需要从上百万,千万的数据中查找一个关键词,读者可以想象一下效率有多低。

我们看一下搜索引擎的例子,在搜索引擎搜索“股民”这个关键词的结果:

 

                                                                           图1

 

在搜索引擎的搜索结果中,是直接显示了所有包含“股民”这个关键字的数据。

 

它是怎么做到在海量的信息中,快速搜索中包含关键字的信息的呢?

 

        实现搜索的关键,就是分词和倒序索引。

 

         如果我们知道每行数据中包含多少个关键字,然后建立一个映射表,把每个关键字出现在哪行数据中记录下来,搜索就变得很轻松。当知道一个关键字的时候,只需要查找这个映射表,找到这个关键词,根据这个关键词建立的映射关系就能查到包含这个关键词的数据。

 

         知道每行数据中包含多少个关键字的过程,就是分词。这里有个问题,什么是关键字?

 

        关键字,其实就是一个词语或句子,例如,当我有需要的时候,“股民”可以是搜索的关键字,但是,“股”也可以是搜索的关键字,“民”也可以是搜索的关键字。什么是关键字,要看使用者的需求。因此,为了能准确分析出一行数据到底包含多少个关键字,就需要一个包含了所有词语或句子的词典,用来分析数据中有什么关键字。

 

         建立一个映射表,把每个关键字出现在哪行数据中记录下来,这个过程就是建倒序搜引。

 

         下面举个实际的例子,看看是怎么分词和建立倒序索引。

         还是用回上面举例的三行数据,左边的是数据的编号,右边的是数据的内容。

 

(1)近2周8成股民亏损超10%。

(2)满仓中国梦。

(3)股民两天亏一套三居。

 

首先,把分析上面每行数据包含多少个关键词(这里为了简化分词过程,没有把每个汉字或数字当成一个关键词,例如,” 民”应该是个关键词,但为了简化分词,没有当成一个关键词),结果如表1所示。

 

                                                                                           表1 

 

         下面根据表1的结果建立一个映射表表2,把每个关键字出现在哪行数据中记录下来

  

表2

 

用上面的表2,我们很容易得知,“股民”这个关键词在数据1,3中出现过。如果需要知道“中国”这个关键词出现在哪,通过查找表2也很容易得知出现在数据2中。

 

在这么几行数据中,还不能体验到倒序索引的高效。如果数据量到了上百万,千万,甚至上亿,倒序索引的效率就非常明显了。归根到底,这种数据结构就是为了实现快速搜索也建立的。

 

再进一步,表2的右侧,除了记录关键词出现在哪行数据中,还能记录在某行数据中出现的频率,出现的位置等信息,如果有兴趣继续深入了解搜索引擎的技术,可阅读《这就是搜索引擎:核心技术详解》(张俊林著),这篇文章只是简单介绍搜索引擎的基本原理。

 

3.    常见的开源搜索软件介绍

 

搜索技术一点都不简单,如果要我们从头开始做,不知道要到哪年哪月才能用给app用上搜索功能。幸好,大牛们已经为我们开源大量的搜索软件,只要我们会使用这些搜索软件提供的api,就能给app后台整合搜索技术。下面简单介绍一下常见的搜索软件。

 

(1) Lucene

 

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。

 

Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言,Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。

 

(2) Solr

 

Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文搜索引擎。它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。

 

(3) Elasticsearch

 

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是第二流行的企业搜索引擎。

 

(4) Sphinx

 

Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL也设计了一个存储引擎插件。

 

(5) Coreseek

Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景,用户可以免费下载使用。

 

Coreseek曾经在本人架构过两个app后台深度使用过,配置简单,性能高效,整合了Sphinx和中文分词,快速完成了搜索模块的开发。但最大的缺点是稳定版不支持实时索引,测试版是支持了,但没在生产环境中用过。

 

Coreseek的原理如下图3所示:

 

                                                                   图2

 

Coreseek有两个核心模块 Indexer和Search。

 

Indexer: 负责从mysql中拉取数据源,把数据源分词,建立索引

Search:搜索模块

 

整个工程的流程如下:

 

1.      Indexer模块从mysql中拉取数据

2.      Indexer模块把数据经过中文分词,建立索引

3.      客户端向Search模块发起搜索请求

4.      Seach模块查找索引中的数据

5.      Seach模块得到索引中符合要求的数据的id等数据

6.      把数据返回给客户端

 

另外,有个小小的经验分享,搜索的时候,有的用户直接通过输入拼音来代替汉字的,如下图2:

 

                              图3

 

这种情况,就是要在记录关键字的同时,也要记录下关键字的拼音,把拼音也建索引,就能实现用拼音搜索。

 

参考资料:

1.      http://baike.baidu.com/link?url=rNBW3tzH-oJYeBoPSUvWZPGz-stIkE5zFQsjAtV234HFFPJKyeyr3dJjJrbZKRSCBg2NGZv-lA7DFqHF5XBEoq

2.      http://baike.baidu.com/link?url=C92bKEtkJtap8FfRjpSX4m5-yGE1Dn6O-00FRV5RwLe-EOkJ6FIvfl7amUuYceb-5jOD3Zn0Oy1_1vh7LG0RXK

3.      http://baike.baidu.com/link?url=xH1aipHlRiiq3JduGb8J8aT7qpYxs1rVDuvUQe76z0WLDZvuPFuI8Y7pbthYyiUZyyAB5wUxFzJqs5oAnRh5phPO7XYvdFSvuV5JlNVuD33

4.      http://www.coreseek.cn/


----------------------------------------------------------

        本人把网络上发表的一系列“app后端”文章加以整理并增加了运维和架构方面的内容,出版了书籍《App 后台开发运维和架构实践》,该书已在京东,当当和亚马逊上销售。

《App后台开发运维和架构实践》的购买链接

京东

京东 
当当 
亚马逊 
互动出版网 
天猫

-------------------------------------------------------------------------------------------------

打开链接  app后端系列文章总目录 总目录 ,能查看本人发表过的所有原创“app后端”文章。

【作者】曾健生
【QQ】190678908
【app后端qq群】254659220 
【微信公众号】 appbackend
【新浪微博】 @newjueqi
【博客】http://blog.csdn.net/newjueqi 


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

35.app后端搜索入门 的相关文章

  • 5.两分钟让你明白app后端有啥用

    app后端 xff0c 也称为app后台 xff0c 称呼不一样 xff0c 但指的是同一个东西 我一直都以app后端有啥用这个问题不用解释 但在网络上 xff0c 有准备进行app创业的网友 xff08 是从传统行业过来的 xff09 问
  • 6.app架构基础

    app架构 xff0c 一个听起来高大尚的名字 xff0c 很多小伙伴听到这个词语感觉很迷茫 xff0c 不知道架构具体说的是啥 xff1f 在 xff51 群里 xff0c 34 app后端应该怎么架构 34 这个问题被问了无数次 通过阅
  • MSCKF

    主要数据结构 xff1a StateServer当前里程计状态 imu状态 若干相机位姿 状态协方差矩阵 噪声协方差 struct StateServer IMUState imu state CamStateServer cam stat
  • 7.app和app后端的通讯

    经常有开发者问 xff1a app和后端通讯是用http协议还是私有的协议 xff1f 是用长连接还是短连接 xff1f 通过阅读本文 xff0c 帮你解除上面的疑问 xff08 1 xff09 是用http协议还是私有的协议 xff1f
  • 8.app后端和web后端的区别

    很多从web后端转到app后端的小伙伴经常很茫然 xff0c 不知道这两者之间有啥区别 本文通过例子 xff0c 分析web后端和app后端的区别 xff0c 使各位更好地把握app后端的架构 1 app后端要慎重考虑网络传输的流量 xff
  • 9.app后端选择什么服务器

    对于很多刚入行的朋友来说 xff0c 不清楚应该选择什么样的服务器提供商 xff0c 是选择传统的IDC 租用服务器租用机柜 xff0c 还是选择现在很火的云服务器呢 xff1f 在本文中 xff0c 通过对比传统的IDC和云服务 xff0
  • 10.app后端选择什么开发语言

    在qq上 xff0c 经常看到有创业团队的创始人一直都招不到技术人员 xff0c 除了项目的因素外 xff0c 很大的原因就是所需要掌握的开发语言偏门 通过阅读本文 xff0c 详细了解选择开发语言的核心原则 xff0c 使各位心里对开发语
  • 11.如何快速进门新技术

    在app后端的工作中 xff0c 经常会接触到新的技术 作为一名后端人员 xff0c 面对开发的压力 xff0c 快速地入门新的技术 xff0c 融入到项目当中 xff0c 这已经成了一个后端人员的必备技能 在这篇文章 xff0c 根据总结
  • 12.app后端如何选择合适的数据库产品

    app后端的开发中 xff0c 经常要面临的一个问题是 xff1a 数据放在哪里 mysql xff1f redis xff1f mongodb xff1f 现在有这么多优秀的开源数据库产品 xff0c 怎么根据业务场景来选择合适的数据 常
  • 13.app后端为什么要用到消息队列

    很多没有实际项目经验的小伙伴 xff0c 对消息队列系统非常陌生 xff0c 看着很多架构的介绍中 xff0c 都提到消息队列 但是 xff0c 不知道为什么要用消息队列 xff1f 什么是消息队列 xff1f 常见的消息队列产品有哪些 x
  • 14.app后端如何设计api

    app和后端的交互 xff0c 一般都是通过后端提供的api实现 api的设计 xff0c 估计很多刚进入app后端的小伙伴会一无头绪 xff0c 不知道怎么入门 下面根据自己3年的app后端经验 xff0c 总结出下几个api设计原则 x
  • 15.app后端怎么设计用户登录方案

    在很多app中 xff0c 都需要用户的登录操作 登录 xff0c 就需要用到用户名和密码 为了安全起见 xff0c 暴露明文密码的次数越少越好 怎么能最大程度避免泄露用户的密码呢 xff1f 在登录后 xff0c app后端怎么去验证和维
  • Struts 1 中DispatcherAction类原理浅析

    文章标题 Struts 1 中 DispatcherAction 类原理浅析 文章作者 曾健生 作者邮箱 zengjiansheng1 64 126 com 作者 QQ 190678908 作者声明 本人水平有限 xff0c 失误之处 xf
  • Python 高级编程技巧 第二讲 内置不可变类型并修改其实例化行为、slots属性、contextmanager上下文管理器、创建可管理对象属性、类比较操作

    第二讲 一 如何派生内置不可变类型并修改其实例化行为 这里有一道练习题 xff0c 我们想定义一个新类型的元组 xff0c 对于传入的可迭代对象 xff0c 我们只保留其中int类型并且值还要大于0 或许我们可以这么写 xff0c 尝试一下
  • 16.app后端如何保证通讯安全--url签名

    app和后端的通讯过程中 xff0c api请求有可能被别人截取或不小心泄露 那么 xff0c 怎么保证api请求的安全呢 xff1f 在这篇文章中 xff0c 介绍一种常见的保证api请求安全的做法 url签名 1 url签名详解 在前一
  • 17.app后端如何保证通讯安全--aes对称加密

    在上文 16 app后端如何保证通讯安全 url签名 提到 xff0c url签名有两个缺点 xff0c 这两个缺点 xff0c 如果使用对称加密方法的话 xff0c 则完全可以避免这两个缺点 在本文中 xff0c 会介绍对称加密的具体原理
  • 18.app后端如何实现LBS

    移动互联网 xff0c 除了一直在线这个特点外 xff0c 还有一个重要特点 xff0c 能定位到手机的位置 查找附近的人 附近的餐馆等服务 xff0c 以及大量的o2o应用 都需要使用LBS Location Based Services
  • 19.最省钱的app发短信方法

    在创业团队中 xff0c 一个重要的原则是能省就省 xff0c 该花就花 xff0c 把银子用在刀刃上 现在的app xff0c 为了获取用户的社交关系 xff0c 需要用户的手机号注册 用手机号注册就涉及到一个发送短信验证码的问题 xff
  • 20.如何从app业务逻辑提炼api接口

    在app后端的工作中 xff0c 设计api是一个很考验设计能力的工作 在项目的初始阶段 xff0c 只知道具体的业务逻辑 xff0c 那怎么把业务逻辑抽象和提炼 xff0c 设计出api呢 xff1f 通过阅读本文 xff0c 可解答以上
  • 21.app后端如何高效更新内容

    在app的主页或通知栏 xff0c 经常需要通过api取最新的数据 那么 xff0c 怎么在这部分上做优化 xff0c 使获取内容的效率更高呢 xff1f 在本文中 xff0c 通过推拉和增量更新 xff0c 实现了一种高效获取数据的策略

随机推荐

  • 22.在创业公司中的成长

    在 app后端 qq群中 xff0c 经常被问到的一个问题 xff1a 怎么设计一个应付高并发的架构 诚然 xff0c 设计一个能应付百万流量的高并发架构 xff0c 是很令人兴奋的技术挑战 xff0c 但在创业公司中的成长 xff0c 难
  • 23.app后端如何架设文件系统

    现在app展现内容的形式多种多样的 xff0c 有文字 xff0c 图片 xff0c 声音 xff0c 视频等等 xff0c 其中文件占了一个很大的比重 随着app不断运营 xff0c 文件会越来越多 xff0c 占用的磁盘空间也不断增大
  • 24.从公众号筹集10万股份学到的商业化思维

    1 忽然间看到了卖公众号的股份的玩法 昨天 xff0c 在公众号 老鹰说 id joeytalks 看到了他要弄一个新的玩法 xff0c 卖公众号的股份 xff0c 熟人1000块一股 xff0c 陌生人2000块一股 当时不以为然 xff
  • 25.创业真的需要app吗?真的需要外包吗?

    两个星期前 xff0c 一名亲戚的朋友打算投入自己的二十多万元去搞个摄影社交app xff0c 问我有没有靠谱的外包推荐 xff0c 我赶紧劝住他 xff0c 现在app的成本已经非常高了 xff0c 初期的研发就要十几万 xff0c 加上
  • HarmonyOS鸿蒙的测试体验

    HarmonyOS 2 0手机开发者Beta公测招募 xff0c 申请开发者账号 xff0c 报名 xff0c 就可以抢先体验 除了抢先体验 xff0c 使用真机测试外 xff0c 使用模拟器也可以尝试体验 那测试人员可以使用HVD和Clo
  • 单点登录 Ucenter 分析

    原文 xff1a http blog csdn net ebw123 article details 9417231 首先我们先来了解下 Ucenter登录步骤 1 用户登录discuz xff0c 通过logging php文件中的函数u
  • 当Ucenter和应用通信失败

    http blog sina com cn s blog 775f158f010135uz html 失败是常见的 对于初次接触Ucenter的人来讲 xff0c 添加一个自己的应用最头疼的就是发现通信失败 如果要解决这个问题 xff0c
  • 26.app后端怎么架设推送服务

    推送服务已经是app的标配了 架设推送服务 xff0c 除了可以使用第三方服务商外 xff0c 也有大量的开源技术可以选择 现在推送主要分两块 xff0c android推送和ios推送 xff0c 在下面分别论述 xff1a 1 Andr
  • 27.app后端搭建聊天服务器的经历

    现在 xff0c 聊天功能已经成了社交app的标配了 但是 xff0c 众多web开发出生的程序员对聊天相关的服务的不了解 xff0c 带来了很多开发上的困扰 在这篇文章中 xff0c 根据下面3个方面 xff0c 谈谈聊天服务 1 聊天服
  • 29.满大街创业团队的年代,一不小心就被忽悠

    长期呆在创业团队中 xff0c 我人品不咋的 xff0c 遇到过各种坑人的项目和团队 下面讲讲3件坑人的事情 1 不靠谱的项目 在第二个创业项目失败后一个星期 xff0c 以前的UI andy忽然找上我 xff0c 有个老板想投资个项目 x
  • (转)cookie和session机制之间的区别与联系

    出处为中国JAVA手机网 lt www cnjm net gt http www cnjm net tech article1113 html 具体来说cookie机制采用的是在客户端保持状态的方案 它是在用户端的会话状态的存贮机制 xff
  • 30.因为绘画,我在豆瓣上认识了老婆

    导读 xff1a 这篇文章的上半部分 xff0c 是我2011年在豆瓣上发表的 五天学会绘画 书评 xff0c 我和老婆就相识于这个书评 后记部分 xff0c 是对绘画 xff0c 和用互联网方法找女友的一些思考 五天学会绘画 xff0c
  • 对太极拳中的“势”有所领悟

    文章标题 对太极拳中的 势 有所领悟 文章作者 曾健生 作者邮箱 zengjiansheng1 64 126 com 作者 QQ 190678908 今天帮一个亲戚搬杂物 xff0c 从三楼的杂物房搬到一楼的花园 开始领悟 势 是搬一个很重
  • 本人写的Android上RSS阅读器简单介绍

    文章标题 本人写的 Android 上 RSS 阅读器简单介绍 文章作者 曾健生 作者邮箱 zengjiansheng1 64 126 com 作者 QQ 190678908 个人博客 http blog csdn net newjueqi
  • 整合 ucenter 注册自动激活

    http my oschina net banbo blog 311691 应用整合 UCenter xff0c 同步注册到 Discuz 的用户 xff0c 在 Discuz 登录时得手动激活 xff0c 用户体验很不好 xff0c 不过
  • switch case语句用法详解

    switch 开关 的意思 xff0c 是一种 选择 语句 xff0c 它用法非常简单 switch 是多分支选择语句 说得通俗点 xff0c 多分支就是多个 if语句的组合 从功能上说 xff0c switch 语句和 if 语句完全可以
  • 32.APP后端处理表情的一些技巧

    app应用中文字夹带表情是个很常见的现象 甚至一些40多岁的大叔级用户 xff0c 也喜欢在自己的昵称中夹带表情 xff0c 在产品运营后发现这个现象 xff0c 彻底颠覆了我的世界观 在后台处理表情的时间 xff0c 我遇到过下面3个问题
  • 33.APP后端处理视频的方案

    在当前的app应用中 xff0c 到处都能看到视频的身影 xff0c 例如 xff0c 在社交类的app上 xff0c 用户可以拍摄属于自己的小视频 xff0c 并发布到相应得栏目 xff0c 增加和好友们互动的机会 后台常见的视频处理有以
  • 34.如何获取app(apk和ipa)中的资源

    移动互联网中 xff0c 主要的两个平台是android和ios xff0c android上文件的安装包是后缀名为apk的文件 xff0c ios上文件的安装包是后缀名为ipa的文件 xff0c 在本文分析一下这两种文件的特点 xff0c
  • 35.app后端搜索入门

    现在人们的网络生活已经离不开搜索了 xff0c 遇到不懂的问题 xff0c 想知道的事情 xff0c 搜索一下 xff0c 就知道答案 在app中 xff0c 最常见的搜索情景就是搜索用户 只有几百 xff0c 几千的用户量时 xff0c