还是搜索、索引的问题

2023-10-27

搜索要弄清2个基本问题:

1)要搜索出什么类型的entity?

2)entity的哪个方面/维度和关键词发生关联的?一般来说可以有多个角度link到entity,一个entity支持多个索引,可以从不同的column检索


对于 web search,这两个问题都很简单,1)只有一种entity,就是网页,2)关键词和网页也只有一种关联关系,就是包含关系


对于linkedin或者facebook的typeahead搜索,返回的就是多种entity,有people,event,company,把关键词同时发送给不同entity对应的leaf search service,然后aggregate结果。这里也没有指定dimension,也就是就支持一种关联,没有dimension,其实是一种or的关系,entity的任意一个字段和关键词有关联,entity就和这个关键词有关联。实现起来就是类似一般doc建倒排的过程,过一遍entity(的每个字段),遇到一个word,就给这个work和entity之间建立一个link,等于是把各个字段和合并了当成entity的flat content。之前德国juddi的那个项目做个类似的事情:把数据库表记录的字段合并,送到lucene做full text index。


但是更一般,的比如MDS,是应该支持entity的多维度搜索的,以追求更精确、结果更少的搜索,比如,我就想搜title里包含关键词的,description包含的不算。

对于支持多entity type,每种entity又支持多种dimension的search 系统,索引怎么组织?

对于数据库,索引是应该是per table per column的,也就是一个table的一个column对应一个索引,独立的一棵树。

对于search 系统,有多种选择:

1)现有系统一般是先per entity type的,因为要按entity type做 垂直partition,每个entity type对应一个leaf search service,可以在这个架构上继续支持多维度,两个选择:

a)每个维度一颗索引树,到对应维度的索引去搜

b)所有维度共享一棵搜索树,只是value部分是多条拉链:{ key : { dimension1 : [1, 3, 4], dimension2 : [2, 4, 6] } }

个人倾向于第二种方式,空间利用率更高一些

2)如果不是必须按entity type进行垂直partition,不同entity type的索引也可以共享:

{key, {entityType1 : {dimension1 : [1, 2],  dimension2:[3, 4]}, entityType2: {dimension1: [8, 9],  dimension2: [5, 6]} }


key,entityType,dimension 是搜索的三级,顺序可以任意组合,当然,entityType和 dimension的数量可以看作是常数,主要还是key的搜索。MDS的顺序是 dimension -> key -> entityType。

即便不支持显式的mult-dimension search,也就是entity和key之间只有一种关联,实现层面也可以用 key->entityType -> dimension 或者 entityType->key->dimension这种方式,只需返回entityType下所有的dimension拉链就行了,这样两种模式同时支持了。




本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

还是搜索、索引的问题 的相关文章

  • K8s 架构简介(一)

    一 前言 在开始学习K8s之前 让我们对容器有一个基本的了解 1 1 什么是容器 一个容器镜像是一个可运行的软件包 其中包含了一个完整的可执行程序 包括代码和运行时需要应用 系统库和全部重要设置的默认值 通过将应用程序本身 和其依赖容器化
  • 内存数据库-3-[redis]的架构原理和部署模式

    参考redis三种模式对比 Redis 是一个开源的 key value 存储系统 由于出众的性能 大部分互联网企业都用来做服务器端缓存 1 单实例模式 问题 1 内存容量有限 2 处理能力有限 3 无法高可用 Redis 在3 0版本前只
  • 拼多多招收java开发的三轮面试题,你能撑到第几轮?

    我相信 面试一直是大家关注的问题 包括最近有很多刚毕业或者刚实习的小伙伴跟我讲投了很多简历出去 但却都像泥牛入海一样了无音讯了 确实出于程序员的直觉 今年着实是要比往年要更冷一些 对于面试来说 我相信大家都听过一个说法就是 金九银十 但是现
  • 别光看NB的Github开源项目,你得参考他们去设计自己的架构!

    V xin ruyuanhadeng获得600 页原创精品文章汇总PDF 一 背景引入 首先简单介绍一下项目背景 公司对合作商家提供一个付费级产品 这个商业产品背后涉及到数百人的研发团队协作开发 包括各种业务系统来提供很多强大的业务功能 同
  • 阿里云大佬告诉你为什么学不会设计模式,归根到底还是方法不对

    最近总有读者在后台跟我说 工作几年 自己的代码质量似乎没有什么提升 我觉得他的情况非常典型 很多人应该或多或少都有过类似的经历 毕业几年 几乎一直在做复制黏贴的工作 偶尔会遇到原有业务扩展的需求 想简单应付一下完事的话 也不难 无非就是多加
  • 数据湖--概念、特征、架构与案例概述

    一 什么是数据湖 数据湖是目前比较热的一个概念 许多企业都在构建或者计划构建自己的数据湖 但是在计划构建数据湖之前 搞清楚什么是数据湖 明确一个数据湖项目的基本组成 进而设计数据湖的基本架构 对于数据湖的构建至关重要 关于什么是数据湖 有如
  • 企业架构LNMP学习笔记29

    Nginx负载均衡配置 架构分析 1 用户访问请求Nginx负载均衡服务器 2 Nginx负载均衡服务器再分发请求到Web服务器 实际配置负载均衡 只需修改作为负载均衡服务器的Nginx即可 当前架构中的server04 在客户端解析域名到
  • [项目管理-15]:项目执行中的三大管理者:项目活动管理、职能部门管理、产品架构设计。

    目录 1 矩阵项目管理 2 项目活动管理 2 1 项目架构 2 2 项目管理活动 3 职能部门管理 要与产品 设备架构一致 3 1 组织架构 3 1 需求部门 3 2 硬件开发部门 3 3 软件开发部门 3 4 测试部门 4 产品设备管理
  • FastJSON、Jackson、Gson性能测试

    起因是公司原先用的是阿里开源的FastJSON 大家用的也比较顺手 但是在出现了两次严重的漏洞后 公司决定放弃FastJSON 使用其他序列化 反序列化工具 考虑大家常用的无非就是FastJSON Jackson和Gson这三种 因此领导让
  • 4大主流CPU处理器技术架构

    推荐阅读 浅谈linux 内核网络 sk buff 之克隆与复制 深入linux内核架构 进程 线程 了解Docker 依赖的linux内核技术 导读 RISC 精简指令集计算机 是一种执行较少类型计算机指令的微处理器 起源于80年代的MI
  • 测试人员为什么要去了解业务架构和技术架构?

    问题 在入职公司不久 我参加老员工再给新来的员工和管培生宣讲产品的业务 功能 直接拿着功能清单和实际页面在讲解 等把产品功能讲完了 我问了一下实习生和管培生怎么样 他们都说功能讲的太多 太乱 不清楚讲解产品的核心业务逻辑及操作流程 后来发现
  • 深入微服务架构 | 微服务与k8s架构解读

    微服务项目架构解读 什么是微服务 微服务是指开发一个单个小型的但有业务功能的服务 每个服务都有自己的处理和轻量通讯机制 可以部署在单个或多个服务器上 微服务也指一种种松耦合的 有一定的有界上下文的面向服务架构 也就是说 如果每个服务都要同时
  • 单个 epoll + 线程池与每个线程一个 epoll 这两种架构哪个更适合大量短连接的场景?

    本文是回答一位知友的提问 单个 epoll 线程池与每个线程一个 epoll 这两种架构哪个更适合大量短连接的场景 不少教程上都提到线程池适合大量的网络短连接的任务场景 但我总感觉这个优势有点站不住脚 单 epoll 线程池模型 主要考虑到
  • 【CPU 架构】x86、x86_64、x64、arm64、aarch64

    x86 x86 64 x64 arm64 aarch64 1 服务器分类 2 CPU 架构 2 1 x86 架构 x86 x86 64 x64 2 2 arm 架构 arm64 和 aarch64 3 发展历史 1 服务器分类 按照 CPU
  • 微服务测试是什么?

    微服务测试是一种特殊的 测试类型 因为它涉及到多个独立的服务 以下是进行微服务测试的一般性步骤 1 确定系统架构 了解微服务架构对成功测试至关重要 确定每个微服务的职责 接口 依赖项和通信方式 了解这些信息可以帮助您更好地规划测试用例和测试
  • Java构件技术

    文章目录 Java构件技术 构件及其在信息系统项目中的重要性 常见的Java构件技术和工具 JavaBeans Servlets EJB Spring Framework Spring框架
  • 进阶之Kotin协程原理和启动方式详细讲解(优雅使用协程)

    协程就是方法调用封装成类线程的API 方法调用当然比线程切换轻量 而封装成类线程的API后 它形似线程 可手动启动 有各种运行状态 能够协作工作 能够并发执行 前言 kotlin的协程在初学者看来是一个很神奇的东西 居然能做到用同步的代码块
  • 专车数据层架构进化往事:好的架构是进化来的,不是设计来的

    很多年前 读了 子柳 老师的 淘宝技术这十年 这本书成为了我的架构启蒙书 书中的一句话像种子一样深埋在我的脑海里 好的架构是进化来的 不是设计来的 2015 年 我加入神州专车订单研发团队 亲历了专车数据层 架构进化 的过程 这次工作经历对
  • Python 微服务架构指南

    概要 微服务架构作为一种设计风格 它将应用程序构建为一套小服务的集合 每个服务实现特定的业务功能 这些服务可以独立部署 扩展并围绕特定业务能力构建 Python 凭借其简洁易读的语法和强大的库生态系统成为实现微服务的受欢迎选择 本文将详细介
  • 【技术科普】什么是达芬奇架构?有什么优势?

    芯片架构是指芯片设计的基本结构和组织方式 用于实现各种计算 存储和通信功能 芯片架构通常包括处理器核心 内存 输入输出接口等组成部分 这些部分的设计对芯片性能和功耗有着直接的影响 世界上主流的芯片架构主要包括x86 ARM PowerPC和

随机推荐

  • 条码规范——Code 93

    CODE 93 BACKGROUND INFORMATION Code 93 was designed to complement and improve upon Code 39 Code 93 is similar in that it
  • 在线代码测试小项目

    小项目 代码在线测试 http是我们生活中最常使用的协议 现如今网络浏览器越来越贴近人们的生活 使得做什么事都很方便 但是想要运行一段代码还得需要在电脑指定的环境下来运行 这在有些情况下让人很抓狂 我在网上也看到过很多代码在线测试的网页 感
  • 模块打包器Webpack详解!

    Webpack 1 什么是Webpack Webpack 是一个前端资源加载 打包工具 它将根据模块的依赖关系进行静态分析 然后将这些模块按照指定的规则生成对应的静态资源 从图中我们可以看出 Webpack 可以将多种静态资源 js css
  • 关于c语言main函数中int argc,char **argv的理解

    关于c语言main函数中int argc char argv的理解 c语言main函数通常形如int main int argc char argv 那么argc和argv代表啥呢 其实 argc表示传入main函数的参数的个数 而argv
  • Spark【Spark SQL(四)UDF函数和UDAF函数】

    UDF 函数 UDF 是我们用户可以自定义的函数 我们通过SparkSession对象来调用 udf 的 register name String func A1 A2 A3 方法来注册一个我们自定义的函数 其中 name 是我们自定义的函
  • MATLAB机器学习方法之朴素贝叶斯算法

    朴素贝叶斯分类算法的核心算法是 或 而如果所有特征都相互独立的话 P 特征 类别k 可以看作 P 特征1 类别k P 特征2 类别k P 特征3 类别k P 特征n 类别k 那么分别计算P 特征 类别1 P 特征 类别2 P 特征 类别3
  • paddlenlp二分类引入评估召回率F1指标 paddle.metric Accuracy

    每个具体的参数代表什么 明确好 无非就是第几个样本 属于某个类别的概率 非常清晰 from paddlenlp metrics import AccuracyAndF1 paddle no grad def evaluate model c
  • 基础知识——BCD码

    十六进制转二进制 将每一位十六进制转化为4位二进制位即可 BCD码 将十进制的每一位转化为4位二进制位即可 转换方法都是将每一位转为4位二进制位 但是区别是一个对应的是十六进制 一个对应的是十进制 比如给出二进制数0101 0101 如果对
  • muduo Timestamp详解

    1 简介 Timestamp用于提供时间戳相关的工具函数 2 类与接口 string toString const 返回时间的字符串形式 例如1649224501 687051 string toFormattedString bool s
  • 在word中插入分页符,多出一行

    类似问题在网上也有多次提及 例如 1 ctrl enter进行分页 但是下一页开头总是多出一行 2 Word换页时 上一页多了一行看不见的行 影响下页的标题编辑 3 word2007分页出现问题 分后多出一行 删除了后面的格式没了 4 wo
  • 点双连通分量&边双联通分量详解

    文章目录 点双连通分量 前言 概念 性质 找割点 找点双 附赠题表 边双连通分量 概念 性质 找割边 找边双 做法1 做法2 题表 一点个人感想 点双连通分量 前言 由于点双和边双都是无向图里面的东西 所以下面的讲解都以图是无向图作为前提
  • 微信小程序之实现下拉刷新效果

    本文章将主要介绍微信小程序如何实现简单的下拉刷新效果的 代码简单明了 主要 api wx showLoading Object object 显示 loading 提示框 wx hideLoading Object object 关闭 lo
  • vue中实现文件批量打包压缩下载(以及下载跨域问题分析)

    上次做了一个选择多个数据生成多个二维码并下载 当时项目催的紧 就简单写了个循环生成二维码下载 一次性会下载很多文件 特别难整理 刚好这次项目又遇到类似这种功能 需要一次性批量下载多个文件 那么就安排下打包下载吧 需要用到的是file sav
  • 区块链技术对人工智能的影响

    区块链技术在最近几年席卷全球 在改变互联网的同时也在改变着其他行业的发展 区块链的技术在当前的发展潜力十分巨大 一些业内人士对区块链技术的预估价值要比互联网高出好几倍 这也说明区块链技术能够影响世界转型格局 人工智能也是近几年兴起的又一热门
  • Extjs 4.2 comboBox下拉复选框 checkbox

    Ext create Ext form field ComboBox name cmb fieldLabel 人员 margin 2 0 2 0 labelWidth 135 labelAlign right editable false
  • ADS系列 - 定向耦合器设计教程1

    相关文章 ADS SystemVue 文章集合页 ADS系列 混频器设计 混频器原理介绍及仿真1 ADS系列 低噪声放大器 LNA 模型下载安装及 LNA仿真设计 Keysight的 SystemVue 介绍及与 ADS 区别对比 Ansy
  • 《银行法律法规》三、银行管理——2、商业银行资产负债管理

    第三章 商业银行资产负债管理 第一节 资产负债管理概述 考点1 资产负债管理的对象 对于商业银行而言 传统资产负债管理的对象即是银行的资产负债表 传统资产负债管理的内涵是 根据外部形势变化及发展战略要求 以资本约束为核心 以资产负债组合管理
  • Hive HiveQL基础知识及常用语句总结

    https blog csdn net u012386109 article details 78214894 https blog csdn net u010385646 article details 53167707 基础语句 CRE
  • Java JDK 安装及环境配置教程

    一 安装 1 安装包 jdk1 8安装包下载路径 2 创建一个英文的文件夹 注意 整个路径不要有中文 建议文件夹直接命名为JDK 3 在该文件夹下创建两个空文件夹 分别为 jdk1 8 和 jre 其中jdk1 8 是我的JDK版本 这个可
  • 还是搜索、索引的问题

    搜索要弄清2个基本问题 1 要搜索出什么类型的entity 2 entity的哪个方面 维度和关键词发生关联的 一般来说可以有多个角度link到entity 一个entity支持多个索引 可以从不同的column检索 对于 web sear