搭建以图搜图检索系统

2023-11-19

引言

当您听到“以图搜图”时,是否首先想到了百度、Google 等搜索引擎的以图搜图功能呢?事实上,您完全可以搭建一个属于自己的以图搜图系统:自己建立图片库;自己选择一张图片到库中进行搜索,并得到与其相似的若干图片。
Milvus 作为一款针对海量特征向量的相似性检索引擎,旨在助力分析日益庞大的非结构化数据,挖掘其背后蕴含的巨大价值。为了让 Milvus 能够应用于相似图片检索的场景,我们基于 Milvus 和图片特征提取模型 VGG 设计了一个以图搜图系统。
正文分为数据准备、系统概览、 VGG 模型、API 介绍、镜像构建、系统部署、界面展示七个部分。数据准备章节介绍以图搜图系统的数据支持情况。系统概览章节展示系统的整体架构。 VGG 模型章节介绍了 VGG 的结构、特点、块结构以及权重参数。 API 介绍章节介绍系统的五个基础功能 API 的工作原理。镜像构建章节介绍如何通过源代码构建客户端和服务器端的 docker 镜像。系统部署章节展示如何三步搭建系统。界面展示章节会展示系统的搜索界面。

1 数据准备

本文以 PASCAL VOC 图片集为例搭建了一个以图搜图的端到端解决方案,该图片集包含 17,125 张图片,涵盖 20 个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。数据集大小: ~2GB 下载地址:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar

说明:您也可以使用其他的图片数据进行加载。目前支持的图片格式有 .jpg 格式、 .png 格式。
2 系统概览
为了让用户在 web 网页上进行交互操作,我们采取了 C/S 的架构。 webclient 负责接收用户的请求并将请求发送给 webserver, webserver 接到 webclient 发来的 HTTP 请求之后进行运算并将运算结果返回给 webclient 。
webserver 主要由两部分组成,图片特征提取模型 VGG 和向量搜索引擎 Milvus。 VGG 模型负责将图片转换成向量, Milvus 负责存储向量并进行相似向量检索。 webserver 的架构如下图所示:
在这里插入图片描述
3 VGG 模型
VGGNet 由牛津大学的视觉几何组( Visual Geometry Group )和 Google DeepMind 公司的研究员共同提出,是 ILSVRC-2014 中定位任务第一名和分类任务第二名。其突出贡献在于证明使用很小的卷积( 33 ),增加网络深度可以有效提升模型的效果,而且 VGGNet 对其他数据集具有很好的泛化能力。 VGG 模型在多个迁移学习任务中的表现要优于 GoogleNet ,从图像中提取 CNN 特征, VGG 模型是首选算法。因此,在本方案中选择 VGG 作为深度学习模型。
VGGNet 探索了 CNN 的深度及其性能之间的关系,通过反复堆叠 3
3 的小型卷积核和 2*2 的最大池化层, VGGNet 成功地构筑了 16-19 层深的 CNN 。在本方案中使用了 Keras 的应用模块( keras.applications )提供的 VGG16 模型。

(1) VGG16 结构
VGG16 共包含 13个 卷积层( Convolutional Layer ), 3 个全连接层( Fully connected Layer ), 5 个池化层( Pool layer )。其中,卷积层和全连接层具有权重系数,因此也被称为权重层,总数目为 13+3=16 ,这即是 VGG16 中 16 的来源。(池化层不涉及权重,因此不属于权重层,不被计数)。

(2) VGG16 特点
在这里插入图片描述
卷积层均采用相同的卷积核参数
池化层均采用相同的池化核参数
模型是由若干卷积层和池化层堆叠( stack )的方式构成,比较容易形成较深的网络结构

(3) VGG16 块结构
VGG16 的卷积层和池化层可以划分为不同的块( Block ),从前到后依次编号为 Block1~Block5 。每一个块内包含若干个卷积层和一个池化层。例如: Block2 包含 2 个卷积层( conv3-256 )和 1 个池化层( maxpool )。并且同一块内,卷积层的通道( channel )数是相同的。

根据下图给出的 VGG16 结构图, VGG16 的输入图像是 224x224x3 ,过程中通道数翻倍,由 64 依次增加到 128 ,再到 256 ,直至 512 保持不变,不再翻倍;高和宽变减半,由 224→112→56→28→14→7 。
在这里插入图片描述
(4) 权重参数
VGG 的结构简单,但是所包含的权重数目却很大,达到了 139,357,544 个参数。这些参数包括 卷积核权重 和 全连接层权重 。因此它具有很高的拟合能力。

4 API 介绍
整个系统的 webserver 提供了 train 、process 、count、search 、delete 五个 API ,用户可以进行图片加载、加载进度查询、Milvus 的向量条数查询、图片检索、Milvus 表删除。这五个 API 涵盖了以图搜图系统的全部基础功能,下面会对每个基础功能进行介绍。

(1) train

train API 的参数如下表所示:
在这里插入图片描述
在进行相似图片检索之前,需要将图片库加载进 Milvus,此时调用 train API 将图片的路径传入系统。因为 Milvus 仅支持向量数据的检索,故而需要将图片转化为特征向量,转化过程主要利用 Python 调用 VGG 模型来实现:

from preprocessor.vggnet import VGGNet
norm_feat = model.vgg_extract_feat(img_path)

当获取到图片的特征向量之后,再将这些向量利用 Milvus 的 insert_vectors 的接口导入 Milvus 里面:

from indexer.index import milvus_client, insert_vectors
status, ids = insert_vectors(index_client, table_name, vectors)

将这些特征向量导入 Milvus 之后,Milvus 会给每个向量分配一个唯一的 id,为了后面检索时方便根据特征向量 id 查找其对应的图片,需要将每个特征向量的 id 和其对应图片的关系保存起来:

from diskcache import Cache
for i in range(len(names)):
    cache[ids[i]] = names[i]

当调用 train API ,通过以上三步就将图片转成向量存入 Milvus 了。

(2) process

process API 的 methods 为 GET,调用时不需要传入其他参数。process API 可以查看图片加载的进度,调用之后会看到已经加载转化的图片数和传入路径下的总图片数。

(3) count

count API 的 methods 为 POST,调用时也不需要传入其他参数。count API 可以查看当前 Milvus 里的向量总数,每一条向量都是由一张图片转化而来。

(4) search

search API 的参数如下表所示:
在这里插入图片描述
当你选择好一张图片进行相似图片检索时,就可以调用 search API。当把待搜索的图片传入系统时,首先还是调用 VGG 模型将图片转化为向量:

from preprocessor.vggnet import VGGNet
norm_feat = model.vgg_extract_feat(img_path)

得到待搜索图片的向量之后,再调用 Milvus 的 search_vectors 的接口进行相似向量检索:

from milvus import Milvus, IndexType, MetricType, Status
status, results = client.search_vectors(table_name=table_name, query_records=vectors, top_k=top_k, nprobe=16)

搜索出与目标向量相似的向量 id 之后,再根据先前存储的向量 id 和图片名称的对应关系检索出对应的图片名称:

from diskcache import Cache
def query_name_from_ids(vids):
    res = []
    cache = Cache(default_cache_dir)
    for i in vids:
        if i in cache:
            res.append(cache[i])
    return res

当调用 search API ,通过以上三步就可以将与目标图片相似的图片搜索出来了。

(5) delete

delete API 的 methods 为 POST,调用时不需要传入其他参数。delete API 会删除 Milvus 里面的表,清空以前导入的向量数据。

5 镜像构建

(1) 构建 pic-search-webserver 镜像

首先拉取 Milvus bootcamp 的代码,然后利用我们提供的 Dockerfile 构建镜像:

$ git clone https://github.com/milvus-io/bootcamp.git
$ cd bootcamp/solutions/pic_search/webserver
# 构建镜像
$ docker build -t pic-search-webserver .
# 查看生成的镜像
$ docker images | grep pic-search-webserver
通过上述步骤就可以构建好 webserver 的 docker 镜像。当然,你也可以直接使用我们上传到 dockerhub 的镜像:

$ docker pull milvusbootcamp/pic-search-webserver:0.1.0

(2) 构建 pic-search-webclient 镜像

首先拉取 Milvus bootcamp 的代码,然后利用我们提供的 Dockerfile 构建镜像:

$ git clone https://github.com/milvus-io/bootcamp.git
$ cd bootcamp/solutions/pic_search/webclient
# 构建镜像
$ docker build -t pic-search-webclient .
# 查看生成的镜像
$ docker images | grep pic-search-webclient

通过上述步骤就可以构建好 webclient 的 docker 镜像。当然,你也可以直接使用我们上传到 dockerhub 的镜像:

$ docker pull milvusbootcamp/pic-search-webclient:0.1.0

6 系统部署

我们提供了 GPU 部署方案和 CPU 部署方案,用户可以自行选择。详细的部署流程可以参考链接:https://github.com/milvus-io/bootcamp/blob/0.6.0/solutions/pic_search/README.md

Step 1 启动 Milvus Docker
详细步骤可以参考链接:https://milvus.io/cn/docs/v0.6.0/guides/get_started/install_milvus/install_milvus.md

Step 2 启动 pic-search-webserver docker

$ docker run -d --name zilliz_search_images_demo \
-v IMAGE_PATH1:/tmp/pic1 \
-v IMAGE_PATH2:/tmp/pic2 \
-p 35000:5000 \
-e "DATA_PATH=/tmp/images-data" \
-e "MILVUS_HOST=192.168.1.123" \
milvusbootcamp/pic-search-webserver:0.1.0

Step 3 启动 pic-search-webclient docker

$ docker run --name zilliz_search_images_demo_web \
-d --rm -p 8001:80 \
-e API_URL=http://192.168.1.123:35000 \
milvusbootcamp/pic-search-webclient:0.1.0

整个以图搜图系统只需三步就可以部署好了。

7 界面展示

按照上述流程部署完成之后,在浏览器中输入 " localhost:8001 " 就可以访问以图搜图界面了。
在这里插入图片描述
在路径框中填入图片路径进行加载,等待图片全部转换成向量并加载到 Milvus之后就可以进行图片检索了:
在这里插入图片描述
结语

本文利用 Milvus 和 VGG 搭建起了以图搜图系统,展示了 Milvus 在非结构化数据处理中的应用。Milvus 向量相似度检索引擎可以兼容各种深度学习平台,搜索十亿向量仅毫秒响应。您可以使用 Milvus 探索更多 AI 用法!

如有建议或意见,可以到我们的 GitHub 项目提 issue,或者到 Slack 社区联系我们:
Milvus 源码
Milvus 官网
Milvus Bootcamp
Milvus Slack 社区

更多关于VGG模型的信息请浏览:
VGG 官方网站
VGG Github

转载原文地址:https://zhuanlan.zhihu.com/p/101616055

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

搭建以图搜图检索系统 的相关文章

  • Mac显示放大镜

    设置快捷键 系统默认是不开启热键的 如果需要设置 操作如下 设置 system preferences gt accessibility 在左侧找到room 进入配置窗口 按如上配置后 按住option键 然后两指向上就可以放大 两指向下就
  • 这座城市引领大模型浪潮!80余个AI大模型,一半集结在这里!

    刚刚结束的2023全球数字经济大会上 人工智能高峰论坛掀起了一股热潮 大型模型的发展和应用成为了会议的亮点 而作为这次盛会的主办方之一 北京市已经成为了这场人工智能革命的领先力量 作为人工智能产业的引领者 北京不负众望 国内已有80余个大型
  • Redis系列(七)Redis主从、哨兵、cluster集群方案解析

    文章目录 Redis主从 主从数据同步 同步 建立连接 完整重同步 全量同步 触发条件 部分重同步 增量同步 复制偏移量 offset 复制积压缓冲区 replication backlog buffer 部分重同步执行过程 命令传播 指令
  • 机器视觉最火应用领域

    1 图像和视频识别 人工神经网络领域最重要的进展之一出自 ImageNet ImageNet收集了 1400 万标签图像并于2009年发布 ImageNet挑战赛要求参赛者设计一个能够跟人类一样对照片进行分类的算法 但一直没有出现获胜者 直
  • Python图像处理 PIL中convert(mode)函数详解

    模式分类 PIL有九种不同模式 1 L P RGB RGBA CMYK YCbCr I F mode 1 代码示例 为二值图像 非黑即白 每个像素用8个bit表示 0表示黑 255表示白 from PIL import Image 读取一张
  • python快乐数字怎么表达_Python中的快乐数字

    在这里 我们将看到如何检测数字n是否为一个快乐数字 因此 快乐数字是一个数字 其中以任何正整数开头的数字均用其数字的平方和代替 该过程将重复进行直到其变为1 否则它将无休止地循环循环 这些数字 当找到1时 将成为快乐数字 假设数字为19 则
  • 类加载机制+双亲委派机制(通俗易懂版)

    1 类加载机制 一个类从加载到使用到卸载一共经过了5个步骤 加载 gt 连接 gt 初始化 其中连接分为验证 准备 解析三个阶段 1 加载 那么什么时候会将 class文件加载到jvm中 就是在你使用这个类的时候 验证 准备 解析 2 验证
  • 【计算机视觉】CLIP:语言-图像表示之间的桥梁

    文章目录 一 前言 二 架构 三 应用 3 1 图像分类 3 2 图像描述 3 3 文本到图像 四 总结 一 前言 最近GPT4的火爆覆盖了一个新闻 midjourney v5发布 DALLE2 midjourney都可以从文本中生成图像

随机推荐

  • 生成随机数

    目录 1 生成随机数sand 函数 2 srand 函数设置生成随机数 3 时间戳 4 如何生成规定位数的随机数呢 1 100 5 猜数字对生成随机数的应用 1 生成随机数sand 函数 这个函数会返回一个从0到RAND MAX的随机整数
  • 线性回归误差项方差的估计

    线性回归误差项方差的估计 摘要 线性回归误差项概念的回顾 残差平方和 residual sum of squares 残差平方和的期望 实验验证 参考文献 摘要 之前在文章线性回归系数的几个性质 中 我们证明了线性回归系数项的几个性质 在这
  • 微信小程序中组件间通信的三种方式

    事先准备 创建一个项目够 修改目录下的app json 在pages中注册页面 同时新增test1组件 也在app json中注册为全局组件 并命名为my test app json 配置 pages pages home home pag
  • JUnit4 initializationError[Runner:JUnit4](0.001s)junit4报错

    junit版本 4 12 如图 原因 缺少 依赖的jar hamcrest core 1 1 jar 添加后
  • vue判断undefined_这几个小技巧,让你书写不一样的Vue!

    前言 最近一直在阅读Vue的源码 发现了几个实战中用得上的小技巧 下面跟大家分享一下 同时也可以阅读我之前写的Vue文章 vue开发中的 骚操作 挖掘隐藏在源码中的Vue技巧 抽丝剥茧般的阅读源码 将 nextTick 拉下神坛 隐藏在源码
  • Spring框架之AOP详解

    Spring AOP 理论 AOP 灵魂三问 AOP的一些术语概念 Spring AOP 底层实现 五种通知形式 实现 如何写切面类 具体举例 理论 AOP 灵魂三问 1 AOP是什么 AOP中文叫做面向切面编程 为Aspect Orien
  • Spring Boot入门&整合常用框架整理丨深度好文

    一 SpringBoot简介 1 1 原有Spring优缺点分析 1 1 1 Spring的优点分析 Spring是Java企业版 Java Enterprise Edition JEE 也称J2EE 的轻量级代替品 无需开发重量级的Ent
  • Altium Designer导出STEP文件

    Tips 由于我使用的是13版本 没有高版本具有的STEP导出功能 故采用以下方式导出PCB 此种方式对元器件模型支持较差 对模型要求较高的同学 建议还是升级DXP版本 首先在PCB文件中 点击 工具 遗留工具 3D显示 在弹出的PCB3D
  • 空谱结合多标准的主动学习用于高光谱分类

    摘要 阶段1首先使用PCA降维 然后使用形态学的腐蚀膨胀方法获取一系列图像 阶段2引入了一种新的基于uncertainty diversity和聚类假设的query function 使用主动学习 介绍 降维解决了维度灾难的问题 解决样本数
  • MySQL存储引擎MyISAM和InnoDB

    1 MySQL的程序结构 2 数据库逻辑结构 1 库 属性 名称 2 表 字段 名称 属性 数据类型 约束 记录 完整的数据 3 关系 库 表 记录 记录 字段 3 物理结构 1 库 操作系统下的目录 2 表 多个文件组成 Myisam表
  • java与redis连接过程中遇到问题

    java与redis连接过程中遇到问题 文章目录 java与redis连接过程中遇到问题 前言 一 redis是什么 特征 二 命令 1 redis通用命令 String类型常见命令 Hash常用命令 List常见命令 Set常见命令 三
  • Vuejs(一):Vuejs模板语法

    Vuejs模板语法 一 vuejs介绍 二 修改webstorm为2个空格 三 插值操作 3 1 v once 3 2 v html 3 3 v pre 3 4 v cloak 四 绑定属性 v bind 4 1 v bind绑定class
  • 计算机提示由于找不到VCRUNTIME140.dll,无法继续执行代码,重新安装程序可能会解决

    vcruntime140 dll文件是一个动态链接库 是Windows操作系统中非常重要的一个动态链接库文件 用于支持使用Microsoft Visual C 编译器创建的应用程序的运行 当我们运行的软件是有C 编译器创建的程序 就需要到系
  • DHCP原理与配置+DHCP中继

    一 DHCP服务的简介 DHCP基于客户 服务器模式 当DHCP客户端启动时 它会自动与DHCP服务器通信 由DHCP服务器为DHCP客户端提供自动分配IP地址的服务 安装了DHCP服务软件的服务器称为DHCP服务器 而启用了DHCP功能的
  • 安装visual studio 2013【转】

    本文转载自 http blog csdn net tina ttl article details 51544733 1下载 visual studio ultimate 2013安装包 微软已经向MSDN订阅用户提供了Visual Stu
  • IDEA 通过svn 导入项目

    SVN 点击菜单 VCS gt Checkout from Version Controll gt Subversion
  • 嵌入式经典面试题

    文章目录 一 常见面试题 1 用预处理指令 define 声明一个常数 用以表明1年中有多少秒 忽略闰年问题 2 写一个 标准 宏MIN 这个宏输入两个参数并返回较小的一个 3 预处理器标识 error的目的是什么 4 数据声明 5 sta
  • 01 用栈实现队列(leecode 232)

    1 问题 请你仅使用两个栈实现先入先出队列 队列应当支持一般队列的支持的所有操作 push pop peek empty 实现 MyQueue 类 void push int x 将元素 x 推到队列的末尾 int pop 从队列的开头移除
  • Web_for_Pentester_I之XML attacks

    Web for Pentester是国外安全研究者开发的一款渗透测试平台 由PentesterLab出品 官方给自己的定义是一个简单又十分有效地学习渗透测试的演练平台 XML attacks通常都是通过使用XPATH来恢复XML文件的解析设
  • 搭建以图搜图检索系统

    引言 当您听到 以图搜图 时 是否首先想到了百度 Google 等搜索引擎的以图搜图功能呢 事实上 您完全可以搭建一个属于自己的以图搜图系统 自己建立图片库 自己选择一张图片到库中进行搜索 并得到与其相似的若干图片 Milvus 作为一款针