Elasticsearch系列-Elasticsearch入门教程

2023-05-16

引言

Elasticsearch是著名的开源分布式搜索和数据处理平台,是一个基于Lucene的分布式、实时、全文搜索系统,其稳定、可靠、高可用、可大规模扩展等特性,使得Elasticsearch的应用十分广泛。特别是结合Logstash、Kibana形成的ELK套件,更是在日志收集和可视化场景被大规模应用。

本文将从零开始,介绍Elasticsearch的核心概念、安装和基本使用,目标是看完本文能够快速入门Elasticsearch。

一、核心概念

索引(index)

一个索引是一些具有相似特征的文档的集合,例如一个用户信息的索引,一个学生成绩的索引,一个索引在Elasticsearch中由一个名字指定,名字由小写字母组成。


类型(type)

在一个索引中,可以定义一种或者多种类型,类型指的是一个索引上的逻辑分类,一般来说会为一组具有共同字段的文档定义类型,例如保存一个保存用户数据的索引,为会员用户创建一个类型,为普通用户创建一个类型。类型在最新版的Elasticsearch 7.X版本中已经被去掉了。


文档(document)

一个文档是以可被Elasticsearch索引的基础信息单元,文档以通用的数据交换格式JSON表示,存储于索引之中,理论上一个索引中可以存储任意多的文档。


分片(shards)

一个索引理论上可以存放任意多的文档,但是实际情况下单台服务器的容量有限,无法存放所有的数据。例如100亿的文档,单台服务器存储不下。为了解决这种情况,Elasticsearch提供了将一个索引的数据切分成多份存放到多个服务器的功能,每一份就是一个分片。
在创建索引的时候可以指定分片的数量,默认会有5个分片。一般来说指定以后不能更改(更改的代价太大),索引需要提前进行容量的规划。
分片的设计一方面让Elasticsearch具备了水平扩展的能力,另一方面多个分片可以并行提供查询和索引服务,大大提高系统的性能。


复制(replicas)

一个健壮的系统必须具备高可用性,复制就是Elasticsearch高可用性的体现。当某一个分片出现问题掉线的情况下,必须要有一个"备份"可以进行故障转移,这个备份就是"复制"分片。Elasticsearch允许对某一个主分片创建多个复制分片,默认为1个复制分片。特别需要注意的是,复制分片不能与主分片在同一个节点,否则就失去了高可用的能力。

综上,复制分片的作用:

  • 提供Elasticsearch的高可用性
  • 多个复制分片并行提供搜索功能,提升Elasticsearch的搜索能力。

集群(cluster)

Elasticsearch集群由一个或者多个节点组成,共同承担所有的数据存储和搜索功能。集群由一个唯一的名字进行区分,默认为"elasticsearch",集群中的节点通过整个唯一的名字加入集群。


节点(node)

节点是Elasticsearch集群的一部分,每个节点也有一个唯一的名称,只要多个节点在同个网络中,节点就可以通过指定集群的名称加入某个集群,与集群中的其他节点相互感知。


近实时(near real-time)

Elasticsearch从存储文档到文档可以被索引查询会存在短暂的延时,延时时间一般在1秒以内,所以是近实时的。

二、安装

2.1 下载Elasticsearch安装包

下载Elasticsearch安装包,并解压缩,本文以6.5.2版本为例。

$ wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.5.2.tar.gz
$ tar -zxvf elasticsearch-6.5.2.tar.gz

2.2 修改配置文件(可选)

修改配置文件是可选的一个步骤,只是为了向大家展示Elasticsearch一些基本的配置项,大家可以选择性配置,亦可以跳过使用默认配置。

#集群名字,elasticsearch使用集群名字来加入某一个集群,默认为elasticsearch
cluster.name: my-application
#节点名字
node.name: node-1
node.attr.rack: r1
#数据存放路径
path.data: /home/elastic/data
#日志存放路径
path.logs: /home/elastic/logs
#对外发布的IP
network.host: 192.168.56.3
#http访问的端口
http.port: 9200
#是否开启xpack安全配置
xpack.security.enabled: false
#添加跨域配置
http.cors.enabled: true

http.cors.allow-origin: "*"

2.3 修改系统参数

2.3.1 修改最大文件描述符和最大线程数配置

切换到root用户,修改/etc/security/limits.conf配置文件,添加以下内容并保存。

#添加如下内容并保存
* soft nofile 65536

* hard nofile 131072

* soft nproc 4096

* hard nproc 4096

以上的配置是因为ElasticSearch的运行对最大的文件描述符以及最大线程数有要求,默认值4096和2048太小了,若无以上配置,启动过程中会报如下错误。

max file descriptors [4096] for elasticsearch process is too low, increase to at least [65536]
[1]: max number of threads [2048] for user [elastic] is too low, increase to at least [4096]

2.3.2 修改max_map_count参数
打开/etc/sysctl.conf配置文件,添加如下内容并保存,执行sysctl -p命令生效。

vm.max_map_count=262144

以上的配置也是因为Elasticsearch对次参数有要求,设置太小启动将会报如下错误

max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]

2.3.3 关闭系统防火墙(可选)

$ systemctl stop firewalld.service
$ systemctl status firewalld.service

2.4 启动Elasticsearch

经过以上配置,就可以执行以下命令启动Elasticsearch,进入Elasticsearch根目录,执行以下命令

$ bin/elasticsearch

如果看到以下日志,代表已经正常启动

[2019-01-13T08:41:29,796][INFO ][c.f.s.h.SearchGuardHttpServerTransport] [node-1] publish_address {10.0.2.15:9200}, bound_addresses {[::]:9200}
[2019-01-13T08:41:29,796][INFO ][o.e.n.Node               ] [node-1] started

2.5 验证Elasticsearch

使用curl命令或者执行在浏览器输入如下URL,若有正常输出Elasticsearch集群信息,证明已经正常运行。

$ curl http://192.168.56.3:9200
或者
$ curl http://localhost:9200
{
  "name" : "node-1",
  "cluster_name" : "my-application",
  "cluster_uuid" : "C2ILS_NVRM-S-JPFFsHhUg",
  "version" : {
    "number" : "6.5.2",
    "build_flavor" : "default",
    "build_type" : "zip",
    "build_hash" : "424e937",
    "build_date" : "2018-06-11T23:38:03.357887Z",
    "build_snapshot" : false,
    "lucene_version" : "7.3.1",
    "minimum_wire_compatibility_version" : "5.6.0",
    "minimum_index_compatibility_version" : "5.0.0"
  },
  "tagline" : "You Know, for Search"
}

三、索引的操作

Elasticsearch提供一整套的RESTful的API用以支持各种索引、文档、搜索等操作。这里我们简单以索引的创建、查询和删除为例子来了解如何操作Elasticsearch的索引。

新建索引

使用HTTP PUT方法可以新建一个索引,如下创建一个名字为customer的索引,pretty参数表示response以方便读取的JSON格式返回。

$ curl -X PUT "localhost:9200/customer?pretty"

返回值如下,表示索引已经创建成功。

{
  "acknowledged":true,
  "shards_acknowledged":true
}

查询索引

$ curl http://localhost:9200/_cat/indices?v
health status index    uuid                   pri rep docs.count docs.deleted store.size pri.store.size
yellow open   customer IpQSnki7S1eQfYH6BgDd0Q   5   1          2            0      7.7kb          7.7kb

使用HTTP GET方法访问_cat API的indices接口可以查询到上一步中创建的索引,可以看到customer索引有5个primary分片,有1个复制分片。


删除索引

使用HTTP DELETE方法可以删除一个索引。

$ curl -X DELETE "localhost:9200/customer?pretty"

返回值如下,代表已经删除成功,也可以重新使用索引查询方法进行查询,可以发现索引已被删除。

{
  "acknowledged": true
}

四、文档的操作

Elasticsearch对于文档的操作也包括了一系列的_doc API,我们这里同样使用Document的增删改查为例来讲解如何操作Document(尝试这一步之前前面创建的索引不能删除)

创建文档

使用HTTP PUT方法可以新增一个Document,如下指定Document ID为1创建Document

$ curl -X PUT "localhost:9200/customer/_doc/1?pretty" -H 'Content-Type: application/json' -d'
{
  "name": "Liu Jintao"
}
'

返回值如下,代表已经成功创建了文档。

{
  "_index": "customer",
  "_type": "_doc",
  "_id": "1",
  "_version": 2,
  "result": "updated",
  "_shards": {
    "total": 2,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 1,
  "_primary_term": 2
}

查询文档

使用HTTP GET方法,通过Document ID查询Document

$ curl -X GET "localhost:9200/customer/_doc/1?pretty"

返回值如下,可以发现实际存储的内容放在了source字段。

{
  "_index": "customer",
  "_type": "_doc",
  "_id": "1",
  "_version": 2,
  "found": true,
  "_source": {
    "name": "Liu Jintao"
  }
}

修改文档

使用HTTP POST请求修改一个Document,例如将上面创建的Document name的值改为“Test Name”

$ curl -X POST "localhost:9200/customer/_doc/1/_update?pretty" -H 'Content-Type: application/json' -d'
{
  "doc": { "name": "Test Name" }
}
'

返回值如下,可以发现_version字段的值已经改变了,证明我们的更新成功了,也可以使用查询API重新查询确认。

{
  "_index": "customer",
  "_type": "_doc",
  "_id": "1",
  "_version": 3,
  "result": "updated",
  "_shards": {
    "total": 2,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 2,
  "_primary_term": 2
}

删除文档

使用HTTP DELETE方法可以删除一个Document

$ curl -X DELETE "localhost:9200/customer/_doc/1?pretty"

返回值如下代表删除成功

{
  "_index": "customer",
  "_type": "_doc",
  "_id": "1",
  "_version": 4,
  "result": "deleted",
  "_shards": {
    "total": 2,
    "successful": 1,
    "failed": 0
  },
  "_seq_no": 3,
  "_primary_term": 2
}

五、数据搜索

数据搜索是Elasticsearch的重头戏,与Document、Index一样,Elasticsearch有一套专门的_search API来支持搜索功能。数据搜索基本使用HTTP GET方法,一般有两种方式:

  • 使用Request URI,将查询参数放到URI上

  • 使用Request Body,将查询参数放到Request Body下(推荐)


方式一

使用_search API,q=*代表查询customer索引下所有的Document

$ curl -X GET "localhost:9200/customer/_search?q=*&pretty"

返回值如下,_shards.total代表总共5个分片,_shards.successful为5代表5个分片全部成功进行了查询,hits段代表查询的结果,hits.total为1代表符合条件的Document数量为1。

{
  "took": 17,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 1.0,
    "hits": [
      {
        "_index": "customer",
        "_type": "_doc",
        "_id": "2",
        "_score": 1.0,
        "_source": {
          "name": "Liu jintao"
        }
      }
    ]
  }
}

方式二

使用Request Body的方式进行查询,使用query参数,匹配条件为match_all,结果与上一步的查询结果一致,不再赘述。
这种查询方式使用的是Elasticsearch的 query DSL语法,后续文章会详细讲解这种语法。

$ curl -X GET "localhost:9200/bank/_search?pretty" -H 'Content-Type: application/json' -d'
{
  "query": { "match_all": {} }
}
'

更多内容

  • 博客 : http://blog.liujintao.tech
  • 公众号: 编程之路
    编程之路
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Elasticsearch系列-Elasticsearch入门教程 的相关文章

  • 场景文本识别应用自然语言处理的方法综述(2021年)

    诸神缄默不语 个人CSDN博文目录 本文是场景文本识别领域应用自然语言处理方法的前沿技术综述 改自作者2021年末交的工程前沿技术讲座课程大作业 xff08 另一门课程计算机视觉的大作业也是在此文基础上改进的 xff09 xff08 看作者
  • linux下安装node和npm

    linux下安装node和npm 1 打开linux的命令窗口 xff0c 进入根目录 cd 2 使用wget命令下载node包 注 xff1a 这里作者下载的是16 14版本的node xff0c 如果有需要可以直接更换制定版本的node
  • Xcode 升级后,常常遇到的遇到的错误解决方法

    1 xff0c 错误信息 xff1a 34 OBJC CLASS xxxxx 34 referenced from objc class ref in ViewController o ld symbol s not found for a
  • OpenCore介绍

    一 OpenCore简介 OpenCore是Android的多媒体核心 xff0c 采用C 43 43 实现 xff0c 定义了全功能的操作系统移植层 xff08 OSCL xff09 xff0c 各种基本的功能均被封装成类的形式 xff0
  • 《C++0x漫谈》系列之:Concept, Concept!

    C 43 43 0x 漫谈 系列之 xff1a Concept Concept By 刘未鹏 pongba C 43 43 的罗浮宫 http blog csdn net pongba C 43 43 0x 漫谈 系列导言 这个系列 其实早
  • 【Ubuntu】通过换源解决Ubuntu软件安装的问题(注意Codename的变化)

    通过换源解决Ubuntu软件安装的问题 前言一 查看Ubuntu系统版本号 xff08 官方语言系统代码 xff09 二 给apt install换源1 备份sources list2 编辑sources list3 apt get 检查更
  • conda install遇到condahttperror问题——代理

    如上图 xff0c 无论wget 还是conda install均出现以上提示 xff0c 换了各种conda源也无法解决 其中注意10 19 110 31 xff0c 发现是代理问题 查看proxy xff1a env grep i pr
  • 维普下载论文

    前几天还在感叹没有网站提供论文评论 现在发现维普已经提供论文评论 并且评论的东西都可以积分 积分之后可以下载论文 推荐论文让别人点击也可以增加积分 是个不错的计划
  • CentOS7 关闭防火墙

    CentOS6关闭防火墙使用以下命令 xff0c span class hljs comment 临时关闭 span service iptables stop span class hljs comment 禁止开机启动 span chk
  • 告别我的2016

    又过了一年 xff01 xff01 xff01 每一年都会因为所经历的不同 xff0c 收获也不同 在过去的2016年 xff0c 回想自己在工作上好像没有做多少事情 xff0c 却也有不一样的收获 2016年2月份 xff0c 刚过来春节
  • 判断某个月份是否在给定的月份区间内

    判断某个月份是否在给定的月份区间内 输入 指定月份 xff1a m m m 月份区间 xff1a m 1 m 1
  • 数据清洗

    1 概念 数据清洗 xff1a 把脏数据清洗掉 xff0c 提高数据质量 Data cleansing Data cleaning Data scrubbing三种表达方式都可以 xff0c 意思都是检测和去除数据集中的噪声数据和无关数据
  • 联想H61主板升级BIOS,支持nvme硬盘

    本教程升级有一定风险 xff1a 请阅读文章最后的 遗憾 部分接受再升级 最近因为手上有一台联想的i7 2600主机 xff0c 他的主板是H61的 xff0c 正好看见pcie接口空着 xff0c 在网上看见有人用它升级了拜滕的存储芯片
  • armv8 摘要

    作者 xff1a 蜗蜗 发布于 xff1a 2015 7 7 22 31 分类 xff1a ARMv8A Arch 1 前言 ARMv8 xff08 当前只有A系列 xff0c 即ARMv8 A xff09 架构 xff0c 是ARM公司为
  • android 绘制过程摘要

    1 没有硬件加速的UI绘制过程 xff1a 在Android应用程序进程这一侧 xff0c 每一个窗口都关联有一个Surface 每当窗口需要绘制UI时 xff0c 就会调用其关联的Surface的成员函数lock获得一个Canvas xf
  • opengl 摘要

    一 创建opengl工程 1 第一步设置像素格式 如支持双缓冲 xff0c 设置颜色模式 xff0c 如是rgba xff0c 还是颜色索引 xff08 需调色板 xff09 xff0c 设置模板缓冲区的特征值 2 第二步创建绘制环境 且自
  • Watchdog

    一 简介 软件狗 类似硬件狗 xff0c 硬件狗是被动等 喂 xff0c 系统主要线程主动调用硬件接口 xff0c 告诉系统本线程是正常的 但android 这种framework层中的软件狗本身是一个线程 xff0c 会主动询问系统关键线
  • android Binder 学习

    一 面向过程调用与面向对象调用的区别 1 面向过程调用同一时刻只能服务一个客户 xff0c 而且该过程必须具有锁功能 xff0c 如果有其他客户想要访问 xff0c 则需要等待前一客户完成操作 2 面向对象则能同时服务多个客户 xff0c
  • QEMU KVM 虚拟机移植之性能提高篇小结(android 虚拟机双系统方案)

    一 提升性能核心要素 1 将 OPENGL 接口进行穿透调用 xff0c 下面对opengl穿透做个小结 2 在arm开发板上打开kvm特性 xff0c 这个qcom amp mtk都是实现了的 xff0c 只需要打开开关即可 二 ANDR
  • android 系统基础知识

    一 Activity 启动模式 Activity有四种启动模式 xff1a standard singleTop singleTask singleInstance 可以在AndroidManifest xml中activity标签的属性a

随机推荐

  • android 内存管理概要

    一 zram zram swap 主要原理就是从内存分配一块区域出来用作 swap 分区 xff0c 每次如果内存空间不够了 xff0c 不是把应用程序杀掉 xff0c 而是把应用程序所占用的内存数据复制到 swap 分区 xff0c 等切
  • python统计从1970/1/1 08:00:00到某个时刻的总秒数

    使用场景 xff0c 比如需要从一堆文件中 xff0c 选出时间属性在2017年12月13日00 00 00以后的所有文件 span class token keyword import span os statinfo span clas
  • art知识简要概括

    一 GC分类 1 kGcCauseForAlloc 当没有足够的内存分配时触发 2 kGcCauseBackground 当已使用的内存超过最大值时触发 3 kGcCauseExplicit 当使用System GC时触发 二 GC守护线程
  • SEAndroid 知识点

    一 DAC 1 自主访问控制 Linux上的安全模型叫DAC xff0c 进程的权限与执行它的用户的权限一致 xff0c file针对所有者 所有者组 其他用户制定相关权限 二 MAC 1 强访问控制 SELinux上的安全模型叫MAC x
  • Cgroup 理解

    一 综述 1 cgroup 可以控制进程组的资源 xff08 cpu memory i o等 xff09 2 cgroup 采用树型结构来控制进程组的资源 3 cgroup 利用资源子系统来分割资源 4 cgroup 是lxc xff0c
  • namespace 理解

    当调用clone时 xff0c 设定了CLONE NEWPID xff0c 就会创建一个新的PID Namespace xff0c clone出来的新进程将成为Namespace里的第一个进程 一个PID Namespace为进程提供了一个
  • Bionic 学习

    一 基本概况 1 不与其他libc库兼容 xff0c 有自己的动态链接器 linker 2 不支持c 43 43 异常抛出 3 一共有libc xff08 c基础库 xff09 libm xff08 数学库 xff09 libdl xff0
  • 基于容器原理(docker、lxc、cells)的Android 双系统设计概要

    写在前面 前几年预研加开发android双系统 xff0c 中途用过不少开源代码或者研读过大牛BLOG xff0c 现开放双系统设计原理来回报社区 android容器技术已在android 6 7 8 9 10 11 12 13版本中分别实
  • Android手机可信引导解决方案

    1 概述 Android手机的可信引导过程 xff0c 主要分为三部分 xff0c lk的可信 xff0c boot的可信 xff0c 和system的可信 xff1b 系统上电到lk的启动过程验证 因为和硬件联系紧密 xff0c 基本都由
  • Android智能手机安全解决方案

    1 终端安全解决方案全景 1 1 Android系统框架预览 此外 xff0c 鉴于许多硬件厂商不希望公开其设备驱动程序 xff0c GOOGLE在运行时库层对下屏蔽实现细节 xff0c 对上提供统一接口增加了硬件抽象层 1 2 Andro
  • EFI secure boot

    一 EFI secure boot 是EFI BIOS中的一个子标签 xff0c 同时EFI BIOS提供证书管理功能 xff0c 系统可以同时拥有多个证书供用户选择 EFI只能执行经过正确签名的固件 EFI 证书种类比较多 xff1a P
  • TPM2.0读书笔记

    三种关联性技术 1 Intel TXT技术 2 TrustZone技术 3 AMD PSP技术 TPM实体 1 持久性hierarchy TPM RH PLATFORM 平台 TPM RH OWNER 存储 TPM RH ENDORSEME
  • 适用各种语言的字符串jaccard相似度的计算

    要计算两个文本的相似度 xff0c 现在可能大多会通过相似度模型来计算 xff0c 或者是通过embedding向量来计算 但可解释性差一些 xff0c 有些情况下 xff0c 可能直接用两个文本共同的字符数来计算更直观一些 Jaccard
  • windows下PowerShell别名使用

    个人在windows下习惯用PowerShell替代CMD作为命令行工具 如何自定义命令来提高生产力呢 xff1f linux中有alias工具 xff0c 如 span class token builtin class name ali
  • Linux

    Linux 1 计算机硬件体系 1 1冯诺依体系 由运算器 控制器 存储器 输入设备和输出设备五部门组成 顺序执行程序 计算机处理数据和指令一律用二进制表示 1 2硬件组成 存储器 随机存储内存RAM xff0c 内存 xff0c 逻辑IO
  • c++ threadpool.h

    threadpool h include lt pthread h gt include lt semaphore h gt include lt iostream gt include lt vector gt using namespa
  • java从http url下载文件的简单方法

    br br import java io File br import java net URL br br import org apache commons io FileUtils br br public class Downloa
  • idea运行Sparkstreaming读取hdfs文件遇到的问题

    先贴代码 idea中运行SparkStreaming时 xff0c 动态添加文件至指定目录下 xff0c 结果没有任务信息输出 问题原因 xff1a idea所在主机时间和hdfs集群时间不同步 代码中指定的hdfs目录为非空 启动之前已经
  • [HDU1085][HDU1028][HDU2013] 组合数学入门(母函数、递推)

    先来说一说母函数 xff0c 今天是第一次学 杭电关于母函数的PPT感觉不错 xff0c 挺适合入门看看的 什么是母函数 xff1f 对于序列a0 xff0c a1 xff0c a2 xff0c 构造一函数 xff1a G x 61 a0
  • Elasticsearch系列-Elasticsearch入门教程

    引言 Elasticsearch是著名的开源分布式搜索和数据处理平台 xff0c 是一个基于Lucene的分布式 实时 全文搜索系统 xff0c 其稳定 可靠 高可用 可大规模扩展等特性 xff0c 使得Elasticsearch的应用十分