使用 Elasticsearch 搜索 Mysql 表

2024-03-10

假设我有以下“费用”MySQL 表：

id	amount	vendor	tag
1	100	google	foo
2	450	GitHub	bar
3	22	GitLab	fizz
4	75	AWS	buzz

我正在构建一个 API，该 API 应根据部分“供应商”或“标签”过滤器返回费用，因此供应商 =“Git”应返回记录 2 和 3，标签 =“zz”应返回记录 3 和 4。我正在考虑利用elasticsearch 功能，但我不确定正确的方法..
我读过的大多数文章都建议将表记录（使用logstash管道或其他方法）复制到弹性索引。

那么我的 API 甚至不查询数据库并直接从 ES 返回文档数组？

这被认为是好的做法吗？将整个表复制到弹性表中？表关系怎么样...如果我想按嵌套表关系过滤怎么办？...

所以我的 API 甚至不查询数据库并返回文档数组直接来自ES？

是的，当您对 Elasticsearch 进行查询时，您只会从 Elasticsearch 获得结果。另一种方法是，从 Elasticsearch 获取 id 并使用 id 从 MySQL 检索文档，但这可能会影响响应时间。

这被认为是好的做法吗？将整个表复制到松紧带？那么表关系呢...如果我想过滤的话怎么办嵌套表关系？...

这不是关于好的实践或坏的实践，而是关于您想要实现什么类型的功能和用例，以及基于该技术堆栈可以使用并且可以复制数据。有很多公司使用 Elasticsearch 作为secondary他们拥有重复数据的数据源只是因为他们的用例最适合 Elasticsearch 或其他 NoSQL 数据库。

Elasticsearch 是 NoSQL DB，它不维护数据之间的任何关系。因此，您需要在索引到 Elasticsearch 之前对数据进行标准化。你可以阅读this https://spoon-elastic.com/all-elastic-search-post/simple-elastic-usage/denormalize-index-elasticsearch/文章了解有关数据标准化以及为什么需要它的更多信息。

ElasticSearch提供Nested https://www.elastic.co/guide/en/elasticsearch/reference/current/nested.html and Join https://www.elastic.co/guide/en/elasticsearch/reference/current/parent-join.html父子关系的数据类型，但两者都有一些限制和性能影响。

以下是他们提到的内容join字段类型：

连接字段不应该像关系数据库中的连接那样使用。在 Elasticsearch 良好性能的关键是对数据进行非规范化到文档中。每个连接字段，has_child or has_parent查询添加了一个对您的查询性能产生重大影响。还可以触发全局要构建的序数。

以下是他们提到的内容nested字段类型：

当摄取具有大量任意键集的键值对时，您可以考虑将每个键值对建模为其自己的嵌套文档与key and value字段。相反，请考虑使用flattened数据类型，它将整个对象映射为单个字段，并且允许对其内容进行简单搜索。嵌套文档和查询通常很昂贵，因此使用flattened数据类型为这个用例是一个更好的选择。

我读过的大多数文章建议复制表记录（使用 Logstash 管道或其他方法）到弹性索引。

是的，您可以使用logstash或任何语言客户端喜欢java, python等，将数据从 DB 同步到 Elasticsearch。你可以检查this https://stackoverflow.com/a/37309866/5489276所以回答有关此的更多信息。

您的搜索要求

如果您继续使用 Elasticsearch 那么您可以使用N-Gram 分词器 https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-ngram-tokenizer.html or 正则表达式查询 https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-regexp-query.html并达到您的搜索要求。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Elasticsearch 搜索 Mysql 表的相关文章

显示不同表中的名称而不是 ID

我有 2 张桌子 Category带主键ID和列Name Employee带主键ID和列Category id Note Category id现在显示ID正确地我想展示Name代替ID对于输出Employee Attempt categ
查找返回的 mysql 结果中的行数（nodejs）

当使用 felixge 的 mysql for node js 时如何向结果对象询问返回的行数我有一个相当昂贵的查询所以我不想运行COUNT 首先只是为了第二次运行查询如果是选择查询则只需获取返回数组的长度即可 connecti
如何提高MySQL INSERT和UPDATE性能？

我们数据库中的 INSERT 和 UPDATE 语句的性能似乎正在下降并导致我们的 Web 应用程序性能不佳表是InnoDB 应用程序使用事务我可以做一些简单的调整来加快速度吗我认为我们可能会遇到一些锁定问题我怎样才能找到答案你
将数据插入多个表 PHP MySQL

我有一个用于存储食谱的基本数据结构它由三个表组成如下所示表 1 食谱 recipe id recipe name 表 2 成分成分 ID 成分名称表 3 配方成分配方 id 成分 id 我在添加新配方时遇到问题想知道插入的最
可能的 PDOException 错误（MySQL 5）？

因此我正在为我的网络应用程序设置一个安装程序并具有数据库凭据的输入字段我的验证过程的一部分包括测试数据库连接使用 PHP 的 PDO 库如果连接失败我希望能够区分错误的密码错误的地址不存在的数据库名称等以便我可以引用表单上
如何在 WHERE 子句中最佳地使用 COALESCE() ？

这是我的查询 select coalesce qa2 subject qa subject as question subject qa body select count from viewed items vi where coales
将数组写入文件的最佳方法？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我想避免写入数据库并使用常量数组作为 lang 文件等 i e lang array hello gt hello world 并能够从后台编
数据库镜像/Postgres流复制

我不是 DBA 我是基于企业数据库的应用程序的主要开发人员我目前正在指定一些新机器来升级我们现有的企业数据库目前我们在 DR 站点上运行带有数据库的 Postgres 8 4 该数据库通过前员工执行的一些自定义 rsync 工作定期接
选择特定值之后的项目

说这是我的sql SELECT title author ISBN FROM bs books ORDER BY ISBN LIMIT 3 它只是从某个表中选择所有内容标题作者等假设我想选择某个标题后面的所有项目而不是按字母顺序或其
如何使用 django-haystack 和 elasticsearch 后端进行模糊搜索？

看起来好像elasticsearch支持模糊查询 http www elasticsearch org guide reference query dsl fuzzy query http www elasticsearch org gui
PHP-MySQL 或 MySQLi 中哪个最快？

我想知道是否有人对这种二分法有任何第一手经验一些博客说 mysql 扩展比 mysqli 更快这是真的我只是问速度我知道 mysqli 具有旧扩展中不存在的功能在我看到的大多数基准测试中 MySQL 扩展比 MySQLi 稍快一些
未捕获的类型错误：$.ajax 不是函数

我正在制作一个带有排行榜表的小型游戏项目我正在尝试使用 jQuery ajax 和 PHP 从 mysql 数据库获取排行榜以显示但它给了我一条错误消息我的语法看起来不错所以我不确定问题是什么 leader btn click fu
如何在java中执行复合sql查询？

如何执行以下查询并通过准备好的语句检索结果 INSERT INTO vcVisitors sid VALUES SELECT LAST INSERT ID 有没有办法同时执行这两个语句我尝试执行以下操作 Connection con Db
如何编写Elasticsearch多个必须脚本查询？

我想使用查询来比较多个字段我有字段 1 到 4 我想搜索字段 1 大于字段 2 的数据并且下面的查询工作正常 size 0 source field1 field2 field3 field4 sort query bool filte
将附加数据获取到 django 表单下拉选择中

我有一个具有外键的操作模型它指定操作重复发生的频率 class Reoccurance models Model label models CharField Label max length 50 unique True days mo
ElasticSearch 嵌套查询 - 排除父文档

尝试排除其中子文档之一与查询不匹配的顶级文档对于下面的示例我尝试排除其嵌套作业之一具有的所有文档current true 并与company name Elastic 但由于嵌套作业文档之一与current false和公司name E
C# Elasticsearch NEST 无法转换 lambda 表达式

我遇到了与此处描述的完全相同的问题但未得到解答 ElasticSearch NEST 搜索 https stackoverflow com questions 24615676 elasticsearch nest search I us
MySQL 将前导数字添加到列中的现有 ID

我有一个名为country id的mysql数据库列例如 country id 1 2 59 435 2714 我现在想要完成的是将前导零添加到每个 ID 因此结果将是 country id 0001 0002 0059 0435 271
MySQL 中两个 Select 查询的结果相减

我编写了两个 mysql 查询一个获取一年中特定月份的总用户注册另一个获取一年中特定月份的活跃用户我需要找到数量inactive当年的用户为此我正在考虑减去通过两个单独的查询获得的总用户数和活动用户列以下是查询 1 Fetch
如何在不更改设置的情况下不区分大小写排序

我的索引名称是 data new 下面是插入索引的代码 test id 1 name A professor Bill Cage accounting id 2 name AB professor Gregg Payne engineeri

随机推荐

记住在客户端独立应用程序中输入的值

我们有一个独立的 java swing 应用程序用户可以通过提供打印机的 IP 在打印机上打印他画的东西现在的要求是应用程序需要记住该用户上次给出的ip 到目前为止我能想到的是尽管是一个残酷的在客户端计算机上保留日志文件类型的存储
在 os.listdir(path) 中使用文件扩展名通配符

我有一个正在尝试使用 Python 解析的文件目录如果它们都是相同的扩展名我不会有问题但无论出于何种原因它们都是在原始扩展名之后使用顺序数字扩展名创建的例如 foo log foo log 1 foo log 2 bar log
从接收到的数据存储过程填充自定义 C# 对象

public class User public string FirstName get set public string LastName get set public class Address public string City
未找到扩展 CordovaActivity 的 Java 文件。当使用“cordova构建”时

我的电脑是Windows 8 64位我为我的项目安装了cordova和android平台我已经通过输入创建了我的项目cordova create hello com example hello HelloWorld and cordov
当同一组中的另一个任务先前失败时，任务组中的任务不会收到取消状态

我发现当任务组中的任何任务因错误而失败时任务取消状态不会传播在我的示例中两个长时间运行的异步操作同时启动这1st一个持续3sec并失败了这2nd一个持续6sec并成功完成两项任务均检查Task isCancelled完成前的状态
临时绑定到聚合初始化结构成员的生命周期

给出以下代码 class foo class bar public foo public bar printf bar n class zab public foo public zab printf zab n struct foo ho
React Router v4 用于表单

我该如何使用 with a
将 AppCompat 库更新为 appcompat:1.1.0-alpha03 区域设置配置不再起作用

更新后 implementation androidx appcompat appcompat 1 1 0 alpha02 to implementation androidx appcompat appcompat 1 1 0 alpha
Windows 上的 Chrome 在下载的文件中添加尾随下划线？

我遇到了一个相当奇怪的情况我很难在现有的 Django 应用程序中进行追踪当用户进行 POST 调用时继承自 APIView 的视图之一会返回一个文件端点工作正常但当下载的文件到达客户端计算机时会发生一些奇怪的情况当浏览器收到
C# 任何函数作为参数

是否可以创建一个采用任何方法无论其参数如何作为参数的方法该方法还将有一个params参数然后获取参数方法的所有参数所以基本上我想要的是这样的 public void CallTheMethod Action
如何用“搜索”按钮替换谷歌自定义搜索引擎的放大镜？

我正在使用 GCSE 的基本代码和标准紧凑主题
Netbeans IDE 项目窗口中的跟踪文件

刚刚开始使用 NetBeans 8 0 2 想知道 IDE 是否具有与 Eclipse 或 Visual Studio 类似的功能在项目资源管理器中跟踪当前文件在处理大型项目时打开大量文件如果我想导航到项目窗口中的当前文件这会变得
可以在 Javascript 中同步检查 Firebase 3 身份验证状态吗？

目前我的应用程序正在利用授权状态更改回调来指示在我的应用程序中的授权部分和主页部分之间移动注意我没有使用 AngularFire 在 Firebase 3 中有firebase auth currentUser但是如果 fireba
RESTful系统中一次请求多条记录

我见过的有关 RESTful 架构的所有示例都处理单个记录例如一个 GET 请求mydomain com foo 53获取 foo 53 或 POST 到mydomain com foo创建一个新的 Foo 但如果有多条记录呢能够通过
Nodemon 和/或使用 Node-React Web 应用程序进行热重载

在使用 webpack 配置 Web 应用程序以创建最佳开发体验方面我还很陌生我参加了两门不同的 Node React 课程一门我们使用 nodemon 来跟踪更改另一门我们实现热重载当涉及到这两种依赖关系时是一个还是另一个呢
在 C# 中使用 Marshal.StructureToPtr 将结构传递给 C++ API

我在我的代码中使用用 C 编写的 API 用 C 编写 API 需要一个参数作为结构指针该结构由 Int 和 Char 数组组成例如 unsafe public struct ToBePassed Int32 Num1 Int32 Nu
如何使用Python ping ip并仅获取Tk中的ms？

我想制作一个小 tk 应用程序连续 ping 一个 ip 并且只显示 MS 例如 10ms 我该怎么办如果您想使用 Windowsping 您必须解析命令行的输出这是非常具体的但应该有效 import os while 1 ping
转换 Java 函数式接口

一如既往我浏览 JDK 8 源代码并发现了非常有趣的代码 Override default void forEachRemaining Consumer
手动创建 Git 分支

如果我理解分叉它在概念上涉及以下步骤将源存储库镜像克隆到目标存储库在目标存储库上设置上游远程指向源存储库其他一些东西例如电子邮件订阅等对于这个问题并不重要它是这样的 Original lt upstream Forked
使用 Elasticsearch 搜索 Mysql 表

假设我有以下费用 MySQL 表 id amount vendor tag 1 100 google foo 2 450 GitHub bar 3 22 GitLab fizz 4 75 AWS buzz 我正在构建一个 API 该 AP

使用 Elasticsearch 搜索 Mysql 表

使用 Elasticsearch 搜索 Mysql 表 的相关文章

随机推荐

热门标签

使用 Elasticsearch 搜索 Mysql 表的相关文章