如何在 ElasticSearch 中基于正则表达式过滤令牌

2024-04-02

对于 ElasticSearch 查询，我们希望以不同的方式处理单词（即仅由字母组成的标记）和非单词。为此，我们尝试定义两个分析器，返回单词或非单词。

例如，我们有描述五金店产品的文档：

{
    "name": "Torx drive T9",
    "category": "screws",
    "size": 2.5,
}

然后，用户将搜索“Torx T9”并期望找到此文档。搜索 T9 会过于通用，并且会提供太多不相关的产品。因此，如果我们已经找到“Torx”，我们只想搜索“T9”术语。

我们尝试创建一个这样的查询

{
    "query": {
        "bool": {
            "must": {
                "match: {
                    "name": {
                    "query": "Torx T9",
                    "analyzer": "words"
                 }
             },
            "should": {
                "match: {
                    "name": {
                    "query": "Torx T9",
                    "analyzer": "nonwords"
                 }
             }
         }
     }
}

这个想法是创建令牌过滤器来完成此操作会很简单。例如：

"settings": {
  "analysis": {
     "filter": {
        "words": {
           "type": "pattern",
           "pattern": "\\A\\p{L}*\\Z",
        },
        "nonwords": {
            "type": "pattern",
            "pattern": "\\P{L}",
        }
    }
}

但似乎没有一个过滤器只是匹配模式。相反，我们（ab）使用pattern_replace过滤器：

"settings": {
  "analysis": {
     "filter": {
        "words": {
           "type": "pattern_replace",
           "pattern": "\\A((?=.*\\P{L}).*)",
           "replacement": ""
        },
        "nonwords": {
            "type": "pattern_replace",
            "pattern": "\\A((?!.*\\P{L}).*)",
            "replacement": ""
        },
        "nonempty": {
            "type": "length",
            "min":1
        }
    }
}

这会将不需要的标记替换为空标记，然后可以通过非空过滤器将其删除。这似乎可行，但所需的模式更加模糊。

有没有更好的方式来表达这一点？

你可以试试查询字符串查询 https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-query-string-query.html根据您的要求，default_operator 为“AND”。

例如，考虑您正在索引两个字符串“Torxdrive T9”和“SquaredriveT9”。如果您使用空白分词器 https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-whitespace-tokenizer.html对于索引，字符串将被分析为以下标记

第一个文件：torx, drive and t9.
第二份文件：square, drive and t9.

然后使用查询字符串查询与默认运算符 AND 匹配文档将产生预期结果。

样本映射

{
  "settings": {
    "analysis": {
      "analyzer": {
        "whitespace": {
          "type": "pattern",
          "pattern": "\\s+"
        }
      }
    }
  },
  "mappings": {
    "my_type": {
      "properties": {
        "name": {
          "type": "string",
          "analyzer": "whitespace"
        }
      }
    }
  }
}

示例查询

{
   "query": {
    "query_string": {
       "default_field": "name",
       "query": "Torx T9",
       "default_operator": "AND"
        }
     }
 }

仅当两者都满足时此查询才会产生结果torx and t9文档中给出。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

如何在 ElasticSearch 中基于正则表达式过滤令牌的相关文章

Elasticsearch - 如何获取文档的流行词列表

我有一个临时索引其中包含我需要审核的文档我想按这些文档包含的单词对它们进行分组例如我有这些文件 1 aaa bbb ccc ddd eee fff 2 bbb mmm aaa fff xxx 3 hhhh aaa fff 所以我想
Elasticsearch 通过另一个文档查找文档

我想在elasticsearch中搜索与id docId给定文档具有完全相同字段的文档例如用户使用 docId 调用 api 我想过滤文档以便返回的所有文档都满足 docId 中的某些参数例如我可以像这样查询 Elasticsear
Django-Haystack 使用具有 IAM 凭证的 Amazon Elasticsearch 托管

我希望使用 Amazon 的 Elasticsearch 服务器来支持 Django 数据库中长文本字段的搜索然而我也不想将此搜索暴露给那些没有登录并且不想通过模糊或某些 IP 限制策略来依赖安全性的人除非它可以很好地与现有的 her
在 Elasticsearch 中过滤折叠结果

我有一个弹性搜索索引其中包含表示给定时间点实体的文档当实体更改状态时会创建带有时间戳的新文档当我需要获取所有实体的当前状态时我可以执行以下操作 GET https 127 0 0 1 9200 myindex search col
如何按单个字段对 Elasticsearch 中的文档进行分组？

如果我在elaticsearch中有一堆文档我想按文档的一个字段分组返回我该怎么做我还需要它始终返回固定数量的结果使用 set maxresults 例如如果我有一堆文档每个文档代表一个人并且文档的字段包含该人的属性假设每个
范围过滤器不适用于“gt”运算符，但适用于“lt”

我正在使用弹性搜索来索引我的文档并希望根据特定属性过滤文档这是我的代码 filter push range audience ethnicity asian gt 50 它不适用于 gt 运算符发回不一致的结果但适用于 lt 运算符
elasticsearch中@timestamp和timestamp字段的区别

当我使用日志存储向弹性搜索记录一些请求时它将 timestamp 字段作为时间当我使用 NEST 记录这些请求并设置时间戳字段时它会放置时间戳字段当我使用 kibana 查看数据时这两个字段具有单独的名称他们之间有什么区别 ti
在elasticsearch中截断索引

等效操作是什么elasticsearch为了做 TRUNCATE mytable 我要截断的索引称为 myindex 换句话说在操作之后我希望索引 myindex 中有零个文档您需要删除索引然后重新创建它虽然这需要您再次设置映射
如何在 Elasticsearch NEST 中序列化 JToken 或 JObject 类型的属性？

我正在将 Elasticsearch 引入 C API 项目我想利用现有的 API 模型作为搜索文档其中许多模型允许添加自定义数据点这些是使用JObject https www newtonsoft com json help htm
AWS Elasticsearch 和 CORS

我正在试用 AWS Elasticsearch 服务 https aws amazon com elasticsearch service https aws amazon com elasticsearch service 设置非常简单
将 pandas 数据框索引到 Elasticsearch 中，无需使用 elasticsearch-py

我想将一堆大型 Pandas 数据帧大约数百万行和 50 列索引到 Elasticsearch 中在寻找如何执行此操作的示例时大多数人会使用elasticsearch py 的批量辅助方法 https elasticsearch p
如何用Python为ElasticSearch创建只读客户端？

我想从 ES 读取数据但不想意外向其中写入数据无索引操作这只是一种安全措施以便以后修改查询函数的其他人不允许插入数据当你说你想要只读客户端时客户端强调您系统中的同一集群可能有其他客户端然后阻止整个索引为只读将会阻止所有客户端的
Elasticsearch批量设置_id

当我使用 id 设置将文档添加到 elasticsearch 时我得到 Field id is a metadata field and cannot be added inside a document Use the index AP
ElasticSearch：对聚合键进行排序，不区分大小写，并保持键的大小写

我想从汽车中获得不同的制造值并且制造值应该不区分大小写地按升序排序我使用的是elasticsearch版本2 4 4 颜色和制作字段的映射 color type string fields keyword type string ind
Elasticsearch 对字符串排序未返回预期结果

当对包含多个单词的字符串字段进行排序时 Elasticsearch 会拆分字符串值并使用最小值或最大值作为排序值即当对值为老虎之眼的字段进行升序排序时排序值为 Eye 当按降序排序时排序值为 Tiger 假设我的索引中有老虎之
在ElasticSearch中搜索没有时间的日期字段值

我的数据中有一个日期字段为 type date format dateOptionalTime 现在我的日期字段和值是 INITIAL EXTRACT DATE 2015 04 02T06 47 57 78 05 30 在搜索时我仅根据
Python elasticsearch DSL 聚合/每个文档嵌套值的度量

我试图找到 2 级嵌套中的最小值每个文档单独的最小值到目前为止我能够进行聚合计算搜索结果中所有嵌套值的最小值但无需按文档进行分隔我的示例架构 class MyExample DocType myexample id Intege
在 Elasticsearch 中对具有一个值的属性进行多个值查询

我正在尝试在这个查询的基础上进行一些构建我正在搜索的索引还有一个带有 id 的实体字段因此一些记录将具有实体 16 实体 156 等具体取决于实体的 ID 我需要以这样的方式扩展此查询以便可以传递数组或某些值列表例如 te
ElasticSearch 多滚动 Java API

我想从索引中获取所有数据由于项目数量对于内存来说太大我使用滚动很好的功能 client prepareSearch index setTypes myType setSearchType SearchType SCAN setScro
全文搜索 DynamoDB

以下情况我正在为我的客户将元素存储在 DyanmoDb 中 HashKey 是元素 ID Range Key 是客户 ID 除了这些字段之外我还存储一个字符串数组 gt 标签例如 Pets House 和多行文本我想在我的应用程序中

随机推荐

BLE MTU 更高但速度相同

我正在 iOS 7 中使用 CoreBluetooth 并成功地让两个设备在彼此之间发送大量数据一个是中央设备一个是外围设备在 iPhone 5 和 4S 之间我的 MTU 为 20 字节在 iPhone 5s 和 iPhone
time_ago_in_words问题

我刚刚使用 time ago in words 遇到了一个问题出于某种原因发表帖子后我得到了 translation data one gt 1 minute other gt count minutes can not be use
有没有什么方法可以检测Android日历视图中的月份变化（即当用户将日历更改为另一个月份时）

我想在日历视图中显示月份但我无法弄清楚我试过 calendarView setOnDateChangeListener new CalendarView OnDateChangeListener Override public void
如何使我的图像可滚动？ [安卓平台]

我的图像占用的空间比 Android 屏幕多得多我希望图像以全尺寸显示并且用户可以向任何方向移动就像一张地图有什么建议么您可以使用网络视图它可以免费为您提供此功能我不知道为什么但是当我尝试时使用 loadData 方法不起作
无法导入模块“lambda_function”：没有名为“flatten_json”的模块

运行 lambda 代码时出现以下错误我正在使用名为的库 from flatten json import flatten 我试图寻找 lambda 层但在网上没有找到请告诉我是否有人以前使用过这个或建议任何替代方案缺少 flatt
jQuery：有没有一种方法可以自动向动态生成的 HTML 添加属性，就像 live() 处理事件一样？

我有一个如下所示的列表 ul li a href example url 1 Link 1 a li li a href example url 2 Link 2 a li li a href example url 3 Link 3 a
项目上线时Manager Bean不返回

我有一个使用 JPA 的 JSF 项目我这样做从 mysql 数据库检索一些数据然后将数据绘制在图表中 Locally works pretty fine as you can see here So I deploy the pro
解决Tomcat中的Bind异常

自一年以来我们一直在 Apache Tomcat 8 0 36 服务器上运行 Java 8 Web 应用程序从过去的几天来看有时当我们重新启动 Tomcat 服务器时应用程序无法运行日志显示 Https 端口的地址绑定异常我尝试
有什么可能的方法从沙盒应用程序运行 clang 编译器吗？

好的这个问题相当简单我有一个沙盒 OSX 应用程序我希望用户能够编译一些 C 代码无论他输入什么但每当我尝试拨打电话时 usr bin env clang the path to the source c 我在日志中收到以下错误
插入按钮没有将数据插入数据库，并且根本没有给出错误[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案这是包含插入方法的类我先填充字段然后创建属性然后插入方法然后转到另一个类并创建插入按钮请帮忙根本没有给出错误 usin
如何请求Android用户通过点击启用蓝牙？

from http developer android com guide topics connectivity bluetooth html http developer android com guide topics connect
仅使用 HTML 和 CSS 创建下拉按钮？

是否可以仅使用 HTML 和 CSS 创建一个带有下拉菜单的按钮 a Take Action a ul li action 1 li li action 2 li ul 单击链接时悬停也可以但首选单击我希望显示 ul actions
抽象声明中没有参数名称？

这是 F 中抽象成员的典型声明 abstract member createEmployee string gt string gt Employee 您定义参数类型但不定义它们的名称没有名字在实现接口时如何知道每个参数是什么换句话
如何使用 Kotlin 就地过滤列表？

在 Java 中我可以使用以下代码从列表中删除项目 private void filterList List
消除录音曲目中当前播放曲目的声音

我希望使用远程 IO 进行音频录制和播放我对核心音频的理解很差因为我遵循惊人的音频开源 http theamazingaudioengine com 到目前为止我可以使用相同的代码进行录制和播放现在我尝试通过麦克风录制并通过 iPh
特定接口上的 TCP/IP 连接

我想使用两个网络路由之一连接到服务器一个人会怎样做呢我在 Google 上搜索了很多常见的答案是修改路由表但这并没有什么帮助因为目的地只有一个 IP 地址大多数示例都具有具有单个网卡的客户端和具有多个网卡的服务器但在本例中情况
Shell 正则表达式到行尾

我有一个像这样的小例子的文件 mode dev 该文件中某处的注释中有一个变量我想在 Shell 脚本中使用正则表达式获取值到目前为止我的代码 bin bash conf lt etc test conf Get the file c
队列上的 IEnumerable 迭代器是否应该使项目出列

我创建了一个自定义通用队列它实现了通用 IQueue 接口该接口使用 System Collections Generic 命名空间中的通用队列作为私有内部队列示例已清除不相关的代码 public interface IQueue
您应该如何从源代码控制构建数据库？

SO 社区 wiki 上有一些关于数据库对象是否应该进行版本控制的讨论然而我还没有看到太多关于为数据库对象创建构建自动化过程的最佳实践的讨论对于我的团队来说这一直是一个有争议的讨论点特别是因为开发人员和 DBA 在评估数据库部署自
如何在 ElasticSearch 中基于正则表达式过滤令牌

对于 ElasticSearch 查询我们希望以不同的方式处理单词即仅由字母组成的标记和非单词为此我们尝试定义两个分析器返回单词或非单词例如我们有描述五金店产品的文档 name Torx drive T9 category

如何在 ElasticSearch 中基于正则表达式过滤令牌

如何在 ElasticSearch 中基于正则表达式过滤令牌 的相关文章

随机推荐

热门标签

如何在 ElasticSearch 中基于正则表达式过滤令牌的相关文章