在 Elasticsearch 和 Lucene 4.4 中使用 Shingles 和停用词

2024-03-24

在我正在构建的索引中，我有兴趣运行查询，然后（使用方面）返回该查询的带状疱疹。这是我在文本上使用的分析器：

{
  "settings": {
    "analysis": {
      "analyzer": {
        "shingleAnalyzer": {
          "tokenizer": "standard",
          "filter": [
            "standard",
            "lowercase",
            "custom_stop",
            "custom_shingle",
            "custom_stemmer"
          ]
        }
      },
      "filter": {
        "custom_stemmer" : {
            "type": "stemmer",
            "name": "english"
        },
        "custom_stop": {
            "type": "stop",
            "stopwords": "_english_"
        },
        "custom_shingle": {
            "type": "shingle",
            "min_shingle_size": "2",
            "max_shingle_size": "3"
        }
      }
    }
  }
}

主要问题是，对于 Lucene 4.4，停止过滤器不再支持enable_position_increments参数来消除包含停用词的木瓦。相反，我会得到像这样的结果。

“红色和黄色”

"terms": [
    {
        "term": "red",
        "count": 43
    },
    {
        "term": "red _",
        "count": 43
    },
    {
        "term": "red _ yellow",
        "count": 43
    },
    {
        "term": "_ yellow",
        "count": 42
    },
    {
        "term": "yellow",
        "count": 42
    }
]

自然，这极大地扭曲了退回的带状疱疹的数量。 Lucene 4.4 之后是否有一种方法可以在不对结果进行后处理的情况下管理此问题？

可能不是最好的解决方案，但最直率的方法是在分析器中添加另一个过滤器来删除“_”填充标记。在下面的示例中，我将其称为“kill_fillers”：

   "shingleAnalyzer": {
      "tokenizer": "standard",
      "filter": [
        "standard",
        "lowercase",
        "custom_stop",
        "custom_shingle",
        "custom_stemmer",
        "kill_fillers"
       ],
       ...

将“kill_fillers”过滤器添加到过滤器列表中：

"filters":{
...
  "kill_fillers": {
    "type": "pattern_replace",
    "pattern": ".*_.*",
    "replace": "",
  },
...
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

Lucene

stopwords

在 Elasticsearch 和 Lucene 4.4 中使用 Shingles 和停用词的相关文章

如何在 Lucene 6 中对数字字段进行排序

我想根据数字字段对搜索结果进行排序在下面的示例代码中我想根据年龄字段进行排序我从使用以下答案开始如何在 Lucene 6 中对 IntPont 或 LongPoint 字段进行排序 https stackoverflow com
将数据从 Dynamodb 发送到 Amazon Elasticsearch 的最佳方式

我想知道将数据从 dynamoDB 发送到 elasticsearch 的最佳方式是什么 AWS SDK js https github com Stockflare lambda dynamo to elasticsearch blob
如何将Spring boot日志直接摄取到elastic中

我正在研究将 Spring Boot 应用程序日志直接发送到 Elastic Search 的可行性不使用 filebeats 或logstash 我相信 Ingest 插件可能会对此有所帮助我最初的想法是使用 TCP 上的 logba
ElasticSearch 全文搜索

我尝试在elasticsearch java api 中使用正则表达式运行全文搜索我的过滤器是这样的 FilterBuilder qFilter FilterBuilders regexpFilter all text 但它只匹配一个单词
Django-Haystack 使用具有 IAM 凭证的 Amazon Elasticsearch 托管

我希望使用 Amazon 的 Elasticsearch 服务器来支持 Django 数据库中长文本字段的搜索然而我也不想将此搜索暴露给那些没有登录并且不想通过模糊或某些 IP 限制策略来依赖安全性的人除非它可以很好地与现有的 her
Elasticsearch 6.2 / Kibana查询：一字段必须存在，一字段不能存在

我的愿望是搜索 field 存在且 fields b 不存在的文档有没有办法使用 Kibana 中的 Lucene 查询语法 Kibana 的发现部分中的搜索字段来执行此操作我尝试过使用缺失字段 b没有成功 exists
如何在桶聚合中进行过滤器聚合？

我有以下要求我有一些如下所示的记录作为示例 agreementid 1 lastdispositioncode PTP feedbackdate 30 11 2020 agreementid 1 lastdispositioncode
在 lucene 中搜索 UUID 不起作用

我有一个 UUID 字段以以下格式添加到我的文档中 372d325c e01b 432f 98bd bc4c949f15b8 但是当我尝试通过 UUID 查询文档时无论我如何尝试转义表达式它都不会返回它们例如 uuid 372d3
elasticsearch中@timestamp和timestamp字段的区别

当我使用日志存储向弹性搜索记录一些请求时它将 timestamp 字段作为时间当我使用 NEST 记录这些请求并设置时间戳字段时它会放置时间戳字段当我使用 kibana 查看数据时这两个字段具有单独的名称他们之间有什么区别 ti
如何在elasticsearch中配置synonym_path

我对 elasticsearch 很陌生我想使用同义词我在配置文件中添加了这些行 index analysis analyzer synonym type custom tokenizer whitespace filter synon
AWS Elasticsearch 和 CORS

我正在试用 AWS Elasticsearch 服务 https aws amazon com elasticsearch service https aws amazon com elasticsearch service 设置非常简单
未能向 master 发送加入请求

我使用的是elasticsearch版本1 3 0 重启数据节点后无法检测到主节点我收到错误failed to send join request to master 在错误日志中 app101 dGRBqTFTQfae76IFCjsM
向 ElasticSearch 术语聚合添加其他字段

索引文档如下 id 1 title Blah platform id 84 url http facebook com title Facebook 我想要的是按平台计数和输出统计数据为了计数我可以使用术语聚合platform id作为
如何在elasticsearch中使用冒号搜索模式？

我在 Elasticsearch 中有一个字段其值为 ft 05 08 2015 13 01 27 358 cgn 4189 当我想使用查询字符串 cgn 4189 进行搜索时我没有结果我尝试像 cgn 4189 一样转义冒号但有语
Lucene 3 上的“令牌”列表

我是 Lucene 的新手我开始学习版本 3 分支但有一件事我不明白显然是因为我在该主题上没有经验在 Lucene 2 9 中如果我想要一个令牌列表我会创建一个 Token 类的 ArrayList 例如 ArrayList 这
Solr 中的多值字段排序

我有一个 Solr 索引将每个产品的价格存储在多值字段中我需要按价格对结果集进行排序其中价格从低到高从高到低我尝试对价格进行排序它显示错误您无法对 multivalued True 字段进行排序下面是我的 solr XML
对 solr 搜索结果进行排序。给出错误无法对多值字段进行排序：名称

我对 Apache Solr 搜索比较陌生我正在尝试对 Solr 查询中的结果集进行排序查询名称 abc AND 隐藏 false sort name desc 它显示错误无法对多值字段进行排序名称 Solr版本是 7 2 1 如
Elasticsearch TransportClient NetworkPlugin NoClassDefFoundError

我期待将 Elasticsearch 集成到 Spring Boot Web 应用程序中这是创建传输客户端的配置 Configuration public class ElasticsearchConfig private Transpo
match_none 有什么用？

我浏览了docs https www elastic co guide en elasticsearch reference current query dsl match all query html query dsl match no
Python elasticsearch DSL 聚合/每个文档嵌套值的度量

我试图找到 2 级嵌套中的最小值每个文档单独的最小值到目前为止我能够进行聚合计算搜索结果中所有嵌套值的最小值但无需按文档进行分隔我的示例架构 class MyExample DocType myexample id Intege

随机推荐

具有多个主类的 Gradle 应用程序插件

我正在使用 gradle application 插件来启动我的应用程序这效果很好现在我想添加在同一项目中启动不同主类的选项我可以更改插件的配置以允许这样做吗 apply plugin application mainClassNam
当尝试设置从 MySQL 返回的布尔值时，Dapper 抛出无效的强制转换异常

我有这门课 public class User public int UserId get set public string UserName get set public bool IsValidated get set 我使用 dap
WooCommerce：当客户离开然后回来时如何保留结账信息？

有没有一种简单的方法或插件可以保留客户离开和回来后输入的结账信息这个插件 https ur wordpress org plugins woocommerce checkout manager 保留客户来回导航时的字段信息但是它最近有
如何在 Postgres 中运行通过 pgagent 创建的作业

使用 pgagent 创建了一个作业它已成功创建但无法检查其状态是否正在运行它都没有执行我在步骤中给出的指定代码使用的版本 x86 64 pc linux gnu 上的 PostgreSQL 9 6 2 由 gcc GCC 4 4
python在加载模块时捕获NameError

我试图捕获无法加载模块时发生的任何异常当前的结果是 except 块没有被执行 import sys def loadModule module try import module except print Cannot load s F
如何在DBeaver中使用sqlcmd GO批量分隔符？

我需要使用GO1 https learn microsoft com en us sql t sql language elements sql server utilities statements goDBeaver IDE 中的熟食器
获取属于任意类型的单元名称（TRttiType）

我需要获取任何单元的名称命名空间 TRttiType http docwiki embarcadero com CodeSamples en Category 3aRtti TRttiType 到目前为止我已经尝试了以下方法 1 使用P
iTunes Connect 预发布版本无效。

当尝试提交应用程序存档时我在 Xcode 中收到以下错误错误 ITMS 9000 预发布列车无效列车版本 2 1 5 已关闭以提交新版本有人有解决方案吗该版本已经等待审核我拒绝了它现在正在尝试提交新版本版本号相同但我增加了
覆盖 Primefaces 特定小部件的方法

我想覆盖 Primefaces 数据表组件的函数根据这个问题如何在基于 widgetVar 的 Primefaces 组件中查找和或覆盖 JavaScript https stackoverflow com questions 275
如何强制内联div保持在同一行？

我正在尝试制作三列布局我希望左列和右列的宽度仅与其子项内容一样宽我希望中心柱能够扩大以填充剩余空间我正在尝试以下操作概述下面包含 jsfiddle 链接 colLeft display inline float left colC
在 .NET 异常中保留原始 StackTrace/LineNumbers

了解之间的区别throw ex and throw 为什么在这个例子中保留了原来的StackTrace static void Main string args try LongFaultyMethod catch System Excep
Windows Phone 应用程序缺少 EventToCommand

我正在使用 MVVM Light 构建 Windows Phone 8 应用程序到目前为止一切都很好但是当我使用 EventToCommand 时出现多个错误一个类似的问题在这里迁移到 SL5 的 v4 时 EventToCom
为什么 C++ 中不允许初始化整型成员变量（不是 const static）？

当我尝试在类定义中初始化 int 成员变量时我的 C 编译器会抱怨它告诉我们只有静态常量整型数据成员才能在类中初始化您能否解释一下此限制背后的理由如果可能的话举例说明因为目前的标准是不允许的根据比亚恩的说法 http www
WP7 在地图上拖动图钉

有谁知道如何在运行 Mango 的 WP7 客户端上的地图上实现可拖动图钉我有一个图钉绑定到地图上的地理位置我希望用户能够将其拖动到地图上并记录其新位置我见过一些资源但它们用于非 WP7 Bing 地图控制任何帮助将不胜感激 T
如何使用 Asset Pipeline 从非标准目录传送字体

我正在尝试将 Fontawesome 包含在 Rails 4 应用程序中但资产并未进入资产管道然而这些字体并没有在生产中使用我不明白为什么文件结构组织我所有的资产都存储在 assets components因此 Fontawes
Node.js 公牛队列中的作业陷入“等待”状态

我有一堆工作在公牛队列中其中一个被卡住了 1 个多小时通常需要大约 2 分钟才能运行但没有失败我无法使用我使用的 bull arena UI 将作业从活动状态中删除因此我删除了 Redis 中活动作业的密钥这消除了卡住的活动作业
php 中的图像验证码

下面是一个程序的源代码谁能帮我弄清楚程序的工作原理
在 Android 手机中打开键盘时图像大小调整问题

感谢您的阅读我是cordova开发的新手我正在使用framework7使用cordova开发混合应用程序我将背景放在登录表单上但在移动设备中当打开键盘进行书写时背景图像会调整大小我想要修复打开 Android 键盘时未调整大小
r-将列表列转换为字符向量，其中列表是字符

我正在尝试将列表转换为单个字符值或者基本上从这里开始 test lt data frame a c 1 1 1 2 2 2 b c a b c d e f gt group by a gt summarise b list b to th
在 Elasticsearch 和 Lucene 4.4 中使用 Shingles 和停用词

在我正在构建的索引中我有兴趣运行查询然后使用方面返回该查询的带状疱疹这是我在文本上使用的分析器 settings analysis analyzer shingleAnalyzer tokenizer standard filte

在 Elasticsearch 和 Lucene 4.4 中使用 Shingles 和停用词

在 Elasticsearch 和 Lucene 4.4 中使用 Shingles 和停用词 的相关文章

随机推荐

热门标签

在 Elasticsearch 和 Lucene 4.4 中使用 Shingles 和停用词的相关文章