休眠搜索 |具有 minGramSize 1 的 ngram 分析器

2024-02-03

我的 Hibernate Search 分析器配置存在一些问题。我的索引实体之一（“Hospital”）有一个字符串字段（“name”），其中可能包含长度为 1-40 的值。我希望能够通过仅搜索一个字符来找到一个实体（因为医院有可能只有单个字符名称）。

@Indexed(index = "HospitalIndex")
@AnalyzerDef(name = "ngram",
        tokenizer = @TokenizerDef(factory = StandardTokenizerFactory.class),
        filters = {
                @TokenFilterDef(factory = StandardFilterFactory.class),
                @TokenFilterDef(factory = LowerCaseFilterFactory.class),
                @TokenFilterDef(factory = NGramFilterFactory.class,
                        params = {
                                @Parameter(name = "minGramSize", value = "1"),
                                @Parameter(name = "maxGramSize", value = "40")})
        })
public class Hospital {

        @Field(index = Index.YES, analyze = Analyze.YES, store = Store.NO, analyzer = @Analyzer(definition = "ngram"))
        private String name = "";
}

如果我添加一家名为“My Test Hospital”的医院，Lucene 索引将如下所示：

1   name    al
1   name    e
1   name    es
1   name    est
1   name    h
1   name    ho
1   name    hos
1   name    hosp
1   name    hospi
1   name    hospit
1   name    hospita
1   name    hospital
1   name    i
1   name    it
1   name    ita
1   name    ital
1   name    l
1   name    m
1   name    my
1   name    o
1   name    os
1   name    osp
1   name    ospi
1   name    ospit
1   name    ospita
1   name    ospital
1   name    p
1   name    pi
1   name    pit
1   name    pita
1   name    pital
1   name    s
1   name    sp
1   name    spi
1   name    spit
1   name    spita
1   name    spital
1   name    st
1   name    t
1   name    ta
1   name    tal
1   name    te
1   name    tes
1   name    test
1   name    y
1   name    a

这就是我构建和执行搜索查询的方式：

QueryBuilder hospitalQb = fullTextEntityManager.getSearchFactory().buildQueryBuilder().forEntity(Hospital.class).get();
Query hospitalQuery = hospitalQb.keyword().onFields("name")().matching(searchString).createQuery();
javax.persistence.Query persistenceQuery = fullTextEntityManager.createFullTextQuery(hospitalQuery, Hospital.class);
List<Hospital> results = persistenceQuery.getResultList();

问题是相同的 ngram 分析器也用于我的搜索查询。因此，当我搜索“医院”时，我会找到名称中包含“a”字符的所有医院。当我对其调用 toString 方法时，搜索查询如下所示：

name:h name:ho name:hos name:hosp name:hospi name:hospit name:hospita name:hospital name:o name:os name:osp name:ospi name:ospit name:ospita name:ospital name:s name:sp name:spi name:spit name:spita name:spital name:p name:pi name:pit name:pita name:pital name:i name:it name:ita name:ital name:t name:ta name:tal name:a name:al name:l

所以问题是，是否有人知道更好的分析器配置或另一种构建解决问题的搜索查询的方法？

Hibernate Search 6 的更新答案

使用 Hibernate Search 6，您可以定义第二个分析器，与您的“ngram”分析器相同，只是它没有 ngram 过滤器，并将其指定为searchAnalyzer https://docs.jboss.org/hibernate/stable/search/reference/en-US/html_single/#mapper-orm-directfieldmapping-search-analyzer对于您的领域：

public class Hospital {
        // ...

        @FullTextField(analyzer = "ngram",
                searchAnalyzer = "my_analyzer_without_ngrams")
        private String name = "";

        // ...
}

然后 Hibernate Search 在索引时会自动使用“ngram”分析器，但在搜索时会自动使用“my_analyzer_without_ngrams”，这将导致预期的行为。

此外，如果您正在实施某种自动完成功能（foo*)，而不是词内搜索 (*foo*），你可能想使用EdgeNGramFilterFactory代替NGramFilterFactory：它只会生成作为索引标记前缀的 ngram。

Hibernate Search 5 的原始答案

您可以设置第二个分析器，与“ngram”分析器相同，只是它没有 ngram 过滤器，然后覆盖用于查询的分析器：

QueryBuilder hospitalQb = fullTextEntityManager.getSearchFactory().buildQueryBuilder().forEntity(Hospital.class)
    .overridesForField( "name", "my_analyzer_without_ngrams" )
    .get();
// Then it's business as usual

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)