我想使用 Lucene 6.1.0.、Soundex 或任何适合葡萄牙语的算法来实现语音搜索。我在互联网上发现了许多不完整的示例,教如何实现自定义分词器、分析器,但似乎这些示例上使用的抽象类在 6.1.0 版本中并不相同。谁能指出我在哪里可以找到 Lucene 的好文档,而不仅仅是 java 文档,而没有任何进一步的文档来教导如何将这些东西组合在一起?
提前致谢。
The 分析仪文档 http://lucene.apache.org/core/6_1_0/core/org/apache/lucene/analysis/Analyzer.html展示如何创建分析器。
对于语音分析,您应该查看org.apache.lucene.analysis.phonetic https://lucene.apache.org/core/6_1_0/analyzers-phonetic/index.html包(您需要将“lucene-analyzers-phonetic-6.1.0.jar”添加到构建路径,以及 Apache 的“commons-codec-1.10.jar”,您可以get here http://commons.apache.org/proper/commons-codec/download_codec.cgi).
然后你可以设置你的分析器,例如:
Analyzer analyzer = new Analyzer() {
@Override
protected TokenStreamComponents createComponents(String fieldName) {
Tokenizer tokenizer = new StandardTokenizer();
TokenStream stream = new DoubleMetaphoneFilter(tokenizer, 6, false);
return new TokenStreamComponents(tokenizer, stream);
}
};
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)