lucene standardanalyzer 是否删除停用词并具有词干提取功能?

2024-03-13

我已经使用indexWriter测试了standardanalyzer,发现它会自动删除停用词,但是,我没有添加停用词列表,因为以下代码是我使用的

StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_35); 
        IndexWriterConfig config =new IndexWriterConfig(Version.LUCENE_35, analyzer);

默认停用词列表在哪里? 另外,这个分析器也会自动词干吗?


根据API docs http://lucene.apache.org/core/old_versioned_docs/versions/3_3_0/api/all/org/apache/lucene/analysis/standard/StandardAnalyzer.html,存在一组默认的停用词(取自英语),存储在StandardAnalyzer.STOP_WORDS_SET。如果您使用构造函数创建分析器,则使用它public StandardAnalyzer(Version matchVersion),这正是您所做的。该套装与以下完全相同StopAnalyzer.ENGLISH_STOP_WORDS_SET http://grepcode.com/file/repository.jboss.org/maven2/org.apache.lucene/lucene-core/2.4.1/org/apache/lucene/analysis/StopAnalyzer.java#StopAnalyzer.0ENGLISH_STOP_WORDS。您可以使用其他构造函数之一向分析器传递另一组(可能是空的)停用词。

StandardAnalyzer不阻止单词。如果您需要词干,请使用例如SnowballAnalyzer.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

lucene standardanalyzer 是否删除停用词并具有词干提取功能? 的相关文章

随机推荐