如何在java中使用lucene添加自定义停用词

2024-02-19

我正在使用 lucene 删除英语停用词，但我的要求是删除英语停用词和自定义停用词。下面是我使用 lucene 删除英文停用词的代码。

我的示例代码：

public class Stopwords_remove {
    public String removeStopWords(String string) throws IOException 
    {
        StandardAnalyzer ana = new StandardAnalyzer(Version.LUCENE_30);
        TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_36,newStringReader(string));
        StringBuilder sb = new StringBuilder();
        tokenStream = new StopFilter(Version.LUCENE_36, tokenStream, ana.STOP_WORDS_SET);
        CharTermAttribute token = tokenStream.getAttribute(CharTermAttribute.class);
        while (tokenStream.incrementToken()) 
        {
            if (sb.length() > 0) 
            {
                sb.append(" ");
            }
            sb.append(token.toString());
        }
        return sb.toString();
    }

    public static void main(String args[]) throws IOException
    {
          String text = "this is a java project written by james.";
          Stopwords_remove stopwords = new Stopwords_remove();
          stopwords.removeStopWords(text);

    }
}

output: java project written james.

所需输出：java project james.

我怎样才能做到这一点？

您可以将其他停用词添加到标准英语停用词集的副本中，或者仅添加另一个 StopFilter。喜欢：

TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_36, new StringReader(string));
CharArraySet stopSet = CharArraySet.copy(Version.LUCENE_36, StandardAnalyzer.STOP_WORD_SET);
stopSet.add("add");
stopSet.add("your");
stopSet.add("stop");
stopSet.add("words");
tokenStream = new StopFilter(Version.LUCENE_36, tokenStream, stopSet);
//Or, if you just need the added stopwords in a standardanalyzer, you could just pass this stopfilter into the StandardAnalyzer...
//analyzer = new StandardAnalyzer(Version.LUCENE_36, stopSet);

or:

TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_36, new StringReader(string));
tokenStream = new StopFilter(Version.LUCENE_36, tokenStream, StandardAnalyzer.STOP_WORDS_SET);
List<String> stopWords = //your list of stop words.....
tokenStream = new StopFilter(Version.LUCENE_36, tokenStream, StopFilter.makeStopSet(Version.LUCENE_36, stopWords));

如果您尝试创建自己的分析器，那么遵循类似于示例中的模式可能会更好。分析仪文档 http://lucene.apache.org/core/4_0_0/core/org/apache/lucene/analysis/Analyzer.html?is-external=true.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Lucene

stopwords

如何在java中使用lucene添加自定义停用词的相关文章

在Maven中生成Version.java文件

我有一个使用 Ant 脚本构建的 Java 项目我正在尝试将项目转换为 Maven 其中一项任务生成一个名为 Version java 的 Java 源文件其中包含编译时间戳的静态字符串表示形式如下所示 package com foo
Jackson JSON + Java 泛型

我正在尝试将以下 JSON 反序列化映射到List
如何以编程方式使用包含多列的 where-in 子句执行 PostgreSQL 查询？

我的查询是这样的 select from plat customs complex where code t code s in 01013090 10 01029010 90 它在 psql 控制台中运行良好我的问题是如何在客户端代码中
以相反的顺序打印任何集合中的项目？

我在使用 Java 进行数据结构和问题解决一书中遇到以下问题编写一个例程使用 Collections API 以相反的顺序打印任何 Collection 中的项目不要使用 ListIterator 我不会把它放在这里因为我想让有
查看Java Agent修改的Java类的源代码

我需要了解 Java 代理如何修改我的初始类以便我能够理解代码的作用 build gradle configurations jar archiveName agent2 jar jar manifest attributes Prema
我们可以有条件地声明 spring bean 吗？

有没有一种方法可以有条件地声明 Spring bean 例如
为什么用scala写的代码比用java写的慢6倍？

我不确定我在编写 scala 代码时是否犯了一些错误问题是 The four adjacent digits in the 1000 digit number that have the greatest product are 9 9
如何使用 Java 引用释放 Java Unsafe 内存？

Java Unsafe 类允许您按如下方式为对象分配内存但是使用此方法在完成后如何释放分配的内存因为它不提供内存地址 Field f Unsafe class getDeclaredField theUnsafe Internal re
将类转换为 JSONObject

我有好几堂这样的课我想将类转换为 JSONObject 格式 import java io Serializable import com google gson annotations SerializedName public cla
IntelliJ Idea：将简单的 Java servlet（无 JSP）部署到 Tomcat 7

我尝试按照教程进行操作here http wiki jetbrains net intellij Creating a simple Web application and deploying it to Tomcat部署 servlet
Joshua Bloch 的构建器设计模式有何改进？

早在 2007 年我就读过一篇关于 Joshua Blochs 所采用的构建器模式的文章以及如何修改它以改善构造函数和 setter 的过度使用特别是当对象具有大量属性其中大部分属性是可选的时本文对此设计模式进行了简要总结
Java 8 Stream，获取头部和尾部

Java 8 引入了Stream http download java net jdk8 docs api java util stream Stream html类似于 Scala 的类Stream http www scala lang
文本视图不显示全文

我正在使用 TableLayout 和 TableRow 创建一个简单的布局其中包含两个 TextView 这是代码的一部分
Azure Java SDK：ServiceException：ForbiddenError：

尝试了基本位置检索器代码如下所示 String uri https management core windows net String subscriptionId XXXXXXXX 5fad XXXXXX 9dfa XXXXXX St
Android计算两个日期之间的天数

我编写了以下代码来查找两个日期之间的天数 startDateValue new Date startDate endDateValue new Date endDate long diff endDateValue getTime star
即使禁用安全性，OAuth 令牌 API 也无法在 Elastic Search 中工作

我是 Elastic search 新手使用 Elastic search 版本 7 7 1 我想通过以下方式生成 OAuth 令牌弹性搜索文档 https www elastic co guide en elasticsearch re
我所有的 java 应用程序现在都会抛出 java.awt.headlessException

所以几天前我有几个工作Java应用程序使用Swing图书馆 JFrame尤其他们都工作得很好现在他们都抛出了这个异常 java awt headlessexception 我不知道是什么改变了也许我的Java版本不小心更新了谢谢你尽你
Android ScrollView，检查当前是否滚动

有没有办法检查标准 ScrollView 当前是否正在滚动方向是向上还是向下并不重要我只需要检查它当前是否正在滚动 ScrollView当前形式不提供用于检测滚动事件的回调有两种解决方法可用 1 Use a ListView并实施On
MultiFieldQueryParser 正在从首字母缩略词中删除点

我再次发布这个问题因为我的查询没有得到答复我正在使用 Lucene 开发图书搜索 api 用户可以搜索标题或描述字段包含 C F A 的书籍我正在使用 StandardAnalyzer 以及停用词列表我使用 MultiFieldQu
关闭扫描仪是否会影响性能

我正在解决一个竞争问题在问题中我正在使用扫描仪获取用户输入这是 2 个代码段一个关闭扫描器一个不关闭扫描器关闭扫描仪 import java util Scanner public class JImSelection publ

随机推荐

如何在android smack 4.2.0-beta1中使用MucEnterConfiguration？

我想重新加入房间并且不需要任何历史记录但是讨论历史已弃用所以我找到了班级MucEnter配置但我无法创建对象MucEnter配置 MucEnter配置是最后一类所以不能扩展没有公共构造函数 MucEnterConfiguration
如果我对对象的引用多于 32 位所能容纳的数量，会发生什么情况？

所以我刚刚了解到当你声明一个 Object 类型的变量时即Object a 为该变量分配 32 位空间在这个变量引用内部有一个实际对象的内存地址现在假设我有足够大的内存来执行此操作 What would happen if I c
如何将 CMake 列表作为集合进行操作？

在 CMake 中列表被广泛使用有时你有两个项目列表基本上是字符串并且你想要考虑它们的交集差异或并集像这个案例 https stackoverflow com a 59577967 1593077这就是我想到的如何生成此类交集
Realm快速更改primaryKey

所以我有 Realm 对象 class RegistrationPlateDB RLMObject dynamic var registrationPlate String dynamic var user String override
如果某个专业化已经被隐式实例化，那么它是否也会被隐式实例化？

标题中的问题已经很清楚了更具体地说请考虑以下示例 include
iOS + 如何捕获未处理的异常

我们正在编写静态库我们对暴露的API做了异常处理但仍然有一些未处理的异常或操作系统异常您能让我知道如何捕获这些未处理的异常吗谢谢好吧您始终可以信赖全面捕获原则 https stackoverflow com questions
Nix 函数定义开头的问号是什么意思？

例如在 nixpkgs import
Javascript：为什么在这里使用匿名函数？

我正在浏览 JIT 的代码我看到了这个 var isGraph type json array var ans new Graph this graphOptions if isGraph make tree function ans j
如何等到数据加载后才能在 Vue.js 中正确显示此 v-if 条件？

它显示在加载数据之前未找到任何项目代码如下所示 div class columns p No items found p div div class columns div async getProducts let res await
如何用我自己的方法扩展Python的datetime.datetime？

我正在尝试扩展Pythondatetime datetime带有几个额外方法的类所以例如我正在做的 import datetime class DateTime datetime datetime def millisecond sel
C#：使用未分配的局部变量，使用 foreach 和 if

我有以下代码我收到错误使用未分配的局部变量我确信这非常简单但我很困惑 public string return Result String RssData int marketId string result foreach var
File.lastModified() 慢得要命！

我正在做文件的递归副本等xcopy D http www microsoft com resources documentation windows xp all proddocs en us xcopy mspx mfr true我只想复
.hover(...) 和 on.("hover"...) 行为不同

使用 JQuery 当元素处于悬停状态时我尝试链接几个函数我通常会使用 hover事件函数但在阅读了一些教程后我读到了使用 on更好因为您可以使用一个事件处理程序来监视文档中的所有冒泡事件但是当我将两个函数链接在一起时遇到问题
在诗歌运行期间导入本地包

我刚刚从pipenv to poetry我在从我在一些脚本中开发的本地包导入包时遇到问题为了使这一点更具体我的项目看起来像 pyproject toml poetry lock bin myscript py mypackage ini
Symfony2.5 + FOSUserBundle 检查路径显然没有找到

我启动了一个新的 Symfony 应用程序在其中使用 FOSUserBundle 我安装了它加载了捆绑包并配置了它这是我的configuration yml fos user db driver orm firewall name m
使用 Xcode 7 禁用项目和 cocoapods 依赖项的位码？

如何禁用项目和 cocoapod 依赖项的位码这是我尝试使用 Xcode 7 运行项目时遇到的错误不包含位码您必须在启用位码 Xcode 设置 ENABLE BITCODE 的情况下重建它从供应商处获取更新的库或禁用该目标的位码
本地化包含名称列表的字符串

我有包含名称列表的字符串如下所示约翰向金凯利李和鲍勃询问了新年计划名单中的名字数量可以非常多我如何在 Java 中本地化它我正在考虑 ResourceBundle 和 MessageFormat 我将如何在 MessageFo
如何忽略通过 http 发送的属性

我的应用程序中有一个接口用于维护我想要发送到数据库的属性以及我不发送到数据库的属性具体来说我维护一个名为state可以设置为open or null 关闭然后触发 Angular2 的动画state https angular io
RemoteActor 取消注册 actor

我正在玩 RemoteActors 现在我想知道如果我关闭 RemoteActor 会发生什么该 Actor 可通过 RemoteActor alive 和 RemoteActor register 来使用我找不到两者的逆活着和注册
如何在java中使用lucene添加自定义停用词

我正在使用 lucene 删除英语停用词但我的要求是删除英语停用词和自定义停用词下面是我使用 lucene 删除英文停用词的代码我的示例代码 public class Stopwords remove public String re

如何在java中使用lucene添加自定义停用词

如何在java中使用lucene添加自定义停用词 的相关文章

随机推荐

热门标签

如何在java中使用lucene添加自定义停用词的相关文章