使用 Lucene 和 Java 进行分词、删除停用词

2024-02-10

我正在尝试使用 Lucene 从 txt 文件中标记并删除停用词。我有这个：

public String removeStopWords(String string) throws IOException {

Set<String> stopWords = new HashSet<String>();
    stopWords.add("a");
    stopWords.add("an");
    stopWords.add("I");
    stopWords.add("the");

    TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_43, new StringReader(string));
    tokenStream = new StopFilter(Version.LUCENE_43, tokenStream, stopWords);

    StringBuilder sb = new StringBuilder();

    CharTermAttribute token = tokenStream.getAttribute(CharTermAttribute.class);
    while (tokenStream.incrementToken()) {
        if (sb.length() > 0) {
            sb.append(" ");
        }
        sb.append(token.toString());
    System.out.println(sb);    
    }
    return sb.toString();
}}

我的主要看起来像这样：

    String file = "..../datatest.txt";

    TestFileReader fr = new TestFileReader();
    fr.imports(file);
    System.out.println(fr.content);

    String text = fr.content;

    Stopwords stopwords = new Stopwords();
    stopwords.removeStopWords(text);
    System.out.println(stopwords.removeStopWords(text));

这给了我一个错误，但我不明白为什么。

我有同样的问题。要删除停用词，请使用Lucene您可以使用以下方法使用默认止损设置EnglishAnalyzer.getDefaultStopSet();。否则，您可以创建自己的自定义停用词列表。

下面的代码显示了您的正确版本removeStopWords():

public static String removeStopWords(String textFile) throws Exception {
    CharArraySet stopWords = EnglishAnalyzer.getDefaultStopSet();
    TokenStream tokenStream = new StandardTokenizer(Version.LUCENE_48, new StringReader(textFile.trim()));

    tokenStream = new StopFilter(Version.LUCENE_48, tokenStream, stopWords);
    StringBuilder sb = new StringBuilder();
    CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
    tokenStream.reset();
    while (tokenStream.incrementToken()) {
        String term = charTermAttribute.toString();
        sb.append(term + " ");
    }
    return sb.toString();
}

要使用自定义停用词列表，请使用以下命令：

//CharArraySet stopWords = EnglishAnalyzer.getDefaultStopSet(); //this is Lucene set 
final List<String> stop_Words = Arrays.asList("fox", "the");
final CharArraySet stopSet = new CharArraySet(Version.LUCENE_48, stop_Words, true);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Lucene

NLP

tokenize

stopwords

使用 Lucene 和 Java 进行分词、删除停用词的相关文章

将 jar 作为 Linux 服务运行 - init.d 脚本在启动应用程序时卡住

我目前正在致力于在 Linux VM 上实现一个可运行的 jar 作为后台服务我已经使用了找到的例子here https gist github com shirish4you 5089019作为工作的基础并将 start 方法修改为
禁用 Eclipse Java 调试器的热代码替换 [重复]

这个问题在这里已经有答案了可能的重复如何在 Eclipse 中禁用热代码替换 https stackoverflow com questions 2594408 how do i disable hot code replace in
如何在spring mvc中从控制器名称+操作名称获取映射的URL？

是否有现有的解决方案可以从 Spring MVC3 中的控制器名称操作名称获取映射的 URL 例如 asp net mvc 或 Rails 中的 UrlHelper 我觉得非常有用 thx 也许你想要这样的东西 in your Co
Spring安全“记住我”cookie在第一个请求中不可用

我无法在登录请求后检索 Spring 记住我 cookie 但它在对受保护页面的下一个请求中工作正常谁能告诉我怎样才能立即得到它我在登录请求中设置了记住我的 cookie 但在 Spring 重定向回原始受保护的 url 后无法检索它
eclipse中导入项目文件夹图标

我在 Eclipse 工作区中新导入的 Maven 项目有J and M项目文件夹顶部的图标项目和包资源管理器而其他导入的 Maven 项目只有一个J icon 有人可以解释其中的区别吗该项目有J装饰器被称为 Java 项目和具有M装
在文本文件中搜索单词并返回其频率

如何在包含单词文本的文本文件中搜索特定单词并返回其频率或出现次数使用扫描仪 String text Question how to search for a particular word in a text file containin
如何在 JSP 中导入类？

我是一个完全的JSP初学者我正在尝试使用java util List在 JSP 页面中我需要做什么才能使用除以下类之外的类java lang 使用以下导入语句进行导入java util List 顺便说一句要导入多个类请使用以下格式
Firestore - RecycleView - 图像持有者

我不知道如何编写图像的支架我已经设置了 2 个文本但我不知道图像的支架应该是什么样子你能帮我告诉我图像的文字应该是什么样子才能正确显示吗 holder artistImage setImageResource model getArt
内存一致性 - Java 中的happens-before关系[重复]

这个问题在这里已经有答案了在阅读有关内存一致性错误的 Java 文档时我发现与创建发生之前关系的两个操作相关的点当语句调用时Thread start 每个具有与该语句发生之前的关系也有一个与 new 执行的每个语句之间发生的
Java 数组的最大维数

出于好奇在 Java 中数组可以有多少维爪哇language不限制维数但是JavaVM规范将维度数限制为 255 例如以下代码将无法编译 class Main public static void main String args
如何将 Jfreechart（饼图）添加到 netbeans 的面板中

我正在使用 netbeans gui 编辑器并且正在尝试添加一个本身位于内部框架中的 Jfreechart 并且这个内部框架我想将其添加到面板中正如您在此图中看到的那样抱歉我无法直接发布图像因为我新手 http www flick
Cloudfoundry：如何组合两个运行时

cloundfoundry 有没有办法结合两个运行时环境我正在将 NodeJS 应用程序部署到 IBM Bluemix 现在我还希望能够执行独立的 jar 文件但应用程序失败 APP 0 bin sh 1 java not found
Spring Security OAuth2简单配置

我有一个简单的项目需要以下简单的配置我有一个密码 grant type 这意味着我可以提交用户名密码用户在登录表单中输入并在成功时获得 access token 有了该 access token 我就可以请求 API 并获取用户
如何在 Eclipse Java 动态 Web 项目中使用 .properties 文件？

我正在 Eclipse 中开发动态 Web 项目我创建了一个 properties 文件来存储数据库详细信息用户名密码等我通过右键单击项目和 New gt File 添加它我使用了Java util包Properties类但它不
将图像添加到自定义 AlertDialog

我制作了一个 AlertDialog 让用户可以从我显示的 4 个选项中选择一个前 3 个让他们在单击号码时直接拨打号码第 4 个显示不同的视图现在看起来是这样的由于第四个选项的目的是不同的任务我想让它看起来不同因为用户可能会感
解决错误javax.mail.AuthenticationFailedException

我不熟悉java中发送邮件的这个功能我在发送电子邮件重置密码时遇到错误希望你能给我一个解决方案下面是我的代码 public synchronized static boolean sendMailAdvance String emai
哪个集合更适合存储多维数组中的数据？

我有一个multi dimensional array of string 我愿意将其转换为某种集合类型以便我可以根据自己的意愿添加删除和插入元素在数组中我无法删除特定位置的元素我需要这样的集合我可以在其中删除特定位置的数据也
Android AutoCompleteTextView 带芯片

我不确定我是否使用了正确的词语来描述此 UI 功能但我已附上我希望在我的应用程序中实现的目标的快照它由 Go SMS 使用用户在编辑文本中键入联系人在用户从完成下拉列表中选择联系人后该联系人将被插入到编辑文本中如附图所示编辑文
嵌入式 Jetty - 以编程方式添加基于表单的身份验证

有没有一种方法可以按如下方式以编程方式添加基于表单的身份验证我用的是我自己的LdapLoginModule 最初我使用基本身份验证并且工作正常但现在我想在登录页面上进行更多控制例如显示徽标等有没有好的样品我正在使用嵌入式 jett
在哪里存储 Java 的 .properties 文件？

The Java教程 http download oracle com javase tutorial essential environment properties htmlon using Properties 讨论如何使用 Prop

随机推荐

IndexAxisValueFormatter 未按预期工作

我正在使用MPAndroid图表 https github com PhilJay MPAndroidChart创建条形图我的配置
Magento：如何获取属于属性集的属性？

有了属性集如何获取它包含的属性列表或者更好的是仅获取不属于默认属性集的自定义属性属性集本身可以通过多种方式获取例如 entityTypeId Mage getModel eav entity gt setType catalog
`const_iterator` 真的需要是与 `iterator` 不同的类吗？

假设我定义了某种容器A struct A iterator begin return iterator this 0 const iterator cbegin const return iterator this last 假设现在我想声
Lisp 中无重复数字的随机列表

我有这个函数可以创建一个包含其他问题中的初始元素的列表Lisp 中带有初始元素的列表从 99 开始到 0 https stackoverflow com questions 59039638 list with initial elemen
尝试在 azure 存储帐户/Blob 上设置 cors 时出现无尽错误

我正在尝试在 azure 存储 blob 帐户上设置 cors 我已向该帐户添加了 CDN 原因是这样我可以从那里提供网络字体并获取缓存我已经安装了 nuget 的最新软件已成功将 Microsoft Data Services Cli
创建具有多个页面的 Apex 表单

我正在尝试制作一个包含多个页面的顶点表单以便我可以实现漂亮的布局例如第 1 页个人详细信息 gt gt 第 2 页职业 gt gt 第 3 页职业经历 gt gt 提交有没有一种方法可以在不一次提交一页的情况下执行此操作
读取 Storm 集群中的 AWS SQS 队列时，导致这些 ParseError 异常的原因是什么

我正在使用 Storm 0 8 1 从 Amazon SQS 队列中读取传入消息并且在执行此操作时遇到一致的异常 2013 12 02 02 21 38 executor ERROR java lang RuntimeException
jetty升级到9后无法运行项目

我升级到 jetty 9 并在尝试运行该项目时出现以下错误 WARNING Error injecting org eclipse jetty maven plugin JettyRunMojo java lang TypeNotPrese
count(distinct) over（按...范围函数分区）

我想计算不同的yyyydd超过mm 日期 2 天但是 distinct 函数不能与 over 一起使用如果我删除不同的它会给我总计数yyyydd but yyyydd可以有很多重复的这就是为什么我想添加不同的这有点类似于count
iOS 的 AudioContext.createMediaStreamSource 替代品？

我使用 Cordova 和 Web Audio API 开发了一个应用程序允许用户插入耳机将手机按在心脏上然后听到自己的心跳它通过使用音频过滤器节点来实现这一点 Setup userMedia context new window
env 在 Bash 中到底做了什么？

使用 Bash 在 Cygwin 下时出现此行为 printf u00d5 u00d5 env printf u00d5 This results in the behavior I want 我在终端中使用 UTF 8 或 ISO 88
gcc 的自动矢量化消息是什么意思？

我有一些代码想要快速运行所以我希望我可以说服 gcc g 对我的一些内部循环进行矢量化我的编译器标志包括 O3 msse2 ffast math ftree vectorize ftree vectorizer verbose 5 但是
如何在wpf中通过行和列获取网格子项？
如何解析单个 TFrecord 文件

读取 tfrecords reader tf TFRecordReader serialized example reader read filename queue features tf parse single example TFR
抛出异常时获取堆栈跟踪

我现在正在调试一个使用许多不同线程的程序有时会抛出异常问题是无法知道哪个线程导致了问题有没有一种简单的方法可以在抛出异常后获取堆栈跟踪我想过简单地编写一条调试消息但这将是一个巨大的我想有比这个更好的技术我正在使用 Visual
如何将 BigQuery 脚本上传到 Github？

需要一些帮助因为 bigquery 脚本没有保存在本地并且无法将其上传到 Github 您可以使用支持 GitHub 的 BigQuery 第三方 IDE这是歌利亚一部分Potens io https potensio zendesk
如何在flask应用程序的同一页面上发布输出结果？

我有一个 Flask 应用程序它接受一些文本作为输入运行 python 脚本并在同一 html 页面上输出输出但它会转到一个新页面我不明白为什么它会转到新页面这是我的 app py 文件 usr bin env python3 f
如何确定 Pandas/NumPy 中的列/变量是否为数字？

有没有更好的方法来确定变量是否在Pandas and or NumPy is numeric或不我有一个自定义的dictionary with dtypes作为钥匙和numeric not作为价值观 In pandas 0 20 2你可以
Errno 13 运行 virtualenv 时权限被拒绝

当尝试在 Mac OS X 上使用brew安装的 Python 2 7 创建 virtualenv 时出现以下错误 Could not install packages due to an EnvironmentError Errno 1
使用 Lucene 和 Java 进行分词、删除停用词

我正在尝试使用 Lucene 从 txt 文件中标记并删除停用词我有这个 public String removeStopWords String string throws IOException Set

使用 Lucene 和 Java 进行分词、删除停用词

使用 Lucene 和 Java 进行分词、删除停用词 的相关文章

随机推荐

热门标签

使用 Lucene 和 Java 进行分词、删除停用词的相关文章