从文本文件中提取单词

2023-11-26

假设您有一个如下所示的文本文件：http://www.gutenberg.org/files/17921/17921-8.txt

有谁有好的算法或开源代码来从文本文件中提取单词？如何获取所有单词，同时避免特殊字符，并保留“it's”等内容......

我在 Java 工作。谢谢

这听起来像是正则表达式的正确工作。如果您不知道如何开始，这里有一些 Java 代码可以为您提供一些想法：

String input = "Input text, with words, punctuation, etc. Well, it's rather short.";
Pattern p = Pattern.compile("[\\w']+");
Matcher m = p.matcher(input);

while ( m.find() ) {
    System.out.println(input.substring(m.start(), m.end()));
}

图案[\w']+多次匹配所有单词字符和撇号。示例字符串将逐字打印。看看Java Pattern 类文档阅读更多内容。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

Text

从文本文件中提取单词的相关文章

使用 Maven 生成 Eclipse 项目文件

当我尝试使用生成 Eclipse 项目文件时mvn eclipse eclipse我收到以下错误插件管理器执行目标时出现内部错误 org apache maven plugins maven eclipse plugin 2 9 SNAP
jvm中本机代码如何转换为机器代码[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我读过一些文章说 jvm将字节码转换为机器码 jvm将字节码转换为本机代码 jvm 将字节码转换为系统调用系统调用又由操作系统与硬件
H.323，如何制作一个没有媒体的简单环。该脚本遵循 Q.931 设置，但仍然无法正常工作

谁能帮我解决这个问题吗当我发送此请求时我在wireshark中看到数据包将发送到1720 tcp端口中的SJPhone 但 SJPhone 仍然没有响铃我想让它响起无论媒体我非常感谢您的支持我一定缺少消息协议细节来实现这个请给
初始堆大小无效。无法创建Java虚拟机

我遇到了下一个问题我尝试通过startup bat手动启动Tomcat 但似乎没有显示任何结果然后我尝试运行shutdown bat 控制台显示如下 D apache tomcat 7 0 35 bin gt startup bat U
使用 Hibernate Dialect 设置表字符集/排序规则？

我使用 Hibernate MySQLInnoDB Dialect 来生成 DDL hibernate cfg xml
Android 游戏偶尔出现延迟

我正在用 Java 制作一个简单的 Android 游戏我注意到每 20 40 秒就会出现一些烦人的延迟首先我认为它们是由垃圾收集器引起的但当我检查 LogCat 时我发现游戏滞后时没有垃圾收集每当游戏开始滞后时我都会标记日志
在java中将DataURL图像转换为图像文件

我在我的 java servlet 中接收图像 DataURL 它看起来像 data image jpeg base64 9j 4AAQSkZJRgABAQAAAQABAA 我需要将其另存为图像文件我该怎么做 The simplest w
如何在 JdbcTemplate 中创建 mySQL 存储过程

背景为了解决 MySql 中某些语句只允许在存储过程中出现的问题我尝试在 JdbcTemplate 提交的 sql 中创建运行然后删除存储过程一个简单的例子是这恰好是在 Spring Boot 中 Service public c
使用 Box2d（适用于 Android）进行碰撞检测？

有人可以解释一下使用 box2d for android 进行碰撞检测的工作原理吗我无法理解 BBContactListener 以什么方式工作 BBContactListener listener new BBContactListen
JFrame Glasspane 也优于 JDialog，但不应该

我有一个带有 Glasspane 的 JFrame 未装饰该框架打开一个 JDialog 也未装饰也有一个 glassPane 并隐藏自身 setVisible false Glasspanes 通过 setGlassPane 设置对
bufferedinputstream 中标记读取限制有什么用

我是Java流的新手我想读取特定的文件内容然后需要从头开始读取我创建了一个 BufferedInputStream 但我对 BufferedInputStream mark int markLimit 的文档感到困惑文档说 publ
获取包中声明的所有 Java 类的名称

我正在编写一个功能它将有助于将类放入我的程序的某个包中另外我只想要子类某个类的类我需要这些类才能调用它们的静态方法有没有一种自动的方法来做到这一点如果是的话速度慢吗如果我不清楚我想要的是这样的 ArrayList
“___ 中的方法 ___() 是在无法访问的类或接口中定义的”编译错误

我发现了一个奇怪的编译限制我无法解释并且我不明白这个限制的原因示例1 考虑这些类 In package e1 public class C1 enum E1 A B C public E1 x In package e2 import
如何在Java中模拟引用传递？

我是一个十足的 Java 菜鸟我知道 Java 将所有参数视为按值传递并且还有其他几个线程人们对此进行了解释例如在 C 中我可以这样做 void makeAThree int n n 3 int main int myInt 4 m
在 REST Web 服务中接受逗号分隔值

我正在尝试接收 REST URI 中以逗号分隔值形式的字符串列表示例 http localhost 8080 com vogella jersey first rest todo test 1 abc test 其中 abc 和 test
Lucene/Hibernate 搜索锁定异常

我使用 Hibernate Search 在 Web 应用程序上索引和全文搜索项目没有问题来自我的 pom xml
AndroidAnnotations 和 Dagger

我正在尝试使用 Dagger 注入 Android 带注释的 Activity java lang IllegalArgumentException No inject registered for members com app serv
使用正则表达式匹配阿拉伯文文本

我试图使用正则表达式仅匹配阿拉伯语文本但出现异常这是我的代码 txt matches P Arabic 这是例外情况线程 main 中的异常 java util regex PatternSyntaxException 索引 9 附近
如何创建具有同等时间元素的 JavaFX 转换？

我正在尝试 JavaFX 和动画尤其是PathTransition 我正在创建一个简单的程序使球弹跳而不使用QuadCurveTo班级到目前为止这是我的代码 Ellipse ball new Ellipse 375 250 10
在没有EOF的情况下停止读取java中的输入

In 问题如何停止读取输入我的程序继续运行要求更多输入 public static void main String args throws Exception BufferedReader br new BufferedReader

随机推荐

是否可以在没有电子邮件 ID 的情况下注册 Facebook？ [关闭]

Closed 这个问题需要多问focused 目前不接受答案我有关于 Facebook 注册的问题我需要知道在不提供电子邮件 ID 的情况下使用任何手机号码或任何其他方式注册的可能性这很重要因为我正在开发一个 Facebook 应用
如何防止 Spring MVC 在 Spring Boot 中转换为 Collection 时解释逗号？

我们基本上有同样的问题这个问题姿势但对于列表此外我们正在寻找一个全局解决方案目前我们有一个 REST 调用其定义如下 RequestMapping ResponseBody public Object listProducts R
如何处理文本区域中的？

我想要一个可以处理按下情况的文本区域tab key 在默认情况下如果您按tab键然后焦点离开文本区域但是当用户想要输入时情况又如何呢 tab文本区域中的键我可以捕获此事件并将焦点返回到文本区域并将选项卡添加到current光标位置你
Python 跟踪模块 - 跟踪执行的行，但保存到文件，而不是标准输出

我想跟踪 python 脚本的执行行但是我使用的程序需要将内容打印到标准输出 python 跟踪模块的跟踪选项将它们打印到标准输出有没有办法告诉它不要将它们打印到标准输出而是将它们保存到文件中我尝试设置outfile参数但它不会停
Android 文件描述符泄漏调试

我们公司有很多在虚拟真实设备上运行的用户界面测试运行一段时间后测试随机崩溃我认为这是文件描述符超出的结果我使用 ls proc PID fd wc l and lsof p PID 但它并没有多大帮助 lsof 中的大多数行看起来像
Athena 的 .csv.metadata 文件的数据格式是什么？

的数据格式是什么 csv metadata由 Amazon Athena 编写的文件除了每个查询的输出文件之外还有一个元数据文件看起来它描述了结果的架构我认为这就是雅典娜用来创建ResultSet ResultSetMetadata
Oracle 中表行的创建日期时间是多少？

昨天我的朋友 BI 专家向我解释了一个预言机问题有一个 Oracle 数据库包含大量数据但它们不会为每个表创建列来存储每行的创建日期时间所以在这种情况下他如何获得每行的创建日期时间时间戳每行都有自己的系统更改号 SCN 这精确地
蟒蛇 |为什么访问实例属性比访问本地慢？

import timeit class Hello def init self self x 5 def get local attr self x self x 10x10 x x x x x x x x x x x x x x x x
数据流模板 Cloud Pub/Sub 主题与 BigQuery 订阅

我正在设置一个简单的概念验证来学习 Google Cloud 中的一些概念特别是 PubSub 和 Dataflow 我有一个 PubSub 主题greeting 我创建了一个简单的云函数用于向该主题发送发布消息 const escap
使用linux宏access_ok()有什么意义

我一直在做一些研究我对这个宏有点困惑希望有人能给我一些指导我有一些 ioctl 代码我继承的而不是编写的它做的第一件事是检查是否access ok 在继续从用户空间复制数据之前 define lddk copy from use
找不到“React/RCTBridgeModule.h”文件

在 xcode 上构建反应本机 iOS 应用程序时出现此错误 npm install 和 rpm 链接后开始出现此错误反应本机FS图书馆但在网上搜索解决方案后我注意到很多人在安装其他 React Native 库时遇到了同样的错误 A
Kotlin - 使用 Persistence Room:runtime lib 从 Room 数据库返回新插入的 id

我正在尝试使用 Kotlin 在 Room 数据库中插入用户记录它工作得很好现在我想返回新插入的记录id来检查Room数据库中的记录是否成功插入但是当我在插入方法中应用 Long 返回类型并运行代码时我收到以下错误错误方法返回
Vec::new() 如何知道请求的元素类型是什么？

我可以创建任何类型的向量如下所示 let mut vec Vec
Bootstrap 流体布局 - 侧边栏的固定宽度

我有一个基于 Twitter Bootstrap 的流畅布局 div class container fluid div class row fluid div class span2 div div class span10 div di
spring boot 包不存在错误

我正在编译我的项目mvn clean package 并失败了package does not exist 详细命令获取jar文件target xxxx jar通过跑步mvn clean package在源项目中通过运行安装此 jar
CORS、withCredentials 和第三方 cookie

我正在尝试执行 CORS GET 来发送 cookie 我已经设置了所有标题 access control allow origin access control allow credentials access control allow
过程声明与同名事件或过程的描述不匹配

我只是新手尝试用Visual Basic 6编写一个简单的程序代码几乎与课本上的相同它本来是一种绘画程序令人惊讶的是它无法通过该问题标题中给出的错误进行编译这是代码 Option Explicit Dim Col As Long
Python：如何从请求响应中读取excel文件？

我正在使用 requests 库以流的形式下载 Excel 文件 r requests get my url stream True 我想读取这个excel文件中的数据为此我可以尝试使用pandas 但我不确定如何从收到的响应中读取文件
Android Studio 重复生成的文件

Android studio 不断创建生成的类即使它们已经存在我猜这个问题与 NavigationArgs 有关但它总是给出一些重复错误现在解决我的问题的唯一方法是每次运行应用程序之前清理整个项目有谁知道如何解决这个问题我如何知
从文本文件中提取单词

假设您有一个如下所示的文本文件 http www gutenberg org files 17921 17921 8 txt 有谁有好的算法或开源代码来从文本文件中提取单词如何获取所有单词同时避免特殊字符并保留 it s 等内容我在

从文本文件中提取单词

从文本文件中提取单词 的相关文章

随机推荐

热门标签

从文本文件中提取单词的相关文章