从文本文件中提取单词

2023-11-26

假设您有一个如下所示的文本文件:http://www.gutenberg.org/files/17921/17921-8.txt

有谁有好的算法或开源代码来从文本文件中提取单词? 如何获取所有单词,同时避免特殊字符,并保留“it's”等内容......

我在 Java 工作。 谢谢


这听起来像是正则表达式的正确工作。如果您不知道如何开始,这里有一些 Java 代码可以为您提供一些想法:

String input = "Input text, with words, punctuation, etc. Well, it's rather short.";
Pattern p = Pattern.compile("[\\w']+");
Matcher m = p.matcher(input);

while ( m.find() ) {
    System.out.println(input.substring(m.start(), m.end()));
}

图案[\w']+多次匹配所有单词字符和撇号。示例字符串将逐字打印。看看Java Pattern 类文档阅读更多内容。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从文本文件中提取单词 的相关文章

随机推荐

  • 是否可以在没有电子邮件 ID 的情况下注册 Facebook? [关闭]

    Closed 这个问题需要多问focused 目前不接受答案 我有关于 Facebook 注册的问题 我需要知道在不提供电子邮件 ID 的情况下使用任何手机号码或任何其他方式注册的可能性 这很重要 因为我正在开发一个 Facebook 应用
  • 如何防止 Spring MVC 在 Spring Boot 中转换为 Collection 时解释逗号?

    我们基本上有同样的问题这个问题姿势 但对于列表 此外 我们正在寻找一个全局解决方案 目前我们有一个 REST 调用 其定义如下 RequestMapping ResponseBody public Object listProducts R
  • 如何处理文本区域中的

    我想要一个可以处理按下情况的文本区域tab key 在默认情况下 如果您按tab键然后焦点离开文本区域 但是当用户想要输入时情况又如何呢 tab文本区域中的键 我可以捕获此事件并将焦点返回到文本区域并将选项卡添加到current光标位置 你
  • Python 跟踪模块 - 跟踪执行的行,但保存到文件,而不是标准输出

    我想跟踪 python 脚本的执行行 但是我使用的程序需要将内容打印到标准输出 python 跟踪模块的跟踪选项将它们打印到标准输出 有没有办法告诉它不要将它们打印到标准输出 而是将它们保存到文件中 我尝试设置outfile参数 但它不会停
  • Android 文件描述符泄漏调试

    我们公司有很多在虚拟 真实设备上运行的用户界面测试 运行一段时间后测试随机崩溃 我认为这是文件描述符超出的结果 我使用 ls proc PID fd wc l and lsof p PID 但它并没有多大帮助 lsof 中的大多数行看起来像
  • Athena 的 .csv.metadata 文件的数据格式是什么?

    的数据格式是什么 csv metadata由 Amazon Athena 编写的文件 除了每个查询的输出文件之外 还有一个元数据文件 看起来它描述了结果的架构 我认为这就是雅典娜用来创建ResultSet ResultSetMetadata
  • Oracle 中表行的创建日期时间是多少?

    昨天我的朋友 BI 专家 向我解释了一个预言机问题 有一个 Oracle 数据库包含大量数据 但它们不会为每个表创建列来存储每行的创建日期时间 所以在这种情况下他如何获得每行的创建日期时间 时间戳 每行都有自己的系统更改号 SCN 这精确地
  • 蟒蛇 |为什么访问实例属性比访问本地慢?

    import timeit class Hello def init self self x 5 def get local attr self x self x 10x10 x x x x x x x x x x x x x x x x
  • 数据流模板 Cloud Pub/Sub 主题与 BigQuery 订阅

    我正在设置一个简单的概念验证来学习 Google Cloud 中的一些概念 特别是 PubSub 和 Dataflow 我有一个 PubSub 主题greeting 我创建了一个简单的云函数 用于向该主题发送发布消息 const escap
  • 使用linux宏access_ok()有什么意义

    我一直在做一些研究 我对这个宏有点困惑 希望有人能给我一些指导 我有一些 ioctl 代码 我继承的 而不是编写的 它做的第一件事是检查是否access ok 在继续从用户空间复制数据之前 define lddk copy from use
  • 找不到“React/RCTBridgeModule.h”文件

    在 xcode 上构建反应本机 iOS 应用程序时出现此错误 npm install 和 rpm 链接后开始出现此错误反应本机FS图书馆 但在网上搜索解决方案后 我注意到很多人在安装其他 React Native 库时遇到了同样的错误 A
  • Kotlin - 使用 Persistence Room:runtime lib 从 Room 数据库返回新插入的 id

    我正在尝试使用 Kotlin 在 Room 数据库中插入用户记录 它工作得很好 现在我想返回新插入的记录id来检查Room数据库中的记录是否成功插入 但是当我在插入方法中应用 Long 返回类型并运行代码时 我收到以下错误 错误 方法返回
  • Vec::new() 如何知道请求的元素类型是什么?

    我可以创建任何类型的向量 如下所示 let mut vec Vec
  • Bootstrap 流体布局 - 侧边栏的固定宽度

    我有一个基于 Twitter Bootstrap 的流畅布局 div class container fluid div class row fluid div class span2 div div class span10 div di
  • spring boot 包不存在错误

    我正在编译我的项目mvn clean package 并失败了package does not exist 详细命令 获取jar文件target xxxx jar通过跑步mvn clean package在源项目中 通过运行安装此 jar
  • CORS、withCredentials 和第三方 cookie

    我正在尝试执行 CORS GET 来发送 cookie 我已经设置了所有标题 access control allow origin access control allow credentials access control allow
  • 过程声明与同名事件或过程的描述不匹配

    我只是新手 尝试用Visual Basic 6编写一个简单的程序 代码几乎与课本上的相同 它本来是一种绘画程序 令人惊讶的是 它无法通过该问题标题中给出的错误进行编译 这是代码 Option Explicit Dim Col As Long
  • Python:如何从请求响应中读取excel文件?

    我正在使用 requests 库以流的形式下载 Excel 文件 r requests get my url stream True 我想读取这个excel文件中的数据 为此我可以尝试使用pandas 但我不确定如何从收到的响应中读取文件
  • Android Studio 重复生成的文件

    Android studio 不断创建生成的类 即使它们已经存在 我猜这个问题与 NavigationArgs 有关 但它总是给出一些重复错误 现在解决我的问题的唯一方法是每次运行应用程序之前清理整个项目 有谁知道如何解决这个问题 我如何知
  • 从文本文件中提取单词

    假设您有一个如下所示的文本文件 http www gutenberg org files 17921 17921 8 txt 有谁有好的算法或开源代码来从文本文件中提取单词 如何获取所有单词 同时避免特殊字符 并保留 it s 等内容 我在