假设您有一个如下所示的文本文件:http://www.gutenberg.org/files/17921/17921-8.txt
有谁有好的算法或开源代码来从文本文件中提取单词?
如何获取所有单词,同时避免特殊字符,并保留“it's”等内容......
我在 Java 工作。
谢谢
这听起来像是正则表达式的正确工作。如果您不知道如何开始,这里有一些 Java 代码可以为您提供一些想法:
String input = "Input text, with words, punctuation, etc. Well, it's rather short.";
Pattern p = Pattern.compile("[\\w']+");
Matcher m = p.matcher(input);
while ( m.find() ) {
System.out.println(input.substring(m.start(), m.end()));
}
图案[\w']+
多次匹配所有单词字符和撇号。示例字符串将逐字打印。看看Java Pattern 类文档阅读更多内容。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)