我正在使用正则表达式(与 php/perl 兼容)来从某些文本中获取第一句话。我意识到,如果涵盖所有案例,这可能会变得巨大,但只是在目前“足够好”的事情之后。有人为此准备了现成的东西吗?
最终,您需要的是自然语言解析,这是极其困难的,并且单独使用正则表达式(甚至是超级增强的 PCRE)可能是不可能的。考虑这句话:
Regex 先生和他的句子匹配就到此为止。
到目前为止给出的每个答案都会将其解析为两个句子,这甚至不是一个边缘情况 - 想象一个以“亲爱的亚当斯先生:”或类似内容开头的文本块是相当合理的。您可以添加后向检查来检查标点符号之前的单词是什么,但这将变得难以维护,因为您必须检查所有可能的缩写。你必须检查先生和例如和公司。和圣以及许多其他你永远不会想到的。一段时间后,你可能会得到一个“相当不错”的实用解决方案,但它会很丑陋,有一天它会失败。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)