使用正则表达式将字符串拆分为句子

2023-12-11

我有随机文本存储在$sentences。使用正则表达式，我想将文本分成句子，请参阅：

function splitSentences($text) {
    $re = '/                # Split sentences on whitespace between them.
        (?<=                # Begin positive lookbehind.
          [.!?]             # Either an end of sentence punct,
        | [.!?][\'"]        # or end of sentence punct and quote.
        )                   # End positive lookbehind.
        (?<!                # Begin negative lookbehind.
          Mr\.              # Skip either "Mr."
        | Mrs\.             # or "Mrs.",
        | T\.V\.A\.         # or "T.V.A.",
                            # or... (you get the idea).
        )                   # End negative lookbehind.
        \s+                 # Split on whitespace between sentences.
        /ix';

    $sentences = preg_split($re, $text, -1, PREG_SPLIT_NO_EMPTY);
    return $sentences;
}

$sentences = splitSentences($sentences);

print_r($sentences);

效果很好。

但是，如果存在 unicode 字符，它不会分成句子：

$sentences = 'Entertainment media properties.Â Fairy Tail and Tokyo Ghoul.';

或者这个场景：

$sentences = "Entertainment media properties.&Acirc;&nbsp; Fairy Tail and Tokyo Ghoul.";

当文本中存在 unicode 字符时，我该怎么做才能使其工作？

这是一个ideone供测试用。

赏金信息

我正在寻找一个完整的解决方案。在发布答案之前，请阅读我与 WiktorStribiżew 的评论主题，了解有关此问题的更多相关信息。

正如预期的那样，任何类型的自然语言处理都不是一项微不足道的任务。原因是它们是进化系统。没有人坐下来思考哪些是好主意，哪些不是。每条规则都有 20-40% 的例外情况。话虽如此，可以执行您的命令的单个正则表达式的复杂性将是惊人的。尽管如此，以下解决方案主要依赖于正则表达式。

这个想法是逐步回顾text.
在任何给定时间，当前块text将包含在两个不同的部分中。一、候选子串before一个句子边界和另一个 -after.
前 10 个正则表达式对检测看起来像句子边界但实际上不是的位置。在这种情况下，before and after无需注册新句子即可前进。
如果这些对均不匹配，则将尝试与最后 3 对进行匹配，可能会检测到边界。

As for 这些正则表达式从哪里来？- 我翻译了这个 Ruby 库，它是根据生成的这张纸。如果你真的想理解它们，除了阅读论文别无选择。

就准确性而言 - 我鼓励您使用不同的文本进行测试。经过一番尝试后，我感到非常惊喜。

就性能而言 - 正则表达式应该具有高性能，因为它们都具有\A or \Z锚点，几乎没有重复量词，并且在有重复量词的地方 - 不能有任何回溯。不过，正则表达式就是正则表达式。如果您计划在大块文本上使用紧密循环，则必须进行一些基准测试。

强制性免责声明: 请原谅我生疏的 php 技能。下面的代码可能不是最惯用的 php，但它仍然应该足够清晰以表达要点。

function sentence_split($text) {
    $before_regexes = array('/(?:(?:[\'\"„][\.!?…][\'\"”]\s)|(?:[^\.]\s[A-Z]\.\s)|(?:\b(?:St|Gen|Hon|Prof|Dr|Mr|Ms|Mrs|[JS]r|Col|Maj|Brig|Sgt|Capt|Cmnd|Sen|Rev|Rep|Revd)\.\s)|(?:\b(?:St|Gen|Hon|Prof|Dr|Mr|Ms|Mrs|[JS]r|Col|Maj|Brig|Sgt|Capt|Cmnd|Sen|Rev|Rep|Revd)\.\s[A-Z]\.\s)|(?:\bApr\.\s)|(?:\bAug\.\s)|(?:\bBros\.\s)|(?:\bCo\.\s)|(?:\bCorp\.\s)|(?:\bDec\.\s)|(?:\bDist\.\s)|(?:\bFeb\.\s)|(?:\bInc\.\s)|(?:\bJan\.\s)|(?:\bJul\.\s)|(?:\bJun\.\s)|(?:\bMar\.\s)|(?:\bNov\.\s)|(?:\bOct\.\s)|(?:\bPh\.?D\.\s)|(?:\bSept?\.\s)|(?:\b\p{Lu}\.\p{Lu}\.\s)|(?:\b\p{Lu}\.\s\p{Lu}\.\s)|(?:\bcf\.\s)|(?:\be\.g\.\s)|(?:\besp\.\s)|(?:\bet\b\s\bal\.\s)|(?:\bvs\.\s)|(?:\p{Ps}[!?]+\p{Pe} ))\Z/su',
        '/(?:(?:[\.\s]\p{L}{1,2}\.\s))\Z/su',
        '/(?:(?:[\[\(]*\.\.\.[\]\)]* ))\Z/su',
        '/(?:(?:\b(?:pp|[Vv]iz|i\.?\s*e|[Vvol]|[Rr]col|maj|Lt|[Ff]ig|[Ff]igs|[Vv]iz|[Vv]ols|[Aa]pprox|[Ii]ncl|Pres|[Dd]ept|min|max|[Gg]ovt|lb|ft|c\.?\s*f|vs)\.\s))\Z/su',
        '/(?:(?:\b[Ee]tc\.\s))\Z/su',
        '/(?:(?:[\.!?…]+\p{Pe} )|(?:[\[\(]*…[\]\)]* ))\Z/su',
        '/(?:(?:\b\p{L}\.))\Z/su',
        '/(?:(?:\b\p{L}\.\s))\Z/su',
        '/(?:(?:\b[Ff]igs?\.\s)|(?:\b[nN]o\.\s))\Z/su',
        '/(?:(?:[\"”\']\s*))\Z/su',
        '/(?:(?:[\.!?…][\x{00BB}\x{2019}\x{201D}\x{203A}\"\'\p{Pe}\x{0002}]*\s)|(?:\r?\n))\Z/su',
        '/(?:(?:[\.!?…][\'\"\x{00BB}\x{2019}\x{201D}\x{203A}\p{Pe}\x{0002}]*))\Z/su',
        '/(?:(?:\s\p{L}[\.!?…]\s))\Z/su');
    $after_regexes = array('/\A(?:)/su',
        '/\A(?:[\p{N}\p{Ll}])/su',
        '/\A(?:[^\p{Lu}])/su',
        '/\A(?:[^\p{Lu}]|I)/su',
        '/\A(?:[^p{Lu}])/su',
        '/\A(?:\p{Ll})/su',
        '/\A(?:\p{L}\.)/su',
        '/\A(?:\p{L}\.\s)/su',
        '/\A(?:\p{N})/su',
        '/\A(?:\s*\p{Ll})/su',
        '/\A(?:)/su',
        '/\A(?:\p{Lu}[^\p{Lu}])/su',
        '/\A(?:\p{Lu}\p{Ll})/su');
    $is_sentence_boundary = array(false, false, false, false, false, false, false, false, false, false, true, true, true);
    $count = 13;

    $sentences = array();
    $sentence = '';
    $before = '';
    $after = substr($text, 0, 10);
    $text = substr($text, 10);

    while($text != '') {
        for($i = 0; $i < $count; $i++) {
            if(preg_match($before_regexes[$i], $before) && preg_match($after_regexes[$i], $after)) {
                if($is_sentence_boundary[$i]) {
                    array_push($sentences, $sentence);
                    $sentence = '';
                }
                break;
            }
        }

        $first_from_text = $text[0];
        $text = substr($text, 1);
        $first_from_after = $after[0];
        $after = substr($after, 1);
        $before .= $first_from_after;
        $sentence .= $first_from_after;
        $after .= $first_from_text;
    }

    if($sentence != '' && $after != '') {
        array_push($sentences, $sentence.$after);
    }

    return $sentences;
}

$text = "Mr. Entertainment media properties.Â Fairy Tail 3.5 and Tokyo Ghoul.";
print_r(sentence_split($text));

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用正则表达式将字符串拆分为句子的相关文章

Laravel 5 配置语言环境，不起作用

已完成的修改 on 配置应用程序 php locale gt env APP LOCALE en fallback locale gt en on env APP LOCALE pt 我也复制了资源 lang en文件到资源 lang
CodeIgniter/PHP - 从视图内调用视图

基本上对于我的网络应用程序我正在尝试更好地组织它目前每次我想加载页面时我都必须从控制器中执行此操作如下所示 this gt load gt view subviews template headerview this gt lo
如何在 SQLite 中获取最后插入的 ID？

SQLite 中是否有任何内置函数可以获取最后插入的行 ID 例如在 mysql 中我们有LAST INSERT ID 这种功能对于 sqlite 任何可用于执行相同过程的函数请帮我 Thanks SQLite 这可以使用SQLite
如果端口不是 80，.htaccess 重定向到错误页面

我正在运行一个便携式服务器 http www server2go web de 通过 USB 棒问题是我还在我的本地计算机上安装了 WAMP 并且 Apache 不知何故在 Windows 启动时启动因为一些我现在不记得的随机原因并且无
PHP正则表达式替换链接url

我需要添加href 之前http 如果这http 不遵循href or src 以下代码部分有效部分意味着它考虑 a href 只但不src a s i a href target blank gt 0 a str 预先感谢各位的回复 s
json_decode 到自定义类

是否可以将 json 字符串解码为 stdClass 以外的对象不是自动的但你可以按照老式的路线来做 data json decode json true class new Whatever foreach data as key g
CakePHP Unfilled 单选按钮在提交时更改为不需要的值

我有这个表单元素 form gt input ChecklistResponseGovernmentInfo driversLicenseIsOnline array type gt radio empty gt true options
将 jQuery 与 Selenium WebDriver 结合使用 - 如何将 JSON 对象转换为 WebElement？

我正在使用 Selenium WebDriver 我想执行 jQuery 代码来查找一些元素我的代码如下 public function uploadGrantDoc script return itemlist grant file u
使用正则表达式解析 Snort 警报文件

我正在尝试使用 Python 中的正则表达式从 snort 警报文件中解析出源目标 IP 和端口和时间戳示例如下 03 09 14 10 43 323717 1 2008015 9 ET MALWARE User Agent Win9
正则表达式在 Velocity 模板中不起作用

我在 Test java 中尝试过这个 String regex lt s br s s gt String test1 lt br gt System out println test replaceAll regex 但是当我在速度模板
zend框架验证模型中的数据而不是表单中的数据

使用 Zend Framework 2 在我的应用程序中要编辑数据库中的数据可以编译 html 表单或发送 http post 请求我的服务器作为 Web 服务实现在第二种情况下不会呈现表单问题如果当服务器收到不是从表单发送而
在 jQuery 选择器上使用正则表达式查找基于 ids 的所有元素

我有几个具有唯一 id 的元素如下所示 div div div div div div 我希望使用 jQuery 可以实现以下功能 item top each function this hide 我对正则表达式没有很好的掌握希望得到一
如何验证上传的文件是视频？

我的服务器上有一些非常敏感的信息因此安全性是一个大问题用户需要能够上传视频我知道允许用户上传文件会带来安全威胁因为没有 100 的方法可以阻止他们上传非视频但我显然可以选择服务器将保留哪些文件我知道检查文件扩展名是不够的检查
将 Base64 字符串转换为图像文件？ [复制]

这个问题在这里已经有答案了我正在尝试将我的 Base64 图像字符串转换为图像文件这是我的 Base64 字符串 http pastebin com ENkTrGNG http pastebin com ENkTrGNG 使用以下代码将
FastText - 由于 C++ 扩展未能分配内存，无法加载 model.bin

我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然据我所知此 API 无法加载较新的
安全地评估简单的数学

我想知道是否有一种安全的方法来评估数学例如 2 2 10000 12000 10000 20 2 2 40 20 23 12 无需使用eval 因为输入可以来自任何用户我需要实现的只是整数的加法和减法是否有任何已经存在的代码片段或者
如何让php页面从html页面接收ajax post

我有一个非常简单的表单其中有一个名字输入字段我捕获了表单数据并使用标准 jQuery 发布方法通过 ajax 将其传输到 PHP 页面但是我根本无法从 PHP 页面获得任何在服务器端捕获数据的响应我不确定我做错了什么或缺少什么
访问 PHP 数组对象受保护的属性

我正在尝试在 Symfony2 中上传多个文件我正在尝试访问以下请求对象但无法获取参数属性如何将文件一一上传我得到的错误致命错误无法访问第 66 行 var www File src Webmuch FileBundle Ent
单元测试和静态方法

阅读并学习单元测试试图理解以下帖子 http misko hevery com 2008 12 15 static methods are death to testability 这解释了静态函数调用的困难我不太清楚这个问题我一直认
将 Hbase 与 PHP 集成 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我已经安装了 Hbase 现在我正在寻找一些 PHP 库来将 hbase 与 PHP 集成我尝试了 2 个库第一个是我尝试与 th

随机推荐

如何分割换行符

我正在使用 jQuery 并且有一个文本区域当我通过按钮提交时我会提醒以换行符分隔的每个文本当有换行符时如何分割文本 var ks keywords val split n function document ready functi
使用同一按钮打开和关闭侧面菜单

目前我使用一个按钮来显示侧面菜单另一个按钮来关闭它
无法使用 Stax 中的 XMLEventReader 检查 XML 中的 CDATA

我无法检查 XML 中的 CDATA 并使用 XMLEventReader 读取它以下是示例
如何取消子元素的不透明度？

我想为父元素应用不透明度但我不希望子元素继承此不透明度 div class parent div class child div div parent opacity 0 6 有没有办法取消继承的不透明度也许强迫它opacity 1
如何在Python中读取文件并将其转换为二进制图像

我是Python新手我想读取像jpg png这样的图像并将其转换为二值图像这是我的工作 from PIL import Image import numpy def main name b jpg img Image open nam
在 Apache 上运行 Ruby 应用程序

我最近一直在学习 Ruby 我想将测试 Web 应用程序上传到我的服务器但我不知道如何让它在我的共享主机上运行我的托管详细信息与 JustHost 共享主机请参阅此处查看功能列表操作系统 Linux 阿帕奇 2 2 11 cPan
将 CKServerChangeToken 保存到核心数据

我使用 CloudKit 和 Core Data 与 Swift 来同步我的数据因此我创建了订阅并在收到通知后从云端获取新数据来更新我的核心数据这是处理此更新的推荐方法为了获取数据更改我可以插入 CKServerChangeTo
如何用Java扫描文件夹？

如何在Java中递归地列出文件夹中的所有文件不确定您想如何表示树无论如何这是一个使用递归扫描整个子树的示例文件和目录的处理方式相同注意文件 listFiles 对于非目录返回 null public static void mai
如何从给定范围内选择随机值

我正在尝试创建一个android应用程序它将在给定范围内生成随机一系列值在本例中为整数但是NOT它们之间相等并将它们显示在一个简单的 TextView 中假设我们有范围R 1 2 3 4 5 6 7 8 9 10 11 12 13
如何修复 OpenLayers 6.6.1 中的 Typescript 错误

升级到 OpenLayers 6 6 1 后我收到了数百个由泛型引起的打字稿错误例如 import olLayerVector from ol layer Vector import olFeature from ol Feature
是否可以使用 xmlstarlet 或其他 bash 工具在 xml 文件内注释/取消注释标签

如何使用 xmlstarlet 或任何其他 shell 脚本库工具等以编程方式注释取消注释 xml 文件内的标记块评论中输入文件
如果线程不修改 UI 元素，是否可以从另一个线程访问该元素？

假设在实例化表单控件元素的线程通常是主线程中运行的代码不会同时修改访问该元素是否可以获取 TextBox 的 Text 属性枚举一个ListView 订阅表单的关闭事件知道钩子将从实例化该表单的线程中调用我已经尝试了所有
删除 UITableView 中单元格之前的空白区域

我目前正在尝试放置一个UITableView在不同的位置而不是在我的视图控制器的顶部话虽如此它正在尝试在顶部添加标题以说明导航栏但这不是必需的因为我的控制器顶部没有如果我把左上角UITableView我想要单元格所在的位置它不会
如何定义我自己的元素类以与 Set 一起使用

我有以下代码 public class MyElement String name String type MyElement String name String type this name name this type type pu
在 Shiny 中按周顺序调整选择

我想对下面的代码做一个简单的调整请注意我插入了我的daterange检查从14 11 星期日到15 11 星期一但生成的表显示星期一在星期日之前但是我希望它按照所选工作日的顺序排列即先星期日然后星期一事实上我相信它是按字
替换片段并不会完全替换先前的片段。为什么这样？

我正在实现一个 fragments 101 程序其中当单击相应的按钮时我将替换一个片段但是会发生以下情况为什么会出现这种情况为什么初始片段没有被完全替换 MainActivity 和两个片段 xml 文件都使用 LinearLa
Facebook - 使用 PHP SDK/JavaScript SDK 发布签到

我正在尝试使用 Facebook Graph API 发布签到我已经经历过Facebook API 文档签入并且还拥有publish checkins允许但是我的签到没有被发布我可以知道有什么问题或者我还遗漏了什么吗感谢您的时
O(n log(n)) 算法，检查 int[] 中的 2 个数字之和是否 = 给定数字

我应该创建一个O n log n 检查 int 中 2 个数字之和是否给定数字的算法例如给定 1 4 7 2 3 4 总和为 8 1 7 但不是 20 给出的答案建议二元排序或合并排序但他们只是给出了合并排序算法而没有处理这个特定
jQuery 选择不包含类的元素[重复]

这个问题在这里已经有答案了我想选择所有元素 hi类这样做not包含 image class div class hi div class hue div class image 456 div div div div class hi
使用正则表达式将字符串拆分为句子

我有随机文本存储在 sentences 使用正则表达式我想将文本分成句子请参阅 function splitSentences text re Split sentences on whitespace between them lt

使用正则表达式将字符串拆分为句子

赏金信息

使用正则表达式将字符串拆分为句子 的相关文章

随机推荐

热门标签

使用正则表达式将字符串拆分为句子的相关文章