正则表达式将从文本文件中提取句子

2024-06-19

我需要一个正则表达式来从文本文件中提取句子。示例文本：

以 2004 年底发生的亚洲海啸灾难为例。对 Google 新闻 (http://news.google.com) 的查询在一个月内（1 月 17 日）返回了超过 80,000 篇有关该事件的在线新闻文章截至 2005 年 2 月 17 日）。先生提供的信息卡哈纳。

这是我的代码：

$re = '/(?<=[.!?]|[.!?][\'"])\s+/';
$sentences = preg_split($re, $text, -1, PREG_SPLIT_NO_EMPTY);

但最后一句话还是分裂了information by mr. and Kahana.怎么解决呢？谢谢：）

你不能用正则表达式来做到这一点

英语作为一种语言并不符合适当的格式规则。因此，正则表达式不适合实现您正在寻求的目的。您真正需要的是自然语言处理器之类的东西。

除非这对您的程序至关重要，否则我建议您确定以下事项：

可接受的错误水平是多少？你所做的一切都不会是完美的。但如果80%有效就可以了吗？ 90%？ 99%？这对您/您的客户有多重要？
文字从哪里来？例如，教科书的写法很可能与人们的推特提要不同。您可以根据您在使用的实际文本中看到的内容进行研究并进行例外处理。
我在用文字做什么？如果您只是对关键字之类的内容进行索引，那么正确分割句子并不重要（同样重要）。这一切都是为了调整程序以获得适合此特定目的的输出。

我的建议是通过反复试验来尽可能降低错误率。在大量文本上运行程序，并不断添加异常，直到获得可接受的错误率。然而，如果您需要超过几十条规则，您可能只想重新考虑这个问题。

简而言之，PHP 和正则表达式并不是为此目的，因为英语很时髦。因此，要么通过添加异常来获得较小的错误率，要么完全重新考虑这一点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

php

regex

正则表达式将从文本文件中提取句子的相关文章

FilesystemIterator 中的顺序

http php net manual en class filesystemiterator php http php net manual en class filesystemiterator php 我注意到FilesystemIt
WordPress 固定链接永远不会在本地主机 Ubuntu 12.10 上工作

除默认设置外 Wordpress 永久链接不起作用如何启用此重写我试过了 sudo a2enmod rewrite sudo service apache2 restart 永久链接保存到 localhost wordpress 中的
如何仅更改音频文件的 AWS S3 内容类型

我在 AWS S3 存储桶上有超过 50000 个文件音频图像 pdf 现在我面临着 Firefox 的问题由于其内容类型音频文件无法在 Firefox 上播放之前一直运转良好当我更改内容类型时音频文件效果很好二进制八位字节
mysql utf8_general_ci 区分大小写

我有一个 mysql 数据库我使用 utf8 general ci 不区分大小写在我的表中我有一些列例如 ID 和区分大小写的数据例如 iSZ6fX 或 AscSc2 为了区分大写和小写最好只在这些列上设置 utf8 bin 如
有没有办法在 PHP 中进行 100% 面向对象的编程？

我想可以在单独的类中调用函数我在 PHP 中称之为面向对象编程但一开始总有一个index php什么的它调用或者实例化另一个类有没有办法让一个类像java那样进行自调用 public static void main String
PHPUnit 测试套件包含路径

使用 phpunit 时我在包含路径方面遇到了一些麻烦不是针对 phpunit 本身而是针对我的代码和测试目录我有以下代码结构 Application StringCalculator php tests StringCalcula
CodeIgniter“找不到您请求的页面。”错误？

我在使用 CodeIgniter 时遇到问题我已经检查了互联网上所有可能的解决方案似乎对我的情况没有任何帮助我不是一个大专业人士这是我第一次使用 CodeIgniter 所以不要对我严厉路线 php route default c
是否可以动态添加代码/扩展类？

我想为我的代码编写一种插件模块系统如果我可以在定义类后将内容添加到类中那么事情会变得更加容易例如这样的事情 class foo public function a return b 上课了现在我想在定义后向其中添加另一个
如何去掉所有标签并得到纯文本？

我必须将用户输入文本存储在我的数据库中HTML and CSS格式案例是 Rad编辑器 http www telerik com products aspnet ajax editor aspx 用户将文本从 MSWord 复制到此编辑器
WooCommerce 订阅 - 获取特定订阅的产品

有没有办法从 product from subscription 谢谢这个帖子 https stackoverflow com questions 42791096 woocommerce subscriptions get related
如何在 PHP 中识别请求的页面

有没有简单的方法来识别最初处理请求的文件忽略获取参数并处理至少是基本的映射例如 to index php 理想情况下我正在寻找类似的东西 SERVER REQUEST URI 但无论 get 参数如何它都会返回相同的值并且该值
PHP：将“’”字符从 ISO-8859-1 转换为 UTF-8 时出现问题

我在使用 PHP 将 ISO 8859 1 数据库内容转换为 UTF 8 时遇到一些问题我正在运行以下代码来测试 Connect to a latin1 charset database and retrieve Georgia O Ke
htaccess 文件中的动态重写

我正在我的 htaccess 文件中进行一些重写和重定向我这样做的原因是因为我正在为现有网站开发新的设计和布局因此我需要重定向以保持谷歌排名等所以旧的现有的 URL 看起来像这样 news internet shopper numb
PHP exec() 返回值是什么？

我正在尝试使用 PHP exec 函数如果 return var 参数与输出参数一起存在那么执行命令的返回状态将被写入此多变的如果执行成功则为 0 但是如果出现错误则可能是多个其他整数我似乎无法在任何地方找到这些整数对应的内
CodeIgniter form_validation->run() 总是返回 false？

我是新来的CodeIgniter我一直在尝试实现表单提交功能但是每当我按提交时表单页面只会刷新并且数据库不会更新看来 this gt form validation gt run 总是返回 false 但我不知道为什么 The 控
Zend Framework 中数据库驱动路由的教程？

我正在开发一个需要使用数据库驱动的 MVC 方案的项目其中控制器和视图的路由通过单个数据库表进行控制但是我无法找到任何使用当前版本的框架演示这一点的教程它们似乎都是在几个版本之前编写的我想知道是否有人用更新的版本做过类似的事情框架
如何正确转义 CSV 中的双引号？

我的 CSV 中有这样一行 Samsung U600 24 10000003409 1 10000003427 旁边引用24用于表示英寸而该引号旁边的引号则关闭该字段我正在读这行fgetcsv但解析器犯了一个错误并将该值读取为 Sam
重定向后丢失会话变量

用户填写用户名和密码如果正确页面会加载一些信息例如user id到会话变量该脚本制作了一个header Location 重定向不知何故下一页无法识别会话怎么会重定向到同一个域并且所有页面都有session start 我
用于分页的php示例脚本[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案任何人都可以建议一个好的分页 php 脚本其中人们想要分页显示数据库中的大量项目以下链接可以帮助您
XDebug 与 Symfony 和 PhpStorm 不起作用（Ubuntu 安装）

关于我的系统的事实乌班图15 10PHP 5 6 11交响乐2 7PhpStorm 10调试2 4我真的很难让 xdebug 在 PhpStorm 的 Symfony 项目下工作我安装了xdebug 在我的 etc php5 apache

随机推荐

使用包管理器时如何管理 Perl 模块？

A 最近的问题 https stackoverflow com questions 397817 unable to find perl modules in intrepid ibex ubuntu这让我开始思考在我尝试过的大多数 Li
PHP-将字符串转换为unicode

我在做这个工作 source mb convert encoding test unicode utf 8 source unpack C source var dump source return array size 8 1 gt in
如何实现右边缘倾斜的 div？ [复制]

这个问题在这里已经有答案了我几天来一直在寻找使 div 的右边缘倾斜 45 度的代码这是我特别想要得到的图像示例似乎有很多倾斜边缘 div 的示例但我找不到任何具有特定右侧倾斜的示例我花了很多时间试图改变其他人的代码但结果却一
xsl:character-map 来替换特殊字符

给定一个值为
输入类型 = AngularJS 中的数字验证

我正在尝试验证 lt input type number gt 通过使用输入数字 AngularJS 模块 ng 的指令当使用数字类型的输入时最大或最小属性设置为数字例如
Express Mongoose DB.once('open')无法执行回调函数

exports c 39 function req res var mongoose require mongoose mongoose createConnection mongodb localhost cj var db mongoo
编译错误：只有赋值、调用、递增、递减和新对象表达式可以用作语句[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案 string cipherData byte cipherbytes byte plainbytes byte plainbyte
LightGBM：继续训练模型

我正在使用交叉验证来训练模型如下所示 classifier lgb Booster params params train set lgb train set result lgb cv init model classifier par
如何暂停或恢复 celery 任务？

我的项目中有一项要求客户可以暂停或恢复正在挂起的流程而不是流程流程我在用网络套接字显示芹菜任务结果但在暂停恢复时我不明白如何设计代码我想到的唯一方法就是revoke暂停请求中的任务同时保留数据撤销的过程在缓存中并稍后在res
高效秒表

您好我正在用 javascript 编写一个秒表实用程序我有一个关于效率和开销的问题我考虑过两种制作秒表的方法 1 存储开始日期并不断测量自该日期以来经过的毫秒数 2 创建一个整数并按设定的时间间隔递增其值我想知道哪个最有效另外
我如何在 viewDidLoad 中执行 UIView animateWithDuration ？ IOS 7

我在 viewDidAppear 中尝试这个但我有一秒钟的延迟我能做什么在 viewDidLoad 中工作 void viewDidAppear BOOL animated fullRotation CABasicAnimation
有没有办法避免自动更新 Rails 时间戳字段？

如果您有数据库列created at and updated at当您创建和更新模型对象时 Rails 将自动设置这些值有没有办法在不接触这些列的情况下保存模型我正在引入一些旧数据我想根据不同名称的旧数据字段中的相应值设置这些值
无法访问类型的封闭实例。 [复制]

这个问题在这里已经有答案了整个代码是 public class ThreadLocalTest ThreadLocal
带有 jQuery 日期选择器 OnTextChanged 的文本框未触发

我有一个带有 OnTextChanged 事件的 asp textbox 当从绑定到它的 jQuery 日期选择器中选择新日期时我想触发该事件但在选择日期时 OnTextChanged 永远不会触发如果我手动更改文本它会触发但
字符串模板：使所有变量声明全局

我正在尝试使用 ANTLR StringTemplate 实现翻译器我有一种类似于 java 的起始语言和多种目标语言我用了这个例子 http www antlr org wiki display ST Language Transla
如何设置 tmux 在启动时打开指定的窗口？

如何设置 tmux 使其在启动时打开指定的窗口您可以编写一个小 shell 脚本来启动 tmux 以及所需的程序我在一个名为 dev tmux 的 shell 脚本中包含以下内容开发环境 bin sh tmux new session
检测输入何时具有“只读”属性

我想在输入具有只读属性时发出警报我已经尝试过这个 if input attr readonly readonly alert foo 我认为如果甚至不是最好的方法最快的方法是使用 is jQuery 函数 if input is
使用 include 的 Javascript 过滤对象

我正在尝试使用 javascript 中的 filter 函数来过滤对象我想过滤这样的数组 1615 1616 它在代码中被引用为 value verdier 数据集是一个大型数组包含从 JSON 字符串解析的具有多个属性的对象数组中
将箱线图添加到Python中的其他图表中

这两个图的每个点的 x 轴值完全相同是否可以在第一个图的顶部显示盒须我试过这个 fig1 plt figure ax fig1 add subplot 211 ax set xscale log ax plot x7 y7 c ax p
正则表达式将从文本文件中提取句子

我需要一个正则表达式来从文本文件中提取句子示例文本以 2004 年底发生的亚洲海啸灾难为例对 Google 新闻 http news google com 的查询在一个月内 1 月 17 日返回了超过 80 000 篇有关该事件的在

正则表达式将从文本文件中提取句子

正则表达式将从文本文件中提取句子 的相关文章

随机推荐

热门标签

正则表达式将从文本文件中提取句子的相关文章