字符串损坏或 preg_match 错误？

2024-04-10

NO-BREAK SPACE 和许多其他 UTF-8 符号需要 2 个字节来表示 http://www.fileformat.info/info/unicode/char/a0/index.htm;因此，在假定的 UTF8 字符串上下文中，非 ASCII (>127) 的隔离（前面没有 xC2）字节是无法识别的字符...好吧，这只是一个布局问题（！），但是它破坏了整个字符串？

如何避免这种“非预期行为”？（它出现在某些函数中，而不出现在其他函数中 http://www.php.net/manual/en/language.types.string.php#language.types.string.details).

示例（生成非预期行为preg_match only):

  header("Content-Type: text/plain; charset=utf-8"); // same if text/html
  //PHP Version 5.5.4-1+debphp.org~precise+1
  //using a .php file enconded as UTF8.

  $s = "THE UTF-8 NO-BREAK\xA0SPACE"; // a non-ASCII byte
  preg_match_all('/[-\'\p{L}]+/u',$s,$m);
  var_dump($m);            // empty! (corrupted)
  $m=str_word_count($s,1);
  var_dump($m);            // ok

  $s = "THE UTF-8 NO-BREAK\xC2\xA0SPACE";  // utf8-encoded nbsp
  preg_match_all('/[-\'\p{L}]+/u',$s,$m);
  var_dump($m);            // ok!
  $m=str_word_count($s,1);
  var_dump($m);            // ok

这不是一个完整的答案，因为我没有说为什么有些 PHP 函数”无效编码的字符串完全失败“而其他人则不然：请参阅问题评论中的@deceze 和@hakre 答案。如果您正在寻找 PCRE 替代品str_word_count()，看我的preg_word_count() below.

PS：关于“PHP5的内置库行为统一” 讨论，我的结论是 PHP5 还不错，但是我们创建了很多用户定义的包装（外观）函数（参见 PHP 框架的多样性！）...或者等待 PHP6 :-)

谢谢@pebbl！如果我理解你的链接，PHP 缺少错误消息 http://php.net/manual/en/reference.pcre.pattern.modifiers.php#54805。因此，我所图示的问题的一个可能的解决方法是添加一个错误条件......我发现这里的条件 https://stackoverflow.com/a/1523574/287948（它确保有效的utf8！）...并且感谢@deceze记住存在一个内置函数来检查这个条件（我之后编辑了代码）。

将问题放在一起，将解决方案转换为函数（已编辑，感谢 @hakre 评论！），

 function my_word_count($s,$triggError=true) {
   if ( preg_match_all('/[-\'\p{L}]+/u',$s,$m) !== false )
      return count($m[0]);
   else {
      if ($triggError) trigger_error(
         // not need mb_check_encoding($s,'UTF-8'), see hakre's answer, 
         // so, I wrong, there are no 'misteious error' with preg functions
         (preg_last_error()==PREG_BAD_UTF8_ERROR)? 
              'non-UTF8 input!': 'other error',
         E_USER_NOTICE
         );
      return NULL;
   }
 }

现在（在思考@hakre答案后编辑），关于统一的行为：我们可以使用 PCRE 库开发一个合理的函数来模仿str_word_count行为，接受错误的 UTF8。对于这个任务我使用了@bobinceiconv tip https://stackoverflow.com/a/1523574/287948:

 /**
  * Like str_word_count() but showing how preg can do the same.
  * This function is most flexible but not faster than str_word_count.
  * @param $wRgx the "word regular expression" as defined by user.
  * @param $triggError changes behaviour causing error event.
  * @param $OnBadUtfTryAgain mimic the str_word_count behaviour.
  * @return 0 or positive integer as word-count, negative as PCRE error.
  */
 function preg_word_count($s,$wRgx='/[-\'\p{L}]+/u', $triggError=true,
                          $OnBadUtfTryAgain=true) {
   if ( preg_match_all($wRgx,$s,$m) !== false )
      return count($m[0]);
   else {
      $lastError = preg_last_error();
      $chkUtf8 = ($lastError==PREG_BAD_UTF8_ERROR);
      if ($OnBadUtfTryAgain && $chkUtf8) 
         return preg_word_count(
            iconv('CP1252','UTF-8',$s), $wRgx, $triggError, false
         );
      elseif ($triggError) trigger_error(
         $chkUtf8? 'non-UTF8 input!': "error PCRE_code-$lastError",
         E_USER_NOTICE
         );
      return -$lastError;
   }
 }

展示（尝试其他输入 https://stackoverflow.com/a/19274144!):

 $s = "THE UTF-8 NO-BREAK\xA0SPACE"; // a non-ASCII byte
 print "\n-- str_word_count=".str_word_count($s,0);
 print "\n-- preg_word_count=".preg_word_count($s);

 $s = "THE UTF-8 NO-BREAK\xC2\xA0SPACE";  // utf8-encoded nbsp
 print "\n-- str_word_count=".str_word_count($s,0);
 print "\n-- preg_word_count=".preg_word_count($s);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

php

UTF8

字符串损坏或 preg_match 错误？的相关文章

如何在 PHP MYSQL 中将数据库表和每条记录从一台数据库服务器复制到另一台数据库服务器？>

您好我编写了一段代码可以将数据库表从一个服务器复制到另一个服务器但是每个表的记录没有复制如何编写一个可以将表和每个记录从一个数据库服务器复制到另一个数据库服务器的函数这是我的示例代码
如何使用 preg_replace 实现带条件的模板

我正在尝试实现一个管理界面经理可以在其中创建网站元标记形成的高级规则我有一个函数它采用模板并用 registry 中的值替换其中的占位符并在需要时应用修饰符 registy array profession name gt acto
用嘲笑测试 Laravel 外观总是会通过，即使它应该失败

我试图在单元测试期间模拟 Laravel 中的一些外观但似乎无论如何测试总是会通过例如此示例取自 Laravel 文档 Event shouldReceive fire gt once gt with foo array name g
为什么 MySQLi 库本身不支持命名参数？

正确的 MySQLi 参数化查询语法来自http php net manual en mysqli quickstart prepared statements php http php net manual en mysqli quick
从 Yii2 中的联结表检索数据

我试图从 Yii2 中的连接表获取数据无需额外查询我有 2 个模型用户组通过连接表 user group 关联在 user group 表中我想存储此关系的额外数据管理标志将数据添加到连接表的最佳方法是什么 link 方法接
为什么我的 Facebook 访问令牌突然停止工作？ “OAuthException：验证访问令牌时出错。”

我有一个 iframe Facebook 应用程序它使用 Facebook PHP SDK 进行身份验证并进行 api 调用在身份验证过程中系统会提示用户输入基本信息和离线访问如果他们允许我的应用程序访问 Facebook 会将它们
如何在 PHP 中使用 RS256 签署 X.509 证书？无法获取有效指纹...x5t

我已经实现了 JWT 令牌生成器库Here https github com F21 jwt blob master JWT JWT php 并且我能够获得 RS256 令牌有效负载但我对标题数据有疑问我需要一个标头值 x5t 该标头
PHP将数据写入文件中间而不重写文件的最佳方法是什么

我正在 php 1GB 中处理大型文本文件我正在使用 file get contents file txt NULL NULL 100000000 100 要从文件中间获取数据但如果我想将文件中的数据更改为与原始数据不同的更改我将不得
使用月份、年份、星期几和周数计算月份中的某一天

如何在 PHP 中计算月份中的某一天并给出月份年份星期几和周数例如如果我有 2013 年 9 月星期几是星期五周数是 2 那么我应该得到 6 2013 年 9 月 6 日是第二周的星期五实现此目的的一种方法是使用相对格式 h
如何修复 Nginx 自动 301 重定向到带有尾部斜杠的相同 URL？

当我尝试将 Web 应用程序的子目录中的索引文件访问到相同的 URL 但附加了斜杠时 Nginx 出现了不良行为它正在重新路由请求我有一个简单的 Web 应用程序其中设置了一个根目录和其中的许多子目录每个子目录中都有一个 inde
如果一个多维数组中的子数组与另一个多维数组不同，则覆盖该子数组

我坚持这个问题真的不知道如何解决我有两个多维数组需要将第二个数组中的每个 entry id 与第一个数组进行匹配然后需要检查第二个数组中的每个 file no 是否在数据库第一个数组中并且 status 是否与第一个数组匹配
Mysql获取特定表的最后一个id

我必须从特定的插入表中获取最后的插入 ID 可以说我有这个代码 INSERT INTO blahblah test1 test 2 VALUES test1 test2 INSERT INTO blahblah2 test1 test 2
将 PHP 7 安装到我的服务器后，PHP 模块无法加载

我将 PHP 7 安装到我的服务器上因此我没有 etc php5 和 etc php 7 0 当我运行我的网络应用程序时我看不到任何以前的 CURL 或 fork 起初我收到这个错误消息消息调用未定义的函数curl init 安装
MVC和依赖注入，被迫使用单例Controller？

我正在致力于构建一个根据 MVC 原则运行并利用依赖注入的 PHP 框架我想我已经把前端控制器部分放下了有一个工作路由器实例化控制器实例并根据请求的 URI 调用适当的操作接下来是依赖注入我想实现一个使用反射解决依赖关系的容器这样
在 wampserver 2.2 上安装 php_imagick.dll PHP 扩展

我使用的是 32 位操作系统的 Windows 7 我安装了 ImageMagick 6 8 7 Q16Link https www imagemagick org script download php windows我能够从命令行转换
jquery ajax加载后丢失CSS

大家知道如何解决 load Ajax 请求后的 css 问题吗例如如果我想从网页加载 DIV 在我的 Ajax 请求之后 container load path to div div id 我丢失了与该 div 关联的所有 css 和脚
使用 Apache 允许 Glassfish 和 PHP 在同一服务器中协同工作

是否可以建立从 Java 到 php 文件的桥梁我有一个用 Java 编写的应用程序我需要执行http piwik org http piwik org 这是用 PHP 编写的在服务器中我正在运行 PHP 但无法从浏览器访问 php
为什么我的浮点数大于 1 时在 MYSQL 中存储为 .9999？

我将进程时间作为 float 4 4 存储在 MySQL 数据库中 start time microtime TRUE things happen in my script end time microtime TRUE process t
如何在PHP中获取div中的所有链接

我想从另一个网站打开一个页面并提取一个中的所有链接 href div of class layout 2 2 在此页面中我如何使用 PHP 来做到这一点我想复制layout 2 2中的每个链接this https url 网页这是我
纯旧 PHP 对象 (POPO) 一词的确切含义是什么？

我想了解一下波波我搜索了 popo 发现它代表 Plain Old Php Object 但我不确定 Plain Old Php Object 的确切含义我想知道什么是 popo 以及在哪里使用它谢谢普通旧在此处插入语言对象是一

随机推荐

android studio 3.1 中的模块：应用程序没有系统资源管理器

android studio 3 1 中的模块应用程序没有系统资源管理器问题是当它 android studio android 3 1 我不幸进入完成内置库文件后它显示下载或刷新如果你已经下载我使用下载之后这个错误来了该文件名
type(myVar) 和 (type)myVar 有什么区别？

我正在 cplusplus com 上阅读完整的教程手动编码和编译每个示例我经常会偶然发现一些让我困惑的事情我目前正在学习这一部分 http www cplusplus com doc tutorial structs http ww
安装带有 Capacitor 的 BackgroundGeolocation 插件后，无法在 Android 上构建 Ionic 应用程序

我正在尝试将我的应用程序从 Cordova 迁移到 Capacitor 但我仍然需要使用后台地理定位等功能为此我正在使用这个插件 https ionicframework com docs native background geolo
为什么 git 没有 pre-push hook？

在将更改推送到远程位于 bitbucket 上之前我希望有一个钩子来运行我的测试我通常会从 master 分支出来当该功能完成后我会将其合并回 master 并推送这就是我寻找预推送钩子的原因相反我使用了仅限于主分支的合并
需要帮助在两个套接字之间创建 TCP 中继

我有以下情况 SomeServer S lt gt C MyApp S lt gt C User S represents a server socket C represents a client socket 本质上 MyApp发起通信
初始化后无法应用 JqueryUI 可调整 AspectRatio？

我试图在 JQueryUI 可调整大小中动态打开关闭纵横比但是即使将选项设置为 false 后它仍然保持纵横比以下是我当前正在使用的代码 aspect check click function var ischecked aspec
Python setuptools：包目录不存在

我有一个与此相关的项目setup py file import setuptools with open README md r as fh long description fh read setuptools setup name ve
mousemove 事件是否每帧触发一次？

In this 小提琴演示 https jsfiddle net JoeZheng uy9poL1j 按下并移动鼠标会根据鼠标的位置绘制点绘制方法是听mousemove回调但它绘制了离散点表明mousemove事件不会连续触发更重要
枚举值的类型[重复]

这个问题在这里已经有答案了我可以通过以下方式获取表示接口键的类型 interface I a string b string const i keyof I typeof i is a b 有没有办法类似地获取表示枚举值的类型 enum
在 Dart 中实现观察者模式

我想在 Dart 中实现观察者模式但我不知道如何去做假设我有一堂课 class MyClass String observed field 现在每当我更改字段时我都想将 observed fieldchanged 字符串打印到控制台
UIWebView 到 UIImage

我尝试使用此方法从 UIWebView 捕获图像但图像仅包含屏幕的可见区域如何捕获 UIWebView 的完整内容包括不可见区域即整个网页到一张图像中 UIImage captureScreen UIView viewToCaptu
undefined 不是一个对象（评估route.routeName）

when update the expo from 16 0 0 to 24 0 0 and react navigation from git https github com react community react navigati
如何将UIView裁剪为半圆？

我想将 UIView 裁剪为半圆形提前致谢一个方便的方法就是子类 aUIView 在其上添加一个图层并使视图颜色透明如果不是默认情况下 import UIKit class SemiCirleView UIView var semi
BaseX RESTXQ“你好世界”示例

我正在努力开始使用基本 REST API 我已下载并安装了最新版本的 Windows 版 BaseX 我通过单击 BaseX 安装添加到 Windows 开始菜单中的 BaseX Server 开始图标启动了 BaseX Server 看
node/express：使用Forever连续运行脚本时设置NODE_ENV

我怎样才能设置NODE ENV http expressjs com guide html configuration当我使用时变量参数为生产 forever https github com indexzero forever启动我的
如何利用 Android 的“清除缓存”按钮

在 Android 的设置中在管理应用程序活动中单击应用程序时数据会分解为应用程序数据和缓存还有一个清除缓存的按钮我的应用程序缓存音频文件我希望用户能够使用此按钮清除缓存我如何存储它们以便它们与缓存集中在一起并且用户可
使用另一个域的用户凭据连接到 SQL Server

如何使用另一个域中的用户登录名密码连接到 SQL Server 数据库如果我使用我的帐户连接到数据库它工作正常 cnxn pyodbc connect DRIVER SQL Server SERVER server name DATA
Netbeans 错误：项目文件夹已存在且不为空

我安装了Netbeans 因为我正在读这本书 Java in 21 days 我在编程领域完全是个新手当我尝试在 Netbeans 中打开一个新项目时出现错误项目文件夹已存在且不为空删除 nbproject 文件夹并重新启动 IDE
如何让用户重新排序 UITableView 中的部分

我正在开发一个包含股票的应用程序按投资组合排列所以这很适合表格视图我正在研究编辑交互它足够简单允许用户添加或删除股票将它们拖动到一个投资组合或另一个投资组合中但我无法优雅地做的一件事是让用户将一个投资组合拖动到另一个投资组合的
字符串损坏或 preg_match 错误？

NO BREAK SPACE 和许多其他 UTF 8 符号需要 2 个字节来表示 http www fileformat info info unicode char a0 index htm 因此在假定的 UTF8 字符串上下文中非

字符串损坏或 preg_match 错误？

字符串损坏或 preg_match 错误？ 的相关文章

随机推荐

热门标签

字符串损坏或 preg_match 错误？的相关文章