PHP basename() 和 pathinfo() 与多字节 UTF-8 文件名

2023-11-25

我发现 PHP 函数 basename() 以及 pathinfo() 对于多字节 utf-8 名称有奇怪的行为。 它们删除所有非拉丁字符,直到第一个拉丁字符或标点符号。但是,此后,后续的非拉丁字符将被保留。

basename("àxà"); // returns "xà", I would expect "àxà" or just "x" instead
pathinfo("àyà/àxà", PATHINFO_BASENAME); // returns "xà", same as above

但奇怪的是 pathinfo() 的 dirname 部分工作正常:

pathinfo("àyà/àxà", PATHINFO_DIRNAME); // returns "àyà"

PHP 文档警告说基本名称() and 路径信息()函数是区域设置感知的,但这并不能证明之间的不一致pathinfo(..., PATHINFO_BASENAME) and pathinfo(..., PATHINFO_DIRNAME),更不用说相同的非拉丁字符被丢弃或接受的事实,具体取决于它们相对于拉丁字符的位置。

听起来像是一个 PHP 错误。

由于“基本名称”检查对于避免目录遍历的安全问题非常重要,因此是否有任何可靠的基本名称过滤器可以与 unicode 输入正常工作?


我发现更改区域设置可以解决所有问题。

虽然 Apache 默认使用“C”语言环境运行,但 cli 脚本默认使用 utf-8 语言环境运行,例如“en_US.UTF-8”(或者在我的情况下为“it_IT.UTF-8”)。在这些条件下,不会出现该问题。

因此,Apache 的解决方法包括在调用这些函数之前将区域设置从“C”更改为“C.UTF-8”。

setlocale(LC_ALL,'C.UTF-8');
basename("àxà"); // now returns "àxà", which is correct
pathinfo("àyà/àxà", PATHINFO_BASENAME); // now returns "àxà", which is correct

或者更好的是,如果您想备份当前区域设置并在完成后恢复它:

$lc = new LocaleManager();
$lc->doBackup();
$lc->fixLocale();
basename("àxà/àyà");
$lc->doRestore();


class LocaleManager
{
    /** @var array */
    private $backup;


    public function doBackup()
    {
        $this->backup = array();
        $localeSettings = setlocale(LC_ALL, 0);
        if (strpos($localeSettings, ";") === false)
        {
            $this->backup["LC_ALL"] = $localeSettings;
        }
        // If any of the locales differs, then setlocale() returns all the locales separated by semicolon
        // Eg: LC_CTYPE=it_IT.UTF-8;LC_NUMERIC=C;LC_TIME=C;...
        else
        {
            $locales = explode(";", $localeSettings);
            foreach ($locales as $locale)
            {
                list ($key, $value) = explode("=", $locale);
                $this->backup[$key] = $value;
            }
        }
    }


    public function doRestore()
    {
        foreach ($this->backup as $key => $value)
        {
            setlocale(constant($key), $value);
        }
    }


    public function fixLocale()
    {
        setlocale(LC_ALL, "C.UTF-8");
    }
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

PHP basename() 和 pathinfo() 与多字节 UTF-8 文件名 的相关文章

随机推荐

  • 当 printf 的相应参数不是短/字符时,使用 h 或 hh 长度修饰符是否非法?

    The printf函数族提供了一系列长度修饰符 其中两个是hh 表示一个signed char or unsigned char论点提升为int and h 表示一个signed short or unsigned short论点提升为i
  • PHP 电子邮件正文解码为纯文本

    我正在用 php 绑定一些相同电子邮件的提取内容 但我不能 接着就 随即 body imap body imap o email n I get Pour le r E9cup E9rer il suffit de le t E9l E9c
  • 批量“计数器”

    我正在尝试制作一个批处理文件 每次循环时都会将变量加 1 然后检查该变量是否等于 5 如果不等于 则再次循环 我知道这可能需要一个 while 循环 但我不知道该怎么做 而且我现在只是享受学习 Batch 的乐趣 这是代码 它没有按应有的方
  • C# MySQL like查询不带参数

    我正在使用查询来查找特定字段中的关键字 当我输入 parameter 然后添加带有值的参数时 它不起作用 但是当我直接输入值时 它起作用 任何人都可以帮助我将值作为参数传递给我的请询问 下面是我的代码 这可以工作并检索标题中包含 我的 一词
  • 如何防止使用 JPA 保存子对象?

    我在学校和学生实体之间建立了 OneToMany 关系 我想要做的是 当我保存学校对象时 不要保存或更新学生对象 当然也不要删除它们 当我尝试保存如下所示的学校对象时 它也会更新我的学生对象 但我不希望它们被更新 而只是可连接 有什么办法吗
  • C# 拦截WebBrowser发出的请求

    是否可以拦截所有的请求WebBrowser控制 我想修改每个请求的请求URI 包括图像 脚本 样式表等的请求 有一个活动叫 导航2之前 在发出任何请求之前调用 您可以使用它来修改传出请求
  • 无形状映射中的子类型多态性

    我构建了以下内容 import shapeless import poly object Main def main args Array String object iterateOverHList extends List gt Ite
  • 在未找到匹配项的 OPTIONAL MATCH 之后创建

    我正在尝试编写一个查询 如果另一个关系已经存在 它将创建一些关系 START a node 1 b node 2 c node 3 OPTIONAL MATCH a r1 RELATIONSHIP optional1 OPTIONAL MA
  • 判断CGPoint是否在图像区域内

    我试图弄清楚 CGPoint 是否位于图像的形状内 该图像是一个简单的黑色形状 如下面所附的两个 我想创建一个方法来确定 CGPoint 是否位于该形状的黑色区域内 我认为这需要两件事 1 将图像变成可以用代码读取的东西 不确定这将使用哪种
  • Flask 中的大文件上传

    我正在尝试实现一个烧瓶应用程序来上传文件 该文件可能非常大 比如差不多2G大小 我已经完成了服务器端处理功能 如下所示 app route upload
  • Volley 服务器错误,网络响应为空

    每次我尝试在 Volley 中使用 POST 方法时 都会出现严重错误 我在 getCause 中得到 null 值 在 get Network Response toString 中得到一些默认值 如果我使用 GET 方法 效果很好 我从
  • PUT POST 具有幂等性 (REST)

    我不太明白 HTTP 动词是如何定义为幂等的 我读到的只是 GET 和 PUT 是幂等的 POST 不是幂等的 但是您可以使用 POST 创建一个不会更改任何内容 例如在数据库中 的 REST API 或者为 PUT 创建一个在每次调用时都
  • pandas 数据框,按值复制

    我注意到我的程序中存在一个错误 它发生的原因是因为 pandas 似乎是通过引用而不是通过值复制 pandas 数据框 我知道不可变对象总是通过引用传递 但 pandas 数据帧不是不可变的 所以我不明白为什么它通过引用传递 有人可以提供一
  • Inno Setup,[Run] 中的空格和双引号

    我正在尝试在 Windows 上安排任务 但不幸的是 它不起作用 任务已创建 但不正确 当我查看任务的参数时 它说 PROGRAM C Program ARGUMENTS Files x86 AppName executable exe 我
  • C++11 中的命名空间问题?

    有人可以解释一下以下内容吗 cat test cpp include
  • 使用 LinkMovementMethod 时可以禁用 TextView 中的滚动吗?

    我在 textView 中使用可点击范围来仅允许部分文本可点击 它工作正常 只是 textView 向下滚动 这是我不想要的 发生这种情况是因为我使用 LinkMovementMethod 在需要时滚动 有没有办法取消滚动 Spannabl
  • 使用 Javascript 播放 HTML5 视频 [关闭]

    很难说出这里问的是什么 这个问题模棱两可 含糊不清 不完整 过于宽泛或言辞激烈 无法以目前的形式合理回答 如需帮助澄清此问题以便重新打开 访问帮助中心 我该如何使用JavaScript播放 HTML5
  • 作为“本地系统”运行 Windows 服务有哪些安全风险?

    我编写了一个作为 本地系统 运行的 NET Windows 服务 最近我读到 作为本地系统运行可能会将系统凭据暴露给黑客 使他们能够接管系统 当我作为本地系统运行服务时 涉及哪些风险以及如何预防这些风险 服务运行为LocalSystem是系
  • kubernetes 部署-容器未启动-错误- InvalidImageName

    以下是 Kubernetes 部署 yaml 文件 container图片部分 image https registry ng bluemix net test service test branch 67 imagePullPolicy
  • PHP basename() 和 pathinfo() 与多字节 UTF-8 文件名

    我发现 PHP 函数 basename 以及 pathinfo 对于多字节 utf 8 名称有奇怪的行为 它们删除所有非拉丁字符 直到第一个拉丁字符或标点符号 但是 此后 后续的非拉丁字符将被保留 basename x returns x