正则表达式 [A-Za-z] 似乎不包含字母 W 和 w

2024-03-24

由于某种原因，我不知道为什么，也许我的系统或我的大脑有些不对劲，正则表达式“[A-Z]”似乎无法识别字母“W”和“[a-z]” ” 似乎不认识字母“w”。例子：

for x in A a B b C c D d E e F f G g H h I i J j K k L l M m N n O o P p Q q R r S s T t U u V v W w X x Y y Z z; do echo $x | egrep "[A-Za-z]"; done

我的输出是： A A 乙乙 C C D d 乙 e F F G G H H 我我 J j K k L 我中号米氮 n 氧哦磷 p 问 q 右 r S s 时间 t U 你 V v X X 是 y Z z

正如您所看到的，字母“W”和“w”都丢失了。我是唯一一个？什么可能导致这种情况？如果是错误，我应该在哪里报告？这种情况发生在 bash 和 zsh 中，也发生在 sed 和 egrep 中（可能还有更多，我只测试了这两个），所以问题似乎与一般的正则表达式有关......:o 那么发生了什么？？

曼扎罗 17.1.12
XFCE 4.12
bash 4.4.23(1)-发布（x86_64-未知-linux-gnu）
zsh 5.5.1（x86_64-未知-linux-gnu）
egrep 3.1
sed 4.5

编辑：有人询问我的区域设置，所以就在这里。

$ locale        
LANG=sv_SE.utf8
LC_CTYPE="sv_SE.utf8"
LC_NUMERIC=sv_SE.UTF-8
LC_TIME=sv_SE.UTF-8
LC_COLLATE="sv_SE.utf8"
LC_MONETARY=sv_SE.UTF-8
LC_MESSAGES="sv_SE.utf8"
LC_PAPER=sv_SE.UTF-8
LC_NAME=sv_SE.UTF-8
LC_ADDRESS=sv_SE.UTF-8
LC_TELEPHONE=sv_SE.UTF-8
LC_MEASUREMENT=sv_SE.UTF-8
LC_IDENTIFICATION=sv_SE.UTF-8
LC_ALL=

如果这是问题所在，那么我想无论决定什么是 sv_SE.UTF-8 ，都是错误的，因为字母“w”于 2006 年被添加到瑞典字母表中。另外，如果 A-Z 间隔取决于当前区域设置，那么当区域设置设置为瑞典语时，[A-Ö] 不应该适用于整个瑞典字母表吗？没有，它会给出错误消息。然而 [[:alpha:]] 似乎包含所有瑞典语字母，所以我想我对此感到满意。

从技术上讲，使用范围表达式，例如[a-z]Posix 正则表达式（与 grep 实用程序一样）中仅在 Posix (C) 语言环境中具有指定行为。这意味着您确实无法可靠地在sv_SE语言环境（或任何其他国际化语言环境）。但是，您可以可靠地使用字符类，例如[[:lower:]], [[:alpha:]], [[:alnum:]]等等，这通常是您应该做的。

话虽如此，我相信您遇到的情况确实是 v2.28 中引入的 glibc 中的一个错误，因为以前的版本sv_SE区域设置正确放置w在小写范围内和W在大写范围内。我认为这一更改不符合用户的期望，因为它会破坏以前尽管具有未指定行为但仍按预期工作的正则表达式范围表达式。

大约一个月前，该问题被报告为 glibc bug，并且几乎立即因缺乏文档而关闭；昨天我要求重新开放 https://sourceware.org/bugzilla/show_bug.cgi?id=23447#c4. (Update:该错误被重新认定为另一个错误的重复，其最终解决方案只能是底层设计问题的全面解决方案。换句话说，glibc 团队知道存在问题，但不会屏息以待解决方案。）

我已经放置了一个可能的替代品sv_SE语言环境定义文件位于这个存储库 https://github.com/ricilake/locales，以防它被证明对某人有用。除非您遇到 glibc 的语言环境定义问题，否则请不要安装它。

我在上面链接的错误报告中过长的评论试图阐明问题，这更多的是定义问题而不是实现问题。本质问题是定义一个与整个字符串比较顺序完全一致的单字符排序顺序是非常困难的（如果不是不可能的话）。阅读 Posix 基本原理文档的字里行间，似乎很明显，很多人都在用头撞这堵特定的砖墙，却从未设法提出一个具有实施共识的实用可移植提案。（“如上所述，我们已努力解决这些差异，但尚未找到足够具体的解决方案来允许可移植软件，同时又不会使现有实现失效。”）

对各种区域设置定义文件的善意清理导致瑞典区域设置中的字符顺序发生更改。它没有改变字符串排序顺序，因此V and W继续像以前一样排序（也就是说，就好像它们是同一字母而不是不同字母的变体拼写），并且它没有改变 CTYPE 定义，因此W and w继续是字母（因此匹配[[:alpha:]]）和以前一样。但它确实（我相信是偶然的）改变了字符顺序。前，W已关注V and w已关注v，以便W匹配的[U-X] and w匹配的[u-x]。此更改将两个字符放置在 thorn (þ) 之后，这意味着它无法匹配任何范围表达式。（正则表达式范围表达式仅限于单字节代码点。）

A 上一个问题 https://stackoverflow.com/questions/11925537/should-we-consider-using-range-a-z-as-a-bug已被建议作为此问题的重复项，但我删除了重复标记，因为该问题侧重于使用的智慧[a-z]而不是可能的实现错误，而且还因为它是关于 Perl 正则表达式而不是 Posix 正则表达式。不过，答案中有很多有用的信息。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

正则表达式 [A-Za-z] 似乎不包含字母 W 和 w 的相关文章

变量作为 bash 数组索引？

bin bash set x array counter 0 array value 1 array 0 0 0 for number in array do array array counter array value array co
帮助需要在可选条件下编写正则表达式[关闭]

我有一个日志文件包含如下内容 log Using data from yyyy mm dd 2011 8 3 0 files queued for scanning Warning E test H ndler pdf File not F
电话号码的正则表达式，不允许全零

需要您的正则表达式帮助我当前的正则表达式是 d 8 最小长度为 8 不允许包含字母特殊字符和空格我还想禁止全零如 00000000 Thanks 该模式应该可以满足您的需求 0 d 8 The 0 部分是负前瞻将阻止仅输入零 Ex
从 Python 中编译的正则表达式中提取命名组正则表达式模式

我有一个 Python 正则表达式其中包含多个命名组但是如果先前的组已匹配则可能会错过与一组匹配的模式因为似乎不允许重叠举个例子 import re myText sgasgAAAaoasgosaegnsBBBausgisego
正则表达式检查确切的字符串是否存在，包括#

新问题正如 Asaph 在上一个问题中所建议的正则表达式检查确切的字符串是否存在 https stackoverflow com questions 2824291 regex to check if exact string exist
如何使用正则表达式进行正确的输入验证？

我想让用户只输入整数或浮点数现在我只能输入整数它允许输入点或逗号无法找到正确的正则表达式来验证整数和浮点数
如何在 Logstash 中将一个事件的字段引用到另一个事件？

我目前正在处理日志其中一些内容如下所示 00 19 59 771 07120 evtThread TRC gt Cem lt Core1 CALL STATE 00 20 00 199 05768 BCMApplicationThread
将终端颜色扩展到行尾

我有一个生成 motd 的 bash 脚本问题取决于某些终端设置我不确定颜色是否会延伸到行尾其他时候则不然 e g v s IIRC 一个只是普通的 gnome 终端另一个是我的 tmux 术语所以我的问题是如何才能将其扩展到 8
bash 函数保留制表符补全

我把函数 make color make 1 ccze A in bashrc获得彩色的 make 输出他的作品很好但是make用于选择目标的制表符补全功能丢失有什么方法可以保留函数中命令的制表符完成或者我可以做其他事情来实现制表符
Linux 文本文件操作

我有一个格式的文件 a href a href a href a href 我需要选择之后但之前的文本并将其打印在行尾添加后例如 a href http www wowhead com search Su a a a a a
C# 正则表达式模式从给定字符串中提取 url - 不是完整的 html url，而是裸链接

我需要一个正则表达式来执行以下操作 Extract all strings which starts with http Extract all strings which starts with www 所以我需要提取这2个例如下面有
使用正则表达式解析日志文件

我目前正在为我们的内部日志文件由 log4php log4net 和 log4j 生成开发一个解析器到目前为止我有一个很好的正则表达式来解析日志除了一个烦人的一点一些日志消息跨越多行我无法正确匹配我现在的正则表达式是这样的
如何使用python正则表达式查找并替换句子中第n次出现的单词？

仅使用python正则表达式如何查找并替换句子中第n次出现的单词例如 str cat goose mouse horse pig cat cow new str re sub r cat r Bull str new str re su
如何使用与号 (&) 替换匹配模式中的字符

当我们使用 sed 匹配模式时匹配的模式存储在变量中有没有办法使用符号本身替换此匹配模式中的字符例如如果包含字符串 apple1 我如何使用将字符串转换为 apple2 即将 1 替换为 2 如果我猜对了您要做的就是在匹配
如何复制每个扩展名为 X 的文件，同时保留原始文件夹结构？（类Unix系统）

我正在尝试将每个 HTML 文件从 src 文件夹复制到 dist 文件夹但是我想保留原始文件夹结构如果 dist 文件夹不存在我想创建一个新文件夹如果文件夹不存在则创建 d dist mkdir dist 复制每个文件 cp R
如何在 MSVS 2012+ 编辑器（和 .NET？）中使用正则表达式替换插入“\”+“n”

在 Visual Studio 2013 的编辑器中我理解它与 2012 非常相似据称使用 NET 正则表达式我无法获取替换字符串来插入反斜杠和 n 这可能吗我想插入 n 在第一个之后在 C 程序的某些但不是全部行上即使字
如何从 powershell 中设置 bash 的环境变量？

使用powershell我该如何设置 https askubuntu com q 1205227 45156 the 环境 https stackoverflow com q 5327495 262852变量这里特别 https sta
Google Analytics 正则表达式排除短语

我正在使用以下 URL 创建内容分组 my category something my category somethingelse my category product1 brand color my category product2
正则表达式或用单个空格替换多个空格的方法

你能告诉我有没有办法在java或spring中用单个空格替换多个空格有相同的 stringUtils 函数吗 like 1 test test test test 2 test test test test 3 test test tes
从 Ruby 运行 shell 命令：在显示输出时捕获输出？

我有个问题我想从另一个 ruby 脚本运行一个 ruby 脚本并捕获它的输出信息同时让它也输出到屏幕上 runner usr bin env ruby print Enter your password password gets ch

随机推荐

有没有办法专注于 Angular 4/Ionic 3 上动态创建的表单？

I have a page with dynamically created forms like this The blank spaces are inputs and the entire row is a button Is the
如何在H2中创建新数据库？

我有一个在 MySQL 上本地运行的站点我想在 H2 数据库上运行它我刚刚在浏览器上运行了控制台的 h2 jar 文件但每当我登录时我都会看到该列表jdbc h2 var www mysite data db MODE MySQL i
Kubernetes 上的 Npgsql 和 Pgbouncer - 池化和 keepalives

我正在寻找更详细的指导其他人在 Pgbouncer 的生产中使用 Npgsql 的经验基本上我们使用 GKE 和 Google Cloud SQL 进行了以下设置现在我已经使用本地连接池配置了 npgsql 就好像 pgbounc
如何使用 CSS 并排浮动 3 个 div？

我知道如何让 2 个 div 并排浮动只需将一个向左浮动另一个向右浮动即可但是如何使用 3 个 div 来做到这一点或者我应该仅使用表格来实现此目的只需给它们一个宽度并float left 这是一个例子 div style wid
有没有办法限制ggplot2中的vline长度

我试图使用 ggplot vline 和 hline 在线图上显示截距但希望线条在图上的截距点处停止在 ggplot 中这可能吗还是有其他解决方案 library ggplot2 pshare lt data frame for i i
如何在 C# 中将复杂对象作为结构进行比较以进行单元测试

我遇到了以下问题目前我正在使用 TDD 重构我的项目有一个已存在的域我无法更改代码示例 public class Product IEquatable
使用带有 AutoGenerateColumns="True" 的 DataGrid 时，为什么会忽略 DataAnnotations

我正在使用 WPF DataGrid 绑定到自定义类的集合在网格 XAML 中使用 AutoGenerateColumns True 可以很好地创建和填充网格但正如人们所期望的那样标题是属性名称我尝试指定
从父类调用setup_data

背景我正在阅读关于如何将自我调整文本放入栏中的优秀答案条内可调整大小的文本块 https stackoverflow com questions 36319229 ggplot2 geom text resize with the pl
使用 Yarn 从 Github 包注册表安装私有包失败且未授权

这个问题与这些有关但这些解决方案都不适合我 Yarn 找不到私有 Github npm 注册表 https stackoverflow com questions 58316109 yarn cant find private githu
找不到类型或命名空间名称“MySqlConnection”（您是否缺少 using 指令或程序集引用？）

所以我正在制作一个项目我几乎完成了它这个错误让我困扰我认为首先我的数据库没有连接但它已连接我真的不知道它的解决方案是什么正确如果我给出的问题错了请告诉我并且我使用的是 Visual Studio 2013 我已经通过检查和取
杀死一个进程

我们有一个为 Windows Server 2003 开发的自定义应用程序但在将其迁移到 Windows Server 2008 R2 后出现了问题应用程序进程的一部分是使用 C 代码终止 Windows 进程这在 Windows
暗网 YOLO 图像大小

我正在尝试在 Darknet YOLO v2 中训练自定义对象分类器https pjreddie com darknet yolo https pjreddie com darknet yolo 我收集了一个图像数据集其中大多数尺寸为 6
如何创建像Windows IP地址字段一样的屏蔽文本框[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何创建一个numeric Masked TextBox in WPF就像Windows IP地址字段一样点击后跳转到下一个区域 D
处理不同浏览器的JavaScript问题

我遇到的问题是我的代码在 JavaScript 中工作正常但在 Firefox 或 safari 中无法正常工作想知道为什么我正在做的是我有一个循环遍历每个元素并根据文本框中的变量只想发出警报正如我之前所说这段代码在 IE 中
如何在 React/JSX 文件中添加脚本标签？

private get mouseGestureSettingView const selectedMenu this state return selectedMenu 2 div h3 Mouse Gesture h3 div div
Puppeteer 访问 URL 时加载 429 的空白页面

我正在开发一个从酒店网站获取定价信息的项目但在 puppeteer 中加载网站时无法执行任何搜索这是我打开 Chrome 的 JavaScript 片段 const puppeteer require puppeteer async g
Heroku推送应用程序问题

我安装了 Heroku 并设置了一个帐户但由于某种原因每当我尝试将应用程序推送到网站时都会收到此错误 git push heroku master No such app as first app fatal The remote e
幕后花絮：核心数据日期以 31 年偏移存储？

我知道里面没有用户可维修的部件但我很好奇在 Core Data sqlite3 DB 中我似乎可以在 ZDATE 中获取日期如下所示 sqlite gt select datetime ZDATE unixepoch 31 yea
iOS 金属。为什么简单地改变 colorPixelFormat 就会产生更明亮的图像？

在 iOS 上的 Metal 中默认的 colorPixelFormat 是bgra8Unorm 当我将格式更改为rgba16Float所有图像都变亮为什么一个例子 Artwork MTKView有格式bgra8Unorm 纹理映射四
正则表达式 [A-Za-z] 似乎不包含字母 W 和 w

由于某种原因我不知道为什么也许我的系统或我的大脑有些不对劲正则表达式 A Z 似乎无法识别字母 W 和 a z 似乎不认识字母 w 例子 for x in A a B b C c D d E e F f G g H h I i J j

正则表达式 [A-Za-z] 似乎不包含字母 W 和 w

正则表达式 [A-Za-z] 似乎不包含字母 W 和 w 的相关文章

随机推荐

热门标签