使用 find 或 grep 查找来自不同编码系统（Windows 到 Linux）的带有重音字符的文件名

2023-12-25

我试图迟到标记一个与我类似的问题（在 Linux 文件系统上查找非 UTF8 文件名 https://stackoverflow.com/q/623764/522104）以获得进一步的答复，到目前为止还没有运气，所以这里又来了......

我和上面链接中的OP有同样的问题，convmv是一个修复自己的文件系统的好工具。因此，我的问题是学术性的，但我发现“find”无法找到非标准 ascii 字符这一点令人不满意（事实上我无法相信）。

有没有人知道使用什么选项组合来查找似乎是 unicode FS 上包含非标准字符的文件名，在我的例子中，字符似乎是 8 位扩展 ascii 而不是 unicode，这些文件来自Windows 机器（iso-8859-1），我经常需要获取它们。我很想看看 find 和/或 grep 如何做与 convmv 相同的事情。

示例文件：

> ls
Abc�def ÉÈéèáà-rest everest éverest

> ls -b
Abc\251def  ÉÈéèáà-rest  everest  éverest

第一个文件来自Windows（或用touch $(printf "Abc\xA9def")).

> find . -regex '.*[^a-zA-Z./].*'
./ÉÈéèáà-rest

> ls | egrep '[^a-zA-Z]'
ÉÈéèáà-rest

几乎丢失了所有这些（连字符保存了该文件，可以使用彩色 grep 看到）。这里发生的事情都不是我所期望的：find 和 grep 都无法将重音字母视为超出提供的范围 [^a-zA-Z./]。

> find . -regex '.*é.*'
./éverest
./ÉÈéèáà-rest

> ls | egrep 'é'
ÉÈéèáà-rest
éverest

> ls | egrep '[é]'
ÉÈéèáà-rest
éverest

> find . -regex '.*[é].*'
./éverest
./ÉÈéèáà-rest

奇怪的是，当提供时（包括在范围内），两者都能够拾取标准口音。任何使用 \xA9、\0251 或 \o251 的 find 或 grep 尝试都会失败（不匹配）。

> ls | fgrep e
Abc�def
ÉÈéèáà-rest
everest
éverest

寻找无争议的字符会显示所有带有 grep 的文件，正如我所期望的那样。

> find . -regex '.*e.*'
./éverest
./ÉÈéèáà-rest
./everest

> find . -name '*e*'
./éverest
./ÉÈéèáà-rest
./everest

然而， find 是非常具有歧视性的：即使查找正常字符，在我看来，它也会消除包含超出文件系统名称编码模式可接受字符范围的字符的文件名。

就我而言，如果该文件位于文件系统中，那么 find 应该找到它，对吧？但也许有一个我不知道的功能？

任何见解将非常感激。

Jander 回答了我在超级用户上发布的同一问题 https://superuser.com/questions/218825/using-find-or-grep-to-locate-filenames-with-accented-characters-from-a-different/218831#218831

詹德的回答完美地完成了这项工作，对于那些有兴趣从中获得更多信息的人，这里还有一个提示。

当 LANG=C 时，find 显示带问号的非 ascii 字符。要将其转换回该文件系统的正常显示，只需将输出通过管道传输到 cat.

LANG=C find . -regex '.*[^a-zA-Z./-].*'
./??verest
./????????????-rest
./Abc?def

LANG=C find . -regex '.*[^a-zA-Z./-].*' | cat
./éverest
./ÉÈéèáà-rest
./Abc�def

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 find 或 grep 查找来自不同编码系统（Windows 到 Linux）的带有重音字符的文件名的相关文章

如何在 Docker 容器中运行 Nginx 而不停止？

我在 Docker 容器上安装了 Nginx 并尝试像这样运行它 docker run i t p 80 80 mydockerimage usr sbin nginx 问题是 Nginx 的工作方式是初始进程立即生成一个 Nginx 主
在 Linux 上的 makefile 和 Makefile 之间进行选择

我想在一个目录中同时使用 Makefile 和 makefile 进行 make 默认情况下它将执行makefile 我可以选择执行 Makefile 吗提前致谢最简单的选择是使用 f make f Makefile From man
如何在 Linux 上使用 Python 导出

我需要在 Python 中进行这样的导出 export MY DATA my export 我尝试过这样做 python mode coding utf 8 import os os system export MY DATA my exp
如何删除 R 中字符向量中字符串的公共部分？

假设一个字符向量如下 file1 p1 analysed samples txt file1 p1 raw samples txt f2 file2 p1 analysed samples txt f3 file3 p1 raw sampl
汇编语言中的全局_start是什么？

这是我的汇编级代码 section text global start start mov eax 4 mov ebx 1 mov ecx mesg mov edx size int 0x80 exit mov eax 1 int 0x80
preg_replace 和中文字符的奇怪问题

我有这个奇怪的问题经过 preg replace 后一些汉字变成了时髦的字符这是脚本 message strip tags mysql real escape string POST message img
正则表达式删除外括号

我一直在用这个 s s 正则表达式使用 PHP preg replace 函数删除外括号在我上一个问题中了解更多信息正则表达式匹配除尾随空格之外的任何字符 https stackoverflow com questions 1076569
如何解释这个正则表达式 /[\W_]/g

我的代码是 var result2 result replace W g replace replace 该代码有效我得到了我需要完成的工作但我不明白正则表达式如何 W g有效但我找不到任何我理解的文档 g这是一个全局正则表达式因此
Beautiful Soup 中 find_all 方法的返回类型是什么？

from bs4 import BeautifulSoup SoupStrainer from urllib request import urlopen import pandas as pd import numpy as np imp
Shell 脚本对文件进行计数，然后删除最旧的文件

我是 shell 脚本新手所以我需要一些帮助我有一个充满备份的目录如果我有超过 10 个备份文件我想删除最旧的文件以便仅留下 10 个最新的备份文件到目前为止我知道如何计算文件数这看起来很简单但是如果计数超过 10 我该如
python 正则表达式 - 列表中的 re.findall()

这是我的清单 lista u REG S 3 UMTS 0 0 RNC u REG S 3 UMTS 0 1 RNC u REG S 3 UMTS 0 2 RNC u REG S 2 GSM NORT CBSP bsc 0 0 BSC u
如何找到具有特定字符串但不在注释中的代码

我试图在 1 000 个存储过程和函数中搜索特定字符串在本例中为电子邮件地址但当它位于注释块中时我想忽略它这是查找对象的 SQL 语法但有数百个结果我不想遍历每个结果来确定电子邮件地址是在代码中使用还是仅在注释块中使用 SELEC
自动将 Linux 文件名重命名为 Windows 中合法的新文件名

我想将 linux 文件重命名为在 windows 中合法的文件名它的长度不应超过允许的长度并且不应包含 Windows 中不允许的字符有时我将论文的标题复制到文件名它们有特殊字符例如 or 另外从 pdf 中复制和粘贴标题时
正则表达式-如何删除“和”之间的逗号？

如何删除双引号和双引号之间的逗号就像有 a b c d d e f 然后从这里开始在和之间有一个逗号应该被删除删除该逗号后它应该是 a b c dd e f 在 C 中的正则表达式的帮助下 EDIT 我忘记指定引号之间可
使用文本框搜索 datagridview 中的列 (vb.net)

如何使用文本框搜索 datagridview 中的列我正在使用 vb net 2010 我有一个带有数据源的 Datagridview 下面是我用于填充 datagridview 的代码网格视图将有 4 列 Private Sub Lo
pthread_create 编译返回错误

我使用以下代码创建两个线程 header files include
RegEx 从 CSS 背景样式中提取 URL

我有一个这种形式的字符串 url http www example com imgs backgrounds bg80 jpg repeat scroll 10 0 transparent 这是来自某个元素的 CSS 样式该元素目前在页面
如何提取数字（以及比较形容词或范围）

我正在用 Python 开发两个 NLP 项目它们都有类似的任务提取数值和比较运算符来自句子如下所示 greater than 10 weight not more than 200lbs height in 5 7 feets fas
如何在 Python 中将列表变量传递给 subprocess.call 命令

我有一个清单 apps apps append wq35a5huqlja45jsyukrpmwuiayovrmh apps append q7mimvgduueernwvw4y22t5huemykntw apps append pmudbp
删除特定标签内的内容

使用 Rails 3 2 我想删除其中的所有文本 b 和标签但我设法找到只剥离标签的方法 string p b Section 1 b Everything is good br b Section 2 b All is well p s

随机推荐

如何在Silverlight Image控件上显示TIFF（以Byte[]的形式）

我创建了一个窗口服务将所有 TIFF 文件放入数据库并将它们存储为Byte 现在我希望能够通过Silverlight Image控件来显示它们所以我在绑定 XAML 期间使用转换器来转换Byte to Bitmap因为Image Sou
Delphi - 从类和接口继承（适配器模式）？

我正在尝试执行 GoF 适配器模式在 C 示例中我遵循的 Adapter 类继承了原始类和一个适配接口据我所知在Delphi 2007 中这是不可能的或者是吗因为如果一个类继承一个接口它需要从 TInterfacedObje
Strawberry Perl v5.30.0 无法安装 Tcl (Windows 10)

我从下载并安装了草莓 perl 5 30 0 1 64bit msi草莓perl com http strawberryperl com 在我的 Windows 10 上并尝试使用 cpan 安装 Tcl 模块但由于缺少 tclsh 而失
通过预定义的静态地址访问寄存器在 C++ 中是未定义的行为吗？

我正在编译一个 C 程序以在独立环境中运行并且我正在运行的 CPU 定义了一个可用的 32 位外设寄存器编辑内存映射 at PERIPH ADDRESS 正确对齐并且不与任何其他 C 对象堆栈等重叠我编译以下代码PERIPH A
cmake、add_custom_command 以及来自不同目录的依赖项

我有一个关于 CMake 的问题这似乎是这里常见的问题但没有一个答案似乎能解决我的问题 In the details子目录下有一个CMakeLists txt其中包含 add custom command OUTPUT part out
gforth 出错，libtool 编译失败

我正在尝试跑步gforth与Rosetta 代码上的 Echo 服务器 https rosettacode org wiki Echo server 但是我得到以下信息 sh 1 libtool not found in file incl
从 GridView 发起的 ContextMenu

只是想知道是否有人可以帮助解决这个问题我正在学习但无法弄清楚如果我使用上下文菜单注册 GridView 对象如下所示 registerForContextMenu gridview 如何确定菜单是从网格中的哪个视图对象方块启动的任
iOS：使用 iPad 键盘的 Enter 键进行操作

我有两个文本字段在第一个文本字段中我写 Hello 当我在 iPad 键盘中按 Enter 时我希望在第二个文本字段中出现 World 如何使用 Enter 在我的应用程序中创建操作您通常会将视图控制器指定为文本字段的委托然后实现t
spring-boot 在单个 Web 应用程序路径上设置基本身份验证？

我正在尝试在基于 spring boot spring MVC 的应用程序中设置单个路径 basic 以进行基本身份验证保护我将使用我自己的自定义配置参数进行配置因此用户名和密码只是 admin 和 admin 目前这适用于 basic
如何微调Spring Cloud Feign客户端？

春天的云doc http projects spring io spring cloud spring cloud html says 如果 Hystrix 在类路径上默认情况下 Feign 将包装所有方法带断路器这很好但是如何配置
无法区分 Rspec 的“let”与“let！”

我已阅读rspec 文档 https www relishapp com rspec rspec core docs helper methods let and let并搜索了许多其他地方但我很难理解 Rspec 之间的区别let an
设置 Matplotlib 颜色条大小以匹配图形

I cannot get the colorbar on imshow graphs like this one to be the same height as the graph short of using Photoshop aft
从 PCD 文件中解压点云的 RGB 值

我保存了类型的点云PointCloud
laravel homestead降级到mysql 5.7

我安装了 laravel homestead 最初安装了 mysql 5 7 我随后更新了我的 yaml 文件包含以下内容并运行vagrant reload provision features mysql8 true 现在我想降级回 m
C# 中使用 ChromeDriver 获取网络信息

我正在尝试从使用 C 中的 ChromeDriver 启动的 chrome 页面访问网络选项卡信息我希望至少传输总数据和页面加载时间我一直在搞乱设置不同的ChromeOptions and DesiredCapabilities 几乎没
C# MySQL 参数： ?或者 @

我对 MySQL 参数有点困惑我的代码的以下两个部分都工作正常第一个使用参数 const string query UPDATE items SET name name price price WHERE id id try using
ClusterRoleBinding 需要命名空间

我有以下内容 apiVersion v1 kind ServiceAccount metadata name SomeServiceAccount kind ClusterRole apiVersion rbac authorization
如何在实现 IEnumerable 的字典包装类中实现 IEnumerable？

我正在尝试创建一个包装器Dictionary
使用ES6代理捕获Object.hasOwnProperty

我想使用 ES6 代理来捕获以下常见代码 for let key in trapped if Object prototype hasOwnProperty call obj key continue let value trapped k
使用 find 或 grep 查找来自不同编码系统（Windows 到 Linux）的带有重音字符的文件名

我试图迟到标记一个与我类似的问题在 Linux 文件系统上查找非 UTF8 文件名 https stackoverflow com q 623764 522104 以获得进一步的答复到目前为止还没有运气所以这里又来了我和上面链接中的

使用 find 或 grep 查找来自不同编码系统（Windows 到 Linux）的带有重音字符的文件名

使用 find 或 grep 查找来自不同编码系统（Windows 到 Linux）的带有重音字符的文件名 的相关文章

随机推荐

热门标签

使用 find 或 grep 查找来自不同编码系统（Windows 到 Linux）的带有重音字符的文件名的相关文章