用于将格式的 unicode 字符转换为其 ASCII 等效项的脚本

2024-04-21

我正在对 Linux 区域设置文件进行一些更改/usr/share/i18n/locales（如 pt_BR），更改日期、时间、数字等的默认格式。但是由于 unicode 字符在<U9999>格式，文本很难阅读。

这是其中的一个片段：

LC_TIME
abday   "<U0044><U006F><U006D>";"<U0053><U0065><U0067>";/
    "<U0054><U0065><U0072>";"<U0051><U0075><U0061>";/
    "<U0051><U0075><U0069>";"<U0053><U0065><U0078>";/
    "<U0053><U00E1><U0062>"

那么，如何制作一个简单的脚本（可能是 bash、python、pearl 等等）来转换此文本，替换<Uxxxx>代码到它们的 ASCII 等价物？（是的，它们都是低于 255 的 ASCI 字符，大多数甚至低于 127）

如果收到多个答案，我将接受最优雅和/或更详细的解释（例如命令中使用的选项和标志）

例如，上面的文本将转换为：

LC_TIME
abday   "Dom";"Seg";/
    "Ter";"Qua";/
    "Qui";"Sex";/
    "Sáb"

另一个可以执行相反操作的脚本的奖励点：将给定字符串的所有字符转换为<Uxxx> format.

Thanks!

使用字段

#!/bin/bash

awk -F'<U0+|>' '{
    for(i=1;i<=NF;i++)
        if($i ~ "^[0-9A-F]+$")
            $i=sprintf("%c", strtonum("0x"$i))
}1' OFS="" /path/to/infile

解释

-F'<U0+|>'：这就是这个脚本如此短的魔力。我们告诉 awk 字段分隔符是<U0+或者一个简单的>。这样做的好处是 awk 会自动为我们删除这些字符，因此我们不必手动执行此操作gsub()当需要进行 strtonum() 转换时。
for(i=1;i<=NF;i++)：迭代每个字段
if($i ~ "^[0-9A-F]+$")：检查当前字段是否仅由十六进制数字组成。请记住，由于上面的#1，类似<U006F>将被视为6F在此刻
$i=sprintf("%c", strtonum("0x"$i))：将十六进制数字替换为其对应的ascii值。我们必须为字段添加前缀$i with "0x"所以 awk 知道它是一个十六进制值
}1: 强制的快捷方式print or 总是打印每一行
OFS=""：将输出字段分隔符设置为空字符串。如果我们不这样做，我们将在输出中出现空格的地方<U0+ or >

使用 match() [需要 gawk]

#!/bin/bash

gawk '{
    while(match($0, /<U[0-9A-F]+>/)){
        pat = substr($0,RSTART,RLENGTH)
        gsub(/U0+|[<>]/,"",pat)
        asc = sprintf("%c", strtonum("0x"pat))
        $0 = substr($0, 1, RSTART-1) asc substr($0, RSTART+RLENGTH)
    }
}1' /path/to/infile

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

bash

Unicode

用于将格式的 unicode 字符转换为其 ASCII 等效项的脚本的相关文章

无法将 datetime.datetime 与 datetime.date 进行比较

我有以下代码并收到上述错误由于我是 python 新手我无法理解这里的语法以及如何修复错误 if not start or date lt start start date 有一个datetime date 从日期时间转换为日期的方法
Pytest：如何使用从夹具返回的列表来参数化测试？

我想使用由固定装置动态创建的列表来参数化测试如下所示 pytest fixture def my list returning fixture depends on other fixtures return a dynamically
无法将较大的 blob 上传到 Azure：azure.core.exceptions.ServiceRequestError：操作未完成（写入）(_ssl.c:2317)

我正在尝试使用 Python SDK 将一些较大的 blob gt 50MB 上传到我的 Azure 存储容器 connect str os environ AZURE STORAGE CONNECTION STRING blob serv
ASCIIEncoding.ASCII.GetBytes() 返回意外值

这段 C 代码 string s u00C0 byte bytes ASCIIEncoding ASCII GetBytes s Trace WriteLine BitConverter ToString bytes 产生以下输出 3F 为
使用 Python 抓取维基百科数据

我正在尝试从以下内容中检索 3 列 NFL 球队球员姓名大学球队维基百科页面 http en wikipedia org wiki 2008 NFL draft 我是 python 新手一直在尝试使用 beautifulsoup 来
pandas 两个数据框交叉连接[重复]

这个问题在这里已经有答案了我找不到有关交叉联接的任何内容包括合并联接或其他一些内容我需要使用 my function 作为 myfunc 处理两个数据帧相当于 for itemA in df1 iterrows for itemB
在python中调用subprocess.Popen时“系统找不到指定的文件”

我正在尝试使用svnmerge py合并一些文件它在底层使用 python 当我使用它时我收到一个错误系统找不到指定的文件工作中的同事正在运行相同版本的svnmerge py 以及 python 2 5 2 特别是 r252 609
我有一个 Employee 类，我想返回“姓名”列表

我有一个 Employee 类我想返回姓名列表雇员 py class Employee object def init self id name members None self id id self name name self
熊猫记忆

我有冗长的计算我重复了很多次因此我想使用记忆诸如jug http packages python org Jug and joblib http packages python org joblib memory html 与Pan
在 GAE/Python 中放置一次性代码和每次代码的最佳位置在哪里？

我是 Google App Engine 和 Python 的新手我无法理解有关在 Google App Engine 上运行的 Python 应用程序的一些基本问题如果我想要执行代码对于每个传入的请求我应该将其放在哪里我们正在捕
如何使用注释和聚合在 Django 的 ORM 中执行此 GROUP BY 查询

我真的不知道如何翻译GROUP BY and HAVING到姜戈的QuerySet annotate and QuerySet aggregate 我正在尝试将这个 SQL 查询转换为 ORM 语言 SELECT EXTRACT year
从 python 中的缩进文本文件创建树/深度嵌套字典

基本上我想迭代一个文件并将每行的内容放入一个深层嵌套的字典中其结构由每行开头的空格数量定义本质上目标是采取这样的事情 a b c d e 并将其变成这样的东西 a b c d e Or this apple colours red
Matplotlib 将颜色图 tab20 更改为三种颜色

Matplotlib 有一些新的且非常方便的颜色图选项卡颜色图 https matplotlib org examples color colormaps reference html 我错过的是生成像 tab20b 或 tab20c 这
Python time.sleep - 永不醒来

我认为这将是那些简单的问题之一但它让我感到困惑停止媒体我是对的找到了解决方案查看答案我正在使用 Python 的单元测试框架来测试多线程应用程序很好而且很直接我有 5 个左右的工作线程监视一个公共队列以及一个为它们制作工作
如何将 Xml 文件转换为文本文件 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有大约 8000 个 xml 文件需要转换为文本文件文本文件必须包含 xml 文件的标题描述和关键字不含标签并删除其他元素和
使用 pandas 绘制带有误差线的条形图

我正在尝试从 DataFrame 生成条形图如下所示 Pre Post Measure1 0 4 1 9 这些值是我从其他地方计算出来的中值我还有它们的方差和标准差以及标准误差我想将结果绘制为具有适当误差线的条形图但指定多个误差值
Scikit Learn - K-Means - 肘部 - 标准

今天我想学习一些关于 K means 的知识我已经了解该算法并且知道它是如何工作的现在我正在寻找正确的 k 我发现肘部准则作为检测正确的 k 的方法但我不明白如何将它与 scikit learn 一起使用在 scikit learn
向伪 shell (pty) 发出命令

我尝试使用 subprocess popen os spawn 来运行进程但似乎需要伪终端 import pty master slave pty openpty os write master ls l 应该发送 ls l 到从属终端
Python列表对象属性“append”是只读的

正如标题所说在Python中我试图做到这一点以便当有人输入一个选择在本例中为Choice13 时它会从密码列表中删除旧密码并添加新密码 passwords mrjoebblock mrjoefblock mrjoegblock m
如何抑制 Pandas Future 警告？

当我运行该程序时 Pandas 每次都会给出如下所示的未来警告 D Python lib site packages pandas core frame py 3581 FutureWarning rename with inplace

随机推荐

检查 Ruby 中是否存在 URL

我如何使用 Ruby 检查 URL 是否存在例如对于 URL https google com 结果应该是truthy 但是对于 URL https no such domain or https stackoverflow com n
C中的副作用是什么？

维基百科说在计算机科学中一个操作函数或表达式被认为具有副作用如果它在其本地环境之外修改某些状态变量值也就是说除了向操作的调用者返回一个值主要效果之外还具有可观察到的效果但是我们如何访问本地环境之外的变量任何人都可以解释这
使用 H2 数据库在 JDBC 中将年份从负 -509 更改为正 510

509 vs 510 我在使用 JDBC 时看到某种已更改或错误的数据所以我观察使用H2数据库 http h2database com Java 8 更新 151 上的版本 1 4 196 这是一个完整的例子请注意我们如何检索日期值三次
如果不刷新页面，Vuex 状态不会更新

我正在构建一个单页面应用程序用户可以根据他们是否登录来看到不同的页面登录调用工作正常授权令牌保存在本地存储中设置我已经设置了一个名为的吸气剂loggedIn返回true如果在状态上设置了令牌这是我的确切代码auth js商店模块
将十六进制字符串转换为无符号整数 (VBA)

在 MS ACCESS VBA 中我通过在字符串前加上前缀将十六进制字符串转换为十进制 CLng h1234 4660 CLng h80000000 2147483648 我应该怎么做才能将其转换为无符号整数使用 CDbl 也不起作用
在均匀网格上查找到点云中最近点的距离

我有一个大小为 AxBxC 的 3D 网格网格中的点之间的距离 d 相等给定多个点考虑到以下假设找到每个网格点到最近点的距离每个网格点应包含到点云中最近点的距离的最佳方法是什么假设 A B 和 C 相对于 d 来说相当大给出
Python正则表达式查找大括号的所有大小写，包括括号

我想查找并替换双大括号内的字符串包括括号本身例如 a href hello a 理想情况下应该返回 hello 我发现了这个表达 here https stackoverflow com questions 10643553 pytho
Android上如何使用UID获取用户名？

我有几个这样的UID 10022 10011 1000 其实我知道他们的用户名是u0 a22 u0 a11 system 但问题是如何使用UID获取用户名呢没有 etc passwd根本没有文件我编写了一个实用程序类通过硬编码值来获
仅出现在存档的 Mac OS X 产品中的错误

我和我的朋友正在为 Mac 应用商店开发一个应用程序我们将其提交给应用程序商店但苹果以我们以前从未遇到过的错误为由拒绝了它我们很难重现该错误但经过一段时间的调试后我们发现该错误仅出现在存档产品中该错误的症状是我们应用程序中的某
将数据从 csv 复制到 D3 中的数组中

我知道这个问题以前曾被问过但由于某种原因他们的解决方案对我不起作用我正在尝试使用 CSV 文件中的数据填充两个数组其中 name value alpha 34 beta 12 delta 49 gamma 89 我现在正在尝试的是
如何单击表格单元格并显示带有注释的模式

我对编程相当感兴趣并且已经在一个问题上被阻止了几天我有一个包含 2 列的表记录和每条记录的注释注释通常很长因此我计划在注释列上的每个单元格上建立一个链接并链接到显示注释的模式我面临的问题是所有链接都会显示表格第一项的注
使用超出范围的变量

我正在制作一个响应式背景视频我有这个代码
Silverlight、RIA 服务、MVC2P2 = 无数据

我在升级当前项目以使用 RIA 服务时遇到问题我添加了所有必要的 web config 更改但仍然没有运气我一切都编译得很好但是当我使用数据上下文点击页面时我收到错误我用 fiddler 进行了调试并且在其中一个请求上收到了
如何在 Aqua Data Studio 中导出注册的服务器设置？

有谁知道如何在 Aqua Data Studio 中导出注册服务器也许有一些棘手的方法可以通过复制一些 ini 文件或注册表项来完成此操作 AD Studio 服务器注册位于 USER HOME datastudio connection
MySQL - 行计数和左连接问题

我有 2 个表活动和活动代码营销活动 id partner id 状态 Campaign codes ID 代码状态我想要获取所有营销活动的所有营销活动代码的计数其中营销活动代码 status 等于 0 或营销活动没有营销活动代码
使用 jQuery 获取语法错误 [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions Add a
Android 相当于 iPhone 的“添加到主屏幕”吗？

我正在开发一个移动网络应用程序目前我有一段 jQuery 代码用于检查应用程序是否全屏运行 if window navigator standalone content before div class notice To enjoy
XSD 架构和 JAXB 类中的多态性

我有一个像这样的xml
如何防止 SVN 缓存单个存储库的凭据？

我正在使用 Collabnet SVN 客户端版本 1 5 和 1 6 我的本地计算机运行的是 Windows Vista x64 我知道确实非常悲伤我想每次尝试在选定的存储库上执行任何颠覆操作时都强制进行身份验证我如何将属性或设置设
用于将格式的 unicode 字符转换为其 ASCII 等效项的脚本

我正在对 Linux 区域设置文件进行一些更改 usr share i18n locales 如 pt BR 更改日期时间数字等的默认格式但是由于 unicode 字符在

用于将 格式的 unicode 字符转换为其 ASCII 等效项的脚本

使用字段

解释

使用 match() [需要 gawk]

用于将 格式的 unicode 字符转换为其 ASCII 等效项的脚本 的相关文章

随机推荐

热门标签

用于将格式的 unicode 字符转换为其 ASCII 等效项的脚本

用于将格式的 unicode 字符转换为其 ASCII 等效项的脚本的相关文章