如何在 Perl 中将输入文件转换为 UTF-8 编码？

2024-03-17

我已经知道如何使用如下代码将文件的非 utf8 编码内容逐行转换为 UTF-8 编码：

# outfile.txt is in GB-2312 encode    
open my $filter,"<",'c:/outfile.txt'; 

while(<$filter>){
#convert each line of outfile.txt to UTF-8 encoding   
    $_ = Encode::decode("gb2312", $_); 
...}

但我认为 Perl 可以直接将整个输入文件编码为 UTF-8 格式，所以我尝试了类似的方法

#outfile.txt is in GB-2312 encode
open my $filter,"<:utf8",'c:/outfile.txt';

（Perl 说类似 "utf8 "\xD4" does not map to Unicode" ）

and

open my $filter,"<",'c:/outfile.txt'; 
$filter = Encode::decode("gb2312", $filter);

（Perl 说“readline() 在未打开的文件句柄上！）

他们不工作。但是有没有办法直接将输入文件转换为UTF-8编码呢？

Update:

看来事情并没有我想象的那么简单。我现在可以以迂回方式将输入文件转换为 UTF-8 代码。我首先打开输入文件，然后将其内容编码为UTF-8，然后输出到一个新文件，然后打开新文件进行进一步处理。这是代码：

open my $filter,'<:encoding(gb2312)','c:/outfile.txt'; 
open my $filter_new, '+>:utf8', 'c:/outfile_new.txt'; 
print $filter_new $_ while <$filter>; 
while (<$filter_new>){
...
}

但这工作量太大，甚至比简单地逐行编码 $filter 的内容还要麻烦。

我想我误解了你的问题。我认为您想要做的是读取非 UTF-8 编码的文件，然后在程序中以 UTF-8 方式处理数据。那是容易得多的事情。使用正确的编码读取数据后，Perl 在内部将其表示为 UTF-8。所以，只做你必须做的事。

当您将其写回时，请使用您想要将其保存为的任何编码。但是，您不必将其放回到文件中即可使用它。

旧答案

Perl I/O 层仅在数据已正确编码的情况下读取数据。它不会为您转换编码。通过告诉 open 使用 utf8，您就告诉它它已经是 utf8。

你必须使用Encode http://search.cpan.org/dist/Encode正如您所展示的那样（除非您想编写自己的 I/O 层）。您可以将字节转换为 UTF-8，或者如果您知道编码，则可以从一种编码转换为另一种编码。由于看起来您已经知道编码，因此您可能需要from_to()功能。

如果您刚刚开始使用 Perl 和 Unicode，请浏览Juerd 的 Perl Unicode 建议 http://juerd.nl/site.plp/perluniadvice在你做任何事情之前。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Perl 中将输入文件转换为 UTF-8 编码？的相关文章

如何在附加的 sqlite 数据库中创建外键？

我正在尝试创建一个 sqlite3 数据库作为模拟生产环境的测试环境由于生产的设置方式表处于多个模式中我已经在 DBIx Class 中设置了类使用 schema gt storage gt dbh do将数据库与架构附加在一起并
如何在 Perl 中复制整个目录？

我需要将整个目录复制到某个位置最好的方法是什么 File Copy正如我所见仅逐个文件复制顺便说一句我在Windows下工作感谢帮助也许调查一下文件复制递归 http metacpan org pod File Copy R
CharInSet 不适用于非英文字母？

我已经将应用程序从 Delphi 2007 更新到 Delphi 2010 一切都很顺利除了一条编译正常但不起作用的语句 If Edit1 Text 1 in S then ShowMessage Found else ShowMessa
执行 Boyer-Moore 模式匹配时是否必须考虑编码？

我即将实现 Boyer Moore 模式匹配算法的变体具体来说是星期日算法我问自己我的字母表大小是多少它是否取决于编码可能的字符数或者我可以假设我的字母表由 256 个符号组成一个字节可以表示的符号数在许多其他情况下将字符
从 php 执行 bash 脚本并立即输出回网页

我有一组 bash 和 Perl 脚本开发在 Linux Box 上部署所需的目录结构可选从svn导出代码从这个源构建一个包这在终端上运行良好现在我的客户请求此流程的 Web 界面例如某些页面上的创建新包按钮将一一调用
Python - Unicode 到 ASCII 的转换

我无法在不丢失数据的情况下将以下 Unicode 转换为 ASCII u ABRA xc3O JOS xc9 I tried encode and decode他们不会这么做有人有建议吗 Unicode 字符u xce0 and u xc
如何在 R 中的 dygraph 标题中使用 UTF-8 字符

使用 Rstudio Windows8 当我使用 dygraph 函数绘制时间序列时在尝试在主标题中使用 UTF 8 字符时遇到问题 library dygraphs dygraph AirPassengers main T tulo 这
Java正则表达式：为什么数字[0-9]、逗号等不是unicode？

class Test public static void main String args String regex p L System out println 0 matches regex 上面的代码打印 false 但我期待 tr
快速 Perl signint 处理程序

收到 Ctrl C 时处理程序清理的最方便最清晰的方法是什么例如当我的套接字服务器以这种方式被终止时 TCP 套接字永远不会关闭我想要一个很好的衬里我可以将其放在程序的顶部来设置 sigint 处理程序或类似 atexit 的东
在 C# 中将 ANSI (Windows 1252) 转换为 UTF8

I ve 之前问过这个 https stackoverflow com q 4351985 398713之前在 Stack Overflow 上以一种迂回的方式这次想把它做好如何将 ANSI 代码页 1252 转换为 UTF 8 同时保
Perl 和 Selenium::远程::驱动程序

再次编辑我在弗吉尼亚州北部某处的 AWS 上有一台服务器这是我的监控服务器我从另一个状态 ssh 进入这个 Ubuntu 服务器来进行系统管理我想在这台服务器上进行 Web 自动化测试它将测试互联网上的 Web 应用程序点击 U
为什么我的 Apache2::Log 输出用 \n 替换换行符？

我在 apache2 mod perl 下设置了多个虚拟主机我用的是ErrorLog指令为每个虚拟主机获取单独的错误日志仅当我使用 Apache2 Log 时这才按预期工作警告只会记录到常规错误日志中这样就可以了最后但还存在
使用 Ruby 的“open-uri”打开 utf-8 URI 时遇到问题

我正在尝试使用 ruby 和 open uri 从谷歌地图网络服务 API 获取丹麦位置地址试图得到丹麦艾勒 http maps googleapis com maps api geocode json address r sensor
如何在 Perl 中循环访问类的所有方法？

如何在 Perl 中循环访问一个类的所有方法有没有关于 Perl 内省或反射的好的在线参考 Todd Gardner 使用 Moose 的建议很好但他选择的示例代码并不是很有帮助如果你正在检查一个非 Moose 使用类你会这样做 u
如何忽略 perl 中的“证书验证失败”错误？

我想访问一个无法验证证书的网站我正在使用 WWW Mechanize 获取请求那么如何忽略这一点并继续连接到该网站呢 use IO Socket SSL qw use WWW Mechanize qw my mech WWW Mecha
使用 Visual Studio Code 调试 Perl

我今天刚开始使用 Perl 并安装了活动Perl https en wikipedia org wiki ActivePerl5 24 1 一切都很顺利我能够创建我的测试程序testPerl pl与简单的print命令并运行它consol
Unicode、正则表达式和 PyPy

我写了一个程序来添加有限统一码支持 https stackoverflow com q 1832893 520779到 Python 正则表达式虽然它在 CPython 2 5 2 上工作正常但在 PyPy 上不起作用 1 5 0
如何修复 Math::BigInt 调用的 Math::Pari 中的“`as_number' 不是 Pari 函数名称”？

在 Perl 5 8 5 上我看到问题中列出的错误我正在运行这些版本模块数学 BigInt 1 89 数学 BigInt FastCalc 0 19 数学 BigInt GMP 1 24 数学 BigInt Pari 1 13 数学
将 Unicode 字符转换为等效的 ASCII 字符

为了索引和搜索的目的我需要展平一些 Unicode 字符串例如我需要转换G the 转换为 ASCII 最后两个字符在 ASCII 中没有紧密的表示因此可以完全丢弃它们所以我的期望是 echo iconv UTF 8 ASCI
PowerShell 中的 SVN 输出编码

我正在尝试在 PowerShell 脚本内的字符串中捕获 SVN 日志在命令行上输出的编码是正确的但是当我将其捕获到字符串中时它就不是正确的 PS C sandbox gt svn log r1804 https myserver

随机推荐

为什么在指定所有模板参数都有默认值的模板类时需要 <> ？

有充分的理由吗 lt gt 当指定一个其所有模板参数都有默认值的模板类时是否需要 e g include
如何编写抛出异常的方法头

鉴于 FileInputStream 的构造函数抛出 FileNotFoundException 它是 FileInputStream 的子类异常为带有 String 参数的名为 process 的公共方法编写标头并且什么也不返回其
C++ 中聚合的带括号初始化的模板参数推导

在下面的代码中有一个初始化A
在phonegap项目中停止iframe重定向/打开移动Safari

目前我一直在将页面加载到我的phonegap项目中的隐藏iframe中作为从我在应用程序中使用的网站的移动版本中抓取数据的一种方式问题在于某个特定网站具有某种类型的框架破坏程序并发送退出应用程序并在移动 Safari 中加载页面的
球体表面上的射线-多边形交点

我有一个点纬度经度和一个以度为单位的航向正北该点沿着该点行进我有许多固定多边形以纬度经度定义的点它们可能是凸的也可能不是凸的我的问题是如何计算与多边形最近的交点如果有我看过一些关于光线追踪的令人困惑的帖子但当光
我正在尝试获取某个值的 Xpath，但出现嵌套条件错误

我试图通过为条件提供唯一值 U003 O100 001T 609644 来从多个 ViewItem 中查找带有值 1900310 谓词的 XPath 表达式请看下面的代码 ID 1900310 值 gt 子类型 U003 O100 00I
Android 和 Robotium - 需要额外的测试活动吗？

在我看来 robotium 的设计方式是一次测试 1 个 Activity 而不是整个应用程序所以我的问题是如何测试一个需要额外传递给它的活动我的意思是额外的intent putExtra Something object 方法设置活动
当我尝试使用 Hyperledger Fabric 创建通道时，请求失败

当我尝试使用 Hyperledger Fabric 创建通道时请求失败并返回以下错误客户端日志错误获得意外状态 BAD REQUEST 验证新通道创建事务时出错通道 testchannel 无法成功应用模板配置更新错误授权更新
Android中Fragment和Activity之间的数据共享

我以前问过类似的问题但没有得到答案似乎许多其他人正在寻找答案所以我提出这个问题希望能得到一个明确的答案让每个人都能从中受益我有一个包含 2 个片段的活动我希望fragment2在选中复选框时在Activity中设置一个布尔变量
C# AsyncStateMachine 反编译

我有几乎可以工作的代码但是OnRequest方法充满了错误我认为它是编译后的代码有什么帮助可以将这段代码变成人类可读的代码吗 AsyncStateMachine typeof Service1
禁用 JTree 节点的三键编辑，但保留键盘键进行编辑，以便在编辑之前保存节点的旧名称

我希望能够编辑节点名F2 and ENTER只能用按键不能用鼠标我添加了这两行它们正在工作 jTree1 getInputMap put KeyStroke getKeyStroke KeyEvent VK ENTER 0 start
VSCode 无法导入“示例”pylint（导入错误）

我在 VSCode 中收到 pylint 错误表示无法导入本地文件但是我可以通过调试器运行这些文件没有任何问题我认为 pylint 使用与解释器相同的 PYTHONPATH 所以我不知道为什么会发生这种情况我的代码设置如下 di
如何在 PHP 中安全地生成 SSHA256 或 SSHA512 哈希值？

我正在研究一个邮件服务器的网络管理模块 http drupal org project mailadmin 如果您想看一下它是开源的为此我需要能够生成可由以下人员读取的哈希密码Dovecot http dovecot org As 在
从多列中查找值的位置

我有一张 4x4 桌子表中的所有值都是唯一的 A B C D 1 a b c d 2 e f g h 3 i j k l 4 m n o p 我如何找到address具有特定的价值我试过了 CELL address MATCH A1 A
Spark 1.5.1 独立集群 - 线程“main”中出现异常 akka.actor.ActorNotFound：未找到 Actor

我在通过 Spark Submit 或 Java 代码向集群提交作业时遇到问题作业不断失败并且 stderr 日志在 SPARK HOME work app id 下始终显示相同的错误 15 10 08 23 04 39 WARN
在 Jinja2 中，将所有键设置为字典的值的最简单方法是什么？

我有一个仪表板它为每个仪表板项目的上下文命名空间有没有一种快速方法可以将字典的所有值设置为模板中的键我想重用模板而不是总是为我的变量命名空间我的上下文可以简化为如下所示 business businesses new promot
nodejs websockets 订阅多个频道

我的 Nodejs 程序的最终目标是订阅多个频道提供实时金融信息并处理流数据在 python 中可以使用 functools partial 和 websocket 订阅多个频道这允许一个 python 程序订阅多个频道就我而言
尝试使用 python 客户端获取 CRD 时出现 404

发生了什么我正在尝试使用 kubernetes python 客户端在 kubernetes 中创建自定义对象但我无法这样做如果有人可以解释我在这里做错了什么那将会很有帮助 Traceback most recent call la
无法从资产“index.android.bundle”加载脚本。确保您的捆绑包已正确打包或者您正在运行打包服务器

我正在使用版本为 0 38 0 的 React Native 应用程序当我尝试将其升级到 0 45 1 时它显示以下错误 java lang RuntimeException Unable to load script from ass
如何在 Perl 中将输入文件转换为 UTF-8 编码？

我已经知道如何使用如下代码将文件的非 utf8 编码内容逐行转换为 UTF 8 编码 outfile txt is in GB 2312 encode open my filter lt c outfile txt while lt fil

如何在 Perl 中将输入文件转换为 UTF-8 编码？

如何在 Perl 中将输入文件转换为 UTF-8 编码？ 的相关文章

随机推荐

热门标签

如何在 Perl 中将输入文件转换为 UTF-8 编码？的相关文章