您的代码页/区域设置似乎不是 Utf8。 (或者tree
忽略代码页并使用不同的东西。)
快速……从中得到一些东西,任何东西;就是使用8位单字节编码。
run( 'tree', '--du', :out, :enc<latin1> );
一般来说,查看 Utf8 解码在哪里开始出错就足够了。
也就是说,让我们看看您的预期输出和文件输出。
say '├──'.encode; # utf8:0x<E2 94 9C E2 94 80 E2 94 80>
在你的文件中有
â<94><9c>â<94><80>â<94><80> [ 1016739] True
Wait …
say 'â'.encode('latin1'); # Blob[uint8]:0x<E2>
<E2><94><9c><E2><94><80><E2><94><80>
<E2 94 9c E2 94 80 E2 94 80>
utf8:0x<E2 94 9C E2 94 80 E2 94 80>
是的,它们看起来非常相似。
因为它们是完全相同的。
因此,它似乎确实在某种程度上产生了预期的产出。
这似乎证实了,是的,中间存在编码问题tree
和你的代码。这表明代码页/区域设置设置错误。
您还没有真正提供足够的信息来准确找出问题出在哪里。
你应该用过run
以二进制模式为我们提供准确的输出。
say run('echo', 'hello', :out, :bin).out.slurp;
# Buf[uint8]:0x<68 65 6C 6C 6F 0A>
你也没说如果<9c>
在文件中实际上是四个文本字符,或者它是您用来打开文件将二进制数据转换为文本的任何功能的功能。
如果所有示例数据都是相同的,那就太好了。
稍微相关的说明......
Since tree
给出文件名,并且文件名不是 Unicode, using utf8-c8
放在这里是合适的。
(用户名和密码通常也是如此。)
这是我在计算机上运行的一些代码,希望能说明原因。
say dir(:test(/^ r.+sum.+ $/)).map: *.relative.encode('utf8-c8').decode
# (résumé résumé résumé résumé)
dir(:test(/^ r.+sum.+ $/)).map: *.relative.encode('utf8-c8').say
# Blob[uint8]:0x<72 65 CC 81 73 75 6D 65 CC 81>
# Blob[uint8]:0x<72 C3 A9 73 75 6D 65 CC 81>
# Blob[uint8]:0x<72 C3 A9 73 75 6D C3 A9>
# Blob[uint8]:0x<72 65 CC 81 73 75 6D C3 A9>
say 'é'.NFC;
# NFC:0x<00e9>
say 'é'.NFD
# NFD:0x<0065 0301>
sub to-Utf8 ( Uni:D $_ ){
.map: *.chr.encode
}
say to-Utf8 'é'.NFC
# (utf8:0x<C3 A9>)
say to-Utf8 'é'.NFD
# (utf8:0x<65> utf8:0x<CC 81>)
So é
要么被编码为一个组合代码点<C3 A9>
或两个分解的代码点<65> <CC 81>
.
我真的只是为了这个目的创建了 4 个“同名”文件吗?
是的。是的,我做到了。