Python 使用 euc-kr 编码以意想不到的方式对（韩语）字符进行编码（编解码器、编码模块）

2024-04-12

我尝试在 python 中读取一些以“euc-kr”编码的韩语文本文件，但出现了一些错误。检查后encodings使用模块一段时间后，我了解到该模块以看似非常奇怪的方式对韩语字符进行编码。让我举个例子

韩国文字탇（这是一个很少使用的字符，但我需要这个作为发音词典）应该被编码为B5 6E根据 EUC-KR 规范（我提到这个网站 https://encoding.spec.whatwg.org/euc-kr.html）。但编码模块给了我一些不同的结果。

# python3
>> from encodings import euc_kr
>> euc_kr.codec.decode(b'\xB5\x6E')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'euc_kr' codec cant decode byte 0xb5 in position 0: illegal multibyte sequence
>> euc_kr.codec.encode('탙')
(b'\xa4\xd4\xa4\xbc\xa4\xbf\xa4\xbc', 1)

如您所见，当我尝试解码时出现错误B5 6E and euc_kr.codec.encode给我的字节比我预期的要长。我不知道那里发生了什么。解码时如何避免出现错误B5 6E（以及许多其他韩国角色）？是否有另一个关于 EUC-KR 规范的文档，我可以阅读它来了解 EUC-KR 的 python 实现如何工作？

它看起来像euc_kr结果是某种分解。你可以尝试cp949，根据维基百科 https://en.wikipedia.org/wiki/Extended_Unix_Code:

Windows 的默认韩语代码页（代码页 949）是 EUC-KR 的专有但向上兼容的扩展...

一些实验：

>>> s = '탇'
>>> ud.name(s)
'HANGUL SYLLABLE TAD'
>>> s.encode('euc_kr')
b'\xa4\xd4\xa4\xbc\xa4\xbf\xa4\xa7'
>>> s.encode('euc_kr').decode('cp949')
'ㅤㅌㅏㄷ'
>>> for c in s.encode('euc_kr').decode('cp949'):
...     print(ud.name(c))
...     
HANGUL FILLER
HANGUL LETTER THIEUTH
HANGUL LETTER A
HANGUL LETTER TIKEUT
>>> s.encode('cp949').hex()
'b56e'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 使用 euc-kr 编码以意想不到的方式对（韩语）字符进行编码（编解码器、编码模块）的相关文章

如何覆盖 Django 的默认管理模板和布局

我正在尝试覆盖 Django 的默认模板现在只有base site html 我正在尝试更改 django 管理文本我做了以下事情我在我的应用程序目录中创建了一个文件夹 opt mydjangoapp templates admin
有没有一种方法可以将python对象直接存储在mongoDB中而不需要序列化它们

我在某处读到过您可以使用 BSON 将 python 对象更具体地说是字典作为二进制文件存储在 MongoDB 中但是现在我找不到任何与此相关的文档有人知道具体如何做到这一点吗没有办法在不序列化的情况下将对象存储在文件数据库
嵌套字典中的 Django 模板

我正在使用 Django 模板并且遇到了嵌套字典的一个问题 Dict result dict type 0 file name abc count 0 type 1 file name xyz count 50 我的 HTML 文件中的模
检测到通过 ChromeDriver 启动的 Chrome 浏览器

我正在尝试在 python 中使用 selenium chromedriver 来访问 www mouser co uk 网站然而从第一次拍摄开始它就被检测为机器人有人对此有解释吗此后我使用的代码 options Options
TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
NumPy linalg.eig

我有这个烦人的问题但我还没有弄清楚我有一个矩阵我想找到特征向量所以我写 val vec np linalg eig mymatrix 然后我得到了 vec 我的问题是当我小组中的其他人对相同的矩阵 mymatrix 做同样的事情时
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
对使用 importlib.util 导入的对象进行酸洗

我在使用Python的pickle时遇到了一个问题我需要通过将文件路径提供给 importlib util 来加载一些 Python 模块如下所示 import importlib util spec importlib util sp
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

连接充电器时运行后台代码

每次充电器连接到设备并且应用程序关闭时我都尝试运行一些代码我发现的唯一的事情是安排一个只能在连接充电器时运行的作业但问题是代码只会运行一次除非我重新安排它并且它只会在设置时运行次我希望代码在每次连接充电器时立即运行就像广播监听
NuGet 自动包恢复在我的构建服务器上不起作用

我在这里束手无策我已经尝试了所有我能找到的方法来让 NuGet 在 TFS 构建服务器上恢复我的包但似乎没有任何效果我签入的最新更改是here https stackoverflow com questions 45680811 th
无法运行任何 rake 命令：“错误：‘rake/rdoctask’已过时，不再受支持”[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我尝试运行 rake migrate
iOS Safari 为单选可视化选择多个选项

我在用着这个空optgroup 解决方法 https stackoverflow com a 19735870 419956让 iOS 显示option以可读的方式包含长文本的元素我正在使用以下代码来测试此解决方案 p Choose s
在全局范围内使用自动变量

auto int a 5 include
C# 中的 PHP MCRYPT_RIJNDAEL_128 加密

我正在尝试用 C 重写这个函数但 C 输出与 php 不匹配 PHP版本 Encrypt data using AES128 cbc function encrypt data key iv cipher mcrypt module op
如何摆脱 Drupal CSS 样式表？

我正在努力完成以下任务我需要使用 Drupal 6 作为项目要求但我想将它与我自己的 HTML 和 CSS 样式表一起用于每个节点视图面板等问题是无论什么主题我总是发现 Drupal 适用于我的 HTML 内容包括我的 CS
在 gradle 中更新具有特定 id 的 xml 元素

我想在 xml 文件中进行以下更改我的测试 xml
vscode 键绑定“转到搜索结果窗格上的下一个搜索结果”？

是否有转到搜索结果窗格上的下一个搜索结果的 vscode 键绑定我在键绑定 json 或上找不到它http code visualstudio com docs customization keybindings http code
保留整个物体 VS 不寻找东西

我在读福勒的重构书时看到保留整个对象 http martinfowler com refactoring catalog preserveWholeObject html 一种不同的较新的观点认为这种重构与你应该做的完全相反整洁代码讲座
在javascript中将坐标存储在数组中

我想将坐标存储到JavaScript中的数组中我是 javascript 新手不知道该怎么做任何帮助将不胜感激有多种方法可以存储 x y 坐标选项 1 数组中的所有其他索引 function storeCoordinate x
将 DartAngular 与 dart:html 结合使用

是否可以使用默认的 dart 库html有角飞镖 IE class Test1Component implements OnInit override void ngOnInit ButtonElement button querySele
是否有相当于 T4MVC 的 Web 表单？

我在我的 asp mvc 项目中使用 T4MVC 主要是因为它非常棒是否有与 asp webforms 相当的东西事实证明 David Ebbo 他也做了 T4MVC 的东西也给了 asp webforms 一点爱 http blog
在步骤定义文件之间共享相同的 selenium WebDriver

现在我们正在努力采用 Cucumber 在我们的 Java8 Spring 应用程序上运行功能测试我们希望我们的步骤定义文件尽可能保持干燥因此计划在不同的功能文件中使用相同的步骤定义由于我们使用的是硒WebDriver为了驱动我们的测
为什么 GCC 对这种隐式转换发出警告？

GCC 警告我以下代码包含可能更改值的隐式转换 include
在 C# 中为函数名创建别名

我想在 C 中为函数名创建别名除了函数重载还有什么办法吗 public class Test public void A 我想用B代替A 如下所示 var test new Test test B I m surprised that n
我应该自行提交表格还是提交到外部文件？

我对编程相当陌生特别是 Coldfusion 我很好奇我是否将表单提交到其所在的页面并在那里处理结果或者是否应该将其提交到外部文件进行处理是否有区别然后从那里重定向它可以发挥作用当我第一次开始编程时我经常会做这样的事情 myfo
在 JavaScript 或 Node 中将 Blob 数据转换为原始缓冲区

我正在使用插件jsPDF https github com MrRio jsPDF它生成 PDF 并将其保存到本地文件系统现在在 jsPDF js 中有一些代码可以生成 blob 格式的 pdf 数据如下所示 var blob new
带参数的 ASP.NET ODBC 查询

请帮助我我不知道以下代码有什么问题 OdbcConnection conn new OdbcConnection connString String query INSERT INTO customer custId custName c
Python 使用 euc-kr 编码以意想不到的方式对（韩语）字符进行编码（编解码器、编码模块）

我尝试在 python 中读取一些以 euc kr 编码的韩语文本文件但出现了一些错误检查后encodings使用模块一段时间后我了解到该模块以看似非常奇怪的方式对韩语字符进行编码让我举个例子韩国文字这是一个很少使用的字符但我

Python 使用 euc-kr 编码以意想不到的方式对（韩语）字符进行编码（编解码器、编码模块）

Python 使用 euc-kr 编码以意想不到的方式对（韩语）字符进行编码（编解码器、编码模块） 的相关文章

随机推荐

热门标签

Python 使用 euc-kr 编码以意想不到的方式对（韩语）字符进行编码（编解码器、编码模块）的相关文章