如何将 dict 转换为 unicode JSON 字符串？

2024-04-16

使用标准库对我来说似乎不可能json模块。使用时json.dumps它会自动转义所有非 ASCII 字符，然后将字符串编码为 ASCII。我可以指定它不转义非 ASCII 字符，但是当它尝试将输出转换为 ASCII 时它会崩溃。

问题是 -我不想要 ASCII！我只想将我的 JSON 字符串返回为unicode (or UTF-8）细绳。有什么方便的方法可以做到这一点吗？

这是一个例子来演示我的内容want:

d = {'navn': 'Åge', 'stilling': 'Lærling'}
json.dumps(d, output_encoding='utf8')
# => '{"stilling": "Lærling", "navn": "Åge"}'

但当然，没有这样的选择输出编码，所以这是实际的输出：

d = {'navn': 'Åge', 'stilling': 'Lærling'}
json.dumps(d)
# => '{"stilling": "L\\u00e6rling", "navn": "\\u00c5ge"}'

总结一下 - 我想将 Python 字典转换为UTF-8 JSON 字符串没有任何逃脱。我怎样才能做到这一点？

我会接受以下解决方案：

黑客（预处理和后处理输入dumps达到想要的效果）
子类化JSON编码器 http://docs.python.org/library/json.html#json.JSONEncoder（我不知道它是如何工作的，文档也不是很有帮助）
PyPi 上可用的第三方库

要求

确保您的 python 文件采用 UTF-8 编码。否则你的非ascii字符将变成问号，?。 Notepad++ 为此提供了出色的编码选项。
确保包含适当的字体。如果你想显示日文字符，那么你需要安装日文字体。
确保您的 IDE 支持显示 unicode 字符。否则你可能会得到一个UnicodeEncodeError抛出错误。

Example:

UnicodeEncodeError: 'charmap' codec can't encode characters in position 22-23: character maps to <undefined>

PyScripter 对我有用。它包含在“Portable Python”中，位于http://portablepython.com/wiki/PortablePython3.2.1.1 http://portablepython.com/wiki/PortablePython3.2.1.1

确保您使用的是 Python 3+，因为此版本提供更好的 unicode 支持。

Problem

json.dumps() 转义 unicode 字符。

Solution

阅读底部的更新。或者...

将每个转义字符替换为解析后的 unicode 字符。

我创建了一个简单的 lambda 函数，名为getStringWithDecodedUnicode就是这么做的。

import re   
getStringWithDecodedUnicode = lambda str : re.sub( '\\\\u([\da-f]{4})', (lambda x : chr( int( x.group(1), 16 ) )), str )

Here's getStringWithDecodedUnicode作为常规函数。

def getStringWithDecodedUnicode( value ):
    findUnicodeRE = re.compile( '\\\\u([\da-f]{4})' )
    def getParsedUnicode(x):
        return chr( int( x.group(1), 16 ) )

    return  findUnicodeRE.sub(getParsedUnicode, str( value ) )

Example

testJSONWithUnicode.py（使用 PyScripter 作为 IDE）

import re
import json
getStringWithDecodedUnicode = lambda str : re.sub( '\\\\u([\da-f]{4})', (lambda x : chr( int( x.group(1), 16 ) )), str )

data = {"Japan":"日本"}
jsonString = json.dumps( data )
print( "json.dumps({0}) = {1}".format( data, jsonString ) )
jsonString = getStringWithDecodedUnicode( jsonString )
print( "Decoded Unicode: %s" % jsonString )

Output

json.dumps({'Japan': '日本'}) = {"Japan": "\u65e5\u672c"}
Decoded Unicode: {"Japan": "日本"}

Update

或者……直接过去ensure_ascii=False作为 json.dumps 的选项。

注意：您需要满足我在开始时概述的要求，否则这是行不通的。

import json
data = {'navn': 'Åge', 'stilling': 'Lærling'}
result = json.dumps(d, ensure_ascii=False)
print( result ) # prints '{"stilling": "Lærling", "navn": "Åge"}'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

json