Python DictWriter 写入 UTF-8 编码的 CSV 文件

2024-03-09

我有一个包含 unicode 字符串的字典列表。
csv.DictWriter可以将字典列表写入 CSV 文件。
我希望 CSV 文件以 UTF8 编码。
The csv模块无法处理将 unicode 字符串转换为 UTF8。

The csv模块文档有一个将所有内容转换为 UTF8 的示例：

def utf_8_encoder(unicode_csv_data):
    for line in unicode_csv_data:
        yield line.encode('utf-8')

它还有一个UnicodeWriter班级。

但是...我该怎么做DictWriter与这些一起工作？难道他们不需要将自己注入其中，以捕获反汇编的字典并在将它们写入文件之前对其进行编码吗？我不明白。

UPDATE：第3方Unicodecsv https://pypi.org/project/unicodecsv/模块为您实现了这个 7 年前的答案。此代码下面的示例。还有一个不需要第三方模块的 Python 3 解决方案。

Python 2 原始答案

如果使用 Python 2.7 或更高版本，请在传递给 DictWriter 之前使用 dict 理解将字典重新映射为 utf-8：

# coding: utf-8
import csv
D = {'name':u'马克','pinyin':u'mǎkè'}
f = open('out.csv','wb')
f.write(u'\ufeff'.encode('utf8')) # BOM (optional...Excel needs it to open UTF-8 file properly)
w = csv.DictWriter(f,sorted(D.keys()))
w.writeheader()
w.writerow({k:v.encode('utf8') for k,v in D.items()})
f.close()

您可以使用这个想法将 UnicodeWriter 更新为 DictUnicodeWriter：

# coding: utf-8
import csv
import cStringIO
import codecs

class DictUnicodeWriter(object):

    def __init__(self, f, fieldnames, dialect=csv.excel, encoding="utf-8", **kwds):
        # Redirect output to a queue
        self.queue = cStringIO.StringIO()
        self.writer = csv.DictWriter(self.queue, fieldnames, dialect=dialect, **kwds)
        self.stream = f
        self.encoder = codecs.getincrementalencoder(encoding)()

    def writerow(self, D):
        self.writer.writerow({k:v.encode("utf-8") for k,v in D.items()})
        # Fetch UTF-8 output from the queue ...
        data = self.queue.getvalue()
        data = data.decode("utf-8")
        # ... and reencode it into the target encoding
        data = self.encoder.encode(data)
        # write to the target stream
        self.stream.write(data)
        # empty queue
        self.queue.truncate(0)

    def writerows(self, rows):
        for D in rows:
            self.writerow(D)

    def writeheader(self):
        self.writer.writeheader()

D1 = {'name':u'马克','pinyin':u'Mǎkè'}
D2 = {'name':u'美国','pinyin':u'Měiguó'}
f = open('out.csv','wb')
f.write(u'\ufeff'.encode('utf8')) # BOM (optional...Excel needs it to open UTF-8 file properly)
w = DictUnicodeWriter(f,sorted(D.keys()))
w.writeheader()
w.writerows([D1,D2])
f.close()

蟒蛇2Unicodecsv https://pypi.org/project/unicodecsv/例子：

# coding: utf-8
import unicodecsv as csv

D = {u'name':u'马克',u'pinyin':u'mǎkè'}

with open('out.csv','wb') as f:
    w = csv.DictWriter(f,fieldnames=sorted(D.keys()),encoding='utf-8-sig')
    w.writeheader()
    w.writerow(D)

Python 3：

此外，Python 3 的内置 csv 模块本身支持 Unicode：

# coding: utf-8
import csv

D = {u'name':u'马克',u'pinyin':u'mǎkè'}

# Use newline='' instead of 'wb' in Python 3.
with open('out.csv','w',encoding='utf-8-sig',newline='') as f:
    w = csv.DictWriter(f,fieldnames=sorted(D.keys()))
    w.writeheader()
    w.writerow(D)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

csv

UTF8

Python DictWriter 写入 UTF-8 编码的 CSV 文件的相关文章

ptb_word_lm中batch_size的含义（tensorflow的LSTM模型）

我是张量流的新手我现在对它的含义有点困惑batch size 众所周知其含义是batch size是每批次的样本数但是根据中的代码ptb word lm 似乎不是读者 py data len tf size raw data the
使用 matplotlib 在图像数据之上对线网格进行像素精确定位

我试图在 python 库 matplotlib 显示的图像网格顶部精确地覆盖 1 像素宽线的网格不幸的是我似乎无法对结果进行足够精细的控制以实现线网格与数据网格的正确对齐如下面的代码所示结果似乎总是很接近但并不完全正确我尝试
在Python中用空格分割字符串——保留带引号的子字符串

我有一个像这样的字符串 this is a test 我正在尝试用 Python 编写一些内容以将其按空格分开同时忽略引号内的空格我正在寻找的结果是 this is a test 附言我知道您会问如果引号内有引号会发生什么嗯在
在Python中将距离矩阵转换为成对距离列表[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案假设Python中有以下距离矩阵 0 1 2 3 0 0 1 4 8 1 1 0 3 7 2 4 3 0 3 3 8 7 3 0 我想
如何计算具有较大中间值的总和

我想计算 for n m两个值都是 1000 以内的整数最终结果是一个不大于 1000 的数字n但中间值对于 python 来说太大了无法处理你怎么解决这个问题我将函数定义如下 from scipy misc import comb
在Java中读取制表符分隔的文件

我有以下代码来读取 Java 中的制表符分隔文件 while str in readLine null if str trim length 0 continue String values str split t System out p
python请求：重试直到收到有效响应

我想知道是否存在重试请求一定次数的常见模式可能由于服务器错误或网络不良而失败我想出了这个并且我愿意在那里找到更好的实现 cnt 0 while cnt lt 3 try response requests get uri if res
Altair 条形图具有可变宽度的条形？

我正在尝试在 Python 中使用 Altair 制作条形图其中条形的宽度根据源数据帧列中的数据而变化最终目标是获得如下所示的图表条形的高度对应于每种能源技术的边际成本在源数据框中以列形式给出条形宽度对应于每种能源技术的容量也以
如何将文本文件中的十六进制行转换为数组（Python）？

我有一个文本文件每行包含一个十六进制明文我的文件如下所示 7a8e5dc390781eab8df2c090bf4bebca dbac0fba55d3d4fc177161bfe24dc7fb 82e5a7a021197f6fbe94a86
如何使用 Tkinter 创建等宽网格列？

如何强制 Tkinter 应用程序窗口中的列宽度相等 tkdocs网站声明如下每列的宽度或每行的高度取决于列或行中包含的小部件的宽度或高度这意味着当绘制用户界面并将其划分为行和列时您无需担心每列或行的宽度相等或高度大概 TkD
如何在 PySide/PyQt 中制作一个位于屏幕中央的小部件？

这段代码有效但我想知道是否有更简单的方法 def center self qr self frameGeometry cp gui QDesktopWidget availableGeometry center qr moveCenter
Django外键：获取相关模型？

是否可以通过外键字段本身获取外键的相关模型例如如果我有 3 个模型 class ModelA models Model field1 models CharField max length 10 class ModelB models
os.path.expanduser("~") 的替代方案？

在Python 2 7 x中 os path expanduser Unicode 已损坏这意味着如果的扩展中包含非 ASCII 字符则会出现异常 http bugs python org issue13207 http bugs p
仅打印字符串中的元音

我是Python新手我正在尝试打印字符串中的所有元音因此如果有人输入嘿一切都好吗所有元音都需要打印但我不知道怎么做所以这不是计算元音而是打印元音现在我已经得到了这个 sentence input Enter your s
Django 中同一个模型的多个多对多关系

给定以下具有两个多对多关系的模型 class Child models Model name models CharField max length 80 class Foo models Model bar models ManyToMa
Anaconda (Python) - Windows 10 上的 Cmder 集成

我在 Windows 10 64 位上通过 Anaconda 让 Cmder 使用 Python 时遇到了一些麻烦我让 Anaconda 工作得很好测试过用 matplotlib 绘制一些东西它与 Anaconda Prompt 一起
是否有比 .apply() 更慢或更受控制的替代方案？

所以这似乎是一个奇怪的问题但我有一只熊猫DataFrame其中包含地址我想对其进行地理编码以便获得纬度和经度我有可以使用的代码 apply 感谢这个非常有帮助的线程使用 geopy pandas 的新列坐标 https stack
带有 graphviz_layout 的水平树

在Python中使用networkx 我可以用以下方法绘制垂直树 g nx balanced tree 2 4 pos nx graphviz layout g prog dot nx draw g pos labels b all no
从 s3 获取 ogg 轨道的长度而不下载整个文件

如何在不下载整个文件的情况下获取 ogg 文件的播放长度我知道这是可能的因为 HTML5 标签和 VLC 都可以在加载 URL 后立即显示整个播放长度而无需下载整个文件有标题或我可以阅读的内容吗也许甚至是比特率我可以将其除以文件
pylint：忽略 rcfile 中的多个

在我的 django 项目中我使用的是外部编写的应用程序但编写得很糟糕现在我想从我的 pylint 报告中忽略这个应用程序但是我无法让 pylint 忽略它 Pylint 已经忽略了南方的迁移如下所示 MASTER ignore

随机推荐

此应用程序会出现在 Play 商店中吗？

我在很多地方听说过如果我的应用程序使用不适用于特定设备的权限它就不会显示在该设备的 Play 商店中现在在我的代码中我正在播放音频每当有电话来电时我都会通过执行以下操作将音频静音 private PhoneStateListe
有没有办法调用重写方法的父版本？（C#.NET）

在下面的代码中我尝试了两种方法来访问methodTwo的父版本但结果始终是2 有没有办法在不修改这两个类的情况下从ChildClass实例获取1结果 class ParentClass public int methodOne retu
Java选择音频设备并播放.mp3

我的电脑有 3 个声卡我可以使用此代码选择并播放 wav 文件 import javax sound sampled AudioInputStream audioIn AudioSystem getAudioInputStream url
PHP 的 sha1() 和 MySQL 的 SHA() 会给出相同的结果吗？

如果不加盐它们会一样吗是的 sha1 算法对于相同的输入总是产生相同的值这就是哈希算法的全部意义默认情况下它们都返回 40 个字符的小写十六进制转储
THttpApiServer - 示例

有人有 THttpApiServer 的示例在 Synopse 上找到吗我无法找到任何有关使用此类创建简单网络服务器的文档你可以有使用我们的论坛 http synopse info forum viewtopic php id 26
多个蓝牙连接

我想通过蓝牙连接 3 个设备我的 Droid 必须连接到 2 个蓝牙设备我已使用蓝牙聊天将我的 Droid 连接到 1 台设备我应该如何修改它以适应多个蓝牙设备我正在寻找一种通过蓝牙连接 4 台设备的方法我发现了以下内容 http
选择并显示属于特定 ID 的所有行

I have Table student 学生科目 and 主题 bsit student studentID FullName 1234 John 1235 Michael 1236 Bryce subject bsit subject
Scons：仅当目标发生更改时才生成版本文件

我需要从 SCons 脚本生成 version cc 文件仅当目标的任何源文件发生更改时才应生成此文件假设 SCons 脚本有以下语句 python function which generates version cc in the
Play 商店应用详细视图中的游戏功能部分

如果您搜索超级火柴人高尔夫2 https play google com store apps details id com noodlecake ssg2 您将看到一个名为游戏功能的部分其中显示了可用的功能多人游戏和成就但我的游
实体框架 4.3：配置文件分离时的“更新数据库”

移至 ef 4 3 AutomaticMigrationsEnabled true In web config有以下设置
未捕获的 EvalError：拒绝将字符串评估为 JavaScript，因为“unsafe-eval”不是内容安全 Pol 中允许的脚本源

Electron React TypeScript 应用程序的内容安全策略是什么我什至没有使用 unsafe eval 但出现错误以下是我尝试过并收到上述错误消息的一些内容安全策略 gt gt 您收到此错误是因为您正在尝试执行以下操作u
使用点符号字符串访问对象子属性[重复]

这个问题在这里已经有答案了我暂时遇到了一个看似非常简单的 JavaScript 问题但也许我只是缺少正确的搜索关键字假设我们有一个对象 var r a 1 b b1 11 b2 99 有几种方法可以访问 99 r b b2 r b b
Visual Studio 向 MSBuild 传递哪些参数？

当 Visual Studio 运行生成时它会运行 MSBuild 来完成大部分工作如果将 sln 文件传递给 MSBuild 并具有适当的配置和平台属性它将以类似于 Visual Studio 的方式构建您的解决方案 msbuil
R Studio 错误：“n()”只能在 dplyr 动词内部使用

install packages c ggplot2 ggpubr tidyverse broom AICcmodavg dplyr library ggplot2 library ggpubr library tidyverse libr
是否可以通过编程将 iPhone 静音？

我已经看到了确保应用程序遵循静音开关的技术但是是否可以使用 SDK 将 iPhone 设置为静音任何应用程序都不会发出声音 No 使用官方 SDK 开发的应用程序无法更改在大多数情况下甚至无法访问系统范围的设置
“volumes”如何使用 docker-compose 覆盖 docker 镜像的原始文件？

让我们用这个docker compose yml version 2 services db image mysql 5 7 volumes mysql var lib mysql lt important restart always e
撤消 arrayList 中的更改

我有一个名为 lines 的线对象数组列表我制作了自己的线条类来绘制带有一些约束的线条它涉及在面板中选择两个点并绘制一条连接这两个点的线每次创建一行时它都会添加到行中这些线条是在面板中绘制的我的面板中的绘制功能如下所示 pu
使用 Python 将自定义功能属性添加到 ESRI Shapefile

我正在寻找一种方法来获取具有 200 个国家地区功能集的现有 ESRI Shapefile 每个国家地区特征都有一个属性 NAME 我的目标是创建一个 Python 脚本添加任意目前附加属性例如人口当然我安装了 OSGeo
以 React 方式将多个字符串封装在 HTML 中

我正在构建一个实体荧光笔以便我可以上传文本文件查看屏幕上的内容然后突出显示数组中的单词这是用户在手动突出显示某个选项时填充的数组例如 const entities John Smith Apple some other word
Python DictWriter 写入 UTF-8 编码的 CSV 文件

我有一个包含 unicode 字符串的字典列表 csv DictWriter可以将字典列表写入 CSV 文件我希望 CSV 文件以 UTF8 编码 The csv模块无法处理将 unicode 字符串转换为 UTF8 The csv模块文

Python DictWriter 写入 UTF-8 编码的 CSV 文件

Python DictWriter 写入 UTF-8 编码的 CSV 文件 的相关文章

随机推荐

热门标签

Python DictWriter 写入 UTF-8 编码的 CSV 文件的相关文章