将 Unicode 文本写入文本文件？

2024-02-13

我从 Google 文档中提取数据，对其进行处理，然后将其写入文件（最终我会将其粘贴到 Wordpress 页面中）。

它有一些非 ASCII 符号。如何将这些安全地转换为可在 HTML 源代码中使用的符号？

目前，我正在将所有内容转换为 Unicode，将它们全部连接到一个 Python 字符串中，然后执行以下操作：

import codecs
f = codecs.open('out.txt', mode="w", encoding="iso-8859-1")
f.write(all_html.encode("iso-8859-1", "replace"))

最后一行有一个编码错误：

UnicodeDecodeError：“ascii”编解码器无法解码字节 0xa0 位置 12286：序数不在范围内(128)

部分解决方案：

这个Python运行没有错误：

row = [unicode(x.strip()) if x is not None else u'' for x in row]
all_html = row[0] + "<br/>" + row[1]
f = open('out.txt', 'w')
f.write(all_html.encode("utf-8"))

但是，如果我打开实际的文本文件，我会看到很多符号，例如：

Qur‚Äôan

也许我需要写入文本文件以外的其他内容？

尽可能专门处理 unicode 对象，方法是在第一次获取它们时将其解码为 unicode 对象，并在退出时根据需要对其进行编码。

如果您的字符串实际上是一个 unicode 对象，则需要在将其写入文件之前将其转换为 unicode 编码的字符串对象：

foo = u'Δ, Й, ק, ‎ م, ๗, あ, 叶, 葉, and 말.'
f = open('test', 'w')
f.write(foo.encode('utf8'))
f.close()

当您再次读取该文件时，您将获得一个 unicode 编码的字符串，您可以将其解码为 unicode 对象：

f = file('test', 'r')
print f.read().decode('utf8')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

characterencoding

python2x

将 Unicode 文本写入文本文件？的相关文章

PyQt：如何通过匿名代理使用网页

这真让我抓狂我想在 QWebPage 中显示一个 url 但我想通过匿名代理来实现 Code setting up the proxy proxy QNetworkProxy proxy setHostName 189 75 98 199
Python 2.7 将比特币私钥转换为 WIF 私钥

作为一名编码新手我刚刚完成了教程教程是这样的 https www youtube com watch v tX XokHf nI https www youtube com watch v tX XokHf nI 我想用 1 个易于阅读
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
希伯来语中的稀疏句子标记化错误

尝试对希伯来语使用稀疏句子标记 import spacy nlp spacy load he doc nlp text sents list doc sents I get Warning no model found for he Onl
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
Apache Spark 中的高效字符串匹配

我使用 OCR 工具从屏幕截图中提取文本每个大约 1 5 句话然而当手动验证提取的文本时我注意到时不时会出现一些错误鉴于文本你好我真的很喜欢 Spark 我注意到 1 像 I 和 l 这样的字母被替换 2 表情符号未被正确提
为什么我无法在 Mac OS X Terminal.app 上的 Python 解释器中显示 unicode 字符？

如果我尝试粘贴 unicode 字符例如中间的点在我的 python 解释器中它什么也不做我在 Mac OS X 上使用 Terminal app 当我只是在 bash 中时我没有遇到任何问题但在解释器中 python Pytho
与 while 循环一样，如何跳过 for 循环中的步骤？

我尝试像 while 循环一样跳过 for 循环中的几个步骤在 while 循环中步骤根据特定条件进行调整如下面的代码所示 i 0 while i lt 10 if i 3 i 5 else print i i i 1 result
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
如何更改 HTML 文档的“实际编码”？

我通过 W3C HTML 验证器运行我的网页并收到此错误编码ascii不是字符的首选名称使用中的编码首选名称是 us ascii Charmod C024 第 5 行第 70 列内部编码声明 utf 8 不同意文档的实际编码 u
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
检测 IDLE 的存在/如何判断 __file__ 是否未设置

我有一个脚本需要使用 file 所以我了解到 IDLE 没有设置这个有没有办法从我的脚本中检测到 IDLE 的存在 if file not in globals file is not set 如果你想做一些特别的事情 file 未设置
处理大文件的最快方法？

我有多个 3 GB 制表符分隔文件每个文件中有 2000 万行所有行都必须独立处理任何两行之间没有关系我的问题是什么会更快逐行阅读 with open as infile for line in infile 将文件分块读入内存
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以

随机推荐

如何在android中检测EditText中的表情符号

我想检测我的是否EditText是否包含笑脸表情符号但我不知道如何检测它们要在键盘上输入时禁用表情符号字符我使用以下过滤器 InputFilter filter new InputFilter Override public Cha
Ckeditor 在 p 标签的开头和结尾显示额外的空间

我在我的小型网络项目中使用 ckeditor 但是当我编辑内容或创建新内容时它会在 p 标签和文本的开头后自动添加空格当我删除空格并保存内容时它会起作用但是当我再次编辑它又添加了空格如何删除它我认为 p 标签的开头和文本之间的空
具有版本控制的 HDF5 文件 (h5py) - 每次保存时哈希值都会更改

我正在使用 h5py 将数值工作的中间数据存储在 HDF5 文件中我的项目处于版本控制之下但这不适用于 HDF5 文件因为每次重新运行生成 HDF5 文件的脚本时即使其中的数据没有变化二进制文件也会发生变化这是一个小例子来说明这
将当前日期和时间转换为时间戳对象（13位）[重复]

这个问题在这里已经有答案了以下是将java datestamp 13digits 转换为date 1520488577604 to 3 12 2018 8 07 02 PM in C new DateTime 1970 1 1 0 0 0
ImportError：当我尝试通过 python pip 安装 Fabric 时，没有名为“pip._vendor.distlib.scripts”的模块

当我在CentOS4 9上运行此命令时会发生这样的错误我尝试在谷歌中搜索它但没有找到看来我是第一个遇到这样问题的人 pip 安装结构 Traceback most recent call last File usr local bin
针对单个端点多个帖子请求的开放 API 文档

我正在尝试为我的单端点 API 提供 Swagger Open Api 文档我的单一端点看起来像 POST http localhost api v1 process http localhost api v1 process 帖子正文决
时间戳间隔

我有一个名为 s timestamp 的列如何返回时间戳中包含当前日期的所有记录例如 s timestamp 2012 12 27 1 00 00 2012 12 27 2 00 00 2012 12 26 0 00 01 2012 1
Spring Boot JSON 解析错误：无法反序列化错误

timestamp 2018 07 18T11 02 29 789 0000 status 400 error Bad Request message JSON parse error Cannot deserialize instance
我如何知道 BigDecimal 是否解析失败？

我正在从 csv 导入数据我需要将一些值转换为 BigDecimal 如果无法解析它们则会引发错误根据测试 BigDecimal invalid number 返回 BigDecimal 0 这应该没问题但有点混乱除了有效值为 0
如何找出哪个网卡连接到互联网？

考虑以下设置一台带有 LAN 接口和 WiFi 接口任何新笔记本电脑的标准的 Windows PC 每个接口都可能与网络连接或断开我需要一种方法来确定哪个适配器连接到互联网具体来说如果它们都连接到不同的网络一个连接到互联网一
输入 5 个字符后 Google 地点自动填写地址表单

我正在使用从 Google Developer 网站获取的代码 https developers google com maps documentation javascript examples places autocomplete a
以编程方式在 Visual Studio 项目文件中添加和编辑目标

我正在尝试以编程方式将以下目标添加到我的 Visual Studio 项目文件中
扫描仪分隔符无法按输入文件的预期工作（Java）

我正在编写一个程序来从文本文件读取输入该文件始终遵循 char int 格式如下所示 A 3 B 1 C 2 D 2 这里是eof 我想读入字符及其相应的数字忽略冒号在我的程序中我有以下声明和初始化 String fileName
如何展开一个长数字（以 e+## 结尾）以展开形式显示？

所以这可能是一个简单的问题但我在任何地方都找不到答案举个例子我有一个简单的程序我想将 a 除以 b 如下所示 def main a 12345678900000000 b 1 25 answer a b print answer
警告：使用服务器端 selectize 可以大幅提高 RShiny 的性能

在 RShiny 应用程序中我收到警告消息Warning message The select input the input id contains a large number of options consider using se
如何在突出显示jekyll中删除不必要的缩进和换行

我用杰基尔code highlight with gem rouge 模板 Jekyll 简单博客感知静态站点 https jekyllrb com docs templates 代码 index html layout default
@font-face 在 IE10 上本地工作，但在服务器上不起作用

我检查了一下字体文件在服务器上 font face font family DroidSerifRegular src url fontface DroidSerif Regular webfont eot src url fontfac
使用Socket或UdpClient进行多播有功能上的区别吗？

我正在熟悉多播等主要使用了 2 个示例 Using Socket with Bind UDPClient JoinMulticastNetwork 一个指定一个离开组播组 http www dart com udp multicast c
使用 ini 文件进行 Spring MVC 和 Shiro 配置

我正在尝试使用 Spring MVC 和 Apache Shiro 建立一个环境我正在关注 shiro apache org 中提到的文章我在 web xml 中使用 Spring 的 DelegatingFilterProxy 作为
将 Unicode 文本写入文本文件？

我从 Google 文档中提取数据对其进行处理然后将其写入文件最终我会将其粘贴到 Wordpress 页面中它有一些非 ASCII 符号如何将这些安全地转换为可在 HTML 源代码中使用的符号目前我正在将所有内容转换为 Uni

将 Unicode 文本写入文本文件？

将 Unicode 文本写入文本文件？ 的相关文章

随机推荐

热门标签

将 Unicode 文本写入文本文件？的相关文章