我正在开发一个 Python 文件,该文件输入一个包含日语字符 (UTF-8) 的文本文件,获取一些文本,并将其写入一个新的 UTF-8 文本文件。
我遇到的问题是,由于某种原因,每当日语字符だ出现在原始输入文件中的行尾时,它就会在输出文件中显示为菱形问号。
行尾之前的 だ 实例读起来非常好,原始输入文件的读起来也非常好,即使它位于行尾。
由于您尚未分享任何代码片段,我会向您推荐一种通用的阅读和写作方式utf-8
文件使用codecs
模块为:
# Reading utf-8 encoded file
with codecs.open("in.txt", "r", encoding="utf-8") as input_data:
data = input_data.read()
# Write utf-8 encoded file
with codecs.open("out.txt", "w", encoding="utf-8") as output_data:
output_data.write(data)
顺便说一句,我在给定的角色だ上测试了它,它工作得很好。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)