在文本文件上书写时，重音符号和特殊字符无法正确显示

2024-04-23

这就是我正在做的事情，我在网站上进行网络爬虫以供个人使用，以复制文本并将书籍的章节设置为文本格式，然后使用另一个程序将其自动转换为 pdf 以将其放入我的云中。一切都很好，直到发生这种情况：特殊字符无法正确复制，例如重音在文本文件上显示为：\xe2\x80\x99，而 - 显示为\xe2\x80\x93。我用过这个（Python 3）：

    for text in soup.find_all('p'):
        texta = text.text
        f.write(str(str(texta).encode("utf-8")))
        f.write('\n')

因为我在读取这些字符时遇到了错误，它刚刚停止了我的程序，所以我将所有内容编码为 utf-8 并使用 python 的方法 str() 将所有内容重新转换为字符串

如果有人对我的问题有更好的解决方案，我将发布整个代码，这是从第 1 页爬行网站到 max_pages 的部分，您可以在第 21 行修改它以获取本书的更多或更少章节：

import requests

from bs4 import BeautifulSoup

def crawl_ATG(max_pages):
    page = 1
    while page <= max_pages:
        x= page
        url = 'http://www.wuxiaworld.com/atg-index/atg-chapter-' + str(x) + "/"
        source = requests.get(url)
        chapter = source.content
        soup = BeautifulSoup(chapter.decode('utf-8', 'ignore'), 'html.parser')
        f = open('atg_chapter' + str(x) + '.txt', 'w+')
        for text in soup.find_all('p'):
        texta = text.text
            f.write(str(str(texta).encode("utf-8")))
            f.write('\n')
        f.close
        page +=1
    
crawl_ATG(10)

当我得到这个问题的解决方案时，我将清理稍后复制的第一批无用的行。谢谢

我发现解决这个问题的最简单方法是添加encoding= "utf-8"在打开的函数中：

with open('file.txt','w',encoding='utf-8') as file :
   file.write('ñoño')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

encoding

UTF8

webcrawler

UTF

在文本文件上书写时，重音符号和特殊字符无法正确显示的相关文章

如何使用 pandas 选择所有非 NaN 列和非 NaN 最后一列？

如果标题有点令人困惑请原谅我假设我有test h5 下面是使用读取该文件的结果df read hdf test h5 testdata 0 1 2 3 4 5 6 0 123 444 111 321 NaN NaN NaN 1 12 2
Pyenv 无法在 Cygwin 上安装 python: ModuleNotFoundError: No module named '_ctypes'

我正在尝试设置 Cygwin 环境以使用 pyenv 来管理 python 版本我没有管理员权限所以我使用以下命令运行设置 no admin flag 我使用 Cygwin 包管理器应用程序解决了一些依赖关系但我被困在了这一点上 Mo
如何在 Django 管理中以表格格式显示添加模型？

我刚刚开始使用 Django 编写我的第一个应用程序为我的家庭设计的家务图表管理器在本教程中它向您展示了如何添加相关对象 http docs djangoproject com en dev intro tutorial02 cust
Django 如何从 ManyToManyField 序列化并列出全部

我正在使用 Django 1 9 1 开发移动应用程序后端我实现了关注者模型现在我想列出用户的所有关注者但目前我不得不这样做我还使用 Django Rest 框架这是我的 UserProfile 模型 class UserProf
将 matplotlib png 转换为 base64 以在 html 模板中查看

背景你好我正在尝试制作一个简单的网络应用程序按照教程计算阻尼振动方程并将结果的 png 返回到 html 页面然后将其转换为 Base64 字符串 Problem 该应用程序运行正常只是在计算结果时返回损坏的图像图标可能是因为
使用opencv计算深度视差图

我无法使用 opencv 从视差图计算深度我知道两个立体图像中的距离是用以下公式计算的z baseline focal disparity p 但我不知道如何使用地图计算视差我使用的代码如下为我提供了两个图像的视差图 import n
使用 Python 的文本中的词频但忽略停用词

这给了我文本中单词的频率 fullWords re findall r w allText d defaultdict int for word in fullWords d word 1 finalFreq sorted d iterit
理解@property装饰器和继承[重复]

这个问题在这里已经有答案了这里是 Python 3 以防万一它很重要我试图正确理解如何实现继承 property使用我已经搜索了 StackOverflow 并阅读了大约 20 个类似的问题但无济于事因为他们试图解决的问题略有不同
InvalidArgumentException：消息：无效参数：“using”必须是字符串

我对 python 很陌生试图创建可重用的代码当我尝试通过传递 Login 类下使用的所有参数来调用 test main py 中的 Login 类和函数 login user 时我收到错误 InvalidArgumentExcept
在 MATLAB 中创建共享库

一位研究人员在 MATLAB 中创建了一个小型仿真我们希望其他人也能使用它我的计划是进行模拟清理一些东西并将其变成一组函数然后我打算将其编译成C库并使用SWIG https en wikipedia org wiki SWIG创建一
Floyd-Warshall 算法：获取最短路径

假设一个图由一个表示n x n维数邻接矩阵我知道如何获得所有对的最短路径矩阵但我想知道有没有办法追踪所有最短路径 Blow是python代码实现 v len graph for k in range 0 v for i in range
使用python中的mysql连接器正确从mysql数据库获取blob

当执行以下代码时 import mysql connector connection mysql connector connect connection params here cursor connection cursor curso
有没有任何方法可以使用 openpyxl 获取 .xlsx 工作表中存在的行数和列数？

有没有任何方法可以使用 openpyxl 获取 xlsx 工作表中存在的行数和列数在xlrd中 sheet ncols sheet nrows 将给出列数和行数 openpyxl中有这样的方法吗给定一个变量sheet 可以通过以下方式之
在Python中计算结构体的CRC

我有以下结构来自 C 中的 NRPE 守护程序代码 typedef struct packet struct int16 t packet version int16 t packet type uint32 t crc32 value
python中打印字符串的长度

有没有什么方法可以找到即使是最好的猜测 Python中字符串的打印长度例如 potaa bto 是 8 个字符len但 tty 上只打印 6 个字符宽预期用途 s potato x1b 01 32mpotato x1b 0 0mp
如何将 pytest 装置与 django TestCase 一起使用

我如何在TestCase方法类似问题的几个答案似乎暗示我的例子应该有效 import pytest from django test import TestCase from myapp models import Category py
从 C 线程调用 Python 代码

我对从 C 或 C 线程调用 Python 代码时如何确保线程安全感到非常困惑 The Python 文档 http docs python org c api init html non python created threads似乎是
django 组合对两个不同基本模型的查询

我有两个不同的查询集我想将两个查询集合并 q1 tbl nt 123 objects values list id value geometry filter restriction height exclude condition id
在Python中从列表中获取n个项目组的惯用方法？ [复制]

这个问题在这里已经有答案了给定一个列表 A 1 2 3 4 5 6 是否有任何惯用的 Pythonic 方式来迭代它就好像它是 B 1 2 3 4 5 6 除了索引之外这感觉像是 C 的遗留物 for a1 a2 in A i A i
Selenium Python 使用代理运行浏览器[重复]

这个问题在这里已经有答案了我正在尝试编写一个非常简单的脚本该脚本从 txt 文件获取代理不需要身份验证并用它打开浏览器然后沿着代理列表循环此操作一定次数我确实知道如何打开 txt 文件并使用它我的主要问题是让代理正常工作我见

随机推荐

更改 maven pom.xml 中传递依赖项的版本

我一直在尝试覆盖我的一个项目中的传递依赖版本我在 github 上找到了以下示例项目来进行实验 https github com Richou swagger codegen maven plugin https github com R
求 2 次幂的算法

我找到了一个小算法来确定一个数字是否是 2 的幂但没有解释它是如何工作的到底发生了什么 var potence n gt n n n 1 for var i 2 i lt 16 i if potence i console log i
Android ACTION_IMAGE_CAPTURE 与内存中的 EXTRA_OUTPUT

当我打电话时用相机拍照时 File file new File getFilesDir getAbsolutePath myImage jpg Uri outputFileUri Uri fromFile file cameraIntent
$elemMatch 的 MongoDB 索引

索引帮助页面位于http www mongodb org display DOCS Indexes http www mongodb org display DOCS Indexes没有提到 elemMatch 因为它说要在我的 2M 对象
iOS 11：大标题的 UINavigationBar 高度（模仿 Apple Music 应用）

我试图模仿UINavigationBar由 Apple Music 应用程序使用日期显示在大标题上方我知道 Apple Music 应用程序不使用该标准UINavigationBar of ios11 questions tagged
数据框中值之间的距离

我有一个数据框其中包含一系列虚拟变量这些变量指示在另一个事件 a 之前发生的事件类型 e1 e2 我需要知道从类型 e1 和 e2 的每个事件到下一个事件 a 的索引值的距离我尝试使用显示的数据进行演示我已经研究了一些解决方案包括
管道和流程管理

我正在开发一个用 C 实现的小型 shell tsh 这是一项作业作业的一部分属于 PIPING 我必须将一个命令的输出通过管道传输到另一个命令例如 ls l sort 当我运行 shell 时我在其上执行的每个命令都由它生成的子进程
没有河流的世界地图与 matplotlib / 底图？

有没有一种方法可以用底图或者没有底图如果有其他方法的话绘制大陆的边界而不会出现那些烦人的河流尤其是那段刚果河连入海口都没有令人不安编辑我打算进一步在地图上绘制数据就像在底图库 http matplotlib org ba
是否存在 Yahoogroups api？

我们有 yahoogroups api 吗我有一个 yahoo 群组我希望每当我的 RSS 源更新时都会自动向该群组发布一条消息其中包含该帖子的链接那可能吗不 Yahoo 没有公共 API 团体如果这样的 API 被开放雅虎
Yii CDBCommand getText 显示 SQL 中的所有变量

我正在使用 Yii 的 Yii app gt db gt createCommand 来构建 SQL 查询为了查看 Yii 生成的 SQL 代码我使用 CDBCommand 的 getText 方法问题是当我在包含参数的 SQL 代
如何追踪僵尸对象崩溃？

我的 iOS 应用程序发生了一些有线崩溃并且它不是 100 可重现的从崩溃日志中我可以看到无法识别的选择器属性访问器被发送到类型不正确的对象很可能是僵尸无论如何 XCode 中是否可以用来查看我是否正在尝试访问僵尸对象 Than
如何存储（和使用）当前鼠标位置？

存储当前鼠标位置系统范围然后稍后将鼠标放在该存储点的最佳方法是什么 NSEvent mouseLocation http developer apple com mac library documentation Cocoa Ref
Jsoup 解析和嵌套标签

我正在学习 Jsoup 并有这个 HTML p Content p p Content p p Content p 我使用 Jsoup parse 和文档 select p 来捕获内容并且效果很好但 p Content p p Con
Python向图像添加额外区域

所以我有一张包含图像尺寸的表格有多个不同尺寸的图像 66x66 400x400 等我有一个图像示例原始图像其尺寸始终为 600x532 该图像上是一种产品电视 PC 等我必须调整该图像的大小这不是问题但如果我按照比例这样做
Linux bash 中波浪号的含义（不是主目录）

首先我知道是主目录 CD 至 or 带我到主目录然而 cd X带我去一个特别的地方在那里X似乎是什么在 bash 中如果我点击 cd 然后点击选项卡它会显示一堆可能的 X选项如 mail and postgres and ss
如何计算r中两年的移动平均值

我有一个关于并购 M As 的大数据框 900k 行 df 有四列 date 并购完成时目标国家被合并收购的国家的公司收购方国家收购方是哪个国家的公司以及big corp 无论收购方是否是大公司其中 TRUE 表示该公司很大
SQL：链接连接效率

我的 WordPress 插件中有一个查询如下所示 SELECT users U meta value AS first name M meta value AS last name FROM nwp users AS users LEF
什么时候使用扩展方法，ext.方法与继承？

我们开始使用 C NET 3 0 我想知道你们是如何使用扩展方法的你什么时候使用它们另外如果您还列出使用它们的所有黑暗先决条件我将不胜感激使用扩展方法的次数当你不控制扩展的类型时您不想强迫实现者提供可以使用现有方法完成的代码
Inappbrowser回调

我尝试使用 inappbrowser 登录 facebook 后回拨但它无法检查电子邮件姓名等这是我的代码 Inapp浏览器调用 function onDeviceReady var my client id FBkey my red
在文本文件上书写时，重音符号和特殊字符无法正确显示

这就是我正在做的事情我在网站上进行网络爬虫以供个人使用以复制文本并将书籍的章节设置为文本格式然后使用另一个程序将其自动转换为 pdf 以将其放入我的云中一切都很好直到发生这种情况特殊字符无法正确复制例如重音在文本文件上显示为

在文本文件上书写时，重音符号和特殊字符无法正确显示

在文本文件上书写时，重音符号和特殊字符无法正确显示 的相关文章

随机推荐

热门标签

在文本文件上书写时，重音符号和特殊字符无法正确显示的相关文章