这就是我正在做的事情,我在网站上进行网络爬虫以供个人使用,以复制文本并将书籍的章节设置为文本格式,然后使用另一个程序将其自动转换为 pdf 以将其放入我的云中。一切都很好,直到发生这种情况:特殊字符无法正确复制,例如重音在文本文件上显示为:\xe2\x80\x99,而 - 显示为\xe2\x80\x93。我用过这个(Python 3):
for text in soup.find_all('p'):
texta = text.text
f.write(str(str(texta).encode("utf-8")))
f.write('\n')
因为我在读取这些字符时遇到了错误,它刚刚停止了我的程序,所以我将所有内容编码为 utf-8 并使用 python 的方法 str() 将所有内容重新转换为字符串
如果有人对我的问题有更好的解决方案,我将发布整个代码,这是从第 1 页爬行网站到 max_pages 的部分,您可以在第 21 行修改它以获取本书的更多或更少章节:
import requests
from bs4 import BeautifulSoup
def crawl_ATG(max_pages):
page = 1
while page <= max_pages:
x= page
url = 'http://www.wuxiaworld.com/atg-index/atg-chapter-' + str(x) + "/"
source = requests.get(url)
chapter = source.content
soup = BeautifulSoup(chapter.decode('utf-8', 'ignore'), 'html.parser')
f = open('atg_chapter' + str(x) + '.txt', 'w+')
for text in soup.find_all('p'):
texta = text.text
f.write(str(str(texta).encode("utf-8")))
f.write('\n')
f.close
page +=1
crawl_ATG(10)
当我得到这个问题的解决方案时,我将清理稍后复制的第一批无用的行。谢谢
我发现解决这个问题的最简单方法是添加encoding= "utf-8"
在打开的函数中:
with open('file.txt','w',encoding='utf-8') as file :
file.write('ñoño')
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)