Python - 从网站抓取数据时重音字符的问题

2023-12-30

我是 Nicola，一名 Python 新用户，没有真正的计算机编程背景。因此，我确实需要一些帮助来解决我遇到的问题。我编写了一段代码来从此网页抓取数据：

基本上，我的代码的目标是从页面中的所有表中抓取数据并将它们写入 txt 文件中。这里我粘贴我的代码：

#!/usr/bin/env python


from mechanize import Browser
from BeautifulSoup import BeautifulSoup
import urllib2, os


def extract(soup):
table = soup.findAll("table")[1]
for row in table.findAll('tr')[1:19]:
        col = row.findAll('td')
        voce = col[0].string
        accertamento = col[1].string
        competenza = col[2].string
        residui = col[3].string
        record = (voce, accertamento, competenza, residui)
        print >> outfile, "|".join(record)

table = soup.findAll("table")[2]
for row in table.findAll('tr')[1:21]:
        col = row.findAll('td')
        voce = col[0].string
        accertamento = col[1].string
        competenza = col[2].string
        residui = col[3].string
        record = (voce, accertamento, competenza, residui)
        print >> outfile, "|".join(record)

table = soup.findAll("table")[3]
for row in table.findAll('tr')[1:44]:
        col = row.findAll('td')
        voce = col[0].string
        accertamento = col[1].string
        competenza = col[2].string
        residui = col[3].string
        record = (voce, accertamento, competenza, residui)
        print >> outfile, "|".join(record)

table = soup.findAll("table")[4]
for row in table.findAll('tr')[1:18]:
        col = row.findAll('td')
        voce = col[0].string
        accertamento = col[1].string
        competenza = col[2].string
        residui = col[3].string
        record = (voce, accertamento, competenza, residui)
        print >> outfile, "|".join(record)

    table = soup.findAll("table")[5]
for row in table.findAll('tr')[1:]:
        col = row.findAll('td')
        voce = col[0].string
        accertamento = col[1].string
        competenza = col[2].string
        residui = col[3].string
        record = (voce, accertamento, competenza, residui)
        print >> outfile, "|".join(record)

    table = soup.findAll("table")[6]
for row in table.findAll('tr')[1:]:
        col = row.findAll('td')
        voce = col[0].string
        accertamento = col[1].string
        competenza = col[2].string
        residui = col[3].string
        record = (voce, accertamento, competenza, residui)
        print >> outfile, "|".join(record)


outfile = open("modena_quadro02.txt", "w")
br = Browser()
br.set_handle_robots(False)
url = "http://finanzalocale.interno.it/sitophp/showQuadro.php?codice=2080500230&tipo=CO&descr_ente=MODENA&anno=2009&cod_modello=CCOU&sigla=MO&tipo_cert=C&isEuro=0&quadro=02"
page1 = br.open(url)
html1 = page1.read()
soup1 = BeautifulSoup(html1)
extract(soup1)
outfile.close()

一切都会正常工作，但该页面中某些表格的第一列包含带重音字符的单词。当我运行代码时，我得到以下信息：

Traceback (most recent call last):
File "modena2.py", line 158, in <module>
  extract(soup1)
File "modena2.py", line 98, in extract
  print >> outfile, "|".join(record)
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe0' in position 32: ordinal not in range(128)

我知道问题出在重音字符的编码上。我试图找到解决方案，但这确实超出了我的知识范围。我要提前感谢所有愿意帮助我的人。我真的很感激！很抱歉，如果这个问题太基础了，但是，正如我所说，我刚刚开始使用 python，我正在自学一切。

谢谢！尼古拉

我将根据反馈再试一次。由于您使用 print 语句来生成输出，因此您的输出必须是字节而不是字符（这是当今操作系统的现实）。默认情况下Python的sys.stdout（打印语句写入的内容）使用“ascii”字符编码。由于 ASCII 只定义了 0 到 127 之间的字节值，因此这些是您可以打印的唯一字节值。因此字节值的错误'\xe0'.

您可以更改字符编码sys.stdout通过执行以下操作将其转换为 UTF-8：

import codecs, sys
sys.stdout = codecs.getwriter('UTF-8')(sys.stdout)
print u'|'.join([u'abc', u'\u0100'])

上面的 print 语句不会抱怨打印无法用 ASCII 编码表示的 Unicode 字符串。但是，下面的代码打印字节而不是字符，会产生 UnicodeDecodeError 异常，因此请注意：

import codecs, sys
sys.stdout = codecs.getwriter('UTF-8')(sys.stdout)
print '|'.join(['abc', '\xe0'])

您可能会发现您的代码正在尝试打印字符，并且将 sys.stdout 的字符编码设置为 UTF-8（或 ISO-8859-1）可以修复它。但您可能会发现代码正在尝试打印字节（从 BeautifulSoup API 获取），在这种情况下，修复可能如下所示：

import codecs, sys
sys.stdout = codecs.getwriter('UTF-8')(sys.stdout)
print '|'.join(['abc', '\xe0']).decode('ISO-8859-1')

我对 BeautifulSoup 包不熟悉，但我建议用各种文档对其进行测试，看看它对字符编码的检测是否正确。您的代码没有明确提供编码，并且它显然自己决定编码。如果该决定来自meta编码标签，那就太好了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python - 从网站抓取数据时重音字符的问题的相关文章

在 Spyder 中使用 input() 时 Matplotlib 冻结

Windows 7 如果我在命令行打开一个普通的 ipython 终端我可以输入 import matplotlib pyplot as plt plt plot 1 2 3 4 5 plt show block False input
执行不区分大小写的“in”检查并检索原始元素的最简单方法？

假设 a 有一个字符串列表和一个特定字符串 particular string latitude list Id PRICE LATitude longitude 我想要实现的是执行不区分大小写的检查特定字符串是否在列表中所以现在我可以这
Python 的 pack("

我不太了解 python 但从文档中可以看出代码 str AAAA str pack

如何将二维数组作为 multiprocessing.Array 传递给 multiprocessing.Pool？

我的目标是将父数组传递给mp Pool并填充它2s 同时将其分发到不同的进程这适用于一维数组 import numpy as np import multiprocessing as mp import itertools def wor
字符串中数字的连续相加

我是一名正在学习 python 的新程序员并且在如何完成此任务方面遇到了困难所以本质上我有一个从文件导入的数字字符串需要读取并且需要将第一个数字的总和添加到第二个数字并将其转换为正确的 ascii 字符因此例如如果我正在读取字符
Django 视图集没有属性“get_extra_actions”

我第一次使用 Django 我正在尝试构建一个 API 我正在遵循一些教程和示例它工作正常但在安装所有要求和项目后我现在正在 Raspberry Pi 中运行该项目失败并出现以下错误 Performing system checks
Python Twisted 与 Cmd 模块集成

我喜欢Python的Twisted http twistedmatrix com and Cmd http docs python org library cmd html 我想一起使用它们我已经完成了一些工作但到目前为止我还没有弄清楚
将 Python 列表（JSON 或其他）插入 MySQL 数据库

所以我在Python中有一堆数组数据嗯相反我有一个清单我试图将此数组存储到 MySQL 数据库中的单个单元格中我尝试使用 JSON 来序列化我的数据但也许我不明白 JSON 是如何工作的因此在连接到我的数据库后我尝试了上游
获取每行最后 150 行中所有正值的计数 - pandas

我有以下数据集其中有列Date and Values对于每一行它两者都有 ve and ve价值观我必须计算最后 150 行的所有正值在每一行因此前 150 行将具有空值然后以下行将具有最后 150 行的计数 ve行类似地
使用 Django 添加额外 \\ 字符的 JSON 编码

我正在尝试创建一个函数将包含消息和 Django 模型实例的字典转换为 JSON 然后我可以将其传回客户端例如我在 models py 中定义了模型 Test from django db import models class Te
Django 模板：输出带有所有小数位的浮点数

我如何在 django 模板中输出这个数字小数位数是可变的我事先不知道 x 0 000015 1 x 输出是 1 5e 05 2 x stringformat f 输出是 0 000015 这不是本地化的应该有逗号我需要对输出进行本
在Python中将数组的元素从科学记数法转换为十进制记数法

我有一个 numpy 数组其元素采用科学格式我想将它们转换为十进制格式我的 numpy 数组如下所示 array 93495052 96955582 98555123 06146193 array 1 00097681e 09 9 9
Spyder 内联绘图

设置 Anaconda 2 0 0 Win 64 Spyder Anaconda 附带的 2 3 0rc 我配置图形工具 gt 首选项 gt iPython 控制台 gt 图形 gt 图形后端 gt 内联但无论我做什么图形总是在单独的
Django Rest框架Json解析

我想解析传入的POSTdjangoviews py 文件中的数据发布数据 number 17386372 data banana apple grapes 这是我尝试读取上述传入数据的方法request views py class Fr
使用 python 将多个 JSON 文件插入 MongoDB

JSON文件如下a json b json z json 26个json文件每个文件的 json 格式如下 a cappella word a cappella wordset id 5feb6f679a meanings id 4920
如何使用 python 在 XML 声明后添加注释

import xml etree ElementTree as ET def addCommentInXml fileXml C Users Documents config xml tree ET parse fileXml root t
Django Admin Media 前缀 URL 问题

我有以下文件夹结构 src BAT templates admin base html src BAT media base css src BAT media admin media base css 设置 py MEDIA ROOT o
从值数组中计算 sympy 表达式

我正在尝试 sympy 但遇到了一个无法解决的问题使用 scipy 我可以编写一个表达式并计算 x 值数组如下所示 import scipy xvals scipy arange 100 100 0 1 f lambda x x 2 f
带有远程解释器的 Python 控制台无法在 PyCharm 中接受输入

我是使用 PyCharm 进行远程开发的新手我设置了一个远程环境除了一个例外之外它工作正常无法在控制台中接受用户输入在控制台中运行以下语句时控制台被阻塞提示上一个命令仍在运行请等待或按控制台中的 Control C 来中断
对象对于所需数组来说太深 - scipy.integrate.odeint

我昨天刚开始使用Python 使用时遇到错误scipy integrate odeint 我定义了一个函数 def SIR x t beta gamma mu M 这需要numpy array物体x t and M 标量浮动beta gam

随机推荐

（类型错误：无法在 HttpHeaders.applyUpdate 处读取 null 属性“长度”）Angular 5，Http 客户端

我在服务中发出 http 请求时收到此响应这是登录组件 export class LoginComponent credentials Credentials constructor private auth AuthService In
Swift 运行时文档 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我一直在探索Apple的swift文档现在我来这里询问有关于 Swift 运行时的文档吗我读过 Swift 编程语言一书 http
按索引级别为 Pandas Multiindex DataFrame 赋值

我有一个 Pandas 多索引数据框我需要为系列中的一列分配值该系列与数据帧的第一级索引共享其索引 import pandas as pd import numpy as np idx0 np array bar bar bar baz
检查请求是 GET 还是 POST

在我的控制器动作中 if empty POST if Auth attempt Input get data return Redirect intended else Session flash error message 有没有方法在
在 CSS 中使用图像文件与数据 URI

我正在尝试确定包含我编写的脚本所需的图像的最佳方式我发现这个网站 http www jimbojw com wiki index php title Data URIs and Inline Images这让我考虑尝试这种方法将图像作为d
在 WPF 应用程序中使用手写笔或手指按下触摸屏上的按钮时出现异常

我有一个带有初始窗口的 WPF 应用程序该窗口在启动时显示为闪屏在启动过程中有一个后台线程我们可以通过单击启动屏幕中的按钮来取消该线程使用鼠标并单击按钮取消时这一切都可以正常工作但是如果我使用触摸屏单击此按钮那么应用程序偶
PHP：如何获取相关文件的URL

PHP 是否有一个本机函数可以返回使用相对路径声明的文件的完整 URL 我需要得到 http www domain com projects test img share jpg from img share jpg 到目前为止我已经尝试
在 Rust 中使用本地函数是否会对性能产生负面影响？

我最近意识到我可以在 Rust 中创建本地函数函数中的函数似乎是清理代码而不污染文件函数空间的好方法下面是我所说的本地函数与外部函数的小样本 fn main fn local plus x i64 y i64 gt i64 x y
htmlentities“无效的多字节序列”错误

在尝试通过 PHP 的 htmlentities 函数运行字符串时我在某些情况下收到无效的多字节序列错误有没有办法在调用函数之前清理字符串以防止发生此错误从 PHP 5 4 开始您应该使用以下内容来正确转义输出 escapedS
python 函数内部定义的 locals() 不起作用[重复]

这个问题在这里已经有答案了考虑下面的代码 dct one 2 3 现在下面的工作 for key val in dct items locals key val print one Result 2 3 但是当我使用我真正想要的功能时却不
hook脚本中修改svn下的文件

修改特定文件的最佳方法是什么如果有 under我们在 post commit 中的存储库hook 例如我想将校验和行附加到 somefile conf 文件您可能想阅读本章 http svnbook red bean com en 1
ASP.NET - 存储临时文件

我有一个网络表单允许用户在我们的系统中开票时上传文件上传是使用 ajax控件工具包 asyncFileUpload控件完成的这个想法是将文件保存到临时目录中并且仅在用户点击提交按钮时将它们保存到永久位置我希望能够删除不再相关的
是否可以通过 adb shell 启动活动并接收其响应？ [复制]

这个问题在这里已经有答案了我知道你可以从任何应用程序启动任何导出的活动 via adb使用以下命令 am start n com myapp test TestActivity 使用 am start 命令还可以向活动发送额外的数据我知
无法解析程序集：“Java.Interop”

当我尝试构建应用程序时出现以下异常 C Program Files x86 MSBuild Xamarin iOS Xamarin iOS Common targets 681 3 错误无法解析程序集 Java Interop 版本 0
我需要将每 4 个 WordPress 帖子包装在一个 div 中

我需要一个 div 来包装 WordPress 循环中的每四个帖子所以它会像 div four posts div div four posts div 我当前的代码是这样的 div class wine section div
从 C# 中的字符串中提取基本 URl？

我目前正在开发一个使用 NET 1 1 框架的项目但我陷入了困境我有一个像 http www example com mypage default aspx http www example com mypage default asp
访问 cpp-netlib http 服务器中的请求标头

我已经开始使用开发 HTTP 服务器cpp netlib 稳定版本 0 10 1 并且从可用文档中我不确定如何访问服务器处理程序中的 HTTP 请求标头我知道可以使用包装器来完成如下所示 void operator async serv
如何将特定类型的数组存储到我的设置文件中？

由于某种原因我似乎无法将我的类的数组存储到设置中这是代码 var newLink new Link Properties Settings Default Links new ArrayList Properties Settings
如何像 IN 语句一样使用 PowershellWhere-Object

我有以下有效的代码 foreach db in svr Databases where object name eq testDB or name eq master or name eq model or name eq msdb wri
Python - 从网站抓取数据时重音字符的问题

我是 Nicola 一名 Python 新用户没有真正的计算机编程背景因此我确实需要一些帮助来解决我遇到的问题我编写了一段代码来从此网页抓取数据基本上我的代码的目标是从页面中的所有表中抓取数据并将它们写入 txt 文件中这里我

Python - 从网站抓取数据时重音字符的问题

Python - 从网站抓取数据时重音字符的问题 的相关文章

随机推荐

热门标签

Python - 从网站抓取数据时重音字符的问题的相关文章