Scrapy报错UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 175:

2023-11-02

今天我自学了scrapy框架,scrapy框架是Python爬虫的一种,我们可以通过

    pip install scrapy

来安装它。再用

    scrapy startproject 项目名 

来创建一个项目文件,在创建的文件中有一个与文件同名的文件和一个scrapy.cfg文件,其中scrapy.cfg为项目得配置文件

在同名文件下有一个spiders文件,它用来装实现爬虫的代码,同名文件下还有items.py、middlewares.py、pipelines.py和settings.py四个文件。其中

item.py是项目的目标文件

middlewares.py是中间键文件(不懂,我还没学)

pipelines.py是管道文件,用来保存爬取到的信息

settings.py文件是项目的设置文件

好了,步入正题,今天我在调试程序 的时候突然报错:

 

 
Traceback (most recent call last):
  File "c:\python36\lib\runpy.py", line 193, in _run_module_as_main
    "__main__", mod_spec)
  File "c:\python36\lib\runpy.py", line 85, in _run_code
    exec(code, run_globals)
  File "C:\Python36\Scripts\scrapy.exe\__main__.py", line 9, in <module>
  File "c:\python36\lib\site-packages\scrapy\cmdline.py", line 110, in execute
    settings = get_project_settings()
  File "c:\python36\lib\site-packages\scrapy\utils\project.py", line 63, in get_project_settings
    init_env(project)
  File "c:\python36\lib\site-packages\scrapy\utils\conf.py", line 84, in init_env
    cfg = get_config()
  File "c:\python36\lib\site-packages\scrapy\utils\conf.py", line 98, in get_config
    cfg.read(sources)
  File "c:\python36\lib\configparser.py", line 697, in read
    self._read(fp, filename)
  File "c:\python36\lib\configparser.py", line 1015, in _read
    for lineno, line in enumerate(fp, start=1):
UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 175: illegal multibyte sequence

我找了好多解决的方法都不是对应我的问题的,我就在想,刚才我都做了什么不该干的事情,于是我想到了,gbk是支持中文编码,我因为英语不好所以刚才在scrapy.cfg文件里加入了中文注解:

# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.io/en/latest/deploy.html
#项目的配置文件
[settings]
default = ITcase.settings

[deploy]
#url = http://localhost:6800/
project = ITcase

于是,我删除掉了中文注解,于是好用了。我感觉只有我会犯这么愚蠢的问题,但是我希望能把它分享出来。

还有就是我第一次运行的时候爬取不到网页源码,之后改了一处错误:

第一处是:settings.py下的ROBOTSTXT_OBEY要置为False,不然又的网站设置不允许爬取你的爬虫就真的不会去爬了,默认是置为True的(就行学校厕所里的禁止吸烟的牌子)

ROBOTSTXT_OBEY = False

本人第一次编写技术博客,是一个技术小白,如果那里说的有错误,希望大家能够提醒我,感谢感谢。

 

 

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy报错UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 175: 的相关文章

随机推荐

  • linux如何退出root用户

    普通用户通过su命令切换成root用户 使用exit命令可以退出root用户的shell回到原来的用户shell
  • linux 清除 arp 缓存

    所有在Linux系统下 arp d ip 命令只能清除一个IP地址的对应MAC地址缓存 可以使用组合命令操作 组合命令清楚所有arp缓存 arp n awk 1 9 system arp d 1 以上命令必须 root 才可以执行 使用ip
  • mysql 前导列_MySQL 各个索引的使用详解

    一 慢查询日志 1 1 MySQL的日志类型 日志用于记录数据库的运行情况 以及用户对数据库执行的各类操作 当数据库发生故障时 可以根据日志分析和解决问题 从而对数据库进行恢复 1 2 认识慢查询日志 慢查询日志用于记录MySQL数据库中响
  • 用IDEA创建一个Mybatis项目,自动生成映射文件

    如何用IDEA创建一个mybatis项目框架 用mybatis插件自动生成核心配置文件 mapper映射文件 实体类和接口 1 首先打开IDEA 选择新建项目 如下选择maven quickstart 只需要提供maven管理包 所以选择q
  • ajax小的实例,jQuery下的ajax实例

    关于ajax的详细介绍我就不多说了 对ajax完全不了解的可以先查看官方文档学习一些基础的 我想通过这个的实例 直接说一下在真实项目中是如何使用ajax 并且去实现对后台接口的请求和处理请求到的数据 相信很多前端小白和我之前一样 对ajax
  • 包及jar包扫描

    扫描包 private void scanFile File currentFile String packageName File fileList file listFiles 得到该文件夹下的所有 类 子文件夹的名称 此处list应为
  • java中day02

    Java HelloWorld 写法一 推荐 避免歧义 public class Demo01 public static void main String args System out println 桃李不言下自成蹊 javac De
  • 视频教程-自然语言处理基于Bert的中文命名实体识别实战-NLP

    自然语言处理基于Bert的中文命名实体识别实战 长期从事机器学习深度学习研究 在自然语言处理领域有一定认知 杨帅 188 00 立即订阅 扫码下载 CSDN程序员学院APP 1000 技术好课免费看 APP订阅课程 领取优惠 最少立减5元
  • 全开源多语言国际版购物商城软件APP系统开发

    1 确定需求和功能特性 商城基本功能商品展示 购物车 订单管理 支付接口等 多语言支持系统需要支持多个语言版本 可以根据用户的地域和语言偏好切换显示 全开源选择适合的开源框架和技术 确保系统的可定制性和扩展性 APP开发结合移动端开发技术
  • Linux文件操作高频使用命令

    文章目录 0 新建操作 1 查看操作 2 删除操作 3 复制操作 4 移动操作 5 重命名操作 6 解压压缩操作 7 上传文件工具 8 ln file和touch命令 9 查找操作命令 0 新建操作 mkdir abc 新建一个文件夹 to
  • Coredump 详解

    引言 当程序运行的过程中异常终止或崩溃 操作系统会将程序当时的内存状态记录下来 保存在一个文件中 core文件 这种行为就叫做 Core Dump 或者叫做 核心转储 利用 coredump 可以帮助我们快速定位程序崩溃位置 开启 core
  • 第十二届蓝桥杯EDA设计与开发项目国赛客观题详解

    一 选择题 选择题包括元器件 数模电等基本知识 第一空一看就是4702 第二空2 0 可以多看看元件的封装 根据电路所学第一空75 第二空小于 这一看就是D 3W指的肯定是线间距 选C 选A 这题ABC肯定是对的 D没看见过 选C 选BC
  • 蓝桥杯试题 算法训练 拿金币(C语言)

    问题描述 有一个N x N的方格 每一个格子都有一些金币 只要站在格子里就能拿到里面的金币 你站在最左上角的格子里 每次可以从一个格子走到它右边或下边的格子里 请问如何走才能拿到最多的金币 输入格式 第一行输入一个正整数n 以下n行描述该方
  • 对int、iret和栈的深入理解

    我们以一个程序来展开讨论 用7ch中断例程完成loop指令的功能 在屏幕中间显示80个 1 程序框架如下 assume cs code code segment start mov ax 0b800h 向8086CPU显存的地址 mov d
  • js逆向--大麦网sign参数

    声明 本文章中所有内容仅供学习交流 不可用于任何商业用途和非法用途 否则后果自负 如有侵权 请联系作者立即删除 由于本人水平有限 如有理解或者描述不准确的地方 还望各位大佬指教 抓包分析 今天我们要分析的参数是大麦网的sign参数 web端
  • 革命性创新:RFID技术引领汽车零部件加工新时代

    革命性创新 RFID技术引领汽车零部件加工新时代 RFID Radio Frequency Identification 射频识别 技术是一种利用无线电频率进行自动识别的技术 可以快速 准确地识别物体并获取相关数据 在汽车零部件加工中 RF
  • Echarts中timeline组件的使用

    最近的实习有涉及数据可视化的工作 需要用到图表库 这里用的是百度的echarts 琢磨了一段时间API 总体来说不难 但是百度自己的文档用例不丰富 大多数只有文字描述 配图都没有 更少有栗子 echarts的交互组件中 图例组件 legen
  • Cisco防火墙基础介绍及配置

    一 ASA 状态化防火墙 安全设备介绍 Cisco硬件防火墙技术应用领域 PIX 500 系列安全设备 ASA 5500系列自适应安全设备 Catalyst 6500 系列交换机和Cisco 7600 系列路由器的防火墙服务模块 Cisco
  • 【Android】灵云手写离线识别使用说明

    注册 使用灵云的手写识别功能需要先在官网上进行注册应用 官网地址 注册比较简单 就不做过多介绍了 注册完应用以后 在后台创建自己的应用 创建完应用以后需要给应用开通对应的手写功能 capKey说明 hwr cloud letter 云端单字
  • Scrapy报错UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 175:

    今天我自学了scrapy框架 scrapy框架是Python爬虫的一种 我们可以通过 pip install scrapy 来安装它 再用 scrapy startproject 项目名 来创建一个项目文件 在创建的文件中有一个与文件同名的