爬虫常见错误以及难点（一）

2023-05-16

常见错误一


就是设置 headers错误 就是 ：这个两边是不可以出现空格的

常见错误二


如果发现网页爬取的内容 爬取不到
应该就是 有反扒机制触发  或者是 自己的语法写错了

常见错误三


listerrow 就是列表出错  就可以参考 14微博热搜 里面的 if判断语句 就是解决列表出错的

常见错误四


UnicodeDecodeError: 'utf-8' codec can't decode byte 0xca in position 339: invalid continuation byte
这个是遇到了 反扒


一般来说 出现这个错误 content = req.content.decode('utf-8')在这个里面加上参数content = req.content.decode('utf-8','ignore')也就是忽略报错

难点：

难点一


POST 使用 data  get 使用 params
kw: 这个就是相当于  网站内部自己 怎么搜所东西  所以建立字典 去模仿 网站搜索的过程\

s = input("请输入你想要翻译的单词:")

dat = {
    'kw': s
}
记得去网站中寻找
param = {
 'type': '24',
 'interval_id': '100:90',
 'action': '',
 'start': 0,
 'limit': 20,
}
这个也是 网站中的东西
要用到字典 2种情况  f12的标头 一直往下拉  英文是 form data 中文是表单数据  有时候 不在标头  有时候在 Payload中去找

难点二


# Python3.7及以上 必须加上http://，不加就会报错 就是字典里面
dlip = {
    'http':'http://47.100.9.91:7890'
}

难点三


open函数用法
with open("第一次作业.html",mode='w',encoding='utf-8')as f:
    f.write(content)

难点四


join函数
这个 comment = ''.join(comment) 表达的意思是 爬取的网页有 9个p标签 存储到列表中 就有9个列表
但是我想要 合并这些列表 输出成一整个文字 这样方便提取数据 所以使用join函数  ''这个就是表示 合并的时候 ''有什么符号 空的就表示 不要符号

难点五


遇到 utf-8 或 gbk解码问题 实在不知道是什么的时候 用 html = url.text 就是 猜是什么解码 只要返回页面就可以 因为我们需要的是 a标签的值   两种方法都可以用 一个不行 用另外一个
或者 使用一个直接解决的方法 就是  加上一个参数 ignore html = url.content.decode('gbk','ignore')
first_url = 'https://www.dytt8.net'
这个是先设置一个 头 也就是要拼接的 url
getas = []
for a in biggerurls:
    url = requests.get(url=a,headers=headers)
    html = url.content.decode('gbk')
    urls = etree.HTML(html)
    geta = urls.xpath('//b/a/@href')
    # 因为这里得到的 a标签的 url是不完整的url 也就是/html/gndy/jddy/list_63_{}.html 这样子的
    # 那么 就需要 拼接 url的值
    # 使用 map函数拼接
    getass = list(map(lambda a:first_url+a,geta))
    # 这个语法就是 map(lambda 命名:要拼接的url+要拼接的url,返回给geta)
    # 这样拿出的 只是一个map内存 还要给函数加一个 list(map(lambda a:first_url+a,geta))
    getas.append(getass

难点六


这里获取的时候  注意 在网页寻找的时候 先找到图片对应的链接 然后 用正则表达式 寻找 但是如果一直找不到 语法也没错 那么就进入源码去寻找

通过ctrl+f 打开查找 然后复制 图片的链接去找 找到源码中存储链接的东西 在用正则表达式去写)

获取图片的数据是用bytes流数据  get.content

难点七


divs = soup.find_all('div')[1:]
for div in divs:
    # 这里要加一个list  记住 以后获取东西的时候 看到结果是这样一个对象<generator object PageElement.stripped_strings at 0x00000233A90EA730> 就是说明要加List
    z = list(div.stripped_strings)
    print(z)

难点八


编码方式 打开f12 进入header头部去寻找  编码方式

难点九


当发现 需要使用|隔开的时候 可以使用  join函数
getactors = '|'.join(getactor)

难点十


这里使用正则表达式 去掉等等要命名的 alt中的一些特殊符号
alt = re.sub(r'，。？\|\*', '', alts)
因为有的alt是没有 名字的 所以使用 len函数
if len(alt) == 0:
    alt = i
    i += 1
img_name = str(alt) + suffix
这里str的原因是  数字 没办法 与字符串拼接 所以选择使用 str将 数字强制转换成 字符串 然后和suffix拼接


这个i=0 然后用 len来表示 图片名称的方法只适用于单线程爬虫 多线程爬虫的话 还是会重复的

img_name = str(alt) + suffix.replace('.null', '.jpg')
这个replace 就是有的图片后缀是null 所以将它替换为jpg

难点十一


如果说 怕多线程爬取图片重复 那就拿 部分的url来 当作图片的名字就好了
if len(alt) == 0:
    alt = imgurl[-10:-5]
    那就拿图片的url 的部分 来命名这个图片
这个[-10:-5] 就是倒数 后面的值的意思

难点十二


切记 切记 切记   这个多线程爬虫 爬取的东西 一定要多  才会运行  不然 根本不会运行 ！！！！
所以 如果 range 是(1,4)的话  根本不会运行
for i in range(1, 101):
    url = 'https://www.pkdoutu.com/photo/list/?page={}'.format(i)
    page_queue.put(url)

难点十三


print(result.status_code) 这个是打印状态码

难点十四


这个num就是将上面数据的 adminID 拿出来 因为这个人使用adminID 来表示的 也就是相当于分析接口
这个 i.get 就是将上面的字典datas中 叫unknown2的数据拿出来
num = i.get('unknown2')

难点十五


poem = re.findall('<div\sclass="contson".*?>(.*?)</div>', content, re.DOTALL)
首先就是 在获取 古诗的时候 直接获取整个div 确实可以获取的到全部 但是里面本身就有<p>标签这种 还有\n这种东西
么就可以通过以下这种方法 进行解决
poemss = []
for poems in poem:
    new_poem = re.sub('<.*?>', '', poems)
    # 这个的意思就是 将 <里面无论是什么> 也就是说把所有的标签 全部去除 替换成 空白
    new_poems = new_poem.strip()
    # 这个的意思就是 去除空格  也就是 \n
    poemss.append(new_poems)

难点十六


因为拿出来的 job_requests 是要合成 整体的 就用strip() 来进行消除空格 然后 使用join进行拼接
这个办法是一个常见的整合办法
    for i in job_requests:
        a = i.strip('/')
        job_request.append(a)
    job_request = ''.join(job_request)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫常见错误以及难点（一）的相关文章

NLP大神推荐的机器学习入门书单(附大量百度网盘电子书)

https blog csdn net surgent777 article details 53895048 biz id 61 102 amp utm term 61 python E8 87 AA E7 84 B6 E8 AF AD
softmax(a,axis=0)的用法理解总结

对于3维度数组总结axis 61 0 1 2 axis 61 0 沿着 axis 61 0方向可以认为是时间的方向取每个单元对应元素进行计算softmax 通俗理解就是今天8点钟的对应行对应列的元素a 2 0 0 与昨天8点钟的对应行
No module named ‘tensorflow_hub‘

发现先导入pip install tensorflow datasets 再执行pip installl tensorflow hub就可以了 https blog csdn net qq 37051669 article details
莫烦老师的tensorflow降级方法

tf2 0以上版本的 xff0c 开始加两行 import tensorflow compat v1 as tf tf disable v2 behavior https blog csdn net AI future article de
tensorflow对应的python版本清单

https tensorflow google cn install source windows cpu
RandomForestClassifier参数min_samples_leaf和min_samples_split理解

而min samples split限定 xff0c 个结点必须要包含少min samples split个训练样本 xff0c 这个结点才允许被分 xff0c 否则分就不会发 min samples leaf限定 xff0c 个结点
UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xb0 in position 0: invalid start byte

UnicodeDecodeError utf 8 codec can t decode byte 0xb0 in position 0 invalid start byte
ubuntu18.04子网掩码 - 255.255.255.0 -判断网络是否在同一网段

ubuntu18 04子网掩码 255 255 255 0 优选网
两个电脑面对面ping 不通，都是用的wifi网络，执行traceroute报错 !H 主机不可达

traceroute 192 168 106 81 traceroute to 192 168 106 81 192 168 106 81 64 hops max 1 192 168 106 101 53 267ms H 0 004ms H
2018届校招提前批大华面经

大华提前批面试 xff1a 一共三面 xff0c 一面技术面 xff0c 二面技术面 xff0c 三面HR面面试岗位 xff1a 算法优化一面 xff1a 本人这次人品比较棒 xff0c 一面两个人聊得很high xff0c 主要聊了简
SVN commit,update用法

您是否有過這樣子的經驗在編修檔案的過程中尤其是在撰寫程式檔突然改爛了而想說如果我有辦法知道剛才改了什麼地方有多好或是在一份大作業或者是專案的情況下須要多個人一同改一份檔案總須事先說好誰要改哪個檔案改的時候別人都不能動以免
ORACLE EXP命令

本文对Oracle数据的导入导出 imp exp 两个命令进行了介绍并对其相应的参数进行了说明然后通过一些示例进行演练加深理解文章最后对运用这两个命令可能出现的问题如权限不够不同oracle版本进行了探讨并提出了相应的解决方
unzip命令用法

我使用过的Linux 命令之unzip 解压zip 文件本文链接 xff1a http codingstandards javaeye com blog 792040 xff08 转载请注明出处 xff09 用途说明 zip 文件是一种常
System.in.read()的用法

System in read 的用法 2007 10 25 22 00 24 分类 xff1a 默认分类标签 xff1a 字号大中小订阅用读取键盘输入必须构建 1 输入流 System in 2 字符输入流 InputStrea
django中的models的常用字段及属性

django 模型models 常用字段 1 models AutoField 自增列 61 int 11 如果没有的话 xff0c 默认会生成一个名称为 id 的列如果要显式的自定义一个自增列 xff0c 必须设置primary key
Ubuntu 20.04本地源使用（用apt-get 安装本地包）

系统版本 xff1a Ubuntu 20 04 一新建一个文件夹 xff0c 用于存放下载的某个 deb包 xff08 例 xff1a 2048 xff09 Tips 相关命令 xff1a mkdir 文件名二把本地的 deb包移动至
C++程序员经常问的11个问题

下面的这些要点是对所有的C 43 43 程序员都适用的我之所以说它们是最重要的 xff0c 是因为这些要点中提到的是你通常在C 43 43 书中或网站上无法找到的如 xff1a 指向成员的指针 xff0c 这是许多资料中都不愿提到的地方
Ubuntu配置任意版本的apt-get镜像

我们知道 xff0c 迄今为止 xff0c Ubuntu已有多个发行版 xff0c 如11 04 11 10 xff0c 以至于现在最新的16 而我们平常通过apt get来安装软件 xff0c 如果OS版本不同 xff0c 那么镜像源的配
在APK中获取鸿蒙应用Ability信息

Android开发工具箱大概在版本2 2 0 xff08 2021 06 10 xff09 就已经支持查看鸿蒙系统信息以及鸿蒙应用信息了这里我讲一下Android开发工具箱是如何在Android应用中 xff08 APK xff09 获取
Maven

Maven Maven 翻译为 34 专家 34 内行 Maven 是一个项目管理工具 xff0c 可以对 Java 项目进行构建依赖管理它包含了一个项目对象模型 POM Project Object Model 一组标准集合 xff0

随机推荐

Jetson TX1内核kernel编译与烧写

Data 2017 09 13 Author cjh Theme Jetson TX1内核kernel编译与烧写 PS xff1a 本人用的JetPack版本为3 0 1 Getting bootloader and kernel 本文内核
关于ST-linkV2的修复问题-----重新烧录固件

之前一直用串口下载C8t6 xff0c 后面发现不如link方便 xff0c 然后在这个月换回来st link之后下载了一次就坏了 xff0c 一直没用 xff0c 让我在网上找了很多攻略 xff0c 也没有翻出头绪 xff0c 然后就想重
Udacity cs344-Introduction to Parallel Programming学习笔记-第三单元

1 第一个quiz答案 xff1a 6 xff0c 21 xff0c 问题很简单 xff0c 数一下就好了 2 什么是归约操作归约操作有两个输入 xff1a 1 xff09 输入对象的集合 2 xff09 归约运算符 xff1a 满足
win7+VS2010安装CUDA5.5（图文完整版）

NVIDIA于2006年推出CUDA xff08 Compute Unified Devices Architecture计算统一设备架构 xff09 xff0c 可以利用其推出的GPU进行通用计算 xff0c 将并行计算从大型集群扩展到了
Udacity cs344-Introduction to Parallel Programming学习笔记-如何在VS环境下编译课程习题代码

Udacity的这个CUDA课程非常不错 xff0c 提供了一个在线的编辑编译运行平台 xff0c 我们可以直接在web上完成代码编辑提交查看运行结果 xff0c 但是 xff0c 有时候 xff0c 面对比较复杂的问题 xff0c
在VS2010下的CUDA程序中出现错误error : identifier “atomicAdd” is undefined

今天写代码的时候用到了原子操作 xff0c 也就是atomicAdd 操作 xff0c 但是发现编译的时候会出现问题 xff0c 报的错误是 xff1a error identifier atomicAdd is undefined 经过一
Udacity cs344-Introduction to Parallel Programming学习笔记-第四单元

1 第一个quiz答案 xff1a work xff1a o xff08 n xff09 xff0c step xff1a o xff08 logn xff09 2 第二个quiz答案 xff1a large expensive 3 第三个
在VS2010下如何使用头文件unistd.h

在编译CUDA random forest有关的项目的时候出现了如上错误 xff0c 从网上下载了这个头文件然后加入到项目里面还是不行查了下资料 xff0c 头文件unistd h是Linux Unix的系统调用 xff0c 包含了许多U
calling a __host__ function("_wassert") from a __global__ function is not allowed错误

今天在调试代码的时候碰到一个错误 xff1a calling a host function 34 wassert 34 from a global function is not allowed 经过查找后 xff0c 发现问题出在VS2
教你如何使用Docker部署Prometheus，全套教程，一步到位，避坑

前言本文使用doker部署Prometheus 文中命令直接复制粘贴即可一概念 Prometheus是一个开源的系统监控和报警系统它前身是SoundCloud的警告工具包二组件介绍 1 Node Exporter 收集服务器硬件
linux和windows时间同步问题(UTC&localtime)

Linux使用 UTC xff0c 但是windows默认使用localtime 解决的办法如下 xff08 重启后生效 xff09 进入windows使用regedit写入DWORD值设置成十六进制 34 1 34 xff1a HKEY
Jetson TX1uboot编译与烧写

Data 2017 09 14 Author cjh Theme Jetson TX1uboot编译与烧写 64 TX1 Linux for Tegra 64 tx1 PS xff1a uboot源码下载 xff0c 参见Jetson TX
中断下半部_工作队列(work queue)

1 gt work queue lt linux workqueue h gt 3 0 4 2 gt description 中断下半部 xff0c 在内核线程的进程上下文中执行推后的工作它是唯一能在进程上下文运行的中断下半部实现机制 x
ubuntu systray(系统托盘)图标问题

systray上应用程序的图标无法显示 1 install dconf tools and run 34 dconf editor 34 2 add your application want to show in systray to D
我的减肥经历和一些经验[1]

概述 xff1a 减肥是一件比较辛苦的事情 xff0c 不但要下苦还要坚持下苦减肥有很多方式 xff1a 比如单纯节食 xff08 这个显然会弄坏自己的胃 xff0c 不提倡 xff09 xff1b 比如抽脂 xff08 这个听着有点
linux USB monitor 【linux usb抓包】

linux stable Documentation usb usbmon txt Introduction The name 34 usbmon 34 in lowercase refers to a facility in kernel
device instance IDS(设备范例ID)

系统提供的设备的设备范例ID是一个唯一标识系统中的设备标识字符串即插即用 xff08 PnP xff09 管理为系统设备树 xff08 device tree xff09 的每个设备节点 xff08 devnode xff09 分配设备范
在thinkpad上安装(kde)debian wheezy/sid (Note of install (kde)debian wheezy/sid on Thinkpad)

亲测机型 Thinkpad T420 爱机 1 下载镜像文件 debian testing amd64 DVD 1 iso axel a http cdimage debian org cdimage weekly builds amd64
cscope无法索引代码树之外的软链接

背景 xff1a 为什么非要使用cscope xff1f 不用ctags xff1f 尽管ctags可以索引软链接 xff0c 但是 xff0c ctags不能查找调用者 xff0c 比如 xff1a 你想看看某个函数在哪些位置被调用了
爬虫常见错误以及难点（一）

目录常见错误一常见错误二常见错误三常见错误四难点 xff1a 难点一难点二难点三难点四难点五难点六难点七难点八难点九难点十难点十一难点十二难点十三难点十四难点十五难点十六常见错误一就是设置 hea

爬虫常见错误以及难点（一）

目录

常见错误一

常见错误二

常见错误三

常见错误四

难点：

难点一

难点二

难点三

难点四

难点五

难点六

难点七

难点八

难点九

难点十

难点十一

难点十二

难点十三

难点十四

难点十五

难点十六

爬虫常见错误以及难点（一） 的相关文章

随机推荐

热门标签

爬虫常见错误以及难点（一）的相关文章