Python3网络爬虫--爬取百度搜索结果（附源码）

2023-10-28

文章目录

一．准备工作
- 1．工具
二．思路
- 1.爬虫思路
- 2.数据抽取思路
三．源代码
四．结果
五．总结

今天更新一篇基础，使用Python爬取百度搜索结果，最后将爬取结果保存到txt文本文件中。

一．准备工作

1．工具

1.Google Chrom浏览器
2.Xpath Helper
3.Pycharm 开发工具
4.Python3.x

二．思路

1.爬虫思路

在这里插入图片描述

2.数据抽取思路

确定目标
在搜索框输入关键字，蓝色框的文字以及对应链接是我们爬取的目标
开发者工具定位元素属性
F12打开开发者工具，发现所有目标元素都在id=“content_left”标签里面，单个搜索结果在class=“result c-container new-pmd”中，搜索结果的标题和链接都在./h3/a中，分析清楚后，去写xpath就行了。
翻页页码规律1
由于我们是将所有搜索结果全部爬取，所以一定要翻页的
通过观察能发现，我们每点一次下一页> url中的pn参数会 +10比如第二页：

第二页pn=10 第三页 pn=20 第四页 pn=30，那么第N页，pn=(N-1)*10。
翻页规律2
分析了页码规律，还不算完，还要确定是否有下一页> ，我们可以手动翻页，或者手动修改"pn"参数，到最大页码，这里发现，当我们翻到76页（pn=75）时下一页> 按钮，消失了。
确定翻页标志
这样就好弄了，直接判断页面上有没有下一页>这个元素即可：

这里我们发现这个元素在id="page"的div下的div下的最后一个a标签的文本中，xpath可以这样写：

//div[@id=“page”]/div/a[last()]/text()

三．源代码

crawl_baidu_search_result.py

#-*-coding:utf-8-*-
import requests
from lxml import etree
import time
class BaiDu_Spider(object):
    def __init__(self,keyword):
        self.base_url='https://www.baidu.com/s?wd={}'
        self.keyword=keyword
        self.url=self.base_url.format(self.keyword)+'&pn={}&ie=utf-8'


    def get_html(self,page):
        headers={
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36'
        }
        try:
            r=requests.get(self.url.format(page),headers=headers)
            r.encoding='utf-8'
            res=etree.HTML(r.text)
            selector=res.xpath('//div[@id="content_left"]/div[@class="result c-container new-pmd"]')
            data_list=[]
            for data in selector:
                item={}
                item['title']=''.join(data.xpath('./h3/a/text()'))
                item['link']=''.join(data.xpath('./h3/a/@href'))
                data_list.append(item)
            flag=res.xpath('//div[@id="page"]/div/a[last()]/text()')
            print(flag)
            if flag:
                return data_list,True
            else:
                return data_list,False
        except:
            pass

    def save_data(self,item):
        with open(crawl_result,'a',encoding='utf-8')as f:
            data=item['title']+'\t'+item['link']
            print(data)
            f.write(data+'\n')
def main():
    n=10
    while True:
        data_list,flag=spider.get_html(n)
        for data in data_list:
            spider.save_data(data)
        time.sleep(1)
        if flag is True:
            n+=10
        else:
            print(f'程序已经退出，在{int(n/10)+1}页......')
            break


if __name__ == '__main__':
    keyWord='Python'
    crawl_result=f'./crawl_{keyWord}.txt'
    spider=BaiDu_Spider(keyWord)
    main()

四．结果

请添加图片描述

五．总结

本次内容比较基础，是对静态网页进行数据提取，主要依赖xpath。百度存在访问频率限制的反爬，所以加入了一秒的延时。

xpath的定位方法可以参考

xpath定位中详解id 、starts-with、contains、text()和last() 的用法

欢迎大家提出自己的看法，思路、代码方面有什么不足欢迎各位大佬指正、批评！
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫

python日常

爬虫

python

web crawler

Python3网络爬虫--爬取百度搜索结果（附源码）的相关文章

sklearn 估计器管道的参数无效

我正在实现 O Reilly 书中的一个示例 Python 机器学习简介使用 Python 2 7 和 sklearn 0 16 我正在使用的代码 pipe make pipeline TfidfVectorizer LogisticRe
如果 Excel 文件是由程序创建的，Pandas read_excel 对于具有简单公式的单元格返回 nan [重复]

这个问题在这里已经有答案了 I use pd read excel读取由以下命令创建的 excel 文件openpyxl并从一个网址下载解析后的数据框将给出nan如果单元格值是公式 which formula is simply 100
Python 转换矩阵

我有一个如下所示的列表 2 1 3 1 2 3 1 2 2 2 我想要的是一个转换矩阵它向我显示如下序列 1 后跟 1 的频率是多少 1 后面跟着 2 的频率是多少 1 后跟 3 的频率是多少 2 后跟 1 的频率是多少 2 后跟 2 的
如何使用一个模型中间层的输出作为另一个模型的输入？

我训练一个模型A并尝试使用中间层的输出name layer x 作为模型的附加输入B 我尝试像 Keras 文档一样使用中间层的输出https keras io getting started faq how can i obtain th
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
为什么在连接两个字符串时 Python 比 C 更快？

目前我想比较 Python 和 C 用来处理字符串的速度我认为 C 应该比 Python 提供更好的性能然而我得到了完全相反的结果这是 C 程序 include
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
Django 多对多关系（类别）

我的目标是向我的 Post 模型添加类别我希望以后能够按不同类别有时是多个类别查询所有帖子模型 py class Category models Model categories 1 red 2 blue 3 black title
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
是否可以在Python中将日+月（不是年）与当前日+月进行比较？

我正在获取 5 月 10 日格式的数据我试图弄清楚它是今年还是明年该日期仅一年因此 5 月 10 日表示 2015 年 5 月 10 日而 5 月 20 日表示 2014 年 5 月 20 日为此我想将字符串转换为日期格式并进
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
如何在matplotlib中调整x轴

I have a graph like this x轴上的数据表示小时所以我希望x轴设置为0 24 48 72 而不是现在的值很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
无需访问 Internet 即可部署 Django 的简单方法？

我拥有的是使用 Django 开发的 Intranet 站点的开发版本以及放置在 virtualenv 中的一些外部库它运行良好我可以在任何具有互联网连接的计算机上使用相同的参数使用 pip 轻松设置 virtualenv 但是不幸
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i

随机推荐

编程实现RSA数字签名

一实验目的理解RSA数字签名并运用编程实现RSA数字签名二实验过程 1 学习RSA算法及RSA数字签名算法流程 2 RSA数字签名原理当发送方想要给接收方发送数据并想进行数字签名的时候发送方只需要利用自己的私钥对数据进行数
python进阶：线程、进程和协程

前言线程进程和协程都是实现多任务同一时间可以做多个事情就叫做多任务的方法并发一段时间内做不同的事情比如一个人吃饭喝水吃的时候不能喝喝的时候不能吃只有在一段时间吃了再喝或者喝了在吃并行同一时间做不同的事情比如边听音
谈乱序执行和内存屏障

10多年前的程序员对处理器乱序执行和内存屏障应该是很熟悉的但随着计算机技术突飞猛进的发展我们离底层原理越来越远这并不是一件坏事但在有些情况下了解一些底层原理有助于我们更好的工作比如现代高级语言多提供了多线程并发技术如果不深入下来
[Linux]Kali安装Deepin-wine-WeChat

Kali版本 2022 2 KDE环境实体机 wget O https deepin wine i m dev setup sh sh apt get install com qq weixin deepin 其他的QQ TIM登录后会崩
python PyAV库解析H264视频流及保存指定帧

PyAV是一个视频处理库可用于读取写入和处理视频要使用PyAV读取视频关键帧首先需要安装PyAV 可以使用以下命令安装PyAV pip install av 安装完成后您可以使用以下代码打开视频文件并读取关键帧 import av
python数据可视化第八章使用matplotlib绘制高级图表

使用matplotlib绘制高级图表 1 绘制高等图等高线图是地形图上高程相等的相邻各点所连成的j闭合曲线它会将地面上海拔高度相同的点连成环线之后将环线垂直投影到某一水平面上并按照定的比例缩绘到图纸上常见于山谷山峰或梯度下降算
CloudOS：物联网开发平台，云上开发，边端交付

什么是物联网物联网 Internet of Things 简称IoT 是指通过各种信息传感器射频识别技术全球定位系统红外感应器激光扫描器等各种装置与技术实时采集任何需要监控连接互动的物体或过程采集其声光热电力学化
iOS开发中，使用PC查看/修改沙盒文件

简介在进行iOS开发中 APP尤其是游戏在沙盒中可以存放游戏资源包或者数据例如Json文件 AssetBundle包在使用服务器下载资源包存放到本地沙盒中可以大大减少APP本身的大小当然在调试的时候如果频繁的更换服务器的A
处理告警“ warning #69-D integer conversion resulted in truncation”的方法

今天分享一个常见的语法告警就是实参与形参的类型参数对于不上错误之处首先我们先看一下告警提示告警 c 49 warning 69 D integer conversion resulted in truncation 其翻译过来意思就
二动态SQL和多对一，一对多

二动态SQL和多对一一对多 10 多对一处理测试环境搭建按照查询嵌套处理子查询按照结果嵌套处理联表查询 11 一对多按照结果嵌套处理按照查询嵌套处理小结 12 动态 SQL IF choose when otherwis
xpath下载安装——Python爬虫xpath插件下载安装（2023.8亲测可用！！）

目录 1 免费下载插件链接若失效评论区留言发送最新链接 2023 7亲测可用 2 安装插件 1 打开chrome浏览器页面点击右上角三个点 gt 扩展程序 gt 管理拓展程序若没找到点更多工具 2 打开右上角开发者模式 3 将刚刚下
关于maven创建java-web工程加载过慢如何解决问题

如何解决maven创建java web工程加载过慢如何解决问题在创建项目时在这个界面中添加设置一组变量archetypeCatalog internal 然后点击完成继续创建就可以了但是这样做每次创建项目都要重复添加很麻烦如果大家
Spring实现封装自定义注解@Trimmed清除字符串前后的空格

在Spring中实现字符串清除的方法有很多原生方法String自带trim 方法或者使用StringUtils提供的trim 方法通常可以将上面的方式封装成自定义注解的形式去实现来节省更多的业务代码 Trimmed java impo
Foggy_driving数据集下载以及将其转换成VOC数据格式

Foggy driving数据集官方下载地址百度网盘下载链接 https pan baidu com s 1q4dhnlX doxlt13Mi uFZQ 提取码 2ap3 VOC格式的Foggy driving数据集百度网盘下载链接 ht
html基础题目

1 在html中样式表按照应用方式可以分为三种类型其中不包括 d A 内嵌样式表 B 行内样式表 C 外部样式表文件 D 类样式表 2 在HTML中可以使用 d 标记向网页中插入GIF动画文件 A
从零开始实现自己的Kalimba——Cocos Creator新手教程系列（一）使用瓦片图Tiledmap设计游戏地图

瓦片图Tiledmap可能是很多2d游戏开发者的偏爱本节就Cocos Creator如何使用瓦片图进行详细的讲解 Tiled地图编辑器的下载安装不再赘述下面介绍如何使用地图编辑器创建新地图地图方向选正常其中45度和等角交错适合
uview2.0封装http请求实战以及常见请求传参实录

1 前言 2 使用步骤 2 1 配置请求拦截器以及api集中管理配置 2 2 main js中进行引入请求拦截器 2 3 页面中引入请求方法并使用 1 前言 uview2 0是uniapp开发中使用频率相对来讲比较高的一款框架今天从实战角
python爬虫十二：初步使用Scrapy框架爬取数据

1 通过pipelines操作拿到的数据要点一爬虫文件必须通过关键字yield生成器才能与pipelines建立链接才可以操作当运行爬虫文件之后执行的顺序如下图简介如果重写模块或者内部方法可能会造成麻烦往下翻阅可以看到open s
UC测试实习生笔试面试

笔试 2014年5月14号中大公教C402 一个半钟好紧的时间除了选择题和编程题其他都感觉不好啊一选择题 1 chmod 755 filename 之后文件权限为 A rwxr xr x 2 403状态表示 3 用于转义的字符
Python3网络爬虫--爬取百度搜索结果（附源码）

文章目录一准备工作 1 工具二思路 1 爬虫思路 2 数据抽取思路三源代码四结果五总结今天更新一篇基础使用Python爬取百度搜索结果最后将爬取结果保存到txt文本文件中一准备工作 1 工具 1 Google