使用Python构建强大的网络爬虫

2023-11-18

介绍

网络爬虫是从网站收集数据的强大技术，而Python是这项任务中最流行的语言之一。然而，构建一个强大的网络爬虫不仅仅涉及到获取网页并解析其HTML。在本文中，我们将为您介绍创建一个网络爬虫的过程，这个爬虫不仅可以获取和保存网页内容，还可以遵循最佳实践。无论您是初学者还是经验丰富的开发人员，本指南都将为您提供构建既有效又尊重被抓取网站的网络爬虫所需的工具。

设置您的环境

在深入代码之前，请确保您的计算机上已安装Python。您还需要安装requests和BeautifulSoup库。您可以使用pip来安装它们：

pip install requests beautifulsoup4

基本网络爬虫

让我们首先查看一个简单的网络爬虫脚本。此脚本获取一个网页，提取其标题和文本内容，并将它们保存到文本文件中。

import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
# ...（其余代码）

为什么使用requests和BeautifulSoup？

Requests：此库允许您发送HTTP请求并处理响应，因此在获取网页时至关重要。
BeautifulSoup：此库用于解析HTML并提取所需的数据。

创建输出目录

在进行抓取之前，有一个目录可以保存抓取到的数据非常关键。

if not os.path.exists(output_folder):
    os.makedirs(output_folder)

为什么这很重要？

创建专用的输出目录有助于组织抓取到的数据，使以后的分析更加容易。

网页遍历

该脚本使用广度优先搜索方法来遍历网页。它维护一个 visited 集合和一个 to_visit 的URL列表。

visited = set()
to_visit = [base_url]

网页遍历的必要性

网页遍历对于从一个网站抓取多个页面非常重要。visited 的集合确保您不会重新访问相同的页面，而 to_visit 的列表则用作您打算抓取的页面的队列。

获取和解析网页

获取网页涉及发送HTTP GET请求，而解析涉及将HTML内容转换为BeautifulSoup对象。

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

为什么获取和解析？

获取可获取原始HTML内容，但解析允许您浏览此内容并提取所需的数据。

数据提取和存储

该脚本从各种HTML标签中提取标题和文本内容，并将它们保存到文本文件中。

title = soup.title.string if soup.title else "未找到标题"
# ...（其余代码）

数据提取和存储的重要性

数据提取是网络爬虫的核心。有效存储这些数据有助于更容易地进行分析和共享。

错误处理和速率限制

该脚本检查HTTP状态码，但缺乏全面的错误处理和速率限制。

if response.status_code != 200:
    print(f"无法检索{url}。状态码：{response.status_code}")

为什么需要错误处理和速率限制？

错误处理确保您的爬虫可以从意外问题中恢复，而速率限制可以防止您的爬虫过于频繁地访问服务器并被封锁IP地址。

网络爬虫的效用

网络爬虫不仅仅是一个技术练习；它具有现实世界的应用，可以推动业务决策、学术研究等各种领域。

为什么网络爬虫很重要？

数据汇总：网络爬虫允许您将来自各种来源的数据收集到一个地方。这对于市场研究、情感分析或竞争分析特别有用。
自动化：手动收集数据可能会耗费时间并且容易出错。网络爬虫自动化了这个过程，节省了时间并减少了错误。
内容监控：您可以使用网络爬虫来监控竞争对手网站、股价或新闻更新等内容的变化。
机器学习和数据分析：通过网络爬虫收集的数据可以用于训练机器学习模型或进行高级数据分析。
SEO监控：网络爬虫可以帮助跟踪您的网站的SEO表现，为您提供如何提高搜索引擎排名的见解。

强大网络爬虫的高级功能

虽然基本爬虫是功能性的，但缺少一些功能，这些功能可以使它更强大和多功能。让我们讨论一些您可能考虑添加的高级功能。

用户代理和头文件

一些网站可能会阻止不包含用户代理字符串的请求，该字符串用于识别发出请求的客户端。

headers = {'User-Agent': 'your-user-agent-string'}
response = requests.get(url, headers=headers)

代理轮换

为了避免IP地址被封锁，您可以使用多个IP地址发出请求。

proxies = {'http': 'http://10.10.1.10:3128'}
response = requests.get(url, proxies=proxies)

CAPTCHA处理

一些网站使用CAPTCHA来防止自动抓取。虽然可以使用selenium等库来处理这些挑战，但这可能会使您的爬虫变得更加复杂。

from selenium import webdriver


driver = webdriver.Firefox()
driver.get(url)
# ...（CAPTCHA处理代码）

数据存储

您可以考虑使用MongoDB或SQL数据库来存储抓取的数据，而不是将其存储在文本文件中，以实现更结构化和可扩展的存储。

import pymongo


client = pymongo.MongoClient("mongodb://localhost:27017/")
db = client["抓取的数据"]
collection = db["网页"]
collection.insert_one({"url": url, "title": title, "content": full_text})

将它们组合起来

import os
import time
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin


def fetch_content(base_url, output_folder):
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)


    visited = set()
    to_visit = [base_url]
    headers = {'User-Agent': 'your-user-agent-string'}
    
    while to_visit:
        url = to_visit.pop(0)
        if url in visited:            
            continue


        try:
            response = requests.get(url, headers=headers, timeout=10)
            response.raise_for_status()
        except requests.RequestException as e:            
            print(f"无法检索{url}。错误：{e}")            
            continue


        visited.add(url)
        soup = BeautifulSoup(response.text, 'html.parser')


        title = soup.title.string if soup.title else "未找到标题"


        text_content = []        
        for paragraph in soup.find_all(['p', 'div', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6']):
            text_content.append(paragraph.text)


        full_text = "\n".join(text_content)


        output_file_path = os.path.join(output_folder, f"{len(visited)}.txt")        
        with open(output_file_path, 'w', encoding='utf-8') as f:
            f.write(f"URL: {url}\n")
            f.write(f"Title: {title}\n")
            f.write("=====================================\n")
            f.write(f"Text Content:\n{full_text}\n\n")        
        
        print(f"已保存从{url}抓取的数据到{output_file_path}")        
        
        for a_tag in soup.find_all('a', href=True):
            next_url = urljoin(base_url, a_tag['href'])            
            if base_url in next_url:
                to_visit.append(next_url)


        time.sleep(1)  # 速率限制以避免过于频繁地访问服务器
    
if __name__ == "__main__":
    base_url = "https://www.example.com/"
    output_folder = "抓取的页面"
    fetch_content(base_url, output_folder)

关键添加

用户代理字符串：headers字典包含一个用户代理字符串，以帮助绕过网站上的基本安全检查。

headers = {'User-Agent': 'your-user-agent-string'}

错误处理：在requests.get()方法周围的try-except块可以优雅地处理与网络相关的错误。

try:
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()
except requests.RequestException as e:    
    print(f"无法检索{url}。错误：{e}")    
    continue

速率限制：添加了time.sleep(1)以在请求之间暂停一秒钟，减少IP地址被封锁的风险。

time.sleep(1)

通过添加这些功能，我们使网络爬虫更加强大，并确保其尊重与之交互的网站。这是一个很好的起点，随着您继续完善网络爬虫，您可以添加更多高级功能，如代理轮换、CAPTCHA处理和数据库存储。

结论和未来方向

网络爬虫是一个功能强大的工具，具有广泛的应用，从业务到学术都有。然而，构建一个强大的网络爬虫不仅仅涉及到获取网页并解析其HTML。本文为您提供了每个步骤的综合指南，不仅解释了如何实现每个功能，还解释了每个功能为什么必要。

在继续完善您的网络爬虫时，考虑添加高级功能，如用户代理字符串、代理轮换、CAPTCHA处理和数据库存储。这些功能将使您的爬虫更加强大、多功能，并确保尊重您正在抓取的网站。有了这些工具，您将成功迈向成为一个网络爬虫专家。祝愉快抓取！

· END ·

HAPPY LIFE

本文仅供学习交流使用，如有侵权请联系作者删除

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用Python构建强大的网络爬虫的相关文章

将 transaction.commit_manually() 升级到 Django > 1.6

我继承了为 Django 1 4 编写的应用程序的一些代码我们需要更新代码库以使用 Django 1 7 并最终更新到 1 8 作为下一个长期支持版本在一些地方它使用旧风格 transaction commit manually and
如何在 Jupyter Notebook 中运行 Python 异步代码？

我有一些 asyncio 代码在 Python 解释器 CPython 3 6 2 中运行良好我现在想在具有 IPython 内核的 Jupyter 笔记本中运行它我可以运行它 import asyncio asyncio get ev
使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
Python 使用 Gstreamer 访问 USB 麦克风时遇到问题，以便在 Raspberry Pi 上使用 Pocketsphinx 执行语音识别

所以Python的表现就好像它根本听不到我的麦克风发出的任何声音问题就在这里我有一个Python 2 7 假设使用的脚本Gstreamer通过以下方式访问我的麦克风并为我进行语音识别口袋狮身人面像我在用着脉冲音频我的设备是树莓派我的
Pandas dataframe：每批行的操作

我有一个熊猫数据框df我想计算每批行的一些统计信息例如假设我有一个batch size 200000 对于每批batch sizerows 我想要一列的唯一值的数量ID我的数据框我怎样才能做这样的事情呢这是我想要的一个例子 prin
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
Python tkinter.filedialog Askfolder 干扰 clr

我主要在 Spyder 中工作构建需要弹出文件夹或文件浏览窗口的脚本下面的代码在spyder中完美运行在 Pycharm 中 askopenfilename工作良好同时askdirectory什么都不做卡住了但是如果在调试模式
小部件之间的自定义信号

尝试将信号从一个 gtk EventBox 子级发送到另一个在 init HeadMode 第 75 行上出现错误类型错误未知信号名称消息发送 why usr bin env python coding utf8 import p
如何使用 javascript/jquery/AJAX 调用 Django REST API？

我想使用 Javascript jQuery AJAX 在前端调用 Django Rest API 请求方法是 POST 但当我看到 API 调用它的调用 OPTIONS 方法时所以我开始了解access control allow o
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
揭秘sharedctypes性能

在 python 中可以在多个进程之间共享 ctypes 对象然而我注意到分配这些对象似乎非常昂贵考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
OSX 上的 locale.getlocale() 问题

我需要获取系统区域设置来执行许多操作最终我想使用 gettext 翻译我的应用程序我打算在 Linux 和 OSX 上分发它但我在 OSX Snow Leopard 上遇到了问题 python Python 2 5 2 r252 60
[cocos2d-x]当我尝试在 Windows 10 中运行“python android-build.py -p 19 cpp-tests”时出现错误

当我尝试运行命令时python android build p cpp tests 我收到如图所示的错误在此之前我收到了另一条关于 Android SDK Tools 版本兼容性的错误消息所以我只是将 sdk 版本从 26 0 0
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du
使用Multiprocessing和Pool时如何访问全局变量？

我试图避免将变量冗余地传递到dataList e g 1 globalDict 2 globalDict 3 globalDict 并在全球范围内使用它们 global globalDict然而在下面的代码中并不是这样做的解决方案是否有
tkinter：打开一个带有按钮提示的新窗口[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案用户如何按下 tkinter GUI 中的按钮来打开新窗口我只需要非常简单的解决方案如果代码也能被解释那就太好了这

随机推荐

实战22：文本摘要实战：基于句子相似度矩阵构建图结构实现文本摘要代码+数据

任务描述自动文本摘要 Text Summarization 是指给出一段文本我们从中提取出要点然后再形成一个短的概括性的文本自动的文本摘要是非常具有挑战性的当我们作为人类总结一篇文章时我们通常会完整地阅读它以发展我们的理解然后
Pycharm和Python关系

Pycharm和Python关系简单来说 Pycharm是一个代码编辑器是目前最流行的代码编辑器之一用于编写python代码 Python是一个代码解释器用于将Python代码翻译成计算机可以理解的指令 Pycharm下载地址 Py
OpenGL 入门 10：光源

点光源点光源的强度需要随着距离增加而减少至于减少的系数公式大致如下在这里d代表了片段距光源的距离接下来为了计算衰减值我们定义3个可配置的项常数项Kc 一次项Kl和二次项Kq 常数项通常保持为1 0 它的主要作用是保证分母永远
Linux Kernel调度管理之task_struct

task struct是进程描述符 struct task struct ifdef CONFIG THREAD INFO IN TASK For reasons of header soup see current thread info
敌人进入攻击范围

笔记首先要用到游戏对象组件collider 添加组建collider给检测对象和被检测对象检测对象的 IS trigger 要勾选两个对象必须有一个添加了rigidbody组建可以使用edit 中project中的physical进
Faster RCNN代码理解（Python）

最近开始学习深度学习看了下Faster RCNN的代码在学习的过程中也查阅了很多其他人写的博客得到了很大的帮助所以也打算把自己一些粗浅的理解记录下来一是记录下自己的菜鸟学习之路方便自己过后查阅二来可以回馈网络目前编程能力有限
public boolean isAdmin(String adminId,String adminPwd)

package cn edu zjgsu book biz import java sql Connection import java sql ResultSet import java sql SQLException import j
报错Installation failed with message Failed to finalize session : INSTALL_FAILED_DUPLICATE_PERMISSION

遇到这个报错问题其实是真的挺受用的把外包项目拿到手之后发现里面的签名文件是用的系统签名文件然后就自己从新打包签名后再次安装后就出现了上述这个报错报错如下 Installation failed with message Fai
无线发射功率

无线电发射功率无线电发射机输出的射频信号通过馈线电缆输送到天线由天线以电磁波形式辐射出去电磁波到达接收地点后由天线接收下来仅仅接收很小很小一部分功率并通过馈线送到无线电接收机因此在无线网络的工程中计算发射装置的发射功率
msm8937 usb power off charging log

Format Log Type Time microsec Message Optional Info Log Type B Since Boot Power On Reset D Delta S Statistic S QC IMAGE
spark中repartition和coalesce的区别

总的来讲两者对是否允许shuffle 不同 coalesce numPartitions shuffle false repartition numPartitions repartition 其实是 coalesce 中参数shuff
调用拷贝构造函数的三种情况

1 当用类的一个对象去初始化类的另一个对象时如下代码中的 Rectangle p2 p1 用对象p1去初始化对象p2 拷贝构造函数被调用代入法还有一种是赋值法 Rectangle p2 p1 2 当函数的形参是类的对象调用函数进行形
中达优控一体机说明书_如何在中达优控一体机上实现温度显示？

如何在中达优控一体机上实现温度显示首先是硬件的连接硬件连接良好是系统能运行的基础第二就是软件的编程包括PLC的编程和YKBuilder的组态编程只有硬件连接好软件编程没有错误系统才能正常工作才能正常显示传感器测量到的温度值
Windows环境IDEA下Ranger1.2.0源码编译

文章目录 Windows环境IDEA下Ranger1 2 0源码编译一本地环境准备二源码编译三使用idea打开项目 1 安装数据库Mysql版 2 配置Tomcat 发布 security admin web项目 3 修改sec
建立一个对象数组，内放5个学生的数据(学号、成绩)，用指针指向数组首元素，输出第1,3,5个学生的数据。

问题描述建立一个对象数组内放5个学生的数据学号成绩用指针指向数组首元素输出第1 3 5个学生的数据样例输入无样例输出 101 78 5 103 98 5 105 95 5 补充程序 include
kill 命令 killall pkill

killall 命令 Linux系统中的killall命令用于杀死指定名字的进程 kill processes by name 我们可以使用kill命令杀死指定进程PID的进程如果要找到我们需要杀死的进程我们还需要在之前使用ps等命令再
L1-071 前世档案 (20 分)–PAT 团体程序设计天梯赛 GPLT

include
ES6 Promise详解

优质资源分享学习路线指引点击解锁知识定位人群定位 Python实战微信订餐小程序进阶级本课程是python flask 微信小程序的完美结合从项目搭建到腾讯云部署上线打造一个全栈订餐系统 Python量化交易实战入门级手
Android Studio工具使用技巧

作为一个Android开发者熟练使用开发工具能让你工作效率提高能让你少点加班剩下时间学习其他的知识是个多么好的事情想高级攻城狮方向迈进不费话了直接进去主题一模版 1 1 for循环的使用遍历集合的时候对象 for就可以
使用Python构建强大的网络爬虫

介绍网络爬虫是从网站收集数据的强大技术而Python是这项任务中最流行的语言之一然而构建一个强大的网络爬虫不仅仅涉及到获取网页并解析其HTML 在本文中我们将为您介绍创建一个网络爬虫的过程这个爬虫不仅可以获取和保存网页内容还可

使用Python构建强大的网络爬虫

使用Python构建强大的网络爬虫 的相关文章

随机推荐

热门标签

使用Python构建强大的网络爬虫的相关文章