使用Python构建强大的网络爬虫

2023-11-18

介绍

网络爬虫是从网站收集数据的强大技术,而Python是这项任务中最流行的语言之一。然而,构建一个强大的网络爬虫不仅仅涉及到获取网页并解析其HTML。在本文中,我们将为您介绍创建一个网络爬虫的过程,这个爬虫不仅可以获取和保存网页内容,还可以遵循最佳实践。无论您是初学者还是经验丰富的开发人员,本指南都将为您提供构建既有效又尊重被抓取网站的网络爬虫所需的工具。

设置您的环境

在深入代码之前,请确保您的计算机上已安装Python。您还需要安装requests和BeautifulSoup库。您可以使用pip来安装它们:

pip install requests beautifulsoup4

基本网络爬虫

让我们首先查看一个简单的网络爬虫脚本。此脚本获取一个网页,提取其标题和文本内容,并将它们保存到文本文件中。

import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
# ...(其余代码)

为什么使用requests和BeautifulSoup?

  • Requests:此库允许您发送HTTP请求并处理响应,因此在获取网页时至关重要。

  • BeautifulSoup:此库用于解析HTML并提取所需的数据。

创建输出目录

在进行抓取之前,有一个目录可以保存抓取到的数据非常关键。

if not os.path.exists(output_folder):
    os.makedirs(output_folder)

为什么这很重要?

创建专用的输出目录有助于组织抓取到的数据,使以后的分析更加容易。

网页遍历

该脚本使用广度优先搜索方法来遍历网页。它维护一个 visited 集合和一个 to_visit 的URL列表。

visited = set()
to_visit = [base_url]

网页遍历的必要性

网页遍历对于从一个网站抓取多个页面非常重要。visited 的集合确保您不会重新访问相同的页面,而 to_visit 的列表则用作您打算抓取的页面的队列。

获取和解析网页

获取网页涉及发送HTTP GET请求,而解析涉及将HTML内容转换为BeautifulSoup对象。

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

为什么获取和解析?

获取可获取原始HTML内容,但解析允许您浏览此内容并提取所需的数据。

数据提取和存储

该脚本从各种HTML标签中提取标题和文本内容,并将它们保存到文本文件中。

title = soup.title.string if soup.title else "未找到标题"
# ...(其余代码)

数据提取和存储的重要性

数据提取是网络爬虫的核心。有效存储这些数据有助于更容易地进行分析和共享。

错误处理和速率限制

该脚本检查HTTP状态码,但缺乏全面的错误处理和速率限制。

if response.status_code != 200:
    print(f"无法检索{url}。状态码:{response.status_code}")

为什么需要错误处理和速率限制?

错误处理确保您的爬虫可以从意外问题中恢复,而速率限制可以防止您的爬虫过于频繁地访问服务器并被封锁IP地址。

网络爬虫的效用

网络爬虫不仅仅是一个技术练习;它具有现实世界的应用,可以推动业务决策、学术研究等各种领域。

为什么网络爬虫很重要?

  • 数据汇总:网络爬虫允许您将来自各种来源的数据收集到一个地方。这对于市场研究、情感分析或竞争分析特别有用。

  • 自动化:手动收集数据可能会耗费时间并且容易出错。网络爬虫自动化了这个过程,节省了时间并减少了错误。

  • 内容监控:您可以使用网络爬虫来监控竞争对手网站、股价或新闻更新等内容的变化。

  • 机器学习和数据分析:通过网络爬虫收集的数据可以用于训练机器学习模型或进行高级数据分析。

  • SEO监控:网络爬虫可以帮助跟踪您的网站的SEO表现,为您提供如何提高搜索引擎排名的见解。

强大网络爬虫的高级功能

虽然基本爬虫是功能性的,但缺少一些功能,这些功能可以使它更强大和多功能。让我们讨论一些您可能考虑添加的高级功能。

用户代理和头文件

一些网站可能会阻止不包含用户代理字符串的请求,该字符串用于识别发出请求的客户端。

headers = {'User-Agent': 'your-user-agent-string'}
response = requests.get(url, headers=headers)

代理轮换

为了避免IP地址被封锁,您可以使用多个IP地址发出请求。

proxies = {'http': 'http://10.10.1.10:3128'}
response = requests.get(url, proxies=proxies)

CAPTCHA处理

一些网站使用CAPTCHA来防止自动抓取。虽然可以使用selenium等库来处理这些挑战,但这可能会使您的爬虫变得更加复杂。

from selenium import webdriver


driver = webdriver.Firefox()
driver.get(url)
# ...(CAPTCHA处理代码)

数据存储

您可以考虑使用MongoDB或SQL数据库来存储抓取的数据,而不是将其存储在文本文件中,以实现更结构化和可扩展的存储。

import pymongo


client = pymongo.MongoClient("mongodb://localhost:27017/")
db = client["抓取的数据"]
collection = db["网页"]
collection.insert_one({"url": url, "title": title, "content": full_text})

将它们组合起来

import os
import time
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin


def fetch_content(base_url, output_folder):
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)


    visited = set()
    to_visit = [base_url]
    headers = {'User-Agent': 'your-user-agent-string'}
    
    while to_visit:
        url = to_visit.pop(0)
        if url in visited:            
            continue


        try:
            response = requests.get(url, headers=headers, timeout=10)
            response.raise_for_status()
        except requests.RequestException as e:            
            print(f"无法检索{url}。错误:{e}")            
            continue


        visited.add(url)
        soup = BeautifulSoup(response.text, 'html.parser')


        title = soup.title.string if soup.title else "未找到标题"


        text_content = []        
        for paragraph in soup.find_all(['p', 'div', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6']):
            text_content.append(paragraph.text)


        full_text = "\n".join(text_content)


        output_file_path = os.path.join(output_folder, f"{len(visited)}.txt")        
        with open(output_file_path, 'w', encoding='utf-8') as f:
            f.write(f"URL: {url}\n")
            f.write(f"Title: {title}\n")
            f.write("=====================================\n")
            f.write(f"Text Content:\n{full_text}\n\n")        
        
        print(f"已保存从{url}抓取的数据到{output_file_path}")        
        
        for a_tag in soup.find_all('a', href=True):
            next_url = urljoin(base_url, a_tag['href'])            
            if base_url in next_url:
                to_visit.append(next_url)


        time.sleep(1)  # 速率限制以避免过于频繁地访问服务器
    
if __name__ == "__main__":
    base_url = "https://www.example.com/"
    output_folder = "抓取的页面"
    fetch_content(base_url, output_folder)

关键添加

  • 用户代理字符串:headers字典包含一个用户代理字符串,以帮助绕过网站上的基本安全检查。

headers = {'User-Agent': 'your-user-agent-string'}
  • 错误处理:在requests.get()方法周围的try-except块可以优雅地处理与网络相关的错误。

try:
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()
except requests.RequestException as e:    
    print(f"无法检索{url}。错误:{e}")    
    continue
  • 速率限制:添加了time.sleep(1)以在请求之间暂停一秒钟,减少IP地址被封锁的风险。

time.sleep(1)

通过添加这些功能,我们使网络爬虫更加强大,并确保其尊重与之交互的网站。这是一个很好的起点,随着您继续完善网络爬虫,您可以添加更多高级功能,如代理轮换、CAPTCHA处理和数据库存储。

结论和未来方向

网络爬虫是一个功能强大的工具,具有广泛的应用,从业务到学术都有。然而,构建一个强大的网络爬虫不仅仅涉及到获取网页并解析其HTML。本文为您提供了每个步骤的综合指南,不仅解释了如何实现每个功能,还解释了每个功能为什么必要。

在继续完善您的网络爬虫时,考虑添加高级功能,如用户代理字符串、代理轮换、CAPTCHA处理和数据库存储。这些功能将使您的爬虫更加强大、多功能,并确保尊重您正在抓取的网站。有了这些工具,您将成功迈向成为一个网络爬虫专家。祝愉快抓取!

·  END  ·

HAPPY LIFE

7a9f988ea865be9f5ebb93f9b4d9b16e.png

本文仅供学习交流使用,如有侵权请联系作者删除

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用Python构建强大的网络爬虫 的相关文章

随机推荐

  • 实战22:文本摘要实战:基于句子相似度矩阵构建图结构实现文本摘要 代码+数据

    任务描述 自动文本摘要 Text Summarization 是指给出一段文本 我们从中提取出要点 然后再形成一个短的概括性的文本 自动的文本摘要是非常具有挑战性的 当我们作为人类总结一篇文章时 我们通常会完整地阅读它以发展我们的理解 然后
  • Pycharm和Python关系

    Pycharm和Python关系 简单来说 Pycharm是一个代码编辑器 是目前最流行的代码编辑器之一 用于编写python代码 Python是一个代码解释器 用于将Python代码翻译成计算机可以理解的指令 Pycharm下载地址 Py
  • OpenGL 入门 10:光源

    点光源 点光源的强度需要随着距离增加而减少 至于减少的系数公式大致如下 在这里d代表了片段距光源的距离 接下来为了计算衰减值 我们定义3个 可配置的 项 常数项Kc 一次项Kl和二次项Kq 常数项通常保持为1 0 它的主要作用是保证分母永远
  • Linux Kernel调度管理之task_struct

    task struct是进程描述符 struct task struct ifdef CONFIG THREAD INFO IN TASK For reasons of header soup see current thread info
  • 敌人进入攻击范围

    笔记 首先要用到游戏对象组件collider 添加组建collider给检测对象和被检测对象 检测对象的 IS trigger 要勾选 两个对象必须有一个添加了rigidbody组建 可以使用edit 中project中的physical进
  • Faster RCNN代码理解(Python)

    最近开始学习深度学习 看了下Faster RCNN的代码 在学习的过程中也查阅了很多其他人写的博客 得到了很大的帮助 所以也打算把自己一些粗浅的理解记录下来 一是记录下自己的菜鸟学习之路 方便自己过后查阅 二来可以回馈网络 目前编程能力有限
  • public boolean isAdmin(String adminId,String adminPwd)

    package cn edu zjgsu book biz import java sql Connection import java sql ResultSet import java sql SQLException import j
  • 报错Installation failed with message Failed to finalize session : INSTALL_FAILED_DUPLICATE_PERMISSION

    遇到这个报错问题 其实是真的挺受用的 把外包项目拿到手之后 发现里面的签名文件是用的系统签名文件 然后就自己从新打包签名后 再次安装后 就出现了上述这个报错 报错如下 Installation failed with message Fai
  • 无线发射功率

    无线电发射功率 无线电发射机输出的射频信号 通过馈线 电缆 输送到天线 由天线以电磁波形式辐射出去 电磁波到达接收地点后 由天线接收下来 仅仅接收很小很小一部分功率 并通过馈线送到无线电接收机 因此在无线网络的工程中 计算发射装置的发射功率
  • msm8937 usb power off charging log

    Format Log Type Time microsec Message Optional Info Log Type B Since Boot Power On Reset D Delta S Statistic S QC IMAGE
  • spark中repartition和coalesce的区别

    总的来讲 两者 对是否允许shuffle 不同 coalesce numPartitions shuffle false repartition numPartitions repartition 其实是 coalesce 中参数shuff
  • 调用拷贝构造函数的三种情况

    1 当用类的一个对象去初始化类的另一个对象时 如下代码中的 Rectangle p2 p1 用对象p1去初始化对象p2 拷贝构造函数被调用 代入法 还有一种是赋值法 Rectangle p2 p1 2 当函数的形参是类的对象 调用函数进行形
  • 中达优控一体机说明书_如何在中达优控一体机上实现温度显示?

    如何在中达优控一体机上实现温度显示 首先是硬件的连接 硬件连接良好是系统能运行的基础 第二就是软件的编程 包括PLC的编程和YKBuilder的组态编程 只有硬件连接好 软件编程没有错误 系统才能正常工作 才能正常显示传感器测量到的温度值
  • Windows环境IDEA下Ranger1.2.0源码编译

    文章目录 Windows环境IDEA下Ranger1 2 0源码编译 一 本地环境准备 二 源码编译 三 使用idea打开项目 1 安装数据库Mysql版 2 配置Tomcat 发布 security admin web项目 3 修改sec
  • 建立一个对象数组,内放5个学生的数据(学号、成绩),用指针指向数组首元素,输出第1,3,5个学生的数据。

    问题描述 建立一个对象数组 内放5个学生的数据 学号 成绩 用指针指向数组首元素 输出第1 3 5个学生的数据 样例输入 无 样例输出 101 78 5 103 98 5 105 95 5 补充程序 include
  • kill 命令 killall pkill

    killall 命令 Linux系统中的killall命令用于杀死指定名字的进程 kill processes by name 我们可以使用kill命令杀死指定进程PID的进程 如果要找到我们需要杀死的进程 我们还需要在之前使用ps等命令再
  • L1-071 前世档案 (20 分)–PAT 团体程序设计天梯赛 GPLT

    include
  • ES6 Promise详解

    优质资源分享 学习路线指引 点击解锁 知识定位 人群定位 Python实战微信订餐小程序 进阶级 本课程是python flask 微信小程序的完美结合 从项目搭建到腾讯云部署上线 打造一个全栈订餐系统 Python量化交易实战 入门级 手
  • Android Studio工具使用技巧

    作为一个Android开发者 熟练使用开发工具能让你工作效率提高 能让你少点加班 剩下时间学习其他的知识 是个多么好的事情 想高级攻城狮方向迈进 不费话了 直接进去主题 一 模版 1 1 for循环的使用 遍历集合的时候 对象 for就可以
  • 使用Python构建强大的网络爬虫

    介绍 网络爬虫是从网站收集数据的强大技术 而Python是这项任务中最流行的语言之一 然而 构建一个强大的网络爬虫不仅仅涉及到获取网页并解析其HTML 在本文中 我们将为您介绍创建一个网络爬虫的过程 这个爬虫不仅可以获取和保存网页内容 还可