逆向爬虫06 bs4，xpath，pyquery实战

2023-10-26

逆向爬虫06 bs4，xpath，pyquery实战

原本想要详细的对比一下这三个模块的使用方法，但是在实战的时候发现，只要遵循一个套路，抓取静态网页(即网页信息直接放在html源代码中)，就比较容易了，一些使用细节上的问题，每个人遇到的都会不一样，只有自己实实在在去练习了，才能掌握这三个工具。

套路就是遵循路飞学城逆向爬虫课程第二章数据解析中，《xpath实战案例_猪八戒》《pyquery实战案例》两节视频中的方法，懒得说了，大家自己慢慢练吧，这玩意儿光看不练是没用的。

下面直接上代码，仅供学习使用，代码可能具有时效性，过段时间若html代码结构发生变化，就不好用了。

bs4抓取猪八戒招标大厅的外包任务信息

"""
    目标：爬猪八戒招标大厅中的 价格，任务标题，任务详情
    url: https://task.zbj.com/page1.html
"""
import requests
from bs4 import BeautifulSoup
import time

def get_html_source(url):
    resp = requests.get(url)
    resp.encoding = "utf-8"
    # with open("source.html", mode="w", encoding="utf-8") as f:
    #     f.write(resp.text)
    return resp.text

def get_data_from_html(html):
    page = BeautifulSoup(html, "html.parser")
    div_list = page.find_all("div", attrs={"class": "result-search-item"})
    # with open("result-search-item.html", mode="w", encoding="utf-8") as f:
    #     f.write(str(div_list))
    for div in div_list:
        h4 = div.find("h4")
        work_title = h4.get("title")
        div_detail = div.find("div", attrs={"class": "pub-desc text-line-overflow-two"})
        work_detail = div_detail.text
        span_price = div.find("span", attrs={"class": "price"})
        price = span_price.text
        work_detail = work_detail.replace("\n", "")
        # print(f"{price},{work_title},{work_detail}")
        with open("result.csv", mode="a", encoding="utf-8") as f:
            f.write(f"{price},{work_title},{work_detail}\n")

if __name__ == "__main__":
    for i in range(3400):	# 根据招标大厅下面的总页数来填写
        url = f"https://task.zbj.com/page{i+1}.html"
        html = get_html_source(url)
        get_data_from_html(html)
        time.sleep(3)
    print("猪八戒招标大厅信息爬取完成！")

xpath抓取程序员客栈的程序员信息

"""
    目标：爬程序员客栈上程序员的信息
    url: https://www.proginn.com/cat/page/1/
"""

import requests
from lxml import etree
import time

def get_html_source(url):
    headers = {
        # 添加一个请求头信息UA，如果没有请求头，目标服务器会拒绝我们访问，这是一个最简单的反爬手段，只需要在http请求头中添加浏览器信息，就可以骗过目标服务器。
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.57"
    }
    resp = requests.get(url, headers=headers)
    resp.encoding = "utf-8"
    # with open("source.html", mode="w", encoding="utf-8") as f:
    #     f.write(resp.text)
    return resp.text

def get_data_from_html(html):
    et = etree.HTML(html)
    user_info = '/html/body/div[@class="main"]/div[@class="main_body"]/div/div[@class="ui divided items proginn-user-list"]/div[@class="item J_user"]/div[@class="user-info fl"]'
    name_list = et.xpath(user_info + '/div[@class="title"]/a/span/text()')
    skill_list = et.xpath(f"{user_info}/div[2]/p[2]/span/text()|{user_info}/div[2]/p[2]/span[not(text())]")
    workspace_list = et.xpath(f"{user_info}/div[2]/div/div[1]/span[2]/text()|{user_info}/div[2]/div/div[1]/span[not(text())]")
    worktime_list = et.xpath(user_info + '/div[2]/div/div[2]/span[2]/text()')
    salary_list = et.xpath('/html/body/div[@class="main"]/div[@class="main_body"]/div/div[@class="ui divided items proginn-user-list"]/div[@class="item J_user"]/div[@class="hire-info fl"]/p[1]/span/text()')
    href = et.xpath(user_info + '/div[@class="title"]/a/@href')
    for idx in range(15):
        detail_html = get_html_source(href[idx])
        detail_et = etree.HTML(detail_html)
        try:
            detail = detail_et.xpath('/html/head/meta[@name="description"]/@content')[0]
            detail = detail.replace("\n","")
            detail = detail.replace("-&nbsp;","")
            detail = detail.replace("&nbsp;","")
        except Exception as e:
            print("没有详情！")
        if type(skill_list[idx]) != type(salary_list[idx]):
            skill_list[idx] = "无"
        else:
            skill_list[idx] = skill_list[idx].replace(","," ")
        if type(workspace_list[idx]) != type(salary_list[idx]):
            workspace_list[idx] = "无"
        
        print(f"{salary_list[idx]},{workspace_list[idx]},{worktime_list[idx]},{name_list[idx]},{skill_list[idx]}")
        with open("程序员客栈程序员信息.csv", mode="a", encoding="utf-8") as f:
            f.write(f"{salary_list[idx]},{workspace_list[idx]},{worktime_list[idx]},{name_list[idx]},{skill_list[idx]},{detail}\n")
    
if __name__ == "__main__":
    for i in range(1,101):		# 根据程序员客栈下面的总页数来填写
        url = f"https://www.proginn.com/cat/page/{i}/"
        html = get_html_source(url)
        get_data_from_html(html)

pyquery抓取猎聘网爬虫岗位信息

"""
    目标：爬猎聘网站上的爬虫岗位信息
    url: https://www.liepin.com/zhaopin/?headId=1bd035b6a73e295eaafa5aedf960fe32&ckId=23fhmys0ecze35t8oork8bqoa4zydf9a&oldCkId=1bd035b6a73e295eaafa5aedf960fe32&fkId=tonyue22m6ifnzptvbka94m9o3x1nyha&skId=tonyue22m6ifnzptvbka94m9o3x1nyha&sfrom=search_job_pc&key=%E7%88%AC%E8%99%AB&currentPage=0&scene=page
"""
from pyquery import PyQuery
import requests
import time

def get_html_source(url):
    headers = {
        # 添加一个请求头信息UA，如果没有请求头，目标服务器会拒绝我们访问，这是一个最简单的反爬手段，只需要在http请求头中添加浏览器信息，就可以骗过目标服务器。
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36 Edg/96.0.1054.57"
    }
    resp = requests.get(url, headers=headers)
    resp.encoding = "utf-8"
    # with open("source.html", mode="w", encoding="utf-8") as f:
    #     f.write(resp.text)
    return resp.text

def get_data_from_html(html):
    # 加载html内容
    doc = PyQuery(html)
    doc = doc(".left-list-box > ul:nth-child(1) li").items()
    for item in doc:
        work_href = item("div.job-detail-box > a:nth-child(1)").attr("href")
        job_name = item("div.job-title-box > div:nth-child(1)").text()
        area = item("div.job-title-box > div:nth-child(2) > span:nth-child(2)").text()
        salary = item("span.job-salary").text()
        gener_skill = item("span.labels-tag").items()
        request = []
        for skill in gener_skill:
            request.append(skill.text())
        request = "|".join(request)
        company_href = item("div.job-detail-box > a:nth-child(2)").attr("href")
        company_name = item("span.company-name").text()
        area_people = []
        spans = item("div.company-tags-box > span").items()
        for span in spans:
            area_people.append(span.text())
        area_people = " ".join(area_people)
        result = f"{salary},{area},{job_name},,{request},{company_name},{area_people},{work_href},{company_href}"
        with open("猎聘爬虫岗位信息.csv", mode="a", encoding="utf-8") as f:
            f.write(f"{result}\n")
        print(result)

if __name__ == "__main__":
    print("pyquery execise")
    for i in range(10):		# 猎聘只能查10页
        url = f"https://www.liepin.com/zhaopin/?headId=1bd035b6a73e295eaafa5aedf960fe32&ckId=23fhmys0ecze35t8oork8bqoa4zydf9a&oldCkId=1bd035b6a73e295eaafa5aedf960fe32&fkId=tonyue22m6ifnzptvbka94m9o3x1nyha&skId=tonyue22m6ifnzptvbka94m9o3x1nyha&sfrom=search_job_pc&key=%E7%88%AC%E8%99%AB&currentPage={i}&scene=page"
        html = get_html_source(url)
        get_data_from_html(html)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫学习

爬虫

python

数据挖掘

逆向爬虫06 bs4，xpath，pyquery实战的相关文章

如何动态构建JSON对象？

我是 Python 新手正在使用 JSON 数据我想通过向现有 JSON 对象添加一些键值来动态构建 JSON 对象我尝试了以下但我得到TypeError str object does not support item assign
更改 django 应用程序名称时迁移历史记录不一致

我正在尝试重命名 django 网站中的应用程序之一还有另一个应用程序依赖于它及其 mysql 表我检查了两个应用程序中的所有文件并将旧名称的实例更改为新名称但是现在我在尝试执行迁移时遇到此错误消息 File Users Limo
从另一个文件导入函数，在哪里导入其他库？

很简单的问题我搜了一下没有结果假设我有一个文件 funcs py 其中有一个我想调用当前脚本的函数该函数使用另一个库例如 pandas 我在哪里导入该库约定是什么我是否将它放在 funcs py 的函数内 funcs py de
pip 相当于 `npm install package --save-dev` 的东西是什么？

在nodejs中我可以做npm install package save dev将安装的包保存到包中如何在 Python 包管理器中实现同样的效果pip 我想将包名称及其版本保存到例如 requirements pip就在使用类似的东
内部错误：当前事务被中止，命令被忽略直到事务块结束

使用多处理库在子进程中执行数据库调用时出现此错误 Visit Pastie http pastie org 811424 内部错误当前事务被中止命令被忽略直到交易块结束这是一个 Postgresql 数据库使用psycopg2司机
如何在 Matplotlib 中指定类似箭头的线条样式？

我想在 Matplotlib 中显示一组 xy 数据以指示特定路径理想情况下将修改线条样式以使用类似箭头的补丁我创建了一个模型如下所示使用 Omnigraphsketcher 看来我应该能够覆盖常见的之一linestyle声明
Python sqlalchemy 尝试使用 .to_sql 将 pandas 数据帧写入 SQL Server

我有一个Python代码通过它我得到了一个pandas数据框 df 我正在尝试将此数据框写入 Microsoft SQL 服务器我尝试通过以下代码进行连接但出现错误 import pyodbc from sqlalchemy impo
在QT中以不同的时间间隔更新GUI [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想知道如何在QT中以不同的时间间隔更新GUI 最好的是我可以控制时间间隔我知道 QTimer 可以在同一时间间隔更新 GUI 但我
如何使用Python内置的map和reduce函数计算字符串中的字母频率

我想使用Python的map和reduce内置函数来计算字符串中字母的频率谁能提供一些关于我如何做到这一点的见解到目前为止我所得到的 s the quick brown fox jumped over the lazy dog Map
ConfigParser 从 INI 文件中获取值，如下所示

我有以下类型的 INI 文件 section1 subsection1 port 989 section1 subsection2 somethign somethign 我正在使用 Python 的 ConfigParser 来解析 IN
Tensorflow：使用 Adam 优化器

我正在张量流中试验一些简单的模型包括一个看起来与第一个非常相似的模型面向 ML 初学者的 MNIST 示例 http www tensorflow org tutorials mnist beginners index md 但维数稍大一
将 pdf 图像转换为 jpg 图像的最快方法是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在尝试将多个 pdf 10k 转换为 jpg 图像并从中提取文本我目前正在使用pdf2imagepython 库但它相当慢有没有比这更
在 pyspark 中实现递归算法以查找数据帧中的配对

我有一个火花数据框 prof student df 列出了时间戳的学生教授对每个时间戳有 4 位教授和 4 位学生每个教授学生对都有一个分数因此每个时间范围有 16 行对于每个时间范围我需要找到教授学生之间的一对一配对以
pandas - 扩展 DataFrame 的索引，将新行的所有列设置为 NaN？

我有时间索引的数据 df2 pd DataFrame day pd Series date 2012 1 1 date 2012 1 3 b pd Series 0 22 0 3 df2 df2 set index day df2 b da
python 解码部分 utf-8 字节数组

我从不了解 UTF 8 规则的通道获取数据因此有时当 UTF 8 使用多个字节来编码一个字符并且我尝试将部分接收到的数据转换为文本时我在转换过程中遇到错误根据接口的性质没有任何结束的流我无法找出数据何时已满因此我需要处理部分
与 pandas 的时间序列相关性

我有一些颗粒物传感器和 CSV 其时间序列如下传感器A date value date 2017 11 30 00 00 00 30 11 17 0 00 49 2017 11 30 00 02 00 30 11 17 0 02 51 2
从一个 numpy 数组中删除另一个 numpy 数组中的元素的有效方法

从一个 numpy 数组中删除另一个数组中的元素的最佳方法是什么本质上我是在追求np delete 其中数组的顺序并不重要 import numpy as np a np array 2 1 3 print a b np array 4
从查找文件中批量重命名部分文件名

edit 请参阅底部以了解我的最终解决方案我有一个包含约 12 700 个文本文件的目录他们的名字是这样的 1 Re Report Novenator 公开呼吁埋葬 Lizbett 星期四 2009 年 9 月 10 日 txt 其中前
如何使用 numpy 数组加速分形生成？

这是我为使用牛顿方法制作分形而编写的一个小脚本 import numpy as np import matplotlib pyplot as plt f np poly1d 1 0 0 1 x 3 1 fp np polyder f def
从基类调用重写的方法？

深入Python http diveintopython net object oriented framework userdict html Python 的原作者 Guido 是这样解释方法重写的派生类可以重写其基类的方法因为方法

随机推荐

vue项目接入unity3D模块并进行数据通信

一添加unity工程 unity工程师会提供一个前端可使用的包将其放在vue项目的public下我这里以unity文件夹命名二在项目中创建iframe标签并引入index html文件三修改public gt unity gt
YOLO V1 学习摘要

YOLO V1是一种基于深度学习的目标检测算法其原理和流程如下 1 利用卷积神经网络 CNN 提取输入图像的特征 2 将图像分割成S x S个网格 grid 每个网格负责检测其中一个特定尺寸和位置的目标 3 对于每个网格预测一个包含5
Pycharm无法导入anaconda的包

Pycharm无法导入anaconda的包第一检查是否设置了anaconda的环境变量第二步查看anaconda下面的envs是否为空包如果是空包便要创建虚拟环境详细过程可参照 2023最新 Python Pycharm Ana
堆—特殊二叉树

我们了解了树形结构之后知道了二叉树但是二叉树的具体用途我们还是不知道今天就来看看一种特殊的二叉树堆它是一种完全二叉树著名的topK问题就是用堆来求取的可以求出一组数中的最大或者最小的元素所使用的堆就是大根堆小根堆所谓大根
VMware安装Android-x86_64-9.0-r2系统兼容arm设置

Android x86 64 9 0 r2虚拟机安装兼容arm的android应用程序 1 安装后WLAN提示已连接无网络实际网络联通终端模拟器依次输入以下命令后回车重启系统 su settings put global captive
Xray-基础详细使用

一 Xray介绍 Xray 是一款功能强大的安全评估工具由多名经验丰富的一线安全从业者呕心打造而成可支持与AWVS BP等众多安全工具联合使用二 Xray简易架构说明了解 Xray 的整体架构可以更好的理解客户端和配置文件的设置
for循环详解

For循环详解举例如图下首先for循环相比其他循环可以把条件写在一起如图所示这变量条件变化必不可少其他循环也是但是for循环有一个点它在初始变量的时候进入循环之前就已经执行了一次条件是每次进入循环之前都会执行并且判断还有当
【git】git rebase -i 合并多次提交

1 概述 git rebase i 命令用于交互式地重新应用提交历史其中 i 选项表示以交互方式进行操作通过使用这个命令您可以合并删除编辑重排等操作提交历史从而修改提交的顺序或合并多次提交下面是使用 git rebase i
Linux简介

1 1操作系统是什么操作系统概述要讲明白 Linux 是什么首先得说说什么是操作系统计算机系统是指按用户的要求接收和存储信息自动进行数据处理并输出结果信息的系统它由硬件子系统计算机系统赖以工作的实体包括显示屏键盘鼠标
Xcode9 xcodebuild 命令行打包遇到的坑与解决方案

主要涉及的打包脚本命令 if xcodeversion lt 830 then Xcode 8 3 以下打包时使用该脚本 xcodebuild exportArchive exportFormat ipa archivePath schem
十一、文件的读写

一文件的读写模式 1 文件常用的打开模式 r 只能读 r 可读可写不会创建不存在的文件如果直接写文件则从顶部开始写覆盖之前此位置的内容如果先读后写则会在文件最后追加内容 w 可读可写如果文件存在则覆盖整个文件不存在则创建 w
数学建模 —— 降维算法

文章目录前言数据降维的作用一主成分分析 PCA 1 介绍 2 算法流程 3 主成分分析的说明二因子分析 FA 1 介绍 2 算法流程 3 因子分析和主成分分析的对比三典型相关性分析 CCA 1 介绍 2 算法思路 3 算法流
用位运算实现两个整数的加减乘除运算

位运算的思想可以应用到很多地方这里简单的总结一下用位运算来实现整数的四则运算 1 整数加法 int Add int a int b for int i 1 i i lt lt 1 if b i for int j i j j lt lt
网络七层及四层协议通俗详解

1 OSI开放式网络七层协议模型总体而言理解记忆我点击一个网络请求假如使用http协议这就是应用层用户选择具体的协议这个请求需要传输数据但是不同系统因为编码等方式不同无法识别彼此发送的消息这个时候表示层就需要把数据整理成
《剑指offer》读后感

帮研二的学姐准备网易暑期实习的机试时代码提交在一个OJ网站叫牛客网出于好奇就多点了一下这个网站看到剑指offer 的在线编程专栏就是把剑指offer中的题目都挂在了网上可以在线判断是否AC 以前也总是听到学长们推荐该书索性趁着
R语言实现样本量的估算（2）

本文默认 0 05 sig level 0 2 power 根据研究需要可调整导入包 library pwr 1 已知标准差和预期差异 1 单样本t检验某治疗措施预期提高某物质水平8mg L 标准差为10mg L 单样本t检验 pwr
QVector用法详细介绍

QVector类是动态数组的模板类顺序容器它将自己的每一个对象存储在连续的内存中可以使用索引号来快速访问它们使用前需要包含头文件 include
iOS(二)App第一次启动时出现的引导界面

我们每次打开一个刚刚从AppStore下载下来的软件时总会出来一个引导界面有的是宣传产品有的是介绍App的功能最后再出来一个按钮正式进入到App 从此以后这个引导界面就再也不会出现了除非你卸载重装在查阅相关资料后做了个简陋的引
逆向爬虫06 bs4，xpath，pyquery实战

逆向爬虫06 bs4 xpath pyquery实战原本想要详细的对比一下这三个模块的使用方法但是在实战的时候发现只要遵循一个套路抓取静态网页即网页信息直接放在html源代码中就比较容易了一些使用细节上的问题每个人遇到的都会

逆向爬虫06 bs4，xpath，pyquery实战

逆向爬虫06 bs4，xpath，pyquery实战

bs4抓取猪八戒招标大厅的外包任务信息

xpath抓取程序员客栈的程序员信息

pyquery抓取猎聘网爬虫岗位信息

逆向爬虫06 bs4，xpath，pyquery实战 的相关文章

随机推荐

热门标签

逆向爬虫06 bs4，xpath，pyquery实战的相关文章