爬虫确定分页

2023-11-14

直接能确定分页数的直接根据分页num构造
导航栏目主页不能直接确定分页数，需要通过下一页来确定最后一页

这边主要介绍第二类如果下一页还存在，放进分页列表、就不是最后一页，如果不存在就是最后一页

import requests
import requests.sessions
from lxml import etree
import urllib3
import time
import ssl
import random
import os
import socket
import math
import re
from w3lib.html import remove_tags
from Database import Database

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36"
}
ssl._create_default_https_context = ssl._create_unverified_context
urllib3.disable_warnings()


# 获取栏目列表
def get_category_url_list(url):
    res = session.get(url, headers=headers, verify=False, timeout=100)
    res.encoding = "utf-8"
    html = etree.HTML(res.text)
    category_url_list = html.xpath('//nav[@id="site-nav"]//a/@href')
    if len(category_url_list) != 0:
        category_url_list.pop(0)
        category_url_list.pop(0)
    # 如果category_url_list为[],就只有一个栏目，把url放进category_url_list里面
    if len(category_url_list) == 0:
        category_url_list.append(url)
    return category_url_list


def get_page_next(url):
    res = session.get(url, headers=headers, verify=False, timeout=100)
    res.encoding = "utf-8"
    html = etree.HTML(res.text)
    page_next = html.xpath('//a[@class="next page-numbers"]/@href')
    return page_next


# 获取每个栏目下面的分页列表
def get_page_url_list(url):
    page_url_list = []
    page_url_list.append(url)
    basic_url = url
    i = 1
    page_next = get_page_next(url)
    # 如果len(page_next) > 0，有下一页，就将url放入page_url_list
    while len(page_next) > 0:
        i = i + 1
        url = basic_url + "page/{}/"
        page_next = get_page_next(url.format(i))
        page_url_list.append(url.format(i))
    return page_url_list


# 获取每个栏目下面的每个分页里面的每个详情页列表
def get_detail_url_list(page_url_list, sleeptime, db, sql, domain):
    exception_page_url_list = []
    for i in page_url_list:
        try:
            res = session.get(i, headers=headers, verify=False, timeout=100)
            res.encoding = "utf-8"
            time.sleep(sleeptime)
            html = etree.HTML(res.text)
            detail_url_list = html.xpath('//h2[@class="entry-title"]//a/@href')
            print(detail_url_list)
            get_content_url_list(detail_url_list, db, sql, domain)
        except Exception as e:
            exception_page_url_list.append(i)
            # print(exception_page_url_list)
            print(e)
        continue


# 替换特殊字符
def replace_entity(str):
    CHAR_ENTITIES_dict = {
        "&ensp;": "",
        "&emsp;": "",
        "&nbsp;": "",
        "&lt;": "<",
        "&gt;": ">",
        "&amp;": "&",
        "&quot;": '"',
        "&ldquo;": "“",
        "&rdquo;": "”",
        "&copy;": "©",
        "&reg;": "™",
        "&times;": "×",
        "&divide;": "÷",
        "&mdash;": "—"
    }
    for i in list(CHAR_ENTITIES_dict.keys()):
        if i in str:
            str = str.replace(i, list(CHAR_ENTITIES_dict.values())[list(CHAR_ENTITIES_dict.keys()).index(i)])
    return str


def filter_tag(html_str):
    # 去除script
    re_script = '<script[^>]*?>[\s\S]*?</script>'
    html_str = re.sub(re_script, "", html_str, re.S)
    # 只保留p、span、div标签
    html_str = remove_tags(html_str, which_ones=(), keep=("p", 'span', 'div'))
    html_str = html_str.lower()
    # 匹配换行、制表等空白字符
    re_blank = '\s*'
    # 去除样式
    re_style = r'style=".*?"'
    # 匹配class选择器相关内容
    re_class = r'class=[\"\'].*?[\"\']'
    # 匹配id选择器等内容
    re_id = r'id=".*?"'
    # 匹配可见的独立左右的样式等内容
    re_align = r'align=".*"'
    re_data_witdth = r'data-width=".*?"'
    # pip连续重复出现的<p>标签：类似于<p><p>,<p><p><p>若干个连续<p>字符串
    re_p_pre_repeat = "<p[><p]+p>"
    re_p_next_repeat = "</p[/p<>]+/p"
    html_str = re.sub(re_style, "", html_str)
    html_str = re.sub(re_blank, "", html_str)
    html_str = re.sub(re_class, "", html_str)
    html_str = re.sub(re_id, "", html_str)
    html_str = re.sub(re_data_witdth, "", html_str)
    # html_str = re.sub(re_center, "", html_str)
    html_str = re.sub(re_align, "", html_str)
    # .replace("<span>", "<p>").replace("</span>", "</p>")
    html_str = html_str.replace("翡翠王朝", "九玉网").replace(
        "www.jaadee.com", "www.91yu.com").replace("<div>",
                                                  "<p>").replace(
        "</div>", "</p>")
    html_str = re.sub(re_p_pre_repeat, "<p>", html_str)
    html_str = re.sub(re_p_next_repeat, "</p>", html_str)
    html_str = replace_entity(html_str)
    return html_str.replace(">>", ">").replace("<span></span>", "").replace("<p></p>", "").replace("翡翠产业网",
                                                                                                   "九玉网").replace(
        "http://fccyw.99114.com/", "www.91yu.com").lstrip().rstrip()


def get_data(content_url_list, domain):
    info = {}
    info["url"] = content_url_list[0]
    info["askreocrd"] = 0
    info["domain"] = domain
    content_all_list = []
    title_list = []
    for i in content_url_list:
        try:
            resp = session.get(i, headers=headers)
            resp.encoding = "utf-8"
            html = etree.HTML(resp.text)
            title = html.xpath('//h1/text()')[0]
            # title = re.findall('<div class="conl lf overf">.*<h1>(.*?)</h1>', resp.text)[0].lstrip().rstrip()
            title = re.sub(r'\s*', "", title)
            # print(title)
            title_list.append(title)
            content_list = re.findall(
                r'id="js_content".*?>(.*?)<div id="js_sponsor_ad_area"',
                resp.text, re.S)
            if len(content_list) == 0:
                content_list = re.findall(
                    r'class="single-content">(.*?)<div class="s-weixin">',
                    resp.text, re.S)
            content_all_list.append(content_list)
        except Exception as e:
            print(e)
        continue
    info["title"] = title_list[0]
    content_all_list = [i for k in content_all_list for i in k]
    info["content"] = ','.join(content_all_list)
    info["content"] = info["content"].replace(",", "")
    info_list = [info["title"], info["content"], info["url"], info["domain"], info["askreocrd"]]
    info_list[1] = filter_tag(info_list[1])
    return info_list


def insert_into_database(db, sql, values):
    is_exits = judge_title_is_exits(db, title=values[0])
    # 把数据插入数据库之前判断文章的标题是不是已经有,标题或者内容有一个为空不插入
    if is_exits == 0 and (values[0] != "" and values[1] != ""):
        print(values)
        values = tuple(values)
        sql = sql.format(values)
        try:
            db.insert(sql)
        except Exception as e:
            print(e)


# 判断标题数据库中是否存在
def judge_title_is_exits(db, title):
    judge_title_exits_sql = 'select 1 from cj_article WHERE cj_title = "{}" limit 1;'
    judge_title_exits_sql = judge_title_exits_sql.format(title)
    data = db.select(judge_title_exits_sql)
    # 如果数据库查询返回空元组，则不存在，将is_exits的值设为0
    if data == ():
        is_exits = 0
    else:
        is_exits = data[0][0]
    return is_exits


def get_content_url_list(detail_url_list, db, sql, domain):
    for i in detail_url_list:
        content_url_list = []
        try:
            response = requests.get(i, headers=headers, verify=False, timeout=100)
            response.encoding = "utf-8"
            html = etree.HTML(response.text)
            content_num = html.xpath('//div[@class="page5"]/a[1]/b[2]/text()')
            if len(content_num) == 0:
                content_url_list.append(i)
            else:
                for num in range(int(content_num[0])):
                    content_url_list.append(i.split(".html")[0] + "_" + str(num + 1) + ".html")
                    content_url_list[0] = i
            record = get_data(content_url_list, domain)
            insert_into_database(db, sql, record)
        except Exception as e:
            pass
        continue


if __name__ == '__main__':
    session = requests.Session()
    db = Database()
    insert_sql = "insert into cj_article (cj_title,cj_content,cj_url,cj_domain,cj_askrecord) values {}"
    url = 'http://www.fufeicui.com/'
    domain = url.replace("http://", "").split("/")[0]
    print(domain)
    category_url_list = get_category_url_list(url)
    print(category_url_list)
    sleeptime = 0
    for i in category_url_list:
        page_url_list = get_page_url_list(i)
        print(page_url_list)
        get_detail_url_list(page_url_list, sleeptime, db, insert_sql, domain)
    # 关闭数据库连接
    db.close()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫确定分页的相关文章

将tensorflow 2.0 BatchDataset转换为numpy数组

我有这个代码 train images test images tf keras datasets mnist load data train dataset tf data Dataset from tensor slices train
Django：如何测试“HttpResponsePermanentRedirect”

我正在为我的 django 应用程序编写一些测试在我看来它使用 HttpResponseRedirect 重定向到其他一些网址那么我该如何测试呢姜戈TestCase类有一个方法assertRedirects https docs d
如何确定非阻塞套接字是否真正连接？

这个问题不仅限于Python 这是一个一般的套接字问题我有一个非阻塞套接字想要连接到一台可访问的机器在另一端该端口不存在为什么 select 仍然成功我预计会超时 sock send 因管道损坏而失败 select 之后如何确定
python - 是否可以扩展 xml-rpc 可以序列化的事物集？

我看到几个问题询问如何发送numpy ndarray通过 xml rpc 调用这不能开箱即用因为正如 xml rpc 中所述docs https docs python org 2 library xmlrpclib html 有一组固
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
PIL Image.size 返回相反的宽度/高度

使用PIL确定图像的宽度和高度在特定图像上幸运的是只有这一个但这很麻烦从 image size 返回的宽度高度是相反的图片 http storage googleapis com cookila 533ebf752b9d1f7c
Python - 用逗号分割，跳过括号内的内容

我需要用逗号分隔字符串但我对这种情况有一个问题 TEXT EXAMPLE THIS IS A EXAMPLE BUT NOT WORKS FOR ME SECOND THIRD 我想拆分并得到 var 0 TEXT EXAMPLE THI
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
如何使用 python urllib 在 HTTP/1.1 中保持活力

现在我正在这样做 Python3 urllib url someurl headers HOST somehost Connection keep alive Accept Encoding gzip deflate opener urll
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
Python 中的 @staticmethod 与 @classmethod

方法和方法有什么区别装饰的 https peps python org pep 0318 with staticmethod http docs python org library functions html staticmethod和
Django 在选择列表更改时创建毫无意义的迁移

我正在尝试使用可调用创建一个带有选择字段的模型以便 Django 在选择列表更改时不会创建迁移如中所述this https stackoverflow com questions 31788450 stop django from cr
conda-env list / conda info --envs 如何查找环境？

我一直在尝试 anaconda miniconda 因为我的用户使用随 miniconda 安装的结构生物学程序并且作者都没有 A 考虑到可能存在其他 miniconda 应用程序 B 他们的程序将在多用户环境中使用因此使用 Arch
Python - 如何查询定义方法的类？

我的问题有点类似于this one https stackoverflow com questions 5520580 how do you get all classes defined in a module but not impor
全局变量是 None 而不是实例 - Python

我正在处理Python 中的全局变量代码应该可以正常工作但是有一个问题我必须使用全局变量作为类的实例Back 当我运行应用程序时它说 back is None 这应该不是真的因为第二行setup 功能 back Back Back
如何在sphinx中启用数学？

我在用sphinx http sphinx pocoo org index html与pngmath http sphinx pocoo org ext math html module sphinx ext pngmath扩展来记录我的代
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案
异步和协程与任务队列

我一直在阅读有关 python 3 中的 asyncio 模块的内容以及更广泛地了解 python 中的协程的内容但我不明白是什么让 asyncio 成为如此出色的工具我的感觉是你可以用协程做的所有事情通过使用基于多处理模块例如
来自 django 教程 was_published_recently.admin_order_field = 'pub_date'

From Django 教程 https www jetbrains com help pycharm 2017 1 creating and running your first django project html d28041e21
Django South - 将 null=True 字段转换为 null=False 字段

我的问题是转变的最佳做法是什么null True场变成null False使用 Django South 的字段具体来说我正在与ForeignKey 你应该先写一个数据迁移 http south aeracode org docs t

随机推荐

matlab 计算协方差矩阵

但是在有些用到协方差的算法中分母使用了N 而不是N 1 但是由于样本很多差别不大 gt gt v magic 3 v 8 1 6 3 5 7 4 9 2 gt gt cov v ans 7 8 1 8 16 8 1 8 7 gt gt
Base64编码工具类

public class Base64Util private static final char last2byte char Integer parseInt 00000011 2 private static final char l
严重性代码说明项目文件行禁止显示状态错误(活动) E0304 没有与参数列表匹配的重载函数 "std::regex_match" 实例 Project16 D:\Program Files(x86)\Microsoft Visual Stu

这个错误表示在你的代码中调用了一个名为 std regex match 的函数但是在你的代码中并没有定义该函数的重载函数没有参数列表与你调用的函数相匹配这个错误发生在 Project16D Program Files x86 Micr
jstat命令

文章目录 1 简介 2 常用选项示例 1 jstat class pid 2 jstat gc pid 3 jstat gcutil pid 4 其他命令 1 简介 jstat命令可以查看堆内存各部分的使用量以及加载类的数量命令的格式如
推荐夸克和多御，非常的实用！

一多御浏览器多御浏览器是一款集安全速度工具于一身的浏览器它的界面简洁大方干净利落打开速度和加载速度都很快并且注重浏览体验浏览器常用的功能一应俱全添加书签夜间模式视频下载分享页面密码锁屏等保护你的隐私满足你的需
Python之Pygame.rect函数

1 参数设置 Pygame 通过 Rect 对象存储和操作矩形区域一个 Rect 对象可以由 left top width height 几个值创建 Rect 也可以是由 Pygame 的对象所创建它们拥有一个属性叫 rect 任何需要
svn使用中出现的错误

svn虽然用过很多次但是还是会遇到很多问题因为有时候是为了使用而忽略了原因这次使用svn出了很多错误这里记录一下 1 注意 Tortoise SVN和eclipse SVN插件版本的匹配出现问题无法从仓库import 知道的有以
怎么在浏览器中获取请求头Headers信息

这里使用的是Chrome浏览器打开你想查询的网站按F12 或者鼠标右键一下选择检查会弹出如下的审查元素页面然后点击上方选项中的Network选项此时在按Ctrl R 选择下方框中的第一个单击选择Headers选项其中就会有R
最简单三级管振荡分析(自由多谐振荡器电路)

三极管震荡分析 1 电路自由多谐振荡器电路 2 分析摘抄于电子发烧友最简单三极管震荡电路 http m elecfans com article 640326 html 由上图可见这个电路是由两个非门反相器用电容C1 C2构成的
无需训练，自动扩展的视觉Transformer来了

来自德克萨斯大学奥斯汀分校悉尼科技大学和谷歌的研究者提出了一个无需训练就能自动扩展框架 As ViT 其能以高效和有原则的方式自动发现和扩展 ViT 当前 Vision Transformers ViT 领域有两个主要的痛点 1 缺少对
华为OD机试 - 污染水域（Java）

题目描述输入一行字符串字符串可转换为N N的数组数组可认为是一个水域判断多少天后水域被全部污染数组中只有0和1 0表示纯净 1表示污染每天只可污染上下左右的水域如果开始全部被污染或永远无法污染则返回 1 输入描述无输
顺序表算法：将2个有序顺序表合成一个有序的顺序表

顺序表算法设顺序表 A 元素的个数是 n 没有重复如果 A 中前 k 个元素有序后 n k 个元素有序设计一个算法使得整个顺序表有序要求算法的空间复杂度为 O 1 solution 由于题目要求空间复杂度为O 1 所以不能另外
爬取微信好友的部分资料，并将所有人的个性签名制成词云图，哈哈~~~~

import itchat itchat login friends itchat get friends update True 0 male female other 0 for i in friends 1 sex i Sex if
Linux云计算-02_CentOS Linux 7.X系统管理

Linux系统安装完毕需要对Linux系统进行管理和维护让Linux服务器能真正应用于企业中本章介绍Linux系统32位与64位区别内核命名规则引导原理启动流程 TCP IP协议概述 IP地址及网络知识 CentOS 7密码重置
Windows libreOffice develpemet 搭建

2020 7 10 Personal 7 1 参考 https wiki documentfoundation org Development lode https wiki documentfoundation org Developme
使用 java 命令编译运行 java 程序

java 编译的过程就是将 java 项目从源文件变成 class 文件的过程而 class 文件最后会被加载到JVM 中运行在 JDK bin 目录下提供了 javac 命令用于将 java 源文件编译成 class 字节码文
贤者之路，Cuda block内部矩阵求逆，mxm矩阵复杂度为O(m)

在做线性变换上经常要用到NXN的矩阵求逆在CUDA用的是高斯消元比较适合并行计算下面是3X3Cuda实现矩阵求逆的Device函数也就是说可以直接写到你的kernel函数上去当然也可以是任何NXN矩阵另外时间上测试过6X6的矩阵
解读YOLO v7的代码(三)损失函数

在前两篇博客中我分析了YOLO v7的模型结构以及训练数据的准备这里将对损失函数的代码进行分析在train py中我们可以看到以下的代码是进行损失值计算的 if loss ota not in hyp or hyp loss ota
集成电路模拟版图入门-版图基础学习笔记（一）

IC模拟版图设计了解版图版图的定义版图是在掩膜制造产品上实现电路功能且满足电路功耗性能等从版图上减少工艺制造对电路的偏差提高芯片的精准性版图的意义 1 集成电路掩膜版图设计师实现集成电路制造所必不可少的设计环节它不仅关系到
爬虫确定分页

直接能确定分页数的直接根据分页num构造导航栏目主页不能直接确定分页数需要通过下一页来确定最后一页这边主要介绍第二类如果下一页还存在放进分页列表就不是最后一页如果不存在就是最后一页 import requests import

爬虫确定分页

这边主要介绍第二类如果下一页还存在，放进分页列表、就不是最后一页，如果不存在就是最后一页

爬虫确定分页 的相关文章

随机推荐

热门标签

爬虫确定分页的相关文章