使用 BeautifulSoup 和 Requests 抓取多个分页链接

2024-03-26

Python 初学者在这里。我正在尝试从以下位置抓取所有产品dabs.com 上的一个类别 http://www.dabs.com/category/computing/11001/。我已经设法抓取给定页面上的所有产品，但在迭代所有分页链接时遇到问题。

现在，我尝试使用 span class='page-list" 隔离所有分页按钮，但即使这样也不起作用。理想情况下，我想让爬虫继续单击下一步，直到它抓取了所有产品所有页面。我该怎么做？

非常感谢任何意见

from bs4 import BeautifulSoup

import requests

base_url = "http://www.dabs.com"
page_array = []

def get_pages():
    html = requests.get(base_url)
    soup = BeautifulSoup(html.content, "html.parser")

    page_list = soup.findAll('span', class="page-list")
    pages = page_list[0].findAll('a')

    for page in pages:
        page_array.append(page.get('href'))

def scrape_page(page):
    html = requests.get(base_url)
    soup = BeautifulSoup(html.content, "html.parser")
    Product_table = soup.findAll("table")
    Products = Product_table[0].findAll("tr")

    if len(soup.findAll('tr')) > 0:
        Products = Products[1:]

    for row in Products:
        cells = row.find_all('td')
        data = {
            'description' : cells[0].get_text(),
            'price' : cells[1].get_text()
        }
        print data

get_pages()
[scrape_page(base_url + page) for page in page_array]

他们的下一页按钮的标题为“下一页”，您可以执行以下操作：

import requests
from bs4 import BeautifulSoup as bs

url = 'www.dabs.com/category/computing/11001/'
base_url = 'http://www.dabs.com'

r = requests.get(url)

soup = bs(r.text)
elm = soup.find('a', {'title': 'Next'})

next_page_link = base_url + elm['href']

希望有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

forloop

webscraping

beautifulsoup

screenscraping

使用 BeautifulSoup 和 Requests 抓取多个分页链接的相关文章

每当我尝试在 VPS 上使用 Discord 机器人登录时，都会收到“SSL：Certificate_verify_failed”

我正在将我的机器人从旧的坏掉的笔记本电脑转移到合适的 VPS 我使用的是较旧的异步版本的 Discord py 0 16 0 因为我在重写之前很长时间就开始研究这个东西了而且我对 Linux 没有太多经验因此迁移到 Windows S
使用 python 将 bibtex 文件转换为 html （也许是 pybtex？）

您好我想解析 bibtex 出版物文件并对特定字段例如年份进行排序并过滤某些内容然后将其放在网站上我遇到了 pybtex 它可以读取和解析 bibtex 文件但它基本上没有记录我不知道如何对条目进行排序 pybtex 是可行的
回归模型 statsmodel python

这更多是一个统计问题因为代码运行良好但我正在学习 python 中的回归建模我在下面使用 statsmodel 编写了一些代码来创建一个简单的线性回归模型 import statsmodels api as sm import num
调整pandas read_sql_query NULL值处理？

当我做 from sqlalchemy import create engine import pandas as pd engine create engine sqlite conn engine connect conn execut
确定列的累积最大值

我正在尝试以下代码 df pd DataFrame 23 52 36 49 52 61 75 82 97 12 columns A B df C np where df A gt df C shift df A df C shift pri
使用 Numpy 与 einsum 和 tensordot 进行相同的操作

假设我有两个 3D 数组A and B形状的 3 4 N and 4 3 N 我可以计算沿第三轴的切片之间的点积 with einsum np eisum ikl kjl gt ijl A B 是否可以执行相同的操作numpy tensor
Dataframe unstack 性能 - pandas

我正在尝试拆开数据框它工作正常但问题是我正在处理 CSV 文件中的巨大数据集约 10 亿这是示例数据集 236539 48512569874 Name Danny 236539 48512569874 Class 12 236539
Groupby Sum 忽略几列

在此数据框中我想按位置进行分组并获得分数的总和但我不希望纬度经度和年份在此过程中受到影响 sample pd DataFrame Location A B C A B C Year 2001 2002 2003 200
django PermissionRequiredMixin Permission_required 不起作用

Views py class templateList PermissionRequiredMixin TemplateView permission required accounts template all def get self
使用字典时如何避免 KeyError？

现在我正在尝试编写汇编程序但我不断收到此错误 Traceback most recent call last File Users Douglas Documents NeWS py line 44 in if item in regis
使用 matplotlib 在 python3 中对多个形状进行动画处理

尝试在 python3 中使用 matplotlib 动画函数同时对多个对象进行动画处理下面写的代码是我到目前为止的位置我能够创建多个对象并将它们显示在图中我通过使用包含矩形补丁函数的 for 循环来完成此操作从这里开始我希望通过
在视图之间共享并在 AppConfig 中初始化的变量

我想要一个在应用程序启动时初始化的变量并且可以从视图访问该变量 my app my config py class WebConfig AppConfig name verbose name def ready self print lo
为什么Python安装程序不断弹出？

每当我尝试运行 Python 文件时都会自动弹出此窗口虽然我可以关闭它但有时它会连续打开 7 10 个窗口这令人恼火谁能告诉我为什么会发生这种情况 None
Python Sqlite3 获取 Sqlite 连接路径

给定一个 sqlite3 连接对象如何检索 sqlite3 文件的文件路径 The Python 连接对象 http github com python cpython blob master Modules sqlite connect
Django ImageField 默认值

模型 py class UserProfile models Model photo models ImageField upload to get upload file name storage OverwriteStorage def
从由空格分隔的单个输入整数列表创建二维数组

我正在解决一些问题geeksforgeeks我遇到了一个特定的问题其中在测试用例中提供了输入如下所示 2 2 denotes row column of the matrix 1 0 0 0 all the elements of th
如何从 Django 中的链接设置预定义的表单值？

我的项目是这样布局的 1 page has many categories 2 category belongs to page has many items 3 item belongs to category 当我进入一个页面时我想修
pandas - 组合行的字符串

我有一个像这样的数据框 id text 1 DM HTN Enlarged prostate 2 hypertensive and on regular treatment 2 LBP 3 DM HTN Enlarged prostate
Python 单元测试：Nose 失败时重试？

我有一个随机失败的测试我想让它在发送错误消息之前重试多次我将 python 与 Nose 一起使用我写了以下内容但不幸的是即使使用 try except 处理当第一次尝试测试失败时 Nose 也会返回错误 def test so
Django 多个外键，相同的相关名称

我想创建一个模型 1 其中具有相同其他模型 2 的多个外键我希望这些外键具有相同的related name因为每个外键将指向 model 2 的不同实例因为我需要所有外键的一个反向关系也许一个例子会更明确 class Parent M

随机推荐

Windows 上尝试 python 多处理时出现运行时错误

我正在 Windows 机器上使用线程和多处理来尝试我的第一个正式的 python 程序但我无法启动进程 Python 给出以下消息问题是我没有在main模块线程在类内的单独模块中处理 EDIT 顺便说一句这段代码在 ubuntu
无法使用 jQuery 委托滚动事件

我正在尝试使用 jQuery 在特定类别的元素上触发滚动事件如下所示 body on scroll overflow function do stuff 然而 do stuff永远不会发生我做了一些实验看起来好像滚动事件不能使用 on
禁用 select2 清除时打开下拉菜单

似乎 select2 4 在清除当前所选项目时默认打开下拉列表 select2 的早期版本似乎没有这种行为我正在尝试实现它但目前还没有运气有谁知道如何挂钩清除事件以便我们可以禁用它的默认行为并清除所选选项而不打开下拉列表干杯铝
了解 Objdump 中反汇编的二进制文件 - 输出中的字段是什么

当我使用命令 arm linux gnueabihf objdump d a out 反汇编一个简单的 ARM 二进制文件时得到以下输出 00008480 lt start gt 8480 f04f 0b00 mov w fp 0 848
返回具有 ModelState 错误的键列表

如何返回所有有错误的键的列表数组我尝试执行以下操作但它说由于某种原因我无法进行这种表达 ModelState ToList item gt item Value Errors Count gt 0 var errors from mo
小书签中的 XmlHttpRequest 在 GET 上返回空响应文本？

我正在尝试为我们构建的特殊 URL 缩短服务构建一个 javascript 书签http esv to http esv to用于缩短经文参考文献即马太福音 5 章变为 http esv to Mt5 http esv to Mt5
Django 多列唯一约束批量插入

假设我们有一个模型 from django db import models class Concept models Model a models CharField max length 255 b models CharField m
应该以什么顺序向绝对初学者解释 Python 概念？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
通过移动网络的 HTTP/2 浏览器请求一次往返有多少字节？

我正在开发一个网站目标是尽可能快这个目标需要让移动客户端发出初始 HTTP 请求one往返 HTTP 2 的 HPACK 应该处理同一页面的后续请求传统观点认为 14 KB 的压缩文件response与您对网页第一次往返的预期一样多
了解涉及用户定义转换的重载解析排名

我试图理解过载解析首先让我们考虑第一种情况 struct int1 int val operator int return val operator const int const return val void f int f 1 vo
我可以在 onExit 中停止到下一个状态的转换吗？

我有两个状态 A和B 当我通过单击关闭按钮退出状态 A 时我使用 state go 转换到屏幕 A 到状态 B 屏幕 B 当我通过单击屏幕 A 上的后退浏览器按钮退出状态 A 时随着浏览器 URL 的更改我会转换到状态 B 屏幕 B
Concourse 将文件添加到 docker 镜像一次

我正在使用 concourse 作为我们的构建系统 Concourse 会缓存 docker 镜像这样我们就不需要在后续运行中每次都经历下载过程我想将一个二进制文件添加到将从互联网提取的 docker 映像中但我只想在第一次由 con
以编程方式向表情符号添加肤色修改器

我在向应用程序中的表情符号添加肤色修改器时遇到一些问题例如如果我使用 let text 打印出来了但是对于其他表情符号则不起作用例如 let text 打印向表情符号添加肤色修改器的正确方法是什么仅当前面的字符是纯表情符号字符
命名空间“UnityEngine”中不存在类型或命名空间名称“UI”

我正在为初学者做一个小课程Unity 3D here https learn unity com project john lemon s haunted jaunt 3d beginner 从统一资产商店导入所有资产后如课程中所述我收
Azure 逻辑应用程序，解析 JSON，但可能为 null

我想根据以下类解析 json public class DerModel public string Name get set public string Email get set public class DriverPositiveR
通过单击行获取 HTML 表格单元格值

如何获取 HTML 表格中的 TD 值 i e ID cell 1 cell 2 1 aaaa a2a2a2 2 bbbb b2b2b2 3 cccc c2c2c2 所以现在如果我单击单元格值 bbbb 我想获取所选行的所有值 id 2 c
SFINAE 模板专业化优先级

include
在 Bootstrap 3 模式中使用 jQuery DatePicker

我想用jQuery UI 日期选择器在模态中真正的问题是如果我还想显示年份和月份它会显示空选择使用firebug 选项标签似乎位于模态下这是我的 HTML div class modal dialog div class moda
iPhone UIActionSheet 自动旋转不起作用

我读了很多相关内容人们说当其父级未设置为自动旋转时它不会自动旋转我尝试了一切但没有运气我创建了基于视图的应用程序 v4 2 并带有一个执行此操作的按钮 UIActionSheet actionSheet UIActionSheet
使用 BeautifulSoup 和 Requests 抓取多个分页链接

Python 初学者在这里我正在尝试从以下位置抓取所有产品dabs com 上的一个类别 http www dabs com category computing 11001 我已经设法抓取给定页面上的所有产品但在迭代所有分页链接时遇到

使用 BeautifulSoup 和 Requests 抓取多个分页链接

使用 BeautifulSoup 和 Requests 抓取多个分页链接 的相关文章

随机推荐

热门标签

使用 BeautifulSoup 和 Requests 抓取多个分页链接的相关文章