在 Python 中使用 Selenium 进行导航并使用 BeautifulSoup 进行抓取

2024-04-21

好的，这就是我想要实现的目标：

调用带有动态过滤搜索结果列表的 URL
点击第一个搜索结果（5/页）
抓取标题、段落和图像，并将它们作为 json 对象存储在单独的文件中，例如

{
"Title": "单个条目的标题元素",
"Content" : "各个条目的 DOM 顺序中的段落和图像"
}
导航回搜索结果概述页面并重复步骤 2 - 3
抓取 5/5 结果后，转到下一页（单击分页链接）
重复步骤 2 - 5，直到没有留下任何条目

To visualize once more what is intedned:

到目前为止我所拥有的是：

#import libraries
from selenium import webdriver
from bs4 import BeautfifulSoup

#URL
url = "https://URL.com"

#Create a browser session
driver = webdriver.Chrome("PATH TO chromedriver.exe")
driver.implicitly_wait(30)
driver.get(url)

#click consent btn on destination URL ( overlays rest of the content )
python_consentButton = driver.find_element_by_id('acceptAllCookies')
python_consentButton.click() #click cookie consent btn

#Seleium hands the page source to Beautiful Soup
soup_results_overview = BeautifulSoup(driver.page_source, 'lxml')


for link in soup_results_overview.findAll("a", class_="searchResults__detail"):

  #Selenium visits each Search Result Page
  searchResult = driver.find_element_by_class_name('searchResults__detail')
  searchResult.click() #click Search Result

  #Ask Selenium to go back to the search results overview page
  driver.back()

#Tell Selenium to click paginate "next" link 
#probably needs to be in a sourounding for loop?
paginate = driver.find_element_by_class_name('pagination-link-next')
paginate.click() #click paginate next

driver.quit()

Problem
每次 Selenium 导航回搜索结果概述页面时，列表计数都会重置所以它点击第一个条目 5 次，导航到接下来的 5 个项目并停止

这可能是递归方法的预定情况，但不确定。

任何有关如何解决此问题的建议都将受到赞赏。

您只能使用requests and BeautifulSoup刮，不含硒。它会更快并且消耗更少的资源：

import json
import requests
from bs4 import BeautifulSoup

# Get 1000 results
params = {"$filter": "TemplateName eq 'Application Article'", "$orderby": "ArticleDate desc", "$top": "1000",
          "$inlinecount": "allpages", }
response = requests.get("https://www.cst.com/odata/Articles", params=params).json()

# iterate 1000 results
articles = response["value"]
for article in articles:
    article_json = {}
    article_content = []

    # title of article
    article_title = article["Title"]
    # article url
    article_url = str(article["Url"]).split("|")[1]
    print(article_title)

    # request article page and parse it
    article_page = requests.get(article_url).text
    page = BeautifulSoup(article_page, "html.parser")

    # get header
    header = page.select_one("h1.head--bordered").text
    article_json["Title"] = str(header).strip()
    # get body content with images links and descriptions
    content = page.select("section.content p, section.content img, section.content span.imageDescription, "
                          "section.content  em")
    # collect content to json format
    for x in content:
        if x.name == "img":
            article_content.append("https://cst.com/solutions/article/" + x.attrs["src"])
        else:
            article_content.append(x.text)

    article_json["Content"] = article_content

    # write to json file
    with open(f"{article_json['Title']}.json", 'w') as to_json_file:
         to_json_file.write(json.dumps(article_json))

  print("the end")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

Dynamic

beautifulsoup

pagination

在 Python 中使用 Selenium 进行导航并使用 BeautifulSoup 进行抓取的相关文章

使用Python Selenium访问网页上的表对象

一段时间以来我尝试从网页中提取下表我正在尝试进入网站上不同页面的 tr 对象 1 8 我设法存储并打开页面并希望循环遍历表 tbody 其中包含 tr 对象表示我想要访问的信息行然而当运行以下代码时我只获得所有 8 个页面中的
为一列中的多行生成不同的随机数

我得到了一列带有整数值 n 行的列我想生成满足特定条件的值的正态分布范围内的随机数我尝试使用下面的代码但它们太慢了 df members bd df members bd apply lambda x np random norma
按位置对 MultiIndex pandas DataFrame 进行切片

我目前正在尝试按位置对具有三个级别的多索引数据帧进行切片我正在使用熊猫 19 1 Level0 Level1 Level2 Value 03 00368 A Item111 6 9 03 00368 A Item333 19 2 03 0
如何提取图像中的表格

我想从图像中提取表格这个 python 模块https pypi org project ExtractTable https pypi org project ExtractTable 与他们的网站https www extractta
使用 Pyinstaller 制作 exe 文件时出现问题（使用 tkinter 和 Custom tkinter 制作的文件）

我正在尝试使用 tkinter 和自定义 tkinter 制作一个用于数据输入的小型应用程序代码在 python 中运行良好我使用它制作了 exe 文件 pyinstaller onefile noconsole try45 py 但在
python 使用 shapefile 掩码 netcdf 数据

我正在使用以下软件包 import pandas as pd import numpy as np import xarray as xr import geopandas as gpd 我有以下存储数据的对象 print precip d
如何访问 pytest 夹具中的所有标记？

我正在使用 pytest 我想用标记来标记我的测试这些标记将指定固定装置要在驱动程序中加载哪个页面这可以轻松地与行为上下文对象一起使用但我找不到如何使用 pytest 来做到这一点以这段代码为例 import pytest pyte
Snakemake - 无法从输出文件中确定输入文件中的通配符

我对snakemake很陌生而且对python也不太熟悉所以抱歉这可能是一个非常基本的愚蠢问题我目前正在构建一个管道来分析一组 bamfilesatlas https bitbucket org phaentu atlas wiki
如何设置 1dCNN+LSTM 网络（Keras）的输入形状？

我有以下想法要实施 Input gt CNN gt LSTM gt Dense gt Output 输入有 100 个时间步长每个步长有一个 64 维特征向量 A Conv1D层将在每个时间步提取特征 CNN 层包含 64 个滤波器每个
当用户点击无框架 pygame 窗口时如何移动它？

我想创建一个没有框架的 pygame 窗口当用户单击它并移动鼠标时该窗口会移动我尝试了这个脚本但是当我单击窗口时打印 0 而不是 1 我的脚本有问题 coding utf 8 import pygame from pygame lo
是否可以使用 Ruby 或 Python 发出禁用锚点/引用的有效 YAML？

是否可以禁用创建锚点和引用并有效地显式列出冗余数据 PyYAML或者红宝石的Psych引擎也许我在网上搜索时错过了一些东西但似乎可用的选项并不多Psych我无法确定是否PyYAML也允许这样做理由是我必须序列化一些数据并以可读的形式
有没有办法隐藏所有子图的轴？

我试图并排绘制两个图像没有任何像网格线和轴这样的垃圾我发现你可以关闭所有网格线plt rcParams axes grid False 但无法弄清楚轴是否有类似的选项我知道你可以使用plt axis off 但随后您必须为每个子图单独
Python 字典组并对多个值求和[重复]

这个问题在这里已经有答案了我在字典格式列表中有一组数据如下所示 data name A tea 5 coffee 6 name A tea 2 coffee 3 name B tea 7 coffee 1 name B tea 9 co
屏幕截图中低分辨率文本的 OCR

我正在编写一个 OCR 应用程序来从屏幕截图图像中读取字符目前我只关注数字我的方法部分基于这篇博文 http blog damiles com 2008 11 basic ocr in opencv http blog damiles
如何在Python中打印带下划线的内容？

print hello 输出应该是单词 hello 但有下划线您可以通过使用转义字符来做到这一点 print 033 4mhello 033 0m
使用Python有没有一种方法可以在mongodb中进行插入或更新时监听更改

我正在构建一个小型系统它从 mongodb 集合中抛出数据它已经工作正常但每次进行更改时我都必须重新启动它我已经有一个监视器可以检测更改并自动重新启动服务器但我想对 mongodb 更改执行类似的操作我当前使用 CentOs 5
如何在节标题和段落之间添加额外的空格

我希望标题和段落之间以及段落之间有更多的空间我不希望这是一个全局设置但我想在需要的地方和时间使用它感谢任何建议您可以在行首使用竖线在输出中生成空行像这样 Heading Paragraph with text
安装轮子后安装后脚本

Using from setuptools command install import install 如果我运行我可以轻松运行自定义安装后脚本python setup py install 这是相当微不足道 https stackov
Python：“取消导入”、“重新导入”、“重置导入”？

我调试在 PyCharm 中一个脚本我在断点处停止然后转到调试控制台窗口然后从那里调用导入行如下所示 import my util1 from my utils 然后我调用 my util1 到目前为止一切都还好然后我更改
python - lxml：强制执行属性的特定顺序

我有一个 XML 编写脚本可以为特定的第 3 方工具输出 XML 我使用原始 XML 作为模板来确保构建所有正确的元素但最终的 XML 看起来与原始的不同我以相同的顺序编写属性但 lxml 按自己的顺序编写它们我不确定但我怀疑第

随机推荐

sql server中的小数点四舍五入

SQL Server 2008 是否可以向下舍入例如 96855四舍五入为 968 IE 最多 0 96899 我想通过避免休息来舍入 0 96899 SELECT round 0 96855 3 1 gt 0 96800 对于 0 96
经典的 asp/asp.net 网站 - global.asa 不工作

最近我得到了一个用经典 ASP 编写的网站来配置和设置尽管它似乎也有用 ASP NET 编写的页面我目前遇到的问题是它似乎没有从 global asa 文件中获取设置例如 Application ConnectionString 当我
Bash 颜色可变输出

我有一个变量比方说 x它的值是website com 我希望能够调用该变量并向其应用外壳颜色如下所示 echo e 033 1 32m x 033 0m 问题不在于颜色而在于脚本解释输出的方式所以我得到的输出是 x 我需要输出显然是
等待 Swift 中的异步操作完成

我不知道如何处理这种情况因为我对 iOS 开发和 Swift 非常陌生我正在像这样执行数据获取 func application application UIApplication performFetchWithCompletionH
升级到 AnonymousTraversalSource (Gremlin 3.3.5+ Node.js)

我正在 Lambda Nodejs12 x 中编写代码我想更新到未弃用的连接方式 const gremlin require gremlin const DriverRemoteConnection gremlin driver Driv
Android - 在 AsyncTask 中执行后

我目前有一个asyncTask在预执行时启动一个加载栏在后台向服务器发送一些内容在执行后关闭对话框并启用一个按钮但是由于 doInBackground 返回 null 我的后执行未执行我试图弄清楚我能做些什么来让 postExec
如何使用 python_dateutil 1.5 'parse' 函数来处理 unicode？

我需要 Python dateutil 1 5parse http labix org python dateutil head a23e8ae0a661d77b89dfb3476f85b26f0b30349c使用 Unicode 月份名称
使用 Java 将包含 XML 的字符串添加到 SOAPElement

我必须将 Excel 文件中的数据作为 XML 发送到 Web 服务表中的数据看起来有点像这样请参阅此处的表格示例 https i stack imgur com NEOTi png 第一行始终包含该列数据的 XML 标记大多数数据列
从intellij-idea将代码样式格式化设置导入到eclipse中

我最近实现了将 maven Check 样式插入到我的项目中并更改了 intellij 我使用的中的所有格式化程序设置以符合此样式指南他们现在这样做不过我需要为 eclipse 生成一个设置 xml 文件以便我的同事可以自动格
ld：警告：__DATA/__objc_imageinfo__DATA 节的大小意外地大

有谁知道这个警告是什么意思接下来是错误 Command Developer Platforms iPhoneSimulator platform Developer usr bin llvm gcc 4 2 failed with exi
如何在嵌入式Linux中高效地在VFAT分区上创建大文件

我正在尝试在嵌入式 Linux 盒子中使用 dd 命令在 VFAT 分区上创建一个大的空文件 dd if dev zero of mnt flash file bs 1M count 1 seek 1023 目的是跳过前 1023 个块并在
Nginx no-www 到 www 以及 www 到 no-www

我在用按照教程在 Rackspace 云上安装 nginx http www howtoforge com running phpmyadmin on nginx lemp on debian squeeze ubuntu 11 04并在网
无法使用 Leiningen 构建 jar

我正在尝试使用 Intellij 的 Cursive 中的 Leiningen 插件从我的基本 Clojure 项目中制作一个独立的 jar 为了创建项目我刚刚创建了 project clj 文件将其打开 Cursive 提出将其导入为
Heroku SSL 与 Route53

我的 SSL 证书已全部设置完毕并准备好在 Heroku 上运行我按照这里的说明进行操作https devcenter heroku com articles route 53 https devcenter heroku com art
Python 子进程调用不能采用 grep [重复]

这个问题在这里已经有答案了 Python 子进程调用应该按原样作为命令运行但如果其中有管道它就会抱怨这是我的代码 usr bin python import sys import subprocess import time serv
如何在预构建步骤中转义美元符号

我正在与 Visual Studio 进行斗争以在预构建步骤中正确转义美元符号目标是提供一个变量名作为文字 VS 不应该尝试处理变量名 The 文档 https msdn microsoft com en us library bb38
Angular 子路由不起作用并将我重定向到同一页面

我尝试过改变我的route到目前为止我没有发现任何问题但是如果您发现任何缺陷请告诉我我也会尝试查找任何类型错误并仔细检查我的组件到目前为止我还没有找到但请再次告诉我我尝试输入我的路线 URL 它可以工作但显示的是相同的页面
使用 Jackson JsonFormat 模式自定义日期字符串

Summary 我正在尝试解析日期例如25 Sep 17因此简单日期格式 https docs oracle com javase 8 docs api java text SimpleDateFormat html注释似乎是 JsonF
将标头附加到 Rspec 控制器测试

我正在尝试为我的控制器编写测试该控制器接收来自外部服务的请求到目前为止这是我的测试 describe ApplyController do context when valid do let parameters do file Fi
在 Python 中使用 Selenium 进行导航并使用 BeautifulSoup 进行抓取

好的这就是我想要实现的目标调用带有动态过滤搜索结果列表的 URL 点击第一个搜索结果 5 页抓取标题段落和图像并将它们作为 json 对象存储在单独的文件中例如 Title 单个条目的标题元素 Content 各个条目的 DOM

在 Python 中使用 Selenium 进行导航并使用 BeautifulSoup 进行抓取

在 Python 中使用 Selenium 进行导航并使用 BeautifulSoup 进行抓取 的相关文章

随机推荐

热门标签

在 Python 中使用 Selenium 进行导航并使用 BeautifulSoup 进行抓取的相关文章