使用 BeautifulSoup 和 Selenium 抓取网站多个网页的内容

2024-01-20

我要废弃的网站是：

http://www.mouthshut.com/mobile-operators/Reliance-Jio-reviews-925812061 http://www.mouthshut.com/mobile-operators/Reliance-Jio-reviews-925812061

我想获取上面链接的最后页码以继续进行，在截图时为 499。

我的代码：

   from bs4 import BeautifulSoup 
   from urllib.request import urlopen as uReq
   from selenium import webdriver;import time
   from selenium.webdriver.common.by import By
   from selenium.webdriver.support.ui import WebDriverWait
   from selenium.webdriver.support import expected_conditions as EC
   from selenium.webdriver.common.desired_capabilities import         DesiredCapabilities

   firefox_capabilities = DesiredCapabilities.FIREFOX
   firefox_capabilities['marionette'] = True
   firefox_capabilities['binary'] = '/etc/firefox'

   driver = webdriver.Firefox(capabilities=firefox_capabilities)
   url = "http://www.mouthshut.com/mobile-operators/Reliance-Jio-reviews-925812061"

   driver.get(url)
   wait = WebDriverWait(driver, 10)
   soup=BeautifulSoup(driver.page_source,"lxml")
   containers = soup.findAll("ul",{"class":"pages table"})
   containers[0] = soup.findAll("li")
   li_len = len(containers[0])
   for item in soup.find("ul",{"class":"pages table"}) : 
   li_text = item.select("li")[li_len].text
   print("li_text : {}\n".format(li_text))
   driver.quit()

我需要帮助来找出代码中获取最后页码的错误。另外，如果有人给出相同的替代解决方案并提出实现我的意图的方法，我将不胜感激。

如果您想获取上述链接的最后页码以继续操作，即499你可以使用Selenium or Beautifulsoup如下：

硒：

from selenium import webdriver

driver = webdriver.Firefox(executable_path=r'C:\Utility\BrowserDrivers\geckodriver.exe')
url = "http://www.mouthshut.com/mobile-operators/Reliance-Jio-reviews-925812061"
driver.get(url)
element = driver.find_element_by_xpath("//div[@class='row pagination']//p/span[contains(.,'Reviews on Reliance Jio')]")
driver.execute_script("return arguments[0].scrollIntoView(true);", element)
print(driver.find_element_by_xpath("//ul[@class='pagination table']/li/ul[@class='pages table']//li[last()]/a").get_attribute("innerHTML"))
driver.quit()

控制台输出：

美丽汤：

import bs4
from bs4 import BeautifulSoup as soup
from urllib.request import urlopen as uReq

url = "http://www.mouthshut.com/mobile-operators/Reliance-Jio-reviews-925812061"
uClient = uReq(url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "html.parser")
container = page_soup.find("ul",{"class":"pages table"})
all_li = container.findAll("li")
last_div = None
for last_div in all_li:pass
if last_div:
    content = last_div.getText()
    print(content)

控制台输出：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

seleniumwebdriver

beautifulsoup

screenscraping

使用 BeautifulSoup 和 Selenium 抓取网站多个网页的内容的相关文章

sy.sympify(str(表达式)) 不等于表达式

据我了解 str将 SymPy 表达式转换为字符串并sympify将字符串转换为 SymPy 表达式因此我希望以下内容成立对于合理的表达 gt gt gt sy sympify str expr expr True 我尝试过这个确实
计算熊猫数据帧几个月的总和

我有一个 pandas 数据框如下所示 ID Year R1 R1 f KAR1 20201001 1 5 KAR1 20201101 2 6 KAR1 20201201 3 7 KAR1 20210101 4 8 KAR1 202102
Python 中 time.sleep 和多线程的问题

我对 python 中的 time sleep 函数有疑问我正在运行一个脚本需要等待另一个程序生成 txt 文件虽然这是一台非常旧的机器所以当我休眠 python 脚本时我遇到了其他程序不生成文件的问题除了使用 time sl
当我从本地计算机更改为虚拟主机时，从 python 脚本调用 pdftotext 不起作用

我编写了一个小的 python 脚本来解析提取 PDF 中的信息我在本地机器上测试了它我有 python 2 6 2 和 pdftotext 版本 0 12 4 我正在尝试在我的虚拟主机服务器 dreamhost 上运行它它有 py
烧瓶 - 404 未找到

我是烧瓶开发的新手这是我在烧瓶中的第一个程序但它向我显示了这个错误在服务器上找不到请求的 URL 如果您输入了网址请手动检查拼写并重试这是我的代码 from flask import Flask app Flask name ap
dask apply：AttributeError：“DataFrame”对象没有属性“name”

我有一个参数数据框并对每一行应用一个函数该函数本质上是几个 sql queries 和对结果的简单计算我正在尝试利用 Dask 的多处理同时保持结构和界面下面的例子有效并且确实有显着的提升 def get metrics row
Pandas如何按时间段过滤DataFrame

我有一个包含下表的文件 Name AvailableDate totalRemaining 0 X3321 2018 03 14 13 00 00 200 1 X3321 2018 03 14 14 00 00 200 2 X3321 20
打印一份拥有多个家庭的人员名单，每个家庭都有多个电话号码

我有一类 Person 它可以有多个 Home 每个 Home 都有一个或多个电话号码我已经定义了类但现在我正在尝试创建一个视图其中列出每个人的所有家庭以及每个家庭地址的所有电话号码类似于 john smith 123 fake s
如何处理 Tkinter 中的窗口关闭事件？

如何在 Python Tkinter 程序中处理窗口关闭事件用户单击 X 按钮 Tkinter 支持一种称为协议处理程序 http web archive org web 20201111215134 http effbot org tk
无法将matplotlib安装到pycharm

我最近开始使用Python速成课程学习Python编程我陷入困境因为我无法让 matplotlib 在 pycharm 中工作我已经安装了pip 我已经通过命令提示符使用 pip 安装了 matplotlib 现在当我打开 pych
异步异常处理程序：在事件循环线程停止之前不会被调用

我正在我的异步事件循环上设置异常处理程序但是在事件循环线程停止之前它似乎不会被调用例如考虑以下代码 def exception handler loop context print Exception handler called
RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 目录 'app/static' 不存在

当我运行 server py 文件时出现错误 File C Users nawin AppData Local Programs Python Python38 lib site packages starlette staticfiles
有没有办法拉伸整个显示图像以适应给定的分辨率？

我最近一直在使用pygame制作游戏遇到了一个小问题基本上我希望能够将屏幕上的整个图像我已经传输到它的所有内容拉伸到用户将窗口大小调整到的分辨率我在 pygame 和堆栈溢出的文档中搜索了很多但我似乎找不到答案这可能吗我的
重定向 python 交互式帮助()

我正在为使用 Qt 的应用程序开发交互式 python shell 但是我似乎无法获得重定向的交互式帮助我的 python 代码中有这个 class OutputCatcher def init self self data def wr
通过新数据更新绘图，而不是在 Jupyter 笔记本中制作新绘图

我有一些问题希望你能帮我解决我需要使用下拉小部件创建交互式绘图我可以在其中选择并绘制感兴趣的数据我通过以下方式做到这一点 import plotly graph objects as go import ipywidgets as
Python RE（总之检查第一个字母是否区分大小写，其余部分不区分大小写）

在下面的情况下我想匹配字符串 Singapore 其中 S 应始终为大写其余单词可能为小写或大写但在下面的字符串 s 是小写的它在搜索条件中匹配任何人都可以让我知道如何实施吗 import re st Information in
使用 Numpy 进行多维批量图像卷积

在图像处理和分类网络中一个常见的任务是输入图像与一些固定滤波器的卷积或互相关例如在卷积神经网络 CNN 中这是一种极其常见的操作我已将通用版本任务减少为 Given 一批 N 个图像 N H W D 和一组 K 个滤镜 K H W
为什么我的 PyGame 应用程序根本不运行？

我有一个简单的 Pygame 程序 usr bin env python import pygame from pygame locals import pygame init win pygame display set mode 400
在 python 中使用高精度时间戳

嘿我正在使用 python 处理日期时间我想知道解析这个时间戳的最佳方法是什么时间戳是ISO标准这里是一个例子 2010 06 19T08 17 14 078685237Z 现在到目前为止我已经使用过 time datetime d
防止 Ada DLL 中的名称损坏

有没有一种简单的方法可以防止在创建 Ada DLL 时 Ada 名称被破坏这是我的 adb 代码 with Ada Text IO package body testDLL is procedure Print Call is begin

随机推荐

使用 C# 编码波斯语字符串

我正在开发一个短信应用程序使用C 对于通过 SMS 网关向客户发送交易警报即 ATM 交易的银行该应用程序工作正常唯一的问题是编码波斯语文本它没有正确编码波斯语文本以下是将波斯语文本编码为 UTF 16 格式的方法 publi
如何从 .pb 转换为 .tflite？

我使用创建了一个对象检测模型Pytorch然后转换自 pth to onnx进而 pb 但现在我需要将其转换为 tflite适用于 Android 应用程序怎么做这是我第一次 input arrays 64 3 224 224 outp
编译Linux内核错误xt_CONNMARK.h

由于非常具体的原因我尝试编译 Linux 2 6 32 6 内核并在内核中内置了多个模块我已将根文件系统包含在 NFS 上以尝试通过 LAN PXE 启动我自己的自定义救援 Live CD 在包含 ROOT NFS 所需的依赖项和模
是否可以在不编写新文件的情况下将文本合成语音？

我想使用 GCP 文本到语音 API 合成文本到语音几乎我能找到的每个示例都会写入一个新文件我想在该函数输入文本并通过计算机扬声器读取它时执行此操作我一直在尝试转换 GCP 上传的代码表示你好世界我还没有找到一种方法可以在转换
将 SelectSingleNode 与 XPath 结合使用会返回 NULL

我尝试修改 XML 文件SelectSingleNode 文件的结构是
Rails 安装错误：“原子”本机 gem 需要安装构建工具[重复]

这个问题在这里已经有答案了我正在我的 Windows 上安装 Rails 3 我安装了最新的 ruby 2 0 0 并更新了 gems 但是当我使用 gem install Rails 安装 Rails 时成功的消息来了但最后我发现
自定义字体连字

我正在使用 Visual Studio Code 我看到所有这些很酷的字体连字用于双等号和三等号箭头等我不禁想知道是否有任何方法可以向字体或 VS Code 添加新的自定义连字我尝试进行一些网络搜索但似乎找不到任何内容例如当我
Ansible 内置 Lineinfile 到 ~/.bashrc

我对 ansible 比较陌生所以如果这个问题遗漏了一些东西我很抱歉我的目标是添加一行 bashrc使用 ansible 文件我认为最好的方法是ansible builtin lineinfile module 不幸的是我已经运行
AttributeError：无法设置 python 列表属性的属性

我正在与python docx来自分叉的库version https pypi org project bayoo docx 并且我在编辑元素列表时遇到问题因为它被定义为属性 docx document Document property
我什么时候应该使用 Rosette 的浅嵌入与深嵌入进行程序综合？

一些教程Rosette https docs racket lang org rosette guide index html引入程序综合使用浅嵌入 https docs racket lang org rosette guide ch e
无法使用无头模式 Selenium 定位元素

由于所有用户在访问我们的网站时必须使用谷歌浏览器这一限制我无法使用无头模式定位元素此限制是由我们的管理员添加的因此用户只能使用 Google Chrome 我的代码是 Test priority 1 public void set
套接字和管道的 select.select 问题

我目前正在编写一个使用管道和套接字的基本 python 脚本管道当前保存来自 html 表单的传入数据套接字建立与服务器的连接以不同的时间间隔发送 TCP IP 命令表单和服务器位于同一 LAN 但不同的计算机上我的代码如下 us
MaterialiseCSS 卡片设计

我正在尝试使用 Materializecss com 在我的个人网站中调整 Material Design 但是该框架仅提供在 CARD 设计之上排除其他图像的选项我想实现如下链接第 2 行第 2 列最后一张图片中所示的目标其中
当列表初始化为空时使用 ngFor 创建 mat-option 元素

当我在能力 mat select 中选择一项技能时我想更新专业化 mat select 中的值我使用以下命令将我的 var 与模型链接起来 ngModel 但它不会更新列表我尝试使用 ngModel 角度和材质为 7 HTML
使用 Keen IO 创建给定时间段内会话长度的直方图

我们正在尝试构建给定时间段内会话长度的直方图目前我们有 sess start 和 sess end 事件其中包含会话 id 和用户 id 我想知道计算这些数据的最佳方法是什么可以使用漏斗 API 来实现吗你结帐了吗Keen IO
Wolkenkit：用于授权和用户角色的 ACL

我试图了解如何扩展 wolkenkit auth 层假设我想要具有不同角色的用户普通主持人和管理员 normal用户可以查看和修改自己的内容但不允许修改其他用户的内容主持人用户可以修改所有条目但无权删除除自己内容之外的任何内容
与所有其他给定点具有最小曼哈顿距离的所有点 [优化]

这里的问题是找到所有整数点的集合它给出了给定点集的所有曼哈顿距离的最小总和例如让我们有一组给定的点 P1 P2 P3 Pn 基本问题是找到一个点 X 该点在距点 P1 P2 P3 Pn 的所有距离上具有最小总和即 P1 X P2 X
从 WebBackForwardList 获取 WebView 历史记录

我如何使用 WebView 获取历史记录Web后退转发列表班级我看了看文档页 http developer android com reference android webkit WebBackForwardList html但我无法理
Htaccess 重写规则 - 如果没有尾部斜杠则不起作用

所以我有以下重写规则 RewriteRule a z0 9 php index php page 1 NC L QSA RewriteRule a zA Z0 9 index php shop 1 page index NC L QSA R
使用 BeautifulSoup 和 Selenium 抓取网站多个网页的内容

我要废弃的网站是 http www mouthshut com mobile operators Reliance Jio reviews 925812061 http www mouthshut com mobile operators

使用 BeautifulSoup 和 Selenium 抓取网站多个网页的内容

硒：

美丽汤：

使用 BeautifulSoup 和 Selenium 抓取网站多个网页的内容 的相关文章

随机推荐

热门标签

使用 BeautifulSoup 和 Selenium 抓取网站多个网页的内容的相关文章