使用 Python BeautifulSoup 查找页数

2023-12-08

我想从 Steam 页面中提取总页码（本例中为 11）。我相信以下代码应该可以工作（返回 11），但它返回一个空列表。就像如果没有找到一样paged_items_paging_pagelink class.

import requests
import re
from bs4 import BeautifulSoup
r = requests.get('http://store.steampowered.com/tags/en-us/RPG/')
c = r.content
soup = BeautifulSoup(c, 'html.parser')


total_pages = soup.find_all("span",{"class":"paged_items_paging_pagelink"})[-1].text

如果你检查页面来源，你想要的内容是不可用的。这意味着它是通过Javascript动态生成的。

页码位于<span id="NewReleases_links">标签，但在页面源代码中 HTML 仅显示以下内容：

<span id="NewReleases_links"></span>

处理这个问题最简单的方法是使用Selenium.

但是，如果你查看页面源代码，就会发现文本Showing 1-20 of 213 results可用。因此，您可以抓取它并计算页数。

所需的 HTML：

<div class="paged_items_paging_summary ellipsis">
    Showing 
    <span id="NewReleases_start">1</span>
    -
    <span id="NewReleases_end">20</span> 
    of 
    <span id="NewReleases_total">213</span> 
    results         
</div>

Code:

import requests
from bs4 import BeautifulSoup

r = requests.get('http://store.steampowered.com/tags/en-us/RPG/')
soup = BeautifulSoup(r.text, 'lxml')

def get_pages_no(soup):
    total_items = int(soup.find('span', id='NewReleases_total').text)
    items_per_page = int(soup.find('span', id='NewReleases_end').text)
    return round(total_items/items_per_page)

print(get_pages_no(soup))
# prints 11

（注意：我仍然建议使用 Selenium，因为该网站的大部分内容都是动态生成的。像这样抓取所有数据会很痛苦。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

beautifulsoup

使用 Python BeautifulSoup 查找页数的相关文章

如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
如何获取Python对象父级？

所以我试图获取自定义对象内部的对象这是一个例子假设 o 是一个对象无论是什么类型它都可以存储变量 o Object class Test def init self self parent o This is where I
将 c++ 异常传播到 cython - python 异常

我的 Cython 0 17 1 有问题我的函数抛出一个std runtime error如果文件不存在我想以某种方式将此异常传播到我的 Cython 代码 void loadFile const string filename som
反转 Python 整数的位

给定一个十进制整数例如 65 如何反转 Python 中的底层位即以下操作 65 01000001 10000010 130 看来这个任务可以分为三步将十进制整数转换为二进制表示形式反转位转换回十进制第 2 步和第 3 步看起来
如何将多个 Excel 工作表转换为 csv python

我想转换所有的excel文档 xls 将工作表转换为 csv 如果 excel 文档只有一张工作表那么我将进行如下转换 wb open workbook path1 sh wb sheet by name Sheet1 csv file
如何将魔杖图像对象转换为 numpy 数组（不使用 OpenCV）？

我正在使用将 pdf 文件转换为图像Wand http docs wand py org en 0 4 4 然后我使用 ndimage 进行进一步的图像处理我想直接将 Wand 图像转换为 ndarray 我已经看到答案here htt
xlwt 可以在单元格中创建一个包含标题和链接变量的超链接吗？

例如如何更改以下行使 test 为变量 T 且 http google com http google com 是变量L ws write 0 0 xlwt Formula test HYPERLINK http google com
将 Django 的 FileField 设置为现有文件

我在磁盘上有一个现有文件例如 folder file txt 在 Django 中有一个 FileField 模型字段当我做 instance field File file folder file txt instance save
增加 sigmoid 预测输出值？

我创建了一个用于文本分类的 Conv1D 模型当在最后一个密集处使用 softmax sigmoid 时它产生的结果为 softmax gt 0 98502016 0 0149798 sigmoid gt 0 03902826 0 00
谷歌colab录音，如何实现更精确的方式告诉用户开始对着麦克风说话

我正在尝试创建一个为机器学习项目录制音频的程序我想使用 google colab 这样人们就不必在他们的系统上安装或运行任何东西我在网上找到了这个录制和播放音频的示例单元格 1 包含用于录制音频的 js 代码和用于将其转换为字节对象的
如何通过不规则索引获取子张量？

我想通过不规则索引获得子张量这是我的问题 Input tensor 2x8x10x1 Batch x Height x Width x Channel index Height 0 1 4 5 index Width 0 1 4 5 8
numpy 相关系数错误 - RuntimeWarning：true_divide 中遇到无效值

当我尝试查找数据系列之间的相关性时出现以下错误 gt gt gt i 1 1 1 gt gt gt j 2 2 2 gt gt gt import numpy as np gt gt gt np corrcoef i j usr loca
Django Rest框架Json解析

我想解析传入的POSTdjangoviews py 文件中的数据发布数据 number 17386372 data banana apple grapes 这是我尝试读取上述传入数据的方法request views py class Fr
df.style.apply 在显示中居中显示多索引值

当我跑步时 import pandas as pd from IPython display import display df pd DataFrame a index pd MultiIndex from product 0 1 3 c
如何将 bisect.insort_left 与键一起使用？

文档缺少示例你如何使用bisect insort left 基于密钥尝试根据键插入 bisect insort left data brown 7 将插入放在data 0 从文档 bisect insort left a x lo 0
通过 RSelenium 单击按钮

我正在尝试使用 Rselarium 和 Rvest 来抓取 REI 的评论吊床我想点击底部的按钮 x 次这样我就可以抓取所有评论我有点失落这是我到目前为止所拥有的如果您也知道如何在取景器中预览您正在做的事情而不是屏幕打印那就
无法使用python和beautifulsoup抓取网页中的某些href

我目前正在使用 Python 3 4 和 bs4 爬取网页以收集塞尔维亚在里约 2016 年的比赛结果所以网址here http rio2016 fivb com en volleyball women teams srb serbia
带有远程解释器的 Python 控制台无法在 PyCharm 中接受输入

我是使用 PyCharm 进行远程开发的新手我设置了一个远程环境除了一个例外之外它工作正常无法在控制台中接受用户输入在控制台中运行以下语句时控制台被阻塞提示上一个命令仍在运行请等待或按控制台中的 Control C 来中断
XGBoostError：[10：10：03] /workspace/src/tree/updater_gpu_hist.cu：1407：gpu_hist 中的异常：NCCL 失败

PROJECT Nvidia 开发者项目 https developer nvidia com blog gradient boosting decision trees xgboost cuda 在 Google Colab 环境中 MY
gis计算点和多边形/边界之间的距离

我想使用 python 计算一个点到一个国家边界之间的距离shapely 它应该工作得很好 point distance poly 例如在这里展示查找多边形形状上最近点的坐标 https stackoverflow com question

随机推荐

列表属性的空集合初始值设定项会导致 null

When I 运行这段代码它不初始化ThisIsAList正如我所期待的那样到一个空集合而不是ThisIsAList为空 void Main var thing new Thing ThisIsAList Console WriteL
Pandas 过滤串联的多个子字符串

我需要过滤 a 中的行pandas数据帧以便特定字符串列至少包含所提供的子字符串列表之一子字符串可能包含不寻常正则表达式字符比较不应涉及正则表达式并且不区分大小写例如 lst kdSj af aBC dsfa sdKaJg dks
添加“代码”按钮到WordPresstinyMCE

我一直在关注这个教程很多人都喜欢它 http codex wordpress org TinyMCE Custom Buttons function myplugin addbuttons Don t bother doing this
如何在 MVC 中使用 LabelFor 插入换行符

我的模型中有 Display Name Check to enter
内联 SVG 的重复（过滤器）ID

创建带有滤镜的内联 SVG 时我必须为滤镜定义一个 ID 当我自动生成几个略有差异的内联SVG时第一个图像的过滤器优先覆盖后续图像的过滤器因为重复过滤器 ID 现场演示更清晰 http jsfiddle net 9wqgS p
Automapper复杂类型映射异常

我正在尝试为新模块实现 AutoMapper 我在网站上有 MVC 模型我正在研究它它看起来像这样 public class MvcModel public Params Params get set public Steps Step
在参数化类中使用参数时获取不同的（非默认）小部件（holoviz 参数面板）

我使用参数化类来构建面板仪表板我想用一个交叉选择器但是当查看库 Param 提供的选项时此选择器似乎不可用似乎只有一个列表选择器我如何使用 Param 获取此 CrossSelector import param import pa
自动装配两个实现相同接口的 bean - 如何将默认 bean 设置为自动装配？

背景我有一个 Spring 2 5 Java Tomcat 应用程序有下面这个bean 在整个应用程序的很多地方都用到了它 public class HibernateDeviceDao implements DeviceDao 以及以
函数内部的静态变量不能保存对单例的引用

我注意到 PHP 中的单例有一个奇怪的行为除了举一个例子之外没有更好的方法来解释这一点假设我有以下单例类 class Singleton protected function construct Deny direct instant
这些是什么 ASCII 字符？

我有两个字符需要在 php 字符串中进行搜索和替换不知何故这些不同于有谁知道我可以使用什么函数从 php 字符串中删除这些内容这就是当有人在 Outlook 中向您发送电子邮件时会发生的情况因此请小心因为您完全错过了这些单引号的
iOS copyWithZone 仅在使用设备时无法识别选择器

我正在开发一个 iPad 应用程序仅当 sqlite 数据库中有某些数据时才会启动初始屏幕如下所示 if int MyStore sharedInstance mode lt 0 self connectionSettingsViewC
为 ggplot - R 安排数据帧格式

我想将数据从宽格式重塑为长格式以便我可以使用 ggplot 来创建图表我在正确排列数据时遇到一些问题到目前为止我从 27 个数据帧的列表开始我的流程仅向您展示前 10 个数据帧 gt str NDVI stat List of 2
SyntaxError：Object.parse（本机）npm 请求输入意外结束

您好我不明白为什么会出现此错误我认为收到数据后就会执行回调知道这是从哪里来的吗多谢节点错误 SyntaxError Unexpected end of input at Object parse native 我解析主体的答案然
SQL 代理：设置最大执行时间

下午我在 MS 2K8 BI 服务器上运行多个 SQL 代理作业其中一些每天运行一次其他每小时运行一次每两分钟运行一次另一个进程的心跳监视器还有一个应用程序可以全天候每隔几分钟导入一次数据有时更新和报告的某些组合会发生冲突
使用 Facebook sdk 发布嵌入的 YouTube 链接

当您有意在 FB 上分享 YouTube 链接时它会自动将 YouTube 播放器嵌入到您的墙上如下所示但是当我尝试使用发布相同的视频时FB sdk HelloFacebookSampleActivity gt postStatus
如何从 C# winform 应用程序检索屏幕分辨率？

如何检索我的 C Winform 应用程序运行时的屏幕分辨率您是否只需要标准应用程序使用的区域即排除 Windows 任务栏和停靠窗口如果是这样请使用Screen WorkingArea 属性否则使用屏幕边界如果有多个显示器
嵌入式 Facebook Like-Box 不允许我设计它。为什么？

我正在尝试在我的网站页面上放置一个 Facebook Like Box 然后通过我自己的 CSS 对其进行样式设置主要是为了增加 div stream content 的高度这个想法是让 FB feed 充当新闻 feed 但我不希望用
Rails 卷曲语法

我可以从我的 Rails 应用程序运行以下命令 Hash from xml x curl d admin true http localhost 8888 rescue nil 现在我想用变量替换 admin true 如果我有 x adm
为什么数组大小为 1 [重复]

这个问题在这里已经有答案了可能的重复 C 编程语言中数组的大小我正在尝试编写一个函数如果数组中有值则返回 1 这是代码 int inArrayInt int iVal int iArray int i int arrayL sizeo
使用 Python BeautifulSoup 查找页数

我想从 Steam 页面中提取总页码本例中为 11 我相信以下代码应该可以工作返回 11 但它返回一个空列表就像如果没有找到一样paged items paging pagelink class import requests imp

使用 Python BeautifulSoup 查找页数

使用 Python BeautifulSoup 查找页数 的相关文章

随机推荐

热门标签

使用 Python BeautifulSoup 查找页数的相关文章