使用 BeautifulSoup 在 python 中抓取多个页面

2024-04-28

我已经设法编写代码来从第一页中抓取数据，现在我不得不在这段代码中编写一个循环来抓取接下来的“n”页。下面是代码

如果有人可以指导/帮助我编写从剩余页面中抓取数据的代码，我将不胜感激。

Thanks!

from bs4 import BeautifulSoup
import requests
import csv


url = requests.get('https://wsc.nmbe.ch/search?sFamily=Salticidae&fMt=begin&sGenus=&gMt=begin&sSpecies=&sMt=begin&multiPurpose=slsid&sMulti=&mMt=contain&searchSpec=s').text

soup = BeautifulSoup(url, 'lxml')

elements = soup.find_all('div', style="border-bottom: 1px solid #C0C0C0; padding: 10px 0;")
#print(elements)

csv_file = open('wsc_scrape.csv', 'w')

csv_writer = csv.writer(csv_file)

csv_writer.writerow(['sp_name', 'species_author', 'status', 'family'])


for element in elements:
    sp_name = element.i.text.strip()
    print(sp_name)



    status = element.find('span', class_ = ['success label', 'error label']).text.strip()
    print(status)




    author_family = element.i.next_sibling.strip().split('|')
    species_author = author_family[0].strip()
    family = author_family[1].strip()
    print(species_author)
    print(family)


    print()

    csv_writer.writerow([sp_name, species_author, status, family])

csv_file.close()

你必须通过page=URL 中的参数并迭代所有页面：

from bs4 import BeautifulSoup
import requests
import csv

csv_file = open('wsc_scrape.csv', 'w', encoding='utf-8')
csv_writer = csv.writer(csv_file)
csv_writer.writerow(['sp_name', 'species_author', 'status', 'family'])

for i in range(151):
    url = requests.get('https://wsc.nmbe.ch/search?page={}&sFamily=Salticidae&fMt=begin&sGenus=&gMt=begin&sSpecies=&sMt=begin&multiPurpose=slsid&sMulti=&mMt=contain&searchSpec=s'.format(i+1)).text
    soup = BeautifulSoup(url, 'lxml')
    elements = soup.find_all('div', style="border-bottom: 1px solid #C0C0C0; padding: 10px 0;")
    for element in elements:
        sp_name = element.i.text.strip()
        print(sp_name)
        status = element.find('span', class_ = ['success label', 'error label']).text.strip()
        print(status)
        author_family = element.i.next_sibling.strip().split('|')
        species_author = author_family[0].strip()
        family = author_family[1].strip()
        print(species_author)
        print(family)
        print()
        csv_writer.writerow([sp_name, species_author, status, family])

csv_file.close()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

webscraping

beautifulsoup

使用 BeautifulSoup 在 python 中抓取多个页面的相关文章

如何创建毫秒粒度的 Python 时间戳？

我需要一个自纪元以来的毫秒 ms 时间戳这应该不难我确信我只是缺少一些方法datetime或类似的东西实际上微秒 s 粒度也很好我只需要亚 1 10 秒的计时例子我有一个每 750 毫秒发生一次的事件假设它检查灯是否打开或关闭
VS Code Pylint 在缺失的函数/类文档字符串上用蓝色下划线突出显示整个函数

这种情况突然开始发生当出现缺少函数文档字符串警告时 python pylint 会用蓝色波浪线突出显示整个函数我怎样才能让它只突出显示函数定义或在定义行上制作一个小指示器在开发时突出显示整个文件是非常烦人的这是缺少类文档字符串的示例
从另一个文件覆盖函数中的变量

一总结我不知道如何从另一个文件覆盖函数中的变量 2 示例 2 1 配置 I use logbook http logbook pocoo org and pyfancy https github com ilovecode1 Pyfan
使用正则表达式检查整个字符串

我正在尝试检查字符串是否是数字因此正则表达式 d 似乎不错然而由于某种原因该正则表达式也适合 78 46 92 168 8000 这是我不想要的一些代码 class Foo rex re compile d def bar sel
argparse 更改参数的定义

我按如下方式设置参数解析器 parser argparse ArgumentParser parser add argument point help enter a point e g 2 3 4 parser parse args po
pybind11：如何将 c++ 和 python 代码打包到一个包中？

我正在尝试使用 CMake 和 pybind 11 将现有的 Python 代码和新的 C 11 代码打包在一起我认为我缺少一些可以添加到 CMake 脚本中的简单内容但在任何地方都找不到它 pybind11 示例只有 C 代码和没有P
修复 PHP 中格式错误的 HTML？

我正在根据用户提供的片段构建一个大型 HTML 文档这些用户有以各种方式格式错误的烦人习惯浏览器足够强大且宽容但我希望能够验证并理想情况下修复任何格式错误的 HTML 如果可能的话例如 td b Title b td 可以合理地
jQuery 提交未触发

我觉得问这个很愚蠢但为什么我的 submit 没有发出警报 HTML div class buttonbar style margin left 10 div
配置 Flask 以正确加载 Bootstrap js 和 css 文件

如何使用 Flask 中的 url for 指令来正确设置以便使用 Bootstrap 和 RGraph 的 html 页面可以正常工作假设我的 html 页面看起来像这样部分片段
我无法设置顶级标题

我想为 TopLevel 设置标题但 TopLevel 显示 Root 的标题我认为我的下一个脚本与 TkInter 文档中的示例相对应但给了我不好的结果你能解释一下为什么我的设置master title 顶部 in 应用程序顶部
Pandas 使用什么规则来生成视图和副本？

我对 Pandas 在决定数据帧中的选择是原始数据帧的副本或原始数据帧的视图时使用的规则感到困惑例如如果我有 df pd DataFrame np random randn 8 8 columns list ABCDEFGH index
django 南迁移，不设置默认值

我使用 South 来迁移我的 Django 模型然而南方有一个令人讨厌的错误它不会在 Postgres 数据库中设置默认值例子 created at models DateTimeField default datetime no
了解字典的深度

假设我们有这个字典 d a 1 b c 了解嵌套的最直接方法是什么depth of it 您需要创建一个递归函数 gt gt gt def depth d if isinstance d dict return 1 max map dept
使用条件在 pandas 数据框中生成新列

我有一个 pandas 数据框如下所示 portion used 0 1 1 0 1 2 0 3 2 3 0 0 3 4 0 8 我想根据以下内容创建一个新专栏used列以便df看起来像这样 portion used alert 0 1
(venv) (base) 都在 python 项目上活跃，我如何只进入 venv？

所以我将 vscode 与 conda 对于 django 项目一起使用并尝试激活名为 venv 的虚拟环境它来自 base C Users User Desktop pfa master pfa master venv Script
将索引数组转换为 NumPy 中的 one-hot 编码数组

给定一个一维索引数组 a array 1 0 3 我想将其一次性编码为二维数组 b array 0 1 0 0 1 0 0 0 0 0 0 1 创建归零数组b有足够的列即a max 1 然后对于每一行i 设置a i 第列至1 gt
gstreamer 中的无缝视频循环

我正在尝试使用 gstreamer 循环播放视频它是 python 绑定第一次尝试是hook EOSmessage并为管道生成搜索消息 import gi gi require version Gst 1 0 from gi repos
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
matplotlib imshow() 和像素强度

我试图了解矩阵的值是如何输入到 matplotlib 的imshow 函数确定灰度模式下像素的强度考虑示例代码 import random import matplotlib pyplot as plt import matplotlib

随机推荐

Laravel Eloquent：计算总价的最佳方法

我正在使用 Laravel 5 1 构建一个简单的买卖应用程序每个Buy Model都有很多BuyDetail 里面存储了购买的商品数量和buy price 我已经在模型上实现了表之间的关系 class Buy extends Model
专门逐行调试

我有一个用 Pascal 编写的脚本我会以这种方式调试它在每一行停止转储内存中所有变量的值然后转到下一行是否可以使用 gdb 或其他 Linux 开源工具来完成此操作使用选项编译文件 g fpc gpc g file pas R
为什么 itertools.chain 比扁平列表理解更快？

在评论中的讨论中这个问题 https stackoverflow com questions 49630581 why does python forbid the use of sum with strings有人提到虽然连接字符串序列
使用角度加载选择中的默认选项

我试图在我的选择中添加来自服务的默认选项我的选择
单击提交时将变量传递到新页面

我有一个页面其中有 2 个 dropdrownlists 和一个提交按钮当我单击提交时我想将下拉列表的值变量传递到另一个页面任何关于实现这一目标的想法或建议我已经使用 asp HyperLinkField 做了类似的事情但是
了解 AWS API Gateway 自定义域名

我很难理解 AWS API Gateway 自定义域的工作原理我已经设置了一个Regional Custom Domain Name对于我的API 比如api example com 结果是Target Domain Name形式为 aa
为什么我的 ODBC 连接在 Visual Studio 中运行 SSIS 加载时失败，但在使用执行包实用工具运行相同包时却失败

我正在 SSIS 2012 中处理数据集市加载包当尝试在 Visual Studio 中执行该包时我收到此错误 AcquireConnection方法调用连接管理器数据 Warehouse ssusr 失败错误代码为 0xC00140
Unicode 无法正确翻译从右到左的语言（希伯来语和阿拉伯语）

下面由 Mikhail Berlyant 提供的 bigquery 代码再次感谢您适用于从左到右的语言例如俄语但是只要要翻译的文本中有双引号它就会在从右到左的语言例如阿拉伯语和希伯来语上失败预期结果应显示所有要翻译的输入文
使用 CGFloat 和 float 有什么区别？

我倾向于在所有地方使用 CGFloat 但我想知道我是否会因此而受到毫无意义的性能打击 CGFloat 似乎是比 float 更重的东西对吧我应该在什么时候使用 CGFloat 什么才是真正的区别正如 weichsel 所说 C
更改通过表单上传的 tmp 文件的文件名

就像标题说我想更改用户通过表单上传的文件的文件名这是代码 HTML
这是一个合理的用户注册流程吗？

我正在制定内部申请的注册流程我的初步设计如下我的主要问题是是否真的有必要包括registration confirmation code 它是保护应用程序免受现实威胁还是只是增加不必要的复杂性对此我不确定用户输入电子邮件地址由于这
如何获得日期为 yyyy-mm-dd 的年份差异？

我想得到以 yyyy mm dd 格式给出的两个日期之间的差异差异应该是年份 var ds 2002 09 23 var today date new Date alert today date Date prototype yyyymm
如何使用 Ant 配置惰性或增量构建？

Java编译器提供增量构建所以javac蚂蚁任务也是如此但大多数其他进程则不然考虑到构建过程它们将一组文件源转换为另一组文件目标我在这里可以区分两种情况变压器cannot获取源文件的子集仅获取整个集合这里我们只能做懒惰
Angular：将数据从工厂 ajax 调用传递回我的控制器

我一直在使用 Angular 并且已经从使用本地数据似乎工作正常转向尝试通过工厂中的 ajax 调用来填充我的视图这是代码 div h2 Get data using a Factory h2 div div div
使用 Asynchronous ReadableStream 和 Response 从 Service Worker 的 fetch 事件返回 HTML

这个问题类似于我的另一个问题 https stackoverflow com questions 62457644 use readablestream with response to return html from fetch eve
JavaFX 中的隐形舞台/场景

我正在寻找一种隐藏 JavaFX 舞台或场景的方法现在我知道了 hide 但这行不通我需要一些仍然保留窗口的东西但只是使其完全透明一个很好的比喻是display none and visibility hidden在CSS中第一个
Dataproc：使用 PySpark 从 BigQuery 读取和写入数据时出现错误

我正在尝试读取一些 BigQuery 数据 ID my project mydatabase mytable 原始名称受保护来自用户管理的 Jupyter Notebook 实例内部Dataproc https cloud google
通过命令行创建私有 github 存储库

我希望能够通过命令行创建一个私人 github 存储库我认为使用其余 API 应该可以做到这一点但是我无法从文档中弄清楚如何做到这一点这可能吗 The GitHub CLI https github com cli cli tool
安全浮点除法

我的代码中有一些地方我想确保 2 个任意浮点数 32 位单精度的除法不会溢出目标编译器不保证足够明确对 INF INF 的良好处理并且不完全保证 IEEE 754 的异常值可能未定义并且目标可能会改变另外我无法对这几个
使用 BeautifulSoup 在 python 中抓取多个页面

我已经设法编写代码来从第一页中抓取数据现在我不得不在这段代码中编写一个循环来抓取接下来的 n 页下面是代码如果有人可以指导帮助我编写从剩余页面中抓取数据的代码我将不胜感激 Thanks from bs4 import Beauti

使用 BeautifulSoup 在 python 中抓取多个页面

使用 BeautifulSoup 在 python 中抓取多个页面 的相关文章

随机推荐

热门标签

使用 BeautifulSoup 在 python 中抓取多个页面的相关文章