Scrapy获取任何网站的所有链接

2023-12-26

我有以下 Python 3 网络爬虫代码：

import requests
from bs4 import BeautifulSoup
import re

def get_links(link):

    return_links = []

    r = requests.get(link)

    soup = BeautifulSoup(r.content, "lxml")

    if r.status_code != 200:
        print("Error. Something is wrong here")
    else:
        for link in soup.findAll('a', attrs={'href': re.compile("^http")}):
            return_links.append(link.get('href')))

def recursive_search(links)
    for i in links:
        links.append(get_links(i))
    recursive_search(links)


recursive_search(get_links("https://www.brandonskerritt.github.io"))

该代码基本上从我的 GitHub 页面网站上获取所有链接，然后从这些链接中获取所有链接，依此类推，直到时间结束或发生错误。

我想在 Scrapy 中重新创建这段代码，这样它就可以遵守 robots.txt 并成为一个更好的网络爬虫。我在网上进行了研究，只能找到有关如何抓取特定域的教程/指南/stackoverflow/quora/博客文章（例如，allowed_domains=["google.com"]）。我不想这样做。我想创建能够递归地抓取所有网站的代码。

这不是什么大问题，但所有博客文章等仅显示如何从特定网站获取链接（例如，他的链接可能位于列表标签中）。我上面的代码适用于所有锚标记，无论它在哪个网站上运行。

我不想在野外使用它，我需要它用于演示目的，这样我就不会突然因为过度的网络爬行而惹恼每个人。

任何帮助将不胜感激！

scrapy 指南有一整节专门介绍广泛的爬行 https://docs.scrapy.org/en/latest/topics/broad-crawls.html。我建议您细粒度设置以成功完成此操作。

为了在 scrapy 中重新创建您需要的行为，您必须

在页面中设置起始网址。
编写一个解析函数，跟踪所有链接并递归调用自身，将请求的 url 添加到蜘蛛变量中

一个未经测试的示例（当然可以进行改进）：

class AllSpider(scrapy.Spider):
    name = 'all'

    start_urls = ['https://yourgithub.com']

    def __init__(self):
        self.links=[]

    def parse(self, response):
        self.links.append(response.url)
        for href in response.css('a::attr(href)'):
            yield response.follow(href, self.parse)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scrapy获取任何网站的所有链接的相关文章

高效地将大型 Pandas 数据帧写入磁盘

我正在尝试找到使用 Python Pandas 高效地将大型数据帧 250MB 写入磁盘或从磁盘写入的最佳方法我已经尝试了所有方法Python 数据分析但表现却非常令人失望这是一个更大项目的一部分该项目探索将我们当前的分析数据管理
sy.sympify(str(表达式)) 不等于表达式

据我了解 str将 SymPy 表达式转换为字符串并sympify将字符串转换为 SymPy 表达式因此我希望以下内容成立对于合理的表达 gt gt gt sy sympify str expr expr True 我尝试过这个确实
检查子字符串是否在字符串列表中？

我之前已经找到了这个问题的一些答案但它们对于当前的Python版本来说似乎已经过时了或者至少它们对我不起作用我想检查字符串列表中是否包含子字符串我只需要布尔结果我找到了这个解决方案 word to check or wordlis
如何调试 numpy 掩码

这个问题与this one https stackoverflow com q 73672739 11004423 我有一个正在尝试矢量化的函数这是原来的函数 def aspect good angle float planet1 goo
样本（）和r样本（）有什么区别？

当我从 PyTorch 中的发行版中采样时两者sample and rsample似乎给出了类似的结果 import torch seaborn as sns x torch distributions Normal torch tens
Python sys.modules 包含尚未导入的模块

我试图了解加载的模块与导入的模块之间的区别如果有的话我正在使用 Python 2 7 3 并且只是从命令行运行 Python 如果我执行 import sys sys modules 我得到一个列表其中包括os 例如文档说sys m
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
Python：“直接”调用方法是否实例化对象？

我是 Python 新手在对我的对象进行单元测试时我注意到一些奇怪的东西 class Ape object def init self print ooook def say self s print s def main Ape
在 pygame 中，我如何创建一个数据结构来跟踪调整大小事件和对象的坐标？

我希望在调整屏幕大小后使鼠标事件与对象保持同步有人告诉我需要创建一个数据结构来跟踪调整事件大小新坐标以匹配调整大小如何使用简单的代数方程来完成此操作并将其集成到调整大小事件中以进行准确更新反过来做创建一个虚拟游戏地图在绘制场景
导入目录下的所有模块

有没有办法导入当前目录中的所有模块并返回它们的列表例如对于包含以下内容的目录 mod py mod2 py mod3 py 它会给你
错误：尝试使用 scrappy 登录时出现 raise ValueError("No element found in %s" % response)

问题描述我想从我大学的bbs上抓取一些信息这是地址 http bbs byr cn http bbs byr cn下面是我的蜘蛛的代码 from lxml import etree import scrapy try from scra
将 Python Selenium 输出写入 Excel

我编写了一个脚本来从在线网站上抓取产品信息目标是将这些信息写入 Excel 文件由于我的Python知识有限我只知道如何在Powershell中使用Out file导出但结果是每个产品的信息都打印在不同的行上我希望每种产品都有一条
如何全局安装 Python（开发）依赖项，以便我不必在每个 venv 中重新安装它们？

我希望在为每个项目创建的每个 venv 虚拟环境中都可以使用一些 Python 依赖项例如 black flake8 和 pytest 这可能吗如果可以如何实现我想安装这三个once在我的主要 Python 安装下我必须在启动新
重定向 python 交互式帮助()

我正在为使用 Qt 的应用程序开发交互式 python shell 但是我似乎无法获得重定向的交互式帮助我的 python 代码中有这个 class OutputCatcher def init self self data def wr
使用 Sphinx 时，如何记录没有文档字符串的成员？

我正在为我发布的包编写文档我发现您的文档越全面人们就越容易找到您的包来使用废话实际上我在充满爱心地编写代码的所有功能和细节方面获得了很多乐趣然而我对如何为类级变量编写与 Sphinx 兼容的文档感到完全困惑特别是我有一些e
通过新数据更新绘图，而不是在 Jupyter 笔记本中制作新绘图

我有一些问题希望你能帮我解决我需要使用下拉小部件创建交互式绘图我可以在其中选择并绘制感兴趣的数据我通过以下方式做到这一点 import plotly graph objects as go import ipywidgets as
如何在supervisord中设置组？

因此我正在设置 Supervisord 并尝试控制多个进程并且一切正常现在我想设置一个组以便我可以启动停止不同的进程集而不是全部或全无这是我的配置文件的片段 group tapjoy programs tapjoy game1
为什么我的 PyGame 应用程序根本不运行？

我有一个简单的 Pygame 程序 usr bin env python import pygame from pygame locals import pygame init win pygame display set mode 400
正则表达式 - 匹配不包含字符串的模式

我对正则表达式很陌生并且一直在寻找方法来做到这一点但没有成功给定一个字符串我想删除以 abc 开头以 abc 结尾且中间不包含 abc 的任何模式如果我做 abc abc abc 它将匹配以 b 开头以 abc 结尾并且中间包
用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

最近我一直在用 python 开发一个项目其中涉及抓取一些网站的一些代理我遇到的问题是当我尝试抓取某个知名代理站点时当我要求 Beautiful Soup 查找 IP 在代理表中的位置时它并没有按照我的预期执行操作我将尝试查找每

随机推荐

如何使用 Swift 在 iOS 上通过异步操作同步运行两个函数

让我们提出这个场景具有异步网络操作的方法 func asyncMethodA gt String result String Alamofire manager request POST https www apiweb com apim
获取我的 RAM 的制造商名称（WMI 未获取此信息）

我需要获取有关 RAM 模块的完整信息我尝试使用 WMI 来获取它 ManagementObjectSearcher searcher12 new ManagementObjectSearcher root CIMV2 SELECT FR
linux/unix 下是否有与 WinAPI 的 MAX_PATH 等效的东西？

如果我想分配一个保证足够大以容纳任何有效的绝对路径文件名的字符数组在C中那么它需要有多大在 Win32 上有 MAX PATH 定义 Unix linux 的等价物是什么有一个PATH MAX 但是有点问题来自错误部分真实路径
UIAutomation：在没有实际执行的情况下点击警报视图上的取消按钮

我在 UIAutomation 中面临这个奇怪的问题我正在检查警报在其中我试图记录警报标题和警报消息我的代码是 UIATarget onAlert function onAlert alert UIALogger logMessag
将文本文件写入 blob 时无法保留换行符

我有一个文本区域其中包含我想要输出到文本文件以供用户下载的文本当用户单击保存按钮时我使用此功能来获取它 function saveTextAsFile var textToWrite document getElementById
NodeJS 中的提示模块重复输入

我正在使用 NodeJS 及其 CLI 应用程序创建一个应用程序为了获取用户的输入我使用提示模块我可以使用它但是在输入提示符时每个字符都会重复但是输出很好代码如下请帮忙 prompt start prompt get p
使用身份主键将新实体插入到上下文中

我想将一条新记录插入到我的 SQL 表中我试过 public void CreateComment int questionId string comment QuestionComment questionComment context
如何删除Github上和本地的最后n次提交？

我正在尝试从我的 GitHub 存储库之一删除最后 2 次提交我已经按照建议尝试了here https stackoverflow com questions 448919 how can i remove a commit on git
Yesod、WebSockets 和持久性

我正在尝试在 Haskell 中实现一个基于回合的游戏的服务器我的选择是使用 Yesod 进行管理和元信息例如用户参与哪些游戏等我想使用网络套接字来保持游戏内数据开销较小看看 ws chat 示例我不确定如何访问 Handler
lockCanvas 不断抛出异常

我从 opencv4android 人脸检测复制了示例代码我通过了NDK部分并在手机上运行该应用程序然而 SurfaceView 仅显示相机预览看来 OnCameraFrame 中所做的任何操作都不会影响 SurfaceView
C# - 使用反射比较两个 .net dll

我想比较位于不同位置的两个相同的 net dll 因此我使用加载 dllSystem Reflection Assembly LoadFile filename 代替System Reflection Assembly LoadFrom
Pod 文件中的“平台”指的是什么？

当你在顶部创建一个新的 pod 文件时会有 platform ios 9 0 我应该将此平台值设置为我的项目的部署目标吗它指定您要支持 pod 项目的最低操作系统版本如果您的应用程序项目的部署目标低于提到的 pod 项目的 iOS
ThreadPoolExecutor:: 来自执行器的 TaskRejectedException

我的应用程序正在通过 Jms MessageListener 类读取消息并且在某个时间点它会抛出异常任务拒绝异常我知道你们大多数人都会说线程数超出了最大池大小而且队列也满了但我观察到一些事情发送到 MessageListener 类
创建与数据库表同名的缓冲区

我在很多地方都遇到过这段代码 DEFINE BUFFER Customer FOR Customer 我有两个问题这样做的目的是什么为什么创建与表同名的缓冲区是有益的当编写代码访问该表缓冲区时 Progress 如何知道是直接访问
Foreman 不使用 NGINX

我正在尝试使用Foreman https github com ddollar foreman 版本 0 31 0 来管理我们应用程序的进程但我对 nginx nginx 1 0 10 Phusion Passenger 3 0 11 的
为什么 C 代码中的 1.0f 在生成的程序集中表示为 1065353216？

在 C 中我有这个代码块 if x 1 a j i 1 else a j i 0 a是一个浮点值矩阵如果我尝试以 nasm 语法查看此代码的编译程序集线a j i 0 作业以这种方式编码 dword rsi rdi 0 但这条线a j
Java 中箭头运算符“->”有什么作用？

在搜索一些代码时我遇到了箭头运算符它到底是做什么的我以为Java没有箭头运算符 return Collection
Entity Framework 5 的新迁移功能是否完全支持枚举更改？

假设我们有以下简单模型 public class Car public int Year get set public string Make get set public string Model get set public CarTy
如何编辑 jquery 函数

我正在尝试修改 jQuery V 6 1 核心中的 attr 函数我有一个plugins js 文件该文件包含在jquery 6 1 js 文件之后的页面中 plugins js 文件包含对各种 jQuery 核心函数的改进以适应某些
Scrapy获取任何网站的所有链接

我有以下 Python 3 网络爬虫代码 import requests from bs4 import BeautifulSoup import re def get links link return links r requests

Scrapy获取任何网站的所有链接

Scrapy获取任何网站的所有链接 的相关文章

随机推荐

热门标签

Scrapy获取任何网站的所有链接的相关文章