Scrapy的start_urls

2023-11-23

剧本（下）来自this教程包含两个start_urls.

from scrapy.spider import Spider
from scrapy.selector import Selector

from dirbot.items import Website

class DmozSpider(Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/",
    ]

    def parse(self, response):
        """
        The lines below is a spider contract. For more info see:
        http://doc.scrapy.org/en/latest/topics/contracts.html
        @url http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/
        @scrapes name
        """
        sel = Selector(response)
        sites = sel.xpath('//ul[@class="directory-url"]/li')
        items = []

        for site in sites:
            item = Website()
            item['name'] = site.xpath('a/text()').extract()
            item['url'] = site.xpath('a/@href').extract()
            item['description'] = site.xpath('text()').re('-\s[^\n]*\\r')
            items.append(item)

        return items

但为什么它只抓取这两个网页呢？我懂了allowed_domains = ["dmoz.org"]但这两个页面还包含指向其他页面的链接dmoz.org领域！为什么它不把它们也刮掉呢？

start_urlsclass 属性包含起始 url - 仅此而已。如果您提取了要抓取的其他页面的网址 - 收益parse使用 [another] 回调回调相应的请求：

class Spider(BaseSpider):

    name = 'my_spider'
    start_urls = [
                'http://www.domain.com/'
    ]
    allowed_domains = ['domain.com']

    def parse(self, response):
        '''Parse main page and extract categories links.'''
        hxs = HtmlXPathSelector(response)
        urls = hxs.select("//*[@id='tSubmenuContent']/a[position()>1]/@href").extract()
        for url in urls:
            url = urlparse.urljoin(response.url, url)
            self.log('Found category url: %s' % url)
            yield Request(url, callback = self.parseCategory)

    def parseCategory(self, response):
        '''Parse category page and extract links of the items.'''
        hxs = HtmlXPathSelector(response)
        links = hxs.select("//*[@id='_list']//td[@class='tListDesc']/a/@href").extract()
        for link in links:
            itemLink = urlparse.urljoin(response.url, link)
            self.log('Found item link: %s' % itemLink, log.DEBUG)
            yield Request(itemLink, callback = self.parseItem)

    def parseItem(self, response):
        ...

如果您仍然想自定义启动请求创建，请重写方法BaseSpider.start_requests()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

Scrapy的start_urls 的相关文章

如何从本地模式下运行的 pyspark 中的 S3 读取数据？

我正在使用 PyCharm 2018 1 使用 Python 3 4 并通过 virtualenv 中的 pip 安装 Spark 2 3 本地主机上没有安装hadoop 因此没有安装Spark 因此没有SPARK HOME HADOOP
打乱列表并返回副本

我想对数组进行洗牌但我找到的只是类似的方法random shuffle x from 在 Python 中随机化字符串列表的最佳方法 https stackoverflow com questions 1022141 best way t
将 c++ 异常传播到 cython - python 异常

我的 Cython 0 17 1 有问题我的函数抛出一个std runtime error如果文件不存在我想以某种方式将此异常传播到我的 Cython 代码 void loadFile const string filename som
对 numpy 数组的每 n 个元素求平均值

我有一个 numpy 数组我想创建一个新数组它是每个连续三元组元素的平均值因此新数组的大小将是原始数组的三分之一举个例子 np array 1 2 3 1 2 3 1 2 3 应该返回数组 np array 2 2 2 谁能建议一
在 opencv 中一次性将旋转和平移结合起来

我有一段用于旋转和平移图像的代码 Point2f pt 0 in rows double angle atan trans c trans b 180 M PI Mat r getRotationMatrix2D pt angle 1 0
字符串中数字的连续相加

我是一名正在学习 python 的新程序员并且在如何完成此任务方面遇到了困难所以本质上我有一个从文件导入的数字字符串需要读取并且需要将第一个数字的总和添加到第二个数字并将其转换为正确的 ascii 字符因此例如如果我正在读取字符
Django 视图集没有属性“get_extra_actions”

我第一次使用 Django 我正在尝试构建一个 API 我正在遵循一些教程和示例它工作正常但在安装所有要求和项目后我现在正在 Raspberry Pi 中运行该项目失败并出现以下错误 Performing system checks
读取大文件并制作字典

我有一个大文件我需要读取它并从中制作字典我希望这一切能够尽可能快然而我的Python代码太慢了这是一个显示问题的最小示例首先制作一些假数据 paste lt seq 20000000 lt seq 2 20000001 gt la
组内条件计数

我想在之后进行条件计数groupby 例如按列的值分组A 然后计算每组中值出现的频率5出现在列中B 如果我整个过程都这样做DataFrame 只是len df df B 5 所以我希望我能做到df groupby A df B 5 siz
初始化整数变量以进行比较

我正在学习麻省理工学院的开放课件课程计算机科学和 Python 编程简介 https ocw mit edu courses electrical engineering and computer science 6 0001 introd
在 Windows 上使用 pycrypto 时如何修复“ImportError：无法从 Crypto.Cipher 导入名称 _AES”？

我在 Crypto 的 Cipher 模块中有 AES Python27 Lib Crypto Cipher AES 当我尝试做的时候 from Crypto Cipher import AES 我收到以下错误 Traceback most
如何通过不规则索引获取子张量？

我想通过不规则索引获得子张量这是我的问题 Input tensor 2x8x10x1 Batch x Height x Width x Channel index Height 0 1 4 5 index Width 0 1 4 5 8
使用 python 聚合 elasticsearch-dsl 中的字段

有人可以告诉我如何编写 Python 语句来聚合求和和计数有关我的文档的内容吗 SCRIPT from datetime import datetime from elasticsearch dsl import DocType Str
Python列表错误还是我错了？

我构建了一个 3 级嵌套列表 run on Python 3 2 3 32 bit on Win 7 L2 list 0 for i in range 2 L3 list L2 for i in range 3 L4 list L3 for
numpy 相关系数错误 - RuntimeWarning：true_divide 中遇到无效值

当我尝试查找数据系列之间的相关性时出现以下错误 gt gt gt i 1 1 1 gt gt gt j 2 2 2 gt gt gt import numpy as np gt gt gt np corrcoef i j usr loca
如果出现重复，则主键取正值

我有一个数据框df Key1 Key2 Value K11 K21 V1 K11 K21 V1 K13 K23 V2 K13 K23 V2 现在例如对于相同的键 K11 K21 组合我们有 2 个值一负一正如何从此 df 中仅获取正
具有默认参数的Python类构造函数[重复]

这个问题在这里已经有答案了可能的重复 Python 中的最不令人惊讶可变默认参数 https stackoverflow com questions 1132941 least astonishment in python the m
带有远程解释器的 Python 控制台无法在 PyCharm 中接受输入

我是使用 PyCharm 进行远程开发的新手我设置了一个远程环境除了一个例外之外它工作正常无法在控制台中接受用户输入在控制台中运行以下语句时控制台被阻塞提示上一个命令仍在运行请等待或按控制台中的 Control C 来中断
对象对于所需数组来说太深 - scipy.integrate.odeint

我昨天刚开始使用Python 使用时遇到错误scipy integrate odeint 我定义了一个函数 def SIR x t beta gamma mu M 这需要numpy array物体x t and M 标量浮动beta gam
与仅调用依赖函数/类相比，在 FastAPI 中使用 Depends 有哪些优点？

FastAPI 提供了way https fastapi tiangolo com tutorial dependencies 通过其自己的依赖关系解析机制来管理依赖关系例如数据库连接它类似于一个pytest夹具系统简而言之您在函数

随机推荐

JavaScript 内存分析器

我正在寻找一个好的 JavaScript 内存分析器特别是针对 IE 的任何有关如何查找 javascript 内存泄漏的建议也将受到赞赏您正在寻找sIEve 就是这样有一段时间主要的答案是 Drip 但 sIEve 是同一个人的
Elastic Beanstalk Nginx 提供静态文件

我是 Elastic Beanstalk 的新手尝试提供 Node js Express 应用程序并利用 Nginx 单独提供静态文件我遇到的教程都没有明确说明如何定义虚拟路径我尝试通过浏览器中的 AWS 控制台执行此操作我正在尝试
使用实体框架删除大量项目[重复]

这个问题在这里已经有答案了我想用EF删除一大堆项目所以我尝试将它们一一删除但需要很长时间我尝试使用 RemoveAll 方法与我的列表但它不更新数据库仅从加载的实体中删除所以我用一个SqlCommand将它们从数据库中删除我
用Java做一个简单的定时器

我似乎不知道如何用java制作一个简单的计时器我需要它做的只是显示时间真的所以只是一个开始方法它会不断地计数如 0 00 0 01 0 02 等我见过一些其他类似的论坛帖子但所有代码对于我的水平来说有点复杂理解我对java有
C++ 中如何使用 while 循环读取文件？

为什么可以使用 while 循环读取文件例如 while file gt gt variable Or while getline xx yy Do the gt gt and getline函数返回布尔值流运算符评估为对流本身的引用
拥有一个没有抽象方法的抽象类有什么意义？

可以有一个抽象类实现其所有方法其中没有抽象方法 Eg public abstract class someClass int a public someClass int a this a a public void m1 do some
在类中调用父类的 __call__ 方法

我想给家长打电话call来自继承类的方法代码看起来像这样 usr bin env python class Parent object def call self name print hello world name class Per
将安全字符串转换为纯文本

我正在 PowerShell 中工作并且我有代码可以成功将用户输入的密码转换为纯文本 SecurePassword Read Host AsSecureString Enter password convertfrom securestr
与字节顺序无关的读取的首选习惯用法

在 Plan 9 源代码中我经常找到这样的代码用于从具有明确定义的字节顺序的缓冲区中读取序列化数据 include
创建一个指向函数指针的指针

是否可以创建一个指向函数指针的指针即 int32 t fp 2 void test function1 test function 2 initialize a function pointer
错误：为 ionic 构建时，android 图标 png 的源路径不存在

Your system information Cordova CLI 6 5 0 Ionic CLI Version 2 2 1 Ionic App Lib Version 2 2 0 OS macOS Sierra Node Versi
Coffeescript 将文件包装在函数中

由于某种原因 coffeescript 编译器在编译时将所有 coffee 文件包装在一个函数中例如如果我有 test coffee class TestClass constructor value gt printValue gt
具有列过滤器下拉列表和多个复选框选择的数据表

我从 joao vitor retamero 小提琴中找到了这段出色的代码 https jsfiddle net jvretamero bv6g0r64 显示如何在 jquery 数据表列过滤器中进行多项选择但我需要将过滤器容器转换为下拉
如何在android中为任何新项目自动添加自定义依赖项？

如果我通常使用这些库我想要一种将它们包含在我创建的任何项目中的方法 implementation com android support recyclerview v7 25 1 1 implementation com squareup
Xcode 9：Swift 依赖分析错误

我有一个用 obj C 编写的 iOS 应用程序和用 Swift 编写的应用程序的 UI 测试我最近安装了 Xcode 9 beta 2 并想编译该应用程序我收到以下错误依赖性分析错误 gt Swift 语言版本 SWIFT VERS
为什么 std::(i)ostream 将有符号/无符号字符视为文本而不是整数？

这段代码没有做它应该做的事情 include
如何在 Shiny 应用程序中嵌入 Twitter 时间线

我热衷于将 Twitter 时间线嵌入到 Shiny 应用程序中我有相关的代码片段 a class twitter timeline href https twitter com pssGuy timelines 524678699061
使用 splice 将对象添加到对象数组中

我有一个对象数组如下所示 event id 0 e1 0 e2 0 e4 如何向该数组添加元素我想到了 event id splice 1 0 0 e5 Thanks 如果您只想将一个值添加到数组末尾那么push newObj 函数是
当绑定属性强制执行某些业务规则时，绑定 WPF TextBox 不会更新值

我正在使用 NET 4 0 我有一些非常简单的代码可以让用户输入 1 到 99 999 含之间的数字我在属性设置器中有一些逻辑如果最新值不符合业务规则例如它不是数字或数字太大则会阻止应用最新值 public class Mai
Scrapy的start_urls

剧本下来自this教程包含两个start urls from scrapy spider import Spider from scrapy selector import Selector from dirbot items impo

Scrapy的start_urls

Scrapy的start_urls 的相关文章

随机推荐

热门标签