如何使用scrapy从网站抓取有限数量的页面？

2023-12-25

我需要抓取多个网站，并且只想抓取每个网站一定数量的页面。那么如何实现呢？

我的想法是使用一个字典，其键是域名，值是已存储在 mongodb 中的页数。因此，当一个页面被抓取并成功存储到数据库中时，该域的页面数将增加1。如果数量大于最大数量，则蜘蛛应停止从该站点爬行。

下面是我的代码，但它不起作用。什么时候spider.crawledPagesPerSite[domain_name]大于spider.maximumPagesPerSite:，蜘蛛还在爬行。

class AnExampleSpider(CrawlSpider):
name="anexample"
rules=(
    Rule(LinkExtractor(allow=r"/*.html"),
    callback="parse_url",follow=True),
)   
def __init__(self, url_file ): #, N=10,*a, **kw
    data = open(url_file, 'r').readlines() #[:N]
    self.allowed_domains = [ i.strip() for i in data ] 
    self.start_urls = ['http://' + domain for domain in self.allowed_domains]
    super(AnExampleSpider, self).__init__()#*a, **kw

    self.maximumPagesPerSite=100 #maximum pages each site
    self.crawledPagesPerSite={}
def parse_url(self, response):
    url=response.url
    item=AnExampleItem()     
    html_text=response.body
    extracted_text=parse_page.parse_page(html_text)
    item["url"]=url
    item["extracted_text"]=extracted_text
    return item

class MongoDBPipeline(object):
    def __init__(self):
        self.connection = pymongo.MongoClient( settings['MONGODB_SERVER'], settings['MONGODB_PORT'] )

    def process_item(self, item, spider):
        domain_name=tldextract.extract(item['url']).domain
        db = self.connection[domain_name] #use domain name as database name
        self.collection = db[settings['MONGODB_COLLECTION']]
        valid = True
        for data in item:
            if not data:
                valid = False
                raise DropItem("Missing {0}!".format(data))
            if valid:
                self.collection.insert(dict(item))
                log.msg("Item added to MongoDB database!",level=log.DEBUG, spider=spider)
                if domain_name in spider.crawledPagesPerSite:
                    spider.crawledPagesPerSite[domain_name]+=1
                else:
                    spider.crawledPagesPerSite[domain_name]=1
                if spider.crawledPagesPerSite[domain_name]>spider.maximumPagesPerSite:
                    suffix=tldextract.extract(item['url']).suffix
                    domain_and_suffix=domain_name+"."+suffix

                    if domain_and_suffix in spider.allowed_domains:
                        spider.allowed_domains.remove(domain_and_suffix)
                        spider.rules[0].link_extractor.allow_domains.remove(domain_and_suffix)
                        return None
                return item

我不确定这是否是您正在寻找的，但我使用这种方法仅抓取一定数量的页面。假设我只想从 example.com 中抓取开始的 99 页，我将按以下方式进行：

start_urls = ["https://example.com/page-%s.htm" % page for page in list(range(100))]

到达第 99 页后，代码将停止工作。但这仅在您的网址中包含页码时才有效。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

如何使用scrapy从网站抓取有限数量的页面？的相关文章

Django：将博客条目查看次数增加一。这有效率吗？

我的索引视图中有以下代码 latest entry list Entry objects filter is published True order by date published 10 for entry in latest ent
只使用 Django 的某些部分？

我喜欢 Django 但对于一个特定的应用程序我只想使用它的一部分但我对 Django 的内部工作原理还不够熟悉所以也许有人可以指出我必须做什么的正确方向查看具体来说我想使用模型和数据库抽象 The 缓存API http doc
如何将本机 popcount 与 numba 一起使用

我正在使用 numba 0 57 1 我想在我的代码中利用本机 CPU popcount 我现有的代码太慢因为我需要运行它数亿次这是一个 MWE import numba as nb nb njit nb uint64 nb uint6
如何忽略传递给函数的意外关键字参数？

假设我有一些功能 f def f a None print a 现在如果我有一本字典比如dct a Foo 我可以打电话f dct 并得到结果Foo打印但是假设我有一本字典dct2 a Foo b Bar 如果我打电话f dct2
如何使用 django (python) 和 s3 上传文件？

我正在寻找一种将文件上传到 s3 的方法我正在使用 django 我目前正在使用亚马逊的 python 库进行上传以及以下代码 View def submitpicture request fuser request session lo
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
Python 按照层次结构按多个分隔符分割字符串

我只想根据多个分隔符例如 and 和按顺序分割字符串一次例子 121 34 adsfd gt 121 34 adsfd dsfsd and adfd gt dsfsd adfd dsfsd adfd gt dsfsd adfd dsf
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
PyCharm - 如何挂起所有线程

我们使用 PyCharm 5 0 1 进行多线程调试当它在断点处停止时只有特定线程停止而所有其他线程继续这使得冻结时刻和检查参数值以及其他线程的当前状态变得困难当其中一个线程在断点处停止时是否可以挂起所有线程这在最新的 P
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
如何在 Sublime 2 REPL Mac 中运行 Python 3

我的问题如下我安装了 sublime 2 和 sublime repl 插件一切正常我唯一需要的是更改在控制台内置的 sublimerepl 上运行的 python 版本我的意思是我有 python 2 7 5 预先安装了 mav
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
在多个图表上绘制一条线

I don t know how this thing is called or even how to describe it so the title may be a little bit misleading The first a
在Python中从CSV文件中获取随机行并找到相应的单词，就像测验一样

抱歉标题含糊不清想不出更好的表达方式我有一个包含德语英语单词的 CSV 文件如下所示 Ja Yes Nein No Katze Cat 我希望我的 python 脚本从 CSV 文件中打印一个随机的德语单词并要求他们输入英语单词
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

在 sqlite 中制作字符串的规范化版本 - 波兰字符 ł

Apple 提供了在数据库中使用存储在数据库中的文本的规范化版本创建附加列的示例派生财产 https developer apple com library mac samplecode DerivedProperty Introduct
更改线程实时调度策略失败：CONFIG_RT_GROUP_SCHED=y

如果我在这里而不是超级用户发布此内容我深表歉意我试图在实时组中运行 docker 并且遇到了启用 cgroups CONFIG RT GROUP SCHED在内核中运行实时 docker 应用程序此处 https docs docke
从List>中获取对象并存储在ViewModel中

建议想要有逻辑地阅读答案 gt gt 选择 TAB 最旧的 Goal Presentation of books with related inventorydetails on homepage such as Book Title I
jQuery 中的自动完成功能以及动态添加的元素

我的要求是当用户在输入字段之一输入一些字符至少 3 个时显示几个选项这些字符也可能会动态添加由于数据很大我无法在页面加载时加载数据有一个 ajax 调用来获取过滤后的数据我得到的问题是Expected identifier第
如何用JavaScript测试两个对象是否相同？

我需要一个函数 function isSame a b 其中如果a和b相同则返回true 我试过return a b 但我发现将返回 false 我期望这个函数可以得到一些结果 isSame 3 14 3 14 true isSame
Webpack 2 - 如何停止生成 CSS 和 HTML 的 .js 文件？

我是 Webpack 2 的新手所以请原谅我到目前为止的简单理解根据网上的一些教程我拼凑了一个工作package json and webpack babel config js file 本质上我试图将 SCSS 转换为 CSS
MS SQL Server 2008“带（无锁）”相当于 IBM DB2 9.7

在 MS SQL Server 2008 中你可以这样写 FROM EMPLOYEE as A with nolock DB2 9 7 是否有等效语法谢谢 DB2 未提交的读取与您一起 SELECT FROM whatevertable
apache 别名与符号链接

在 UNIX 系统上使用 apache 时如果您的文件系统在 home me web icons 中有图标并且您希望浏览器能够在调用 url 时显示它们http www me com icons myicon jpg http www
使用多值位置字段在 solr 中搜索

我可以为 solr 中的位置类型字段索引多个值修改后的响应schema xml索引修改后的 exampledocs 看起来像查询 http 192 168 3 19 8983 solr select wt json indent tru
从 iOS 应用程序内生成条形码

我想获取一个数字字符串并生成一个可以由任何扫描仪读取的简单条形码我已经可以使用相机并读取条形码但现在我想生成条形码有谁知道有一个 sdk 可以让我做到这一点资源或代码片段吗谢谢唯一可以做到这一点的免费图书馆是可可触摸条形码 ht
从 SignalR 调用特定客户端

我想从服务器调用特定客户端而不是广播给所有客户端问题是我在一些 AJAX 请求的范围内比如说在 aspx 代码隐藏中而不是在 Hub 或 PersistentConnection 中所以没有 Clients 属性并且进行 aja
文件在被取消之前上传[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 这里遇到了
在 Windows 程序集中使用 nasm 的 Hello World

我在用着nasm http sourceforge net projects nasm 编译以下程序集然而代码在 Windows 下的控制台中崩溃了 C gt nasm f win32 test asm o test o C gt ld
多个函数中的未绑定本地错误[重复]

这个问题在这里已经有答案了我一直在创建一系列随机事件其中每个函数对一组主要变量执行不同的操作但我不断收到未绑定的本地错误这是我的代码的简化版本 variable 1 def main global variable secondar
如何使用 C# .NET 4.5 将文件从 ZIP 存档读取到内存而不先将其解压到文件？

NET Framework 4 5 通过以下类添加了对 ZIP 文件的支持System IO Compression 假设我有 ZIP 存档sample xml根目录下的文件我想直接从存档读取此文件到内存流然后将其反序列化为自定义 NE
DocuSign getRecipientView ttl_expired 错误

我正在使用 DocuSign API 发布到收件人帖子视图 URL 我收到一个响应 URL 但如果我按照该 URL 操作它会告诉我 event ttl expired 示例网址 https demo docusign net Signin
为什么VBS不能正确读取这个文本文件？

我有以下代码来读取文本文件 Option Explicit Dim InputFile Dim FSO oFile Dim strData InputFile C Program Files x86 AVG CloudCare Client
JavaScript Array#map：索引参数

我的问题是关于mapJavaScript 中的数组方法您可以向它传递一个带有第二个参数的函数即正在处理的数组的当前元素的索引但是目的是什么当你这样做时会发生什么当你不这样做时会发生什么区别您会使用此功能做什么当前项的索引始终
Google Chrome 中大型 html 表格的滚动行为缓慢

我正在尝试创建一个带有滚动条的大型 HTML 表大约 5000 行因此我考虑将该表插入到 div 然后我可以随意格式化它在 Firefox 47 和 IE 11 中运行良好但在 Chrome 59 中滚动行为缓慢工作演示 http
如何使用scrapy从网站抓取有限数量的页面？

我需要抓取多个网站并且只想抓取每个网站一定数量的页面那么如何实现呢我的想法是使用一个字典其键是域名值是已存储在 mongodb 中的页数因此当一个页面被抓取并成功存储到数据库中时该域的页面数将增加1 如果数量大于最大数量则

如何使用scrapy从网站抓取有限数量的页面？

如何使用scrapy从网站抓取有限数量的页面？ 的相关文章

随机推荐

热门标签

如何使用scrapy从网站抓取有限数量的页面？的相关文章