使用来自同一 URL 的多个 POST 数据进行抓取

2024-03-15

我已经创建了一个蜘蛛，它可以收集具有匹配电话号码的公司名称列表。然后将其保存到 CSV 文件中。

然后我想使用 CSV 文件中的电话号码作为 POST 数据从另一个网站抓取数据。我希望它循环访问相同的起始 URL，但只是抓取每个电话号码生成的数据，直到 CSV 文件中不再有任何号码为止。

这是我到目前为止所得到的：

from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.http import FormRequest
from scrapy.selector import HtmlXPathSelector
from scrapy import log
import sys
from scrapy.shell import inspect_response
from btw.items import BtwItem
import csv

class BtwSpider(BaseSpider):
    name = "btw"
    allowed_domains = ["siteToScrape.com"]
    start_urls = ["http://www.siteToScrape.com/broadband/broadband_checker"] 

    def parse(self, response):
        phoneNumbers = ['01253873647','01253776535','01142726749']

        return [FormRequest.from_response(response,formdata={'broadband_checker[phone]': phoneNumbers[1]},callback=self.after_post)]


    def after_post(self, response):
       hxs = HtmlXPathSelector(response)
       sites = hxs.select('//div[@id="results"]')
       items = []
       for site in sites:
           item = BtwItem()

           fttcText = site.select("div[@class='content']/div[@id='btfttc']/ul/li/text()").extract()

           # Now we will change the text to be a boolean value
           if fttcText[0].count('not') > 0:
               fttcEnabled=0
           else:
               fttcEnabled=1

           item['fttcAvailable'] = fttcEnabled
           items.append(item)
       return items

目前，我一直在尝试通过列表（phoneNumbers）进行循环，但到目前为止我什至还没有设法让它发挥作用。一旦我知道如何做到这一点，我将能够自己从 CSV 文件中提取它。在当前状态下，它仅使用列表中索引为 1 的电话号码。

假设你有一个phones.csv包含手机的文件：

01253873647
01253776535
01142726749

这是你的蜘蛛：

import csv
from scrapy.item import Item, Field

from scrapy.spider import BaseSpider
from scrapy.http import Request
from scrapy.http import FormRequest
from scrapy.selector import HtmlXPathSelector


class BtwItem(Item):
    fttcAvailable = Field()
    phoneNumber = Field()


class BtwSpider(BaseSpider):
    name = "btw"
    allowed_domains = ["samknows.com"]

    def start_requests(self):
        yield Request("http://www.samknows.com/broadband/broadband_checker", self.parse_main_page)

    def parse_main_page(self, response):
        with open('phones.csv', 'r') as f:
            reader = csv.reader(f)
            for row in reader:
                phone_number = row[0]
                yield FormRequest.from_response(response,
                                                formdata={'broadband_checker[phone]': phone_number},
                                                callback=self.after_post,
                                                meta={'phone_number': phone_number})

    def after_post(self, response):
        hxs = HtmlXPathSelector(response)
        sites = hxs.select('//div[@id="results"]')

        phone_number = response.meta['phone_number']
        for site in sites:
            item = BtwItem()

            fttc = site.select("div[@class='content']/div[@id='btfttc']/ul/li/text()").extract()
            item['phoneNumber'] = phone_number
            item['fttcAvailable'] = 'not' in fttc[0]

            yield item

这是运行后抓取的内容：

{'fttcAvailable': False, 'phoneNumber': '01253873647'}
{'fttcAvailable': False, 'phoneNumber': '01253776535'}
{'fttcAvailable': True, 'phoneNumber': '01142726749'}

这个想法是使用抓取主页start_requests，然后在回调中逐行读取csv文件并yield new Requests对于每个电话号码（csv 行）。另外，通过phone_number通过回调meta字典以便将其写入Item字段（我认为你需要这个来区分项目/结果）。

希望有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用来自同一 URL 的多个 POST 数据进行抓取的相关文章

查找公因数以将浮点数列表转换为整数列表

我有一个来自其他函数的浮点数列表我所知道的是在理想世界中存在一个共同因素可用于将每一项相乘以获得整数列表可能存在一些小的数值噪声 1e 14 例如 2 3333333333333335 4 666666666666667 1 0 1
将 Django Model 对象转换为 dict，所有字段都完好无损

如何将 django Model 对象转换为 dictall它的领域理想情况下所有内容都包含外键和 editable False 的字段让我详细说明一下假设我有一个如下所示的 django 模型 from django db imp
使用列中的日期范围扩展 pandas 数据框

我有一个 pandas 数据框其日期和字符串与此类似 Start End Note Item 2016 10 22 2016 11 05 Z A 2017 02 11 2017 02 25 W B 我需要将其扩展转换为以下内容在之间填
Windows 7 64位 libsvm 和 python 错误：找不到函数“svm_get_sv_indices”

我正在使用 Windows 7 64 位我已经安装了 Python 2 7 3 32 位版本和 libsvm 3 13 当我尝试启动导入 svmutil 的简单 py 文件时出现错误 C libsvm 3 13 python gt p
ValueError：无法将 DatetimeIndex 转换为 dtype datetime64[us]

我正在尝试为 S P 500 ETF 创建一个包含 30 分钟数据的 PostgreSQL 表 spy30new 用于测试新插入的数据来自具有 15 分钟数据的多个股票的表全部 15 个 all15 在 dt 时间戳和 instr 股
使用 python 将 bibtex 文件转换为 html （也许是 pybtex？）

您好我想解析 bibtex 出版物文件并对特定字段例如年份进行排序并过滤某些内容然后将其放在网站上我遇到了 pybtex 它可以读取和解析 bibtex 文件但它基本上没有记录我不知道如何对条目进行排序 pybtex 是可行的
使用 PyQt 和 matplotlib 在可滚动小部件中显示多个绘图

由于我没有得到答案this https stackoverflow com questions 12179893 creating a scrollable multiplot with pythons pylab我尝试用 PyQt 解决这
PyQt5 - 无法使用 QVideoWidget 播放视频

from PyQt5 QtWidgets import from PyQt5 QtMultimedia import from PyQt5 QtMultimediaWidgets import from PyQt5 QtCore impor
确定列的累积最大值

我正在尝试以下代码 df pd DataFrame 23 52 36 49 52 61 75 82 97 12 columns A B df C np where df A gt df C shift df A df C shift pri
pandas dataframe 对列进行排序会引发索引上的 keyerror

我有以下数据框 df peaklatency snr 0 52 99 0 0 1 54 15 62 000000 2 54 12 82 000000 3 54 64 52 000000 4 54 57 42 000000 5 54 13 7
Dataframe unstack 性能 - pandas

我正在尝试拆开数据框它工作正常但问题是我正在处理 CSV 文件中的巨大数据集约 10 亿这是示例数据集 236539 48512569874 Name Danny 236539 48512569874 Class 12 236539
使用字典时如何避免 KeyError？

现在我正在尝试编写汇编程序但我不断收到此错误 Traceback most recent call last File Users Douglas Documents NeWS py line 44 in if item in regis
CTRL-C 在 Python 中的行为有所不同

I ve recently started learning Python long time Java programmer here and currently in the process of writing some simple
数据框更新后如何刷新绘图？

假设您已经使用以下方法构建了一个图形px line 使用数据框数据框稍后会添加新数据用新数据刷新数据的好方法是什么一个例子可以是px data stocks 从列的子集开始 GOOG AAPL AMZN FB NFLX MSFT 例如
如何让 IPython 按类别组织制表符补全的可能性？

当一个对象有数百个方法时制表符补全很难使用通常有趣的方法是由被检查对象的类而不是其基类定义或重写的方法如何让 IPython 对其制表符完成可能性进行分组以便首先检查对象的类中定义的方法和属性然后是基类中的方法和属性看起来像是
将 scipy 稀疏矩阵的几行采样到另一个中

如何对 scipy 稀疏矩阵的某些行进行采样并从这些采样的行中形成一个新的 scipy 稀疏矩阵例如如果我有一个 10 行的 scipy 稀疏矩阵 A 并且我想创建一个新的 scipy 稀疏矩阵 B 其中 A 的第 1 3 4 行该
使用 Python 3.x 基本获取 URL 的 HTML 正文

我是Python新手我对 Python 2 x 中的旧 urllib 和 urllib2 与 Python 3 中的新 urllib 之间的差异有点困惑除此之外我不确定数据在发送到 urlopen 之前何时需要编码我一直在尝试使用
python webdriver_manager chrome 自定义配置文件

如何使 webdriver manager chrome 使用自定义 chrome 用户配置文件我知道对于 selenium webdriver 我可以这样指定 options Options options add argument f
加入语音频道（discord.py）

当我尝试让我的机器人加入我的语音频道时出现以下错误 await client join voice channel voice channel 产生错误的行 Traceback most recent call last File usr
python 根据日期创建目录结构

我使用以下函数根据今天的日期创建目录 usr bin python import time datetime os today datetime date today todaystr today isoformat os mkdir to

随机推荐

增强型 For 循环 - 对象数组

好的我有一个名为 Dog 的类它接受两个参数一个字符串和一个整数该类有一个名为 bark 的方法该方法根据传递给 Dog 构造函数的整数打印一个字符串我还有一个名为 Kennel 的类它创建了 5 个 Dog 的数组看起来像
只能检索有限数量的页面

我想知道为什么我无法检索到第165页之后的更多页数据 page number is 165 4 image gif page number is 165 13 page number is 165 3 page number is 165
复制 S3 存储桶（包括版本）

有没有办法复制 S3 存储桶包括对象的版本我读到复制存储桶的方法是使用命令行工具 aws s3 sync s3
ASP.NET MVC 3 和 NHibernate 脚手架

我找到了这篇文章 http blog stevensanderson com 2011 01 13 scaffold your aspnet mvc 3 project with the mvcscaffolding package htt
Heroku SSL 端点 - “没有这样的应用程序”

有什么想法为什么当我访问 herokussl com URL 时添加证书和 Heroku SSL 端点后可能会收到 No Such App 错误我按照这里的说明进行操作 https devcenter heroku com artic
检测到依赖循环导入/无循环

我正在尝试在 ES6 中设置 API 端点在我的主服务器文件中我尝试导入路由器模块但收到错误检测到依赖循环导入无循环请在下面找到我的代码以获得许可和帮助 import express from express import bo
球体上的 3D 坐标为纬度和经度

我得到以下信息存在一个原点为 0 0 0 半径为 R 的球体进行射线球体相交后我知道 3D 空间中球体上的一个点 XYZ 直线穿过球体外壳的 3D 空间中的确切位置对于我的程序我想计算球体上 XYZ 点的纬度和经度但我无法想出
删除所有 Git 提交历史记录

我正在尝试从 Github 获取一个存储库恢复过去的标签将其推送到另一个远程并删除所有历史记录除了删除所有提交日志之外我可以执行以下所有操作我缺少什么 git clone https github com user user re
asp.net mvc 模型与实体框架模型

在 asp net mvc model 文件夹中创建模型是最佳实践吗将这些模型与您的视图结合使用并使用服务层将我的模型调整为 EF 模型或者您是否使用过其他方法这种方法的问题在于大多数时候我的自制模型是 EF 模型的副本
失败 [INSTALL_FAILED_UPDATE_INCOMPATIBLE]，然后是 DELETE_FAILED_INTERNAL_ERROR

当我尝试在 nexus5 设备上运行应用程序时 android studio 打开错误窗口显示安装失败并显示消息 INSTALL FAILED CONFLICTING PROVIDER 然后系统询问我是否要卸载现有应用程序即使设备上
将 MySQL 日期时间转换为时间戳

我正在尝试将日期时间转换为时间戳但 mysql 向我发出警告并且转换后的值也是错误的这是SQL查询 UPDATE table1 A table2 B SET B date added UNIX TIMESTAMP STR TO DAT
sqlite 搜索多列

我正在尝试对表中的所有列执行区分大小写的搜索所以我做了类似的事情 Select From mytable Where col1 col2 etc like SomeValue 但对于大写和小写它总是返回相同的结果如果我这样做 Selec
如何使用 JpegTran 递归处理 Windows 目录中的所有图像并覆盖它们？

现在我有以下批处理文件用于处理图像 echo none cd 1 md 1 ProcessedJPEGS for i in jpg do C Program Files Image Optimization jpegtran exe opt
使用 Gradle Release 插件进行 Android 构建

我想用Gradle 发布插件 https github com townsfolk gradle release in Android Project 我配置了它一切都很好除了一件事 Gradle Release Plugin更改项目版
Django 模型子类的类型提示

我有 Django 视图的辅助函数如下所示代码如下它返回 None 或与给定查询匹配的单个对象例如pk 1 from typing import Type Optional from django db models import
哪个 API 允许我将 PayPal 保存为可重复使用的付款类型

我目前正在开展一个项目将 PayPal 实施为类似于保存的信用卡的可重复使用的付款选项我在类似的网站上看到过这样做http www fab com http www fab com它允许用户登录 PayPal 一次然后存储他们的付款信
使用 PostgreSQL、Javascript 库或可重用函数存储和索引 YAML？

PostgreSQL http www postgresql org 9 2 具有原生 JSON 支持不过我想将人类可读的配置文件存储在 YAML 中我想我想索引一些但不是全部配置文件值因此我想知道例如是否可以在 Postg
如何将mongoDB数据导出为CSV格式？

我正在寻找一种非常简单的方法将数据从 mongoDB 导出到 CSV 大多数答案都涉及 bash 脚本等等是否有一个简单的 mongoDB 命令可以将数据导出到 CSV 中 Update 从 mongo 3 0 6 开始 csv不再支持
用于填写 PDF 表单的 Android 应用程序

我想为 PDF 表单设计一个应用程序只是为了通过 Android 应用程序自动填充它我想向用户展示一些在 xml android 应用程序 UI 上设计的表单并用传入的信息填充 pdf 表单我有 PDF 格式的表格我只想将其与我的
使用来自同一 URL 的多个 POST 数据进行抓取

我已经创建了一个蜘蛛它可以收集具有匹配电话号码的公司名称列表然后将其保存到 CSV 文件中然后我想使用 CSV 文件中的电话号码作为 POST 数据从另一个网站抓取数据我希望它循环访问相同的起始 URL 但只是抓取每个电话号码生成的

使用来自同一 URL 的多个 POST 数据进行抓取

使用来自同一 URL 的多个 POST 数据进行抓取 的相关文章

随机推荐

热门标签

使用来自同一 URL 的多个 POST 数据进行抓取的相关文章