Scrapy XPath 页面上的所有链接

2023-12-23

我正在尝试使用 Scrapy 收集某个域下的所有 URL。我试图使用 CrawlSpider 从主页开始抓取他们的网络。对于每个页面，我想使用 Xpath 提取所有的 href。并以键值对等格式存储数据。

键：当前Url 值：该页面上的所有链接。

class MySpider(CrawlSpider):
    name = 'abc.com'
    allowed_domains = ['abc.com']
    start_urls = ['http://www.abc.com']

    rules = (Rule(SgmlLinkExtractor()), )
    def parse_item(self, response):
        hxs = HtmlXPathSelector(response)
        item = AbcItem()
        item['key'] = response.url 
        item['value'] = hxs.select('//a/@href').extract()
        return item

我定义我的 AbcItem() 如下所示：

从 scrapy.item 导入项目、字段

class AbcItem(Item):

    # key: url
    # value: list of links existing in the key url
    key = Field()
    value = Field()
    pass

当我像这样运行我的代码时：

nohup scrapy crawl abc.com -o output -t csv &

机器人似乎开始爬行，我可以看到 nohup.out 文件被所有配置日志填充，但我的输出文件中没有信息..这就是我想要收集的信息，任何人都可以帮助我吗？我的机器人可能出了什么问题？

您应该为规则定义回调。这是获取所有链接的示例twitter.com主页（follow=False):

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.item import Item, Field


class MyItem(Item):
    url= Field()


class MySpider(CrawlSpider):
    name = 'twitter.com'
    allowed_domains = ['twitter.com']
    start_urls = ['http://www.twitter.com']

    rules = (Rule(SgmlLinkExtractor(), callback='parse_url', follow=False), )

    def parse_url(self, response):
        item = MyItem()
        item['url'] = response.url
        return item

然后，在输出文件中，我看到：

http://status.twitter.com/
https://twitter.com/
http://support.twitter.com/forums/26810/entries/78525
http://support.twitter.com/articles/14226-how-to-find-your-twitter-short-code-or-long-code
...

希望有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xpath

Scrapy

Scrapy XPath 页面上的所有链接的相关文章

将 JSON 发布到 Python CGI

我已经安装了 Apache2 并且 Python 可以工作但我有一个问题我有两页一个是 Python 页面另一个是带有 JQuery 的 Html 页面有人可以告诉我如何让我的 ajax 帖子正常工作吗
为什么 Python 在导入脚本时只保存脚本的字节码？

既然执行Python字节码会比运行原始源代码更快因为Python不需要重新编译为什么Python在导入脚本时只保存编译后的字节码呢为每个执行的脚本保存 pyc 文件不是更好吗无论如何 Python 解释器的启动时间都需要时间即使您
为什么需要在 Python 方法中显式使用“self”参数？ [复制]

这个问题在这里已经有答案了当在 Python 中的类上定义方法时它看起来像这样 class MyClass object def init self x y self x x self y y 但在其他一些语言中例如 C 您可以使用
如果 Excel 文件是由程序创建的，Pandas read_excel 对于具有简单公式的单元格返回 nan [重复]

这个问题在这里已经有答案了 I use pd read excel读取由以下命令创建的 excel 文件openpyxl并从一个网址下载解析后的数据框将给出nan如果单元格值是公式 which formula is simply 100
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
为什么在访问 Python 对象属性时使用 getattr() 而不是 __dict__ ？

在具有一定程度的 Python 对象自省的源代码示例和 SO 答案中常见的模式是 getattr some object attribute name string 是否有理由优先选择这种模式 some object dict attri
来自 pandas 数据帧的烛台图，用日期替换索引

此代码给出了带有移动平均线的烛台图但 x 轴位于索引中我需要 x 轴位于日期中需要做什么改变 import numpy as np import pandas as pd import matplotlib pyplot as plt
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
无法在 virtualenv 中安装 libxml2

我有一个问题libxml2蟒蛇模块我正在尝试将其安装在python3 虚拟环境使用以下命令 pip install libxml2 python3 但它显示以下错误 Collecting libxml2 python3 Using cac
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
无法导入QUERY_TERMS

我正在运行一个网站Python and Django Django filters 2 1 installed Django 2 1 installed 当我运行时我收到以下错误 importError Could not import
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
如何创建用于霍夫曼编码和解码的树？

对于我的作业我将对霍夫曼树进行编码和解码我在创建树时遇到问题并且陷入困境不要介意打印语句它们只是让我测试并查看函数运行时的输出是什么对于第一个 for 循环我从主块中用于测试的文本文件中获取了所有值和索引在第二个 for 循
没有名为“turtle”的模块

我正在学习并尝试用Python3制作贪吃蛇游戏我正在进口海龟我正在使用 Linux mint 19 PyCharm python37 python3 tk Traceback most recent call last File hom
如何同时接受int和float类型的输入？

我正在制作一个货币转换器如何让 python 同时接受整数和浮点数我就是这样做的 def aud brl amount From to ER 0 42108 if amount int if From strip aud and to
基于值的 matplotlib 条形图颜色

有没有一种方法可以根据条形图的值对条形图的条形进行着色例如 values below 0 5 red values between 0 5 to 0 green values between 0 to 08 blue etc 我找到了一些

随机推荐

Plotly：如何自定义图例？

我已经自定义了使用plotly绘制的数据点的颜色数据点的颜色是根据与其关联的标签指定的不过设置之后legend True所有三种颜色在字典中定义都不会显示在图中我想 a rgb 147 112 219 the actual col
iOS PhoneGap 构建失败

我是新来的PhoneGap适用于 iOS 和 Xcode 我的应用程序在 Android 手机上运行良好但遇到了问题我能够在 iOS 模拟器中构建并运行该应用程序但是当我将其存档以在设备上进行测试时出现以下错误我到处搜索但找不到有
JQuery Mobile，整个网站的一个页脚片段

I m not询问如何获得固定页脚我有一个多页和单页的结构我想知道如何在整个网站中仅使用一个 html 片段我真的在寻找一种解决方案因为我想仅在一个位置编辑页脚并在所有页面中查看修改 Thanks 编辑我正在开发一个用 Phone
为什么 VisualVM 探查器中没有显示所有方法？

我在用VisualVM看看我的应用程序在哪里慢但它并没有显示所有方法可能没有显示所有延迟应用程序的方法我有一个实时应用程序声音处理并且有几百微秒的时间不足有没有可能VisualVM隐藏本身速度很快的方法 UPDATE 1 我通过
使用 PK 反馈循环复制行

鉴于以下情况表1 Id Field1 Field2 NULL 1 2 NULL 3 4 我想将 Field1 和 Field2 的值插入到另一个表 Table2 中 Table2 有一个自增整数主键我想从表 2 中检索新的 PK 并更新
由于访问控制列表，SSRS 401.3 错误访问被拒绝

卸载 Oracle 10 客户端安全补丁后不知道是什么触发了它我在用户访问我们的 SSRS 测试服务器时遇到了问题首先发生的事情是 SQL 服务和 SSRS 服务拒绝在 NT AUTHORITY SYSTEM 下启动当我将其更改为
无法使用 dotnet CLI 和 nuspec 文件打包 NuGet 包

我有几个项目正在从 NET Framework 4 7 迁移到 NET Standard 2 0 结果我正在尝试使用dotnet pack命令来创建我的 NuGet 包同时使用我的nuspec带有令牌的文件我有几个自定义构建脚本可以为
匹配引用的 csv 中的未转义引号

我查看了几篇具有类似标题的 Stack Overflow 帖子但没有一个已接受的答案对我有用我有一个 CSV 文件其中数据的每个单元格均由逗号分隔并被引用包括数字每行以换行符结束一些文本单元格中有引号我想使用正则表达式
ngrx 订阅存储不会在状态更改时更新 Angular 5

我正在构建一个应用程序它将城市名称发送到 api 端点并返回该城市的天气它使用两个操作一个将更新城市使用名称作为有效负载第二个操作加载返回的新数组以更新状态该效果使用 switchMap 映射 api 调用然后返回结果用于显示
jsf隐式对象cc和组件之间的区别

也许这是一个愚蠢的问题但我用 cc 引用复合组件例如 cc attrs randomAttr 但我也看到了 component 隐式对象我使用它是因为我被告知要这样做但我不太明白它的用途谁能解释一下吗 cc指评估时正在处理的顶级复
在没有内置函数的情况下按降序排列文件中的元素

我按照冒泡排序重新编写了程序 def main try array file open input Please enter the name of the file you wish to open A file read split f
SASS 和 SCSS 变量名称的合法字符

SCSS 变量名称中可以使用哪些字符如果你查看源代码SASS 词法分析器 https github com nex3 sass blob stable lib sass script lexer rb 你会看到的 A hash of re
有没有办法检测 NaN 和 -NaN？

我想将 lua 数字保存到字符串和句柄中NaN大小写正确检测任何 NaN 都很容易 x x 然而我发现只有一种检测方法是NaN or NaN是使用tostring x nan 有更好的方法吗代替tostring x nan 不方便携带
Swift Calendar.当前内存泄漏？

我在应用程序中遇到了内存问题我已经能够将其分解为 NSCalendar 一个简单的视图控制器如下所示 class ViewController UIViewController override func viewDidLoad supe
使用输入元素上的修饰键触发单击事件

我正在为某些功能编写测试其中涉及用户按住 Shift 键并单击复选框我在用着 input trigger Event click shiftKey true 来模拟那个但是当事件监听器被调用时 event shiftKey财产总是被报
如何使用 javascript (jquery) 将整数值添加到返回字符串的值？

我有一个简单的 html 块例如 span 8 span 我尝试使用 jquery 将 1 添加到值 8 var currentValue replies text var newValue currentValue 1 replies
Win32 命名管道和消息大小限制 - 旧的 64K 限制是否仍然适用？

Win32 过去对消息模式管道的消息大小限制为 64K 正如 KB 文章的残余所证明的那样Q119218 PRB 命名管道 Write 限制为 64K https support microsoft com en us kb 119218
BeautifulSoup：如何显示不显示的div的内部？

我是 BeautifulSoup 的新手我有一些我不明白的问题我认为这个问题可能已经得到解答但我找到的答案在这种情况下都没有帮助我我需要访问 div 的内部来检索网站的词汇表条目但是该 div 的内部似乎根本不显示在 Beau
如何在Powershell中比较关联数组？

我有两个关联数组 a k1 v1 k2 k21 v21 b k1 v1 k2 k21 v21 我想知道有没有什么好的方法可以在不编写自己的函数的情况下进行比较除了编写一个函数来比较每个键的值之外我不知道有什么方法如果该值不是原始对象
Scrapy XPath 页面上的所有链接

我正在尝试使用 Scrapy 收集某个域下的所有 URL 我试图使用 CrawlSpider 从主页开始抓取他们的网络对于每个页面我想使用 Xpath 提取所有的 href 并以键值对等格式存储数据键当前Url 值该页面上的所有链

Scrapy XPath 页面上的所有链接

Scrapy XPath 页面上的所有链接 的相关文章

随机推荐

热门标签

Scrapy XPath 页面上的所有链接的相关文章