Scrapy从div中获取href

2024-03-24

我开始在一个小项目中使用Scrapy，但无法提取链接。每次找到该类时，我只得到“[]”，而不是 url。我错过了一些明显的东西吗？

sel = Selector(response)
for entry in sel.xpath("//div[@class='recipe-description']"):
    print entry.xpath('href').extract()

网站样本：

<div class="recipe-description">
    <a href="http://www.url.com/">
        <h2 class="rows-2"><span>SomeText</span></h2>
    </a>
</div>

你的 xpath 查询是错误的

for entry in sel.xpath("//div[@class='recipe-description']"):

在这一行中，您实际上是在迭代我们没有任何 Href 属性的 div

为了使其正确，您应该选择achor中的元素div:

for entry in sel.xpath("//div[@class='recipe-description']/a"):
    print entry.xpath('href').extract()

最好的解决方案是提取href属性在for直接循环

for href in sel.xpath("//div[@class='recipe-description']/a/@href").extract():
    print href

为简单起见，您还可以使用 css 选择器

for href in sel.css("div.recipe-description a::attr(href)").extract():
    print href

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

Scrapy

Scrapy从div中获取href 的相关文章

django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
python 模拟第三方模块

我正在尝试测试一些处理推文的类我使用 Sixohsix twitter 来处理 Twitter API 我有一个类充当 Twitter 类的外观我的想法是模拟实际的 Sixohsix 类通过随机生成新推文或从数据库检索它们来模拟推文的
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x

随机推荐

在 iPad 上处于全屏模式时，如何捕获 MPMoviePlayer 下一个按钮单击事件？

当的时候MPMoviePlayerViewController在 iPad 上处于全屏模式时它的控件默认在覆盖层上有一个上一个和下一个按钮在我的项目中我需要捕获该覆盖按钮的点击并进行相应的处理由于我不确定如何调用播放列表因此没有
计算结构大小而不填充字节的函数

您好我想创建一个函数来计算结构的大小而不填充字节例子 struct test int x char y int z 如果我计算上述结构的大小我必须得到 9 个字节即没有填充字节并考虑我可能不知道结构中存在的变量的情况例子 str
为什么 Octave、R、Numpy 和 LAPACK 在同一矩阵上产生不同的 SVD 结果？

我使用 Octave 和 R 通过一个简单的矩阵来计算 SVD 并得到两个不同的答案代码如下 R gt a lt matrix c 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0
简单 C++ - 关于字符串和串联以及将 int 转换为字符串 [重复]

这个问题在这里已经有答案了可能的重复在 C 中将 int 转换为 string 的最简单方法 https stackoverflow com questions 5590381 easiest way to convert int to
Laravel 5 和 Eloquent 数据库中两个日期之间的关系

我是 Laravel 5 的初学者我有一个表用户其中包含 CreateDate Type 和 Channel 列我有一个用户列表我在视图中选择 Trans StartDate Trans EndDate Type 和 Channe
熄灯 - 寻找最差的初始状态

我有一个围绕一个小游戏的任务叫做熄灯 https en wikipedia org wiki Lights Out game Game 该游戏由尺寸为 3x3 的棋盘组成其中每个单元格可以为 1 或 0 例如 0 1 0 1 1 0 0
HTTP 标头 If-None-Match: * 是什么意思？

以下 HTTP 1 1 标头是什么意思如果无匹配当使用强或弱 ETag 甚至 ETag 列表时我理解它但我不明白它在使用星号时的用途 Edit 最好有一些伪代码 PHP 代码也很好来显示如何什么回答 If None Match
用于 jquery 数据表服务器端处理的 Spinner

我有一个带有服务器端处理的 jquery 数据表版本 1 10 一切正常然而我的要求是为每个 ajax 调用显示一个微调器而不是默认的正在处理消息尝试了多种方法但没有任何作用这是我的代码 table pp DataTable
如何创建一个预先填写“说明”的 HTML 表单，当用户单击该框时，该说明会清晰可见？

我有一个 HTML 表单如下所示
更改 DecimalFormat 区域设置

我有定制DecimalFormat在 Edittext 的 addTextChangedListener 方法中一切工作正常但是当我更改语言区域设置时我的 addTextChangedListener 不起作用 double an
如何等待异步函数？

My case let waiting function return new Promise resolve gt console log awaiting setTimeout function resolve 1000 let wai
Clang 可以使用 GCC 编译的 .a 库来编译代码吗？

我的项目目前在 gcc 下编译它使用Boost ZeroMQ作为静态 a图书馆和一些 so像 SDL 这样的库我想一路叮当响但不是现在我想知道是否可以编译使用的代码 a and so在 gcc 下用 clang 编译的库是的就是
如何从 Node.js 打开终端应用程序？

我希望能够打开Vim从终端中运行的node js程序中创建一些内容保存并退出Vim 然后抓取文件的内容我正在尝试做这样的事情 filename tmp tmpfile process pid editor process env ED
动态将 RewriteBase 设置为当前文件夹路径

有没有办法将 RewriteBase 设置为相对于主机根目录的当前文件夹 htaccess 文件所在的文件夹的路径我有一个 CMS 如果我将其移动到主机中的目录它将无法工作除非我将 RewriteBase 设置为相对于主机根目录的目
具有不同行布局的游标适配器

我正在尝试创建一个自定义光标适配器它将根据光标中的某些数据使用两种不同的布局我一直在阅读重写 getViewTypeCount 和 getItemViewType 来实现这一点但我似乎不知道如何实现这一点这是我的 bindView
在 pandas 数据帧中插入多索引

我需要插入多索引数据帧例如这是主要数据框 a b c result 1 1 1 6 1 1 2 9 1 2 1 8 1 2 2 11 2 1 1 7 2 1 2 10 2 2 1 9 2 2 2 12 我需要找到以下结果 1 3 1 7
缺少 Ionic 网络本机插件的提供程序

我尝试过使用 Ionics 本机插件 Network 但由于据称缺少提供程序而失败为了避免任何错误我全新安装了 Ionic 和所需的依赖项 ionic cordova plugin add cordova plugin network
Glassfish 3.1.2 和 Eclipse

我刚刚下载了 Glassfish 版本 3 1 2 这还不是正式版本我需要这个版本因为我的 Web 应用程序正在使用 websockets 我现在遇到的问题是 Eclipse 的 Glassfish 插件他无法识别新的 Glassfi
什么可能导致作业无法完成？

我正在使用 C 开发一个项目由于某种原因当我尝试为枚举变量赋值时分配不会发生我会复制我的代码但这实际上只是一个简单的作业它是这样的 testVar MyEnum TYPE OF ENUM where testVar属于类型MyE
Scrapy从div中获取href

我开始在一个小项目中使用Scrapy 但无法提取链接每次找到该类时我只得到而不是 url 我错过了一些明显的东西吗 sel Selector response for entry in sel xpath div class reci

Scrapy从div中获取href

Scrapy从div中获取href 的相关文章

随机推荐

热门标签