在 scrapy 中将基本 url 与结果 href 结合起来

2024-05-09

下面是我的蜘蛛代码，

class Blurb2Spider(BaseSpider):
   name = "blurb2"
   allowed_domains = ["www.domain.com"]

   def start_requests(self):
            yield self.make_requests_from_url("http://www.domain.com/bookstore/new")


   def parse(self, response):
       hxs = HtmlXPathSelector(response)
       urls = hxs.select('//div[@class="bookListingBookTitle"]/a/@href').extract()
       for i in urls:
           yield Request(urlparse.urljoin('www.domain.com/', i[1:]),callback=self.parse_url)


   def parse_url(self, response):
       hxs = HtmlXPathSelector(response)
       print response,'------->'

在这里，我尝试将 href 链接与基本链接结合起来，但出现以下错误，

exceptions.ValueError: Missing scheme in request url: www.domain.com//bookstore/detail/3271993?alt=Something+I+Had+To+Do

任何人都可以让我知道为什么我收到此错误以及如何使用 href 链接加入基本网址并产生请求

如果您不想使用替代解决方案urlparse:

response.urljoin(i[1:])

该解决方案更进一步：这里 Scrapy 计算出用于加入的域基础。正如您所看到的，您不必提供明显的http://www.example.com加入。

这使得你的代码reusable将来如果您想更改正在抓取的域。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

URL

Scrapy

在 scrapy 中将基本 url 与结果 href 结合起来的相关文章

将字符串转换为浮点数列表（在 python 中）

出于数据存储的目的我尝试从 txt 文件恢复浮点列表从字符串中可以看出 a 1 3 2 3 4 5 我想恢复 a 1 3 2 3 4 5 我期待一个简单的解决方案例如list a 但我找不到类似的东西 Use the AST模块 Ex
嵌套函数中的变量作用域

有人可以解释为什么以下程序失败 def g f for in range 10 f def main x 10 def f print x x x 1 g f if name main main 带有消息 Traceback most re
用于读取类似 CSV 行的 Python 正则表达式

我想解析传入的类似 CSV 的数据行值用逗号分隔逗号周围可能有前导和尾随空格并且可以用或引用例如这是有效的行 data1 data2 data3 data4 data5 但这是格式错误的 data1 data2 da ta3
如何测试该变量不等于多个事物？

这是我的一段代码 choice while choice 1 and choice 2 and choice 3 choice raw input pick 1 2 or 3 if choice 1 print 1 it is elif c
使用python编辑html，但是lxml将漂亮的html实体转换为奇怪的编码

我正在尝试使用 python 带有 pyquery 和 lxml 来更改和清理一些 html Eg html div p It 146 s a spicy meatball p div lxml html clean 函数 clean ht
使用 Poetry 创建的 Python 项目：如何在 Visual Studio Code 中调试它？

我有一个根据基本 Poetry 创建的 Python 项目指示 https python poetry org docs basic usage 项目文件夹是这样的 my project my project my project py F
matplotlib - 将文本包装在图例中

我目前正在尝试绘制一些pandas数据通过matplotlib seaborn 然而我的一个专栏标题特别长拉长了情节考虑以下示例 import random import pandas as pd import matplotlib p
按升序对数字字符串列表进行排序

我创建了一个SQLite https en wikipedia org wiki SQLite数据库有一个存储温度值的表第一次将温度值按升序写入数据库然后我将数据库中的温度值读入列表中然后将该列表添加到组合框中以选择温度效果很好
熊猫系列到二维数组

所以我使用了来自的答案将二维数组放入 Pandas 系列中 https stackoverflow com questions 38840319 put a 2d array into a pandas series将 2D numpy
使用最新值进行采样

考虑以下系列 created at 2014 01 27 21 50 05 040961 80000 00 2014 03 12 18 46 45 517968 79900 00 2014 09 05 20 54 17 991260 636
类型错误：无法连接“str”和“int”对象有人可以帮助新手使用他们的代码吗？

感谢任何帮助还有任何重大缺陷或您在格式或基本方面看到的任何重大缺陷请指出谢谢 day raw input How many days locations raw input Where to days str day location
如何读取多个文件并将它们合并到一个 pandas 数据框中？

我想读取位于同一目录中的多个文件然后将它们合并到一个 pandas 数据框中如果我这样做的话它会起作用 import pandas as pd df1 pd read csv data 12015 csv df2 pd read csv
如何使用 QAbstractTableModel（模型/视图）将数据设置到 QComboBox？

我希望能够设置itemData of a combobox当使用填充时QAbstractTableModel 但是我只能从模型返回一个字符串data method 通常当不使用模型时可以像这样执行 Set text and data
将整数转换为特定格式的十六进制字符串

我是 python 新手有以下问题我需要将整数转换为 6 个字节的十六进制字符串例如 281473900746245 gt xFF xFF xBF xDE x16 x05 十六进制字符串的格式很重要 int 值的长度是可变的格式 0
如何使用 Matplotlib 可视化标量二维数据？

所以我有一个网格网格矩阵 X 和 Y 以及标量数据矩阵 Z 我需要将其可视化最好是一些 2D 图像在各点处带有颜色显示 Z 值我做了一些研究但没有找到任何能完全满足我想要的效果的东西 pyplot imshow Z 看起来不错
如何将另一整列作为参数传递给 pandas fillna()

我想用另一列中的值填充一列中的缺失值使用fillna方法我读到循环遍历每一行将是非常糟糕的做法最好一次完成所有事情但我不知道如何使用fillna 之前的数据 Day Cat1 Cat2 1 cat mouse 2 dog eleph
无法将 librosa 与 python 3 一起使用

我已经在 Windows 上的 ubuntu 子系统上使用 pip3 正确安装了 librosa 但是当我尝试执行像这样的简单程序时 import librosa data sr librosa load sound mp3 print d
Docker Python 脚本找不到文件

我已经成功构建了一个 Docker 容器并将应用程序的文件复制到 Dockerfile 中的容器中但是我正在尝试执行引用输入文件在 Docker 构建期间复制到容器中的 Python 脚本我似乎无法弄清楚为什么我的脚本告诉我它无
Python 子进程：无法转义引号

我知道以前曾问过类似的问题但它们似乎都是通过重新设计参数的传递方式即使用列表等来解决的但是我这里有一个问题因为我没有这个选项有一个特定的命令行程序我使用的是 Bash shell 我必须向其传递带引号的字符串它不能不被引用
nltk 标记化和缩写

我用 nltk 对文本进行标记只是将句子输入到 wordpunct tokenizer 中这会拆分缩写例如 don t 到 don t 但我想将它们保留为一个单词我正在改进我的方法以实现更精确的文本标记化因此我需要更深入地研究

随机推荐

在中断时获取 current->pid

我正在Linux调度程序上写一些东西我需要知道在我的中断到来之前哪个进程正在运行当前的结构可用吗如果我在中断处理程序中执行 current gt pid 我是否可以获得我中断的进程的 pid 你可以 current gt pid存在并
Rails 建模：将 HABTM 转换为 has_many :through

我正在现有的 Rails 站点上进行维护工作并且遇到了一些由多对多关联引起的问题看起来该网站最初是使用has and belongs to many对于一些业务逻辑变得更加复杂的关系所以我需要使用has many through而是支
psutil：测量特定进程的CPU使用率

我正在尝试测量进程树的 cpu 使用率目前获取进程没有子进程的 cpu usage 就可以了但我得到了奇怪的结果 import psutil p psutil Process PID p cpu percent 还给我float g
防止从 SSMS 导出的文件中受影响的行条目

我怎样才能防止这样的条目 123456 rows affected 在文件末尾导出的文本文件中似乎没有找到选项谢谢你可以使用 SET NOCOUNT ON 不设置计数 https learn microsoft com en us s
如何在 SQL 中的时区中使用“America/New_York”

我有这段代码在 SQL 中运行良好但是我想使用不同的时区格式例如 America New York 代替 US Eastern Standard Time SELECT TODATETIMEOFFSET CAST CURRENT TIM
从 Python 中编译的正则表达式中提取命名组正则表达式模式

我有一个 Python 正则表达式其中包含多个命名组但是如果先前的组已匹配则可能会错过与一组匹配的模式因为似乎不允许重叠举个例子 import re myText sgasgAAAaoasgosaegnsBBBausgisego
如何计算图像中的 RGB 或 HSV 通道组合？

我使用 python opencv 加载形状为 30 100 3 的图像现在想要按颜色计算所有颜色的频率我不是指单个通道而是指通道组合含义 3 个频道列表例如 255 0 0 表示红色 255 255 0 表示黄色 100 100
托管 React 应用程序和 Express 服务器 cpanel

我是托管新手如果有人可以非常详细地解释这将对我有很大帮助我有以下问题我有前端使用react app和后端使用expressjs and mysql 我的计算机中有一个可以运行的简单应用程序我使用本地主机启动后端和前端它们工作完美
Postgres - 这是在布尔列上创建部分索引的正确方法吗？

我有下表 CREATE TABLE recipemetadata Lots of columns diet glutenfree boolean NOT NULL 大多数每一行都会被设置为FALSE除非有人想出一些席卷全国的疯狂新无麸质饮食
相当于 C# 中 Java 的“ByteBuffer.putType()”

我正在尝试通过从 Java 移植代码来格式化 C 中的字节数组在 Java 中使用方法 buf putInt value buf putShort buf putDouble 等等但我不知道如何将其移植到 C 我尝试过 MemoryS
当react-redux中redux存储的非相关部分更新时组件重新渲染

我注意到我的一些组件在我不期望的情况下重新渲染可以说我有一个
为什么 HttpServletRequest 输入流为空？

我有这段代码我从请求输入流读取输入并使用 JacksonMapper 转换为 POJO 它在具有 guice 支持的 jetty 7 容器中运行 Override protected void doPost HttpServletRequ
ERR_IMPORT_ASSERTION_TYPE_MISSING 用于导入 json 文件

这段代码运行良好我不知道是因为我升级到 Node 17 还是什么原因但现在我明白了 TypeError ERR IMPORT ASSERTION TYPE MISSING Module file Users xxxxx code pro
从 C 线程调用 Python 代码

我对从 C 或 C 线程调用 Python 代码时如何确保线程安全感到非常困惑 The Python 文档 http docs python org c api init html non python created threads似乎是
将函数应用于每个列组合

我有一个数据框n列并希望对每个列应用一个函数组合列这与如何cor 函数将数据帧作为输入并生成相关矩阵作为输出例如 X lt data frame A rnorm 100 B rnorm 100 C rnorm 100 cor X 这将生
Maven `help: effective-pom` 只为单个项目生成，而不是所有项目

我想为多模块构建中的所有子项目生成有效的 pom The help effective pom文档here http maven apache org plugins maven help plugin usage html The hel
具有非阻塞读取功能的 Bash 脚本

我想使用命名管道将一些数据发送到根进程这是脚本效果很好 bin sh pipe tmp ntp if p pipe then mknod m 666 pipe p fi while true do if read line lt pip
将 javascript 变量发送到服务器端 ASP .NET

我需要在回发时将 JavaScript 数据传递到服务器端 Exvar jsVariableToPass new Object jsVariableToPass key1 value1 jsVariableToPass key2 value
如何在 svelte 中制作搜索过滤器

我有两个组件在组件树中距离很远我对如何在两者之间进行通信存有疑问我有搜索组件 listItems 和商店商店 svelte
在 scrapy 中将基本 url 与结果 href 结合起来

下面是我的蜘蛛代码 class Blurb2Spider BaseSpider name blurb2 allowed domains www domain com def start requests self yield self ma

在 scrapy 中将基本 url 与结果 href 结合起来

在 scrapy 中将基本 url 与结果 href 结合起来 的相关文章

随机推荐

热门标签

在 scrapy 中将基本 url 与结果 href 结合起来的相关文章