scrapy“请求网址中缺少方案”

2023-12-27

下面是我的代码-

import scrapy
from scrapy.http import Request

class lyricsFetch(scrapy.Spider):
    name = "lyricsFetch"
    allowed_domains = ["metrolyrics.com"]


print "\nEnter the name of the ARTIST of the song for which you want the lyrics for. Minimise the spelling mistakes, if possible."
artist_name = raw_input('>')

print "\nNow comes the main part. Enter the NAME of the song itself now. Again, try not to have any spelling mistakes."
song_name = raw_input('>')


artist_name = artist_name.replace(" ", "_")
song_name = song_name.replace(" ","_")
first_letter = artist_name[0]
print artist_name
print song_name

start_urls = ["www.lyricsmode.com/lyrics/"+first_letter+"/"+artist_name+"/"+song_name+".html" ]

print "\nParsing this link\t "+ str(start_urls)

def start_requests(self):
    yield Request("www.lyricsmode.com/feed.xml")

def parse(self, response):

    lyrics = response.xpath('//p[@id="lyrics_text"]/text()').extract()

    with open ("lyrics.txt",'wb') as lyr:
        lyr.write(str(lyrics))

    #yield lyrics

    print lyrics

当我使用 scrapy shell 时，我得到了正确的输出，但是，每当我尝试使用 scrapy scrapy 运行脚本时，我都会得到 ValueError。我究竟做错了什么？我浏览了这个网站和其他网站，但一无所获。我想到了通过这里的另一个问题来产生请求的想法，但它仍然不起作用。有什么帮助吗？

我的回溯-

Enter the name of the ARTIST of the song for which you want the lyrics for. Minimise the spelling mistakes, if possible.
>bullet for my valentine

Now comes the main part. Enter the NAME of the song itself now. Again, try not to have any spelling mistakes.
>your betrayal
bullet_for_my_valentine
your_betrayal

Parsing this link        ['www.lyricsmode.com/lyrics/b/bullet_for_my_valentine/your_betrayal.html']
2016-01-24 19:58:25 [scrapy] INFO: Scrapy 1.0.3 started (bot: lyricsFetch)
2016-01-24 19:58:25 [scrapy] INFO: Optional features available: ssl, http11
2016-01-24 19:58:25 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'lyricsFetch.spiders', 'SPIDER_MODULES': ['lyricsFetch.spiders'], 'BOT_NAME': 'lyricsFetch'}
2016-01-24 19:58:27 [scrapy] INFO: Enabled extensions: CloseSpider, TelnetConsole, LogStats, CoreStats, SpiderState
2016-01-24 19:58:28 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2016-01-24 19:58:28 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2016-01-24 19:58:28 [scrapy] INFO: Enabled item pipelines:
2016-01-24 19:58:28 [scrapy] INFO: Spider opened
2016-01-24 19:58:28 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-01-24 19:58:28 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-01-24 19:58:28 [scrapy] ERROR: Error while obtaining start requests
Traceback (most recent call last):
  File "C:\Users\Nishank\Miniconda2\lib\site-packages\scrapy\core\engine.py", line 110, in _next_request
    request = next(slot.start_requests)
  File "C:\Users\Nishank\Desktop\SNU\Python\lyricsFetch\lyricsFetch\spiders\lyricsFetch.py", line 26, in start_requests
    yield Request("www.lyricsmode.com/feed.xml")
  File "C:\Users\Nishank\Miniconda2\lib\site-packages\scrapy\http\request\__init__.py", line 24, in __init__
    self._set_url(url)
  File "C:\Users\Nishank\Miniconda2\lib\site-packages\scrapy\http\request\__init__.py", line 59, in _set_url
    raise ValueError('Missing scheme in request url: %s' % self._url)
ValueError: Missing scheme in request url: www.lyricsmode.com/feed.xml
2016-01-24 19:58:28 [scrapy] INFO: Closing spider (finished)
2016-01-24 19:58:28 [scrapy] INFO: Dumping Scrapy stats:
{'finish_reason': 'finished',
 'finish_time': datetime.datetime(2016, 1, 24, 14, 28, 28, 231000),
 'log_count/DEBUG': 1,
 'log_count/ERROR': 1,
 'log_count/INFO': 7,
 'start_time': datetime.datetime(2016, 1, 24, 14, 28, 28, 215000)}
2016-01-24 19:58:28 [scrapy] INFO: Spider closed (finished)

正如@tintin所说，你错过了httpURL 中的方案。 Scrapy 需要完全限定的 URL 才能处理请求。

据我所知，您错过了以下方案：

start_urls = ["www.lyricsmode.com/lyrics/ ...

and

yield Request("www.lyricsmode.com/feed.xml")

如果您要从 HTML 内容解析 URL，则应该使用urljoin确保您获得完全限定的 URL，例如：

next_url = response.urljoin(href)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

response

Scrapy

scrapy“请求网址中缺少方案” 的相关文章

将 Django 表单中的所有 CharField 表单字段输入转换为小写

我使用 Django 表单进行用户注册用户可以在其中输入优惠券代码我希望在优惠券代码字段中输入的所有字符都转换为小写我尝试过在保存方法自定义清理方法和自定义验证器中使用 lower 但这些方法没有运气下面是我的代码 class S
如何列出静态链接的 python 版本中可用的所有 openssl 密码？

在python 2 7 8到2 7 9升级中 ssl模块从使用更改为 DEFAULT CIPHERS DEFAULT aNULL eNULL LOW EXPORT SSLv2 to DEFAULT CIPHERS ECDH AESGCM D
Codeception API 测试响应返回“N/A”

我正在使用 Laravel 和 Codeception 作为测试框架编写 API 我无法让 Codeception 返回响应代码我可以从 Codeception 获取响应代码以及 JSON 响应我编写了一个简单的测试来从 GET 请求
从 Qthread 更新 Python GUI 元素

所以我知道有很多关于使用 Qthread 更新 GUI 中的元素的帖子我尽了最大努力去检查这些但仍然有一个问题我正在尝试创建一个 GUI 该 GUI 在单击按钮时运行一个方法然后该方法启动一个新线程然后该线程向 GUI 发出信号以
Python 脚本在开机时启动

我正在制作一个简单的 python 脚本作为在后台运行的可执行文件运行有没有办法让它在启动时运行我知道我可以将可执行文件添加到启动目录但这需要我根据我的机器对其进行硬编码我希望它也能在其他机器上运行 Windows 和 ubuntu
如何用if条件编写ini文件

我想编写一个带有 if else 条件的 ini 文件我用 python 中的 ConfigParser 解析它如何在ini文件中使用if和else语句如果我明白你在问什么您可能想要做的是这样的在 INI 文件中设置条件值 sec
在将字符串传递给 int() 之前，如何检查它是否为负数？

我正在尝试编写一些内容来检查字符串是数字还是负数如果它是一个数字正数或负数它将通过 int 传递不幸的是当包含时 isdigit 不会将其识别为数字这是我到目前为止所拥有的 def contestTest Neutral po
计算目录和子目录中的文件夹数量

我有一个脚本可以准确地告诉我一个目录中有多少个文件以及其中的子目录但是我也在研究确定同一目录及其子目录中有多少个文件夹我当前的脚本 import os getpass from os path import join getsize
如何使用scrapy抓取xml url

你好我正在使用 scrapy 来抓取 xml url 假设下面是我的 Spider py 代码 class TestSpider BaseSpider name test allowed domains www example com s
Python中矩阵元素的双重求和

基于下面的简化示例我想在我的代码中 from sympy import import numpy as np init printing x y symbols x y mat Matrix x 1 1 y X 1 2 3 Y 10 20
如何从 NodeJs 调用 python 脚本

我需要在 NodeJs 中调用这个 python 脚本 Read py usr bin env python coding utf8 import RPi GPIO as GPIO import MFRC522 import signal
python 中的 exec 关键字有什么作用？

code compile a 1 2
matplotlib xkcd 无法在 Mac 上运行

我在可视化 matplotlib xkcd 图时遇到小问题通过简单地尝试执行上找到的示例matplotlib org http matplotlib org examples showcase xkcd html 当我执行 xkcd py
在 Windows 中更新/安装 Python scikit learn 最新开发版本

我正在尝试在 Windows 中使用 0 18 dev0 最新开发版本替换安装我的 Python scikit learn 0 17 0 以便我可以尝试sklearn neural network MLPClassifier 阅读并尝试此
更换壳牌管道[重复]

这个问题在这里已经有答案了在 subprocess 模块的 Python 2 7 文档中我找到了以下片段 p1 Popen dmesg stdout PIPE p2 Popen grep hda stdin p1 stdout stdo
pygame：使用 sprite.RenderPlain 绘制精灵组的顺序

我有一个精灵组需要按一定的顺序绘制以便其精灵按应有的方式重叠然而即使使用运算符模块函数 sorted self sprites key attrgetter y x 对组进行排序顺序也是错误的我该如何解决这个问题直截了当地说
最适合“正在进行的作业”的 HTTP 状态代码

向客户端提供的最合适的 HTTP 状态代码是什么表示您的请求很好但仍在进行中请稍后在完全相同的位置回来查看例如假设客户端提交初始请求以启动繁重的查询服务器立即返回一个 URL 客户端可以定期轮询该 URL 以获取结果如果客户
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
Python - 设置 .pop() 行为

这是我在 Python 集合中注意到的奇怪的事情我读到集合中没有顺序但它确实从 0 到 79 弹出较低的元素后来从 79 到 127 弹出它不再弹出较低的元素只有在 128 到来之后 79 才会被弹出为什么会这样呢有没有其他方
Matplotlib 与多处理冻结计算机

我对 matplotlib 和多重处理有疑问我启动第一个进程在其中显示图像并选择一个区域然后关闭图形然后我启动另一个进程在其中调用定期更新的图形函数至此一切正常然后当我尝试使用相同的图形功能启动另一个进程时它冻结了我的整

随机推荐

从 C# 调用特定版本的 PowerShell

我正在尝试使用Get VM从 Hyper V 主机上的 C 调用 Cmdlet 显然相应的PowerShell模块Hyper V必须先导入然而导入失败显然是因为该模块仅在 PowerShell 3 0 上受支持至少我是这么认为的
jquery text().replace('','') 不起作用

您好我在添加文本字符串后尝试了几个小时再次删除它我有一个处理手风琴的脚本其中的文本有一些冗余所以我想在打开或关闭手风琴行时添加和删除多余的文本这是我的代码 var redundantText text text text a hr
在Java中，我可以合并两个使用JspWriter和另一个PrintWriter的类似函数吗？

我有以下类正如您将看到的它有一个相当冗余的 formatNameAndAddress 方法 package hu flux helper import java io PrintWriter import javax servlet j
如何使用 .NET 读取 ASP.NET 内部服务器错误描述？

看代码 using var client new WebClient try var bytesReceived client UploadData http localhost bytesToPost var response clien
Yii 2.0 如何在没有
的情况下生成表单？
是否可以用没有函数的语言进行函数式编程？

In 这条评论 https stackoverflow com questions 12272856 why cant i string print comment16458824 12272872 据说 Ruby 没有函数只有方法如果
多线程堆管理

在 C C 中我可以在一个线程中分配内存并在另一个线程中删除它然而每当有人从堆请求内存时堆分配器就需要遍历堆以找到大小合适的空闲区域两个线程如何有效地访问同一个堆而不破坏堆这是通过锁定堆来完成的吗一般来说您不需要担心内存分配
了解何时使用有状态服务以及何时依赖 Azure Service Fabric 中的外部持久性

我花了很多晚上的时间评估 Azure Service Fabric 作为我们当前 WebApps CloudServices 堆栈的替代品并且有点不确定如何决定何时具有状态的服务参与者应该是有状态参与者以及何时应该是无状态参与者外部持
JUnit4 是否开始支持测试排序？是故意的吗？

JUnit 实际上是 JUnit 4 的新手遇到了执行测试的套件方法 RunWith Suite class Suite SuiteClasses CreateNewProfile class EditProfile class publ
该命令返回一个非零代码：127

我正在尝试构建下面的 Dockerfile 但它一直失败RUN ocp indent help saying ocp indent not found The command bin sh c ocp indent help returne
在 iPhone 中裁剪星形图像

我有一个矩形图像但我想在我的 iPhone 应用程序中将此图像裁剪为星形那么请问有人可以建议我如何做到这一点吗请建议谢谢 See the 对相关问题发表评论 https stackoverflow com questions 262
如何使用派生列转换将字符串 (YYMMDD) 转换为日期时间？

我有一个输入文本文件其中包含几列即TransactionID receiveddt description等等 recieveddt列具有以下格式的日期值120419 yymmdd 我想将 txt 输入文件加载到数据库中但目标列rec
有没有java api可以访问bugzilla？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有一个独立的 java api 将 XML RPC 接口包装到 bugzilla 我不想为它编写
Magento - 在所有页面中创建固定块

如何在不点击模块名称的情况下在包括主页在内的所有页面中可见的右列中创建一个块谢谢希望能很好地理解你的问题 1 创建一个模块例如Mynamespace Mymodule 2 在模块中创建一个块例如 Mynamespace Mymodu
Spock Test，只检查方法是否被调用，不执行

在我们的 Spock 测试中我们想要检查我们的软件中是否选择了正确的路径但我们不想测试所调用方法的功能这是在单独的测试中完成的 def Test setup service metaClass innerMethod gt retur
SSIS 任务导入不一致的列数？

问题我经常收到来自不同供应商的提要文件尽管列名称一致但当某些供应商发送源文件中包含或多或少列的文本文件时就会出现问题此外这些文件的排列不一致除了 Cozy Roc 提供的动态数据流任务之外还有另一种方法可以导入这些文件我不
如何使用 Mockito 模拟 void 方法

如何模拟具有 void 返回类型的方法我实现了一个观察者模式但我无法用 Mockito 模拟它因为我不知道如何做我试图在互联网上找到一个例子但没有成功我的班级是这样的 public class World List
我什么时候应该在 UML 图中使用依赖关键字 <>？

参考这个来源 https www uml diagrams org dependency html UML的定义是依赖性是一种有向关系用于表明某个 UML 元素或一组元素需要需要或依赖于其他模型元素来进行规范或实现但后来根据教科书的
如何在android中的gridview布局中添加页脚

我需要在 android 中的 gridview 布局中添加某种页脚视图没有我可以找到的官方文档而且我无法找到在我的谷歌搜索中实际有效的方法有人取得了任何成就吗像这样我需要制作一个显示在 gridview 底部的按钮以便我可以在
scrapy“请求网址中缺少方案”

下面是我的代码 import scrapy from scrapy http import Request class lyricsFetch scrapy Spider name lyricsFetch allowed domains m

scrapy“请求网址中缺少方案”

scrapy“请求网址中缺少方案” 的相关文章

随机推荐

热门标签