如何使用scrapy抓取xml url

2024-05-13

你好，我正在使用 scrapy 来抓取 xml url

假设下面是我的 Spider.py 代码

class TestSpider(BaseSpider):
    name = "test"
    allowed_domains = {"www.example.com"}


    start_urls = [
        "https://example.com/jobxml.asp"
        ]


    def parse(self, response):
        print response,"??????????????????????"

result:

2012-07-24 16:43:34+0530 [scrapy] INFO: Scrapy 0.14.3 started (bot: testproject)
2012-07-24 16:43:34+0530 [scrapy] DEBUG: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, MemoryUsage, SpiderState
2012-07-24 16:43:34+0530 [scrapy] DEBUG: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, RedirectMiddleware, CookiesMiddleware, HttpCompressionMiddleware, ChunkedTransferMiddleware, DownloaderStats
2012-07-24 16:43:34+0530 [scrapy] DEBUG: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2012-07-24 16:43:34+0530 [scrapy] DEBUG: Enabled item pipelines: 
2012-07-24 16:43:34+0530 [test] INFO: Spider opened
2012-07-24 16:43:34+0530 [test] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2012-07-24 16:43:34+0530 [scrapy] DEBUG: Telnet console listening on 0.0.0.0:6023
2012-07-24 16:43:34+0530 [scrapy] DEBUG: Web service listening on 0.0.0.0:6080
2012-07-24 16:43:36+0530 [testproject] DEBUG: Retrying <GET https://example.com/jobxml.asp> (failed 1 times): 400 Bad Request
2012-07-24 16:43:37+0530 [test] DEBUG: Retrying <GET https://example.com/jobxml.asp> (failed 2 times): 400 Bad Request
2012-07-24 16:43:38+0530 [test] DEBUG: Gave up retrying <GET https://example.com/jobxml.asp> (failed 3 times): 400 Bad Request
2012-07-24 16:43:38+0530 [test] DEBUG: Crawled (400) <GET https://example.com/jobxml.asp> (referer: None)
2012-07-24 16:43:38+0530 [test] INFO: Closing spider (finished)
2012-07-24 16:43:38+0530 [test] INFO: Dumping spider stats:
    {'downloader/request_bytes': 651,
     'downloader/request_count': 3,
     'downloader/request_method_count/GET': 3,
     'downloader/response_bytes': 504,
     'downloader/response_count': 3,
     'downloader/response_status_count/400': 3,
     'finish_reason': 'finished',
     'finish_time': datetime.datetime(2012, 7, 24, 11, 13, 38, 573931),
     'scheduler/memory_enqueued': 3,
     'start_time': datetime.datetime(2012, 7, 24, 11, 13, 34, 803202)}
2012-07-24 16:43:38+0530 [test] INFO: Spider closed (finished)
2012-07-24 16:43:38+0530 [scrapy] INFO: Dumping global stats:
    {'memusage/max': 263143424, 'memusage/startup': 263143424}

scrapy是否不适用于xml抓取，如果是的话，任何人都可以给我提供一个关于如何抓取xml标签数据的示例

提前致谢...........

您有一个专门用于抓取 xml feed 的蜘蛛。这是来自 scrapy 文档：

XMLFeedSpider 示例

这些蜘蛛非常容易使用，让我们看一个例子：

from scrapy import log
from scrapy.contrib.spiders import XMLFeedSpider
from myproject.items import TestItem

class MySpider(XMLFeedSpider):
    name = 'example.com'
    allowed_domains = ['example.com']
    start_urls = ['http://www.example.com/feed.xml']
    iterator = 'iternodes' # This is actually unnecesary, since it's the default value
    itertag = 'item'

    def parse_node(self, response, node):
        log.msg('Hi, this is a <%s> node!: %s' % (self.itertag, ''.join(node.extract())))

        item = Item()
        item['id'] = node.select('@id').extract()
        item['name'] = node.select('name').extract()
        item['description'] = node.select('description').extract()
        return item

这是另一种不使用 scrapy 的方法：

这是一个用于从给定 url 下载 xml 的函数，请注意，这里没有一些导入，这也将为您提供下载 xml 文件的良好进度。

def get_file(self, dir, url, name):
    s = urllib2.urlopen(url)
    f = open('xml/test.xml','w')
    meta = s.info()
    file_size = int(meta.getheaders("Content-Length")[0])
    print "Downloading: %s Bytes: %s" % (name, file_size)
    current_file_size = 0
    block_size = 4096
    while True:
        buf = s.read(block_size)
        if not buf:
            break
        current_file_size += len(buf)
        f.write(buf)
        status = ("\r%10d  [%3.2f%%]" %
                 (current_file_size, current_file_size * 100. / file_size))
        status = status + chr(8)*(len(status)+1)
        sys.stdout.write(status)
        sys.stdout.flush()
    f.close()
    print "\nDone getting feed"
    return 1

然后你用 iterparse 解析下载并保存的 xml 文件，如下所示：

for event, elem in iterparse('xml/test.xml'):
        if elem.tag == "properties":
            print elem.text

这只是一个如何浏览 xml 树的示例。

另外，这是我的旧代码，因此您最好使用 with 来打开文件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

Scrapy

如何使用scrapy抓取xml url 的相关文章

此 TypeError 消息中提到的“代码对象”是什么？

在尝试使用Python时exec声明我收到以下错误 TypeError exec arg 1 must be a string file or code object 我不想传递字符串或文件但什么是代码对象如何创建一个创建代码对象的
稀有对象的 python 类型注释，例如 psycopg2 对象

我了解内置类型但是我如何指定稀有对象例如数据库连接对象 def get connection and cursor gt tuple psycopg2 extensions cursor psycopg2 extensions conn
将 numpy 数组合并为单个 int

numpy 数组怎么可以这样 10 22 37 45 转换为单个 int32 数字如下所示 10223745 这可以工作 gt gt gt int join map str 10 22 37 45 10223745 基本上你使用map s
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
Series.sort() 和 Series.order() 有什么区别？

s pd Series nr randint 0 10 5 index nr randint 0 10 5 s Output 1 3 7 6 2 0 9 7 1 6 order 按值排序并返回一个新系列 s order Output 2 0
如何通过 python 多处理利用所有核心

我一直在摆弄Python的multiprocessing现在已经使用了一个多小时的功能尝试使用并行化相当复杂的图形遍历函数multiprocessing Process and multiprocessing Manager import
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
AttributeError：“模块”对象没有属性[重复]

这个问题在这里已经有答案了我有两个 python 模块 a py import b def hello print hello print a py print hello print b hi b py import a def hi
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
platformnotsupportedException ：XSLCompiledTransform.Load(xslt) 未在 .net Core 2.1 目标框架中加载带有的 xslt 文件

我有一个 xml 文件需要将其转换为 txt 为此我使用了 xslt 转换我的 xslt 转换文件包含一些支持 javascript 函数如果我在 net Framework 4 5 及更高版本中运行代码我可以成功转换文件但相同的
python中basestring和types.StringType之间的区别？

有什么区别 isinstance foo types StringType and isinstance foo basestring 对于Python2 basestring是两者的基类str and unicode while type
pandas 相当于 np.where

np where具有向量化 if else 的语义类似于 Apache Spark 的when otherwise数据帧方法我知道我可以使用np where on pandas Series but pandas通常定义自己的 API
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
AWS Lambda 不读取环境变量

我正在编写一个 python 脚本来查询 Qualys API 中的漏洞元数据我在 AWS 中将其作为 lambda 函数执行我已经在控制台中设置了环境变量但是当我执行函数时出现以下错误 module initialization
带 Flask 的 RPI dht22：无法将第 4 行设置为输入 - 等待 PulseIn 消息超时

我正在尝试制作一个 Raspberry Pi 3 REST API 使用 DHT22 提供温度和湿度整个代码 from flask import Flask jsonify request from sds011 import SDS01
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发

随机推荐

在 Spring Webflux 中执行阻塞 JDBC 调用

我使用 Spring Webflux 和 Spring data jpa 使用 PostgreSql 作为后端数据库我不想在进行数据库调用时阻塞主线程例如find and save 为了实现同样的目标我有一个主调度程序Controll
向图像添加坐标，以用作 R 中的 Leaflet、Shiny 和 Shinydashboard 包中的地图

我计划使用 Leaflet Shiny 和 Shinydashboard 沿着以下很棒的路线创建一个带有医院 OHS 事件标记的交互式地图交互式地图和直方图模板 http shiny rstudio com gallery superzip
寻找免费的 GUI 工具来使用 PostgreSQL [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案目前我正在使用独立的 GUI 工具DbSchema http www dbschema com 设计
MongoDB 和 Mongoose 访问一个数据库，同时针对另一个数据库进行身份验证（NodeJS、Mongoose）

我有几个数据库不想为每个数据库创建单独的用户帐户 MongoDB 支持使用另一个数据库中定义的帐户来验证对数据库的访问的概念但语法示例很难获得当我终于弄清楚时我正准备提出一个问题如果它对其他人有帮助就放在这里这是 mongod
什么是“太聪明”的 Ruby 代码示例？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在与一些程序员朋友进行讨论他们说他们看到 Ruby 程序员尤其是编写了很多太聪明的代码所以我想知道那会是什么样子我指
QTextEdit.find() 在 Python 中不起作用

演示问题的简单代码 usr bin env python import sys from PyQt4 QtCore import QObject SIGNAL from PyQt4 QtGui import QApplication QTe
如何使用批处理脚本调用的curl 获取http post 请求的响应代码？

我正在努力为从我们的工具之一发送 http post 请求提供支持该工具基本上通过 http 请求执行作业实现此目的的方法是该工具使用多个参数调用 RunScript bat 该脚本解析这些参数并在验证后发出curl post 请求 P
有没有办法获取 Android 扩展文件中特定文件的 Url？

我正在构建一个 PhoneGap 应用程序其中包含大型音频和视频文件在 Android 中媒体文件应位于扩展文件中以使应用程序大小保持在 Google Play 50 MB 限制以下我目前正在考虑两种播放视频文件的方法将所需的视
如何设置黄瓜环境变量

我有以下 package json name newcucumber version 1 0 0 main index js scripts test node modules bin cucumber js firefox node mo
为什么数组索引或基索引以 0 开头？

在使用任何语言处理数组时我一直想知道为什么数组的基地址或索引号以零开头 int x 5 21 34 55 314 45 现在如果我想访问数组的任何第一个值我将不得不使用x 0 但是为什么 0 这背后有什么逻辑呢在 C 语言中数组的
无法使用 MV3 从 Firefox 下的通用脚本导出到 background.js

我试图在服务工作者 background js 和内容脚本之间重用一些功能 https stackoverflow com questions 73421706 how to reuse a javascript function betw
JSF-2 应用程序中的服务器端计时器

在我正在开发的 JSF 2 应用程序中当用户执行操作时我需要启动服务器端计时器这个计时器必须与应用程序本身相关因此它必须在用户会话关闭时继续存在为了解决这个问题我想使用 java util Timer 类在应用程序范围的 bea
Google Talk XMPP - 什么是 X-GOOGLE-TOKEN？

我正在尝试向 Google Talk 进行身份验证这X OAUTH2使用 OAuth2 令牌的机制是有据可查 https developers google com talk jep extensions oauth 但什么是X GOOG
WebView 与 Chrome 自定义选项卡

我正在构建一个应用程序在详细活动中我必须显示一个网页我本来打算使用 WebView 但后来我看到了 Chrome Custom Tab 你们认为最好实施什么为什么如果您只想显示某个页面那么我建议您使用 chrome 自定义选项卡
git在Windows和Linux之间切换后强制刷新索引

我有一个Windows和Linux共享的磁盘分区格式 NTFS 它包含一个 git 存储库约 6 7 GB 如果我只使用Windows or 只使用Linux操作 git 存储库一切正常但是每次切换系统的时候git status命令将
laravel 5：找不到类“输入”

In my routes php我有的文件 Route get function return view login Route get index function return view index Route get register
尝试拍摄 https://github.com/appsthatmatter/GraphView 的图表快照时出现 IllegalStateException

我正在尝试拍摄 GraphView 的快照但它给出了错误 GraphView 必须在硬件加速模式下使用我正在使用以下代码来拍摄快照 Bitmap bitmap Bitmap createBitmap view getWidth view
Android 无法查找支持版本 27.0.0 的窗口

更新后supportVersion to 27 0 0仅在 Android 5 0 2 上应用程序会因以下堆栈跟踪而崩溃 W WindowManager Failed looking up window java lang Illegal
如何从android中的webview获取选定的文本？

我需要从网络视图中获取选定的文本为此我这样说 webView loadUrl javascript Android getHtml window getSelection toString 在我的触摸事件中触摸事件效果很好 Andro
如何使用scrapy抓取xml url

你好我正在使用 scrapy 来抓取 xml url 假设下面是我的 Spider py 代码 class TestSpider BaseSpider name test allowed domains www example com s

如何使用scrapy抓取xml url

如何使用scrapy抓取xml url 的相关文章

随机推荐

热门标签