scrapy - 每个 starurl 单独的输出文件

2024-01-09

我有一个运行良好的 scrapy 蜘蛛：

`# -*- coding: utf-8 -*-
import scrapy


class AllCategoriesSpider(scrapy.Spider):
    name = 'vieles'
    allowed_domains = ['examplewiki.de']
    start_urls = ['http://www.exampleregelwiki.de/index.php/categoryA.html','http://www.exampleregelwiki.de/index.php/categoryB.html','http://www.exampleregelwiki.de/index.php/categoryC.html',]

#"Titel": :

def parse(self, response):
    urls = response.css('a.ulSubMenu::attr(href)').extract() # links to den subpages
    for url in urls:
        url = response.urljoin(url)
        yield scrapy.Request(url=url,callback=self.parse_details)

def parse_details(self,response):
    yield {
        "Titel": response.css("li.active.last::text").extract(),
        "Content": response.css('div.ce_text.first.last.block').extract(),
    }

` with

scrapy runspider Spider.py -o dat.json 它将所有信息保存到 dat.json

我希望每个起始网址都有一个输出文件：category.jasoncategory.json 等等。

A 类似的问题 https://stackoverflow.com/questions/33639541/how-to-run-a-scrapy-scraper-multiple-times-simultaneously-on-different-input-w尚未得到答复，我无法重现这个答案 https://stackoverflow.com/questions/23868784/separate-output-file-for-every-url-given-in-start-urls-list-of-spider-in-scrapy我无法从那里的建议 https://stackoverflow.com/questions/33639541/how-to-run-a-scrapy-scraper-multiple-times-simultaneously-on-different-input-w.

如何实现拥有多个输出文件（每个 starturl 一个）的目标？我只想运行一个命令/shell 脚本/文件来实现这一目标。

您没有在代码中使用真实的网址，因此我使用我的页面进行测试。
我必须更改 css 选择器并且使用了不同的字段。

我将其另存为csv因为附加数据更容易。
JSON需要从文件中读取所有项目，添加新项目并将所有项目再次保存在同一文件中。

我创建额外的字段Category稍后将其用作管道中的文件名

items.py

import scrapy

class CategoryItem(scrapy.Item):
    Title = scrapy.Field()
    Date = scrapy.Field()
    # extra field use later as filename 
    Category = scrapy.Field()

在蜘蛛中，我从 url 获取类别并发送到parse_details using meta in Request.
In parse_details I add category to Item.

蜘蛛/example.py

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['blog.furas.pl']
    start_urls = ['http://blog.furas.pl/category/python.html','http://blog.furas.pl/category/html.html','http://blog.furas.pl/category/linux.html']

    def parse(self, response):

        # get category from url
        category = response.url.split('/')[-1][:-5]

        urls = response.css('article a::attr(href)').extract() # links to den subpages

        for url in urls:
            # skip some urls
            if ('/tag/' not in url) and ('/category/' not in url):
                url = response.urljoin(url)
                # add category (as meta) to send it to callback function
                yield scrapy.Request(url=url, callback=self.parse_details, meta={'category': category})

    def parse_details(self, response):

        # get category
        category = response.meta['category']

        # get only first title (or empty string '') and strip it
        title = response.css('h1.entry-title a::text').extract_first('')
        title = title.strip()

        # get only first date (or empty string '') and strip it
        date = response.css('.published::text').extract_first('')
        date = date.strip()

        yield {
            'Title': title,
            'Date': date,
            'Category': category,
        }

在管道中我得到category并用它打开文件以附加和保存项目。

管道.py

import csv

class CategoryPipeline(object):

    def process_item(self, item, spider):

        # get category and use it as filename
        filename = item['Category'] + '.csv'

        # open file for appending
        with open(filename, 'a') as f:
            writer = csv.writer(f)

            # write only selected elements 
            row = [item['Title'], item['Date']]
            writer.writerow(row)

            #write all data in row
            #warning: item is dictionary so item.values() don't have to return always values in the same order
            #writer.writerow(item.values())

        return item

在设置中，我必须取消注释管道才能激活它。

设置.py

ITEM_PIPELINES = {
    'category.pipelines.CategoryPipeline': 300,
}

GitHub 上的完整代码：python-examples/scrapy/在分隔文件中保存类别 https://github.com/furas/python-examples/tree/master/scrapy/save-categories-in-separated-files

BTW:我认为你可以直接写入文件parse_details.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scrapy - 每个 starurl 单独的输出文件的相关文章

从 ffmpeg 获取实时输出以在进度条中使用（PyQt4，stdout）

我已经查看了很多问题但仍然无法完全弄清楚我正在使用 PyQt 并且希望能够运行ffmpeg i file mp4 file avi并获取流式输出以便我可以创建进度条我看过这些问题 ffmpeg可以显示进度条吗 https stack
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
mac osx 10.8 上的初学者 python

我正在学习编程并且一直在使用 Ruby 和 ROR 但我觉得我更喜欢 Python 语言来学习编程虽然我看到了 Ruby 和 Rails 的优点但我觉得我需要一种更容易学习编程概念的语言因此是 Python 但是我似乎找不到适用于
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户

随机推荐

定期将Access数据库复制到SQL Server

我有一个 access 2003 数据库其中包含我的所有业务数据该访问数据库在白天每隔几个小时更新一次我们目前正在编写一个网站需要使用访问数据库中的数据该网站暂时将有only只读功能这意味着只需要一种数据传输方式 Acces
Linux下的MASM？

有没有我用的方法MASM http en wikipedia org wiki Microsoft Macro Assembler在Linux下即使严格的 NASM 在 Linux 下非常流行它在代码上的某些指令风格仍然有所不同维基说
如何使用 SQLalchemy 和 Alembic 自动初始化数据库？

目前我运行 flask db init flask db migrate m initialization flask db upgrade 如果数据库不存在我想在 Python 中运行它例如就像是 app create db 这样我
将从字符串转换的浮点值与文字进行比较

这不是著名的复制品浮点数学有问题吗 https stackoverflow com questions 588004 is floating point math broken 即使乍一看很像我正在读一本double从文本文件中使用fsc
在 WebSocket 中实现 permessage-deflate

我在理解和实现 WebSockets 中的 permessage deflate 扩展时遇到问题到目前为止我已经在握手代码中添加了 Sec WebSocket Extensions permessage deflate 似乎一切正常但
R Caret 的 rfe [{ 中的错误：任务 1 失败 - “rfe 期望 184 个重要性值，但只有 2 个”]

我正在使用 Caret 的 rfe 进行回归应用程序我的数据在data table 有 176 个预测变量包括 49 个因子预测变量当我运行该函数时出现以下错误 Error in task 1 failed rfe is expe
删除 lxml 中的所有命名空间？

我正在使用 google 的一些数据 API 使用 python 中的 lxml 库命名空间在这里是一个很大的麻烦对于我正在做的很多工作主要是 xpath 的东西最好直接忽略它们有没有一种简单的方法可以忽略 python lxml
SharePoint：如何以编程方式将项目添加到自定义列表实例

我真的在寻找一个小代码片段我有一个 C 控制台应用程序我将使用它以某种方式将列表项添加到我的自定义列表中我也创建了一个自定义内容类型因此不确定我是否也需要从此内容类型创建 C 类也许不是我认为这两篇博客文章应该可以帮助您解决问题
如何修复错误“无法更新。数据库或对象是只读的。” Excel 数据库自动化无处不在

我正在访问存储在共享驱动器上的 Excel 文件已经有几个月没有错误了突然我们遇到了这样一个问题 Cannot update Database or object is read only 我原来的连接字符串如下所示 Provider
如何检测是否存在重复模式

我的问题不是特定于语言的我可能会在 C 或 Python 中实现它除非某种语言的特定功能可以帮助我获得我想要的东西是否有任何人都知道的某种算法可以帮助我确定数字列表是否包含重复模式假设我有几个数字列表 12 4 5 7 1 2 1
更新 SQL Server 中的同一个表

我试图从相同的表数据更新相同的表数据我的SP如下图 UPDATE T1 SET T1 Name T2 Name T1 Age T2 Age T1 Subject T2 Subject FROM Student T1 Student T2
NavigationView 项目上的波纹效果

我的 DrawerLayout 中有 NavigationView 假设它有简单的菜单 menu menu
对于 Decimal 来说值太大或太小

我有以下代码 double shortfall GetSomeNumber 3 3588548831176006E 29 if shortfall gt 0 returnValue Convert ToDecimal shortfall 这
在 Hive 中将字符串转换为 array

我有一个用字符串表示的整数数组例如 1 2 2 3 Hive表中的字段类型是数组整数我想知道是否有任何Hive内置UDF可以将上述字符串转换为数组整数 Thanks tl dr我不知道有哪个 Hive UDF 可以为您执行此操作并且您
如何在android中将图像上传到Parse？

我已经能够使用相机拍照或从图库中拍摄照片并使用此代码在 ImageView 中显示它我现在需要做的是使用该图片并将其上传到 Parse 我一直在谷歌上到处搜索来做到这一点但我还没有找到正确的方法有人可以帮我解决这个问题吗是否可以从
刚刚在我的计算机上创建了一个 Git 存储库。如何将 repo 放入 GitHub？

我是 Git 新手我刚刚在我的计算机上创建了一个 Git 存储库现在我想将该存储库连接到网站 GitHub 并将我的代码推送到那里我该怎么做呢我有点熟悉我必须以某种方式将在线代码设置为我的电脑版本的上游或下游然后对上游或下游在线
Nodejs的io中io.sockets.adapter.rooms在哪里？

https stackoverflow com a 6727354 462608 https stackoverflow com a 6727354 462608 简短的回答 io sockets adapter rooms 我分析了io
string.Split 忽略分隔符之间的空值

我正在尝试使用 Streamreader 和 Streamwriter 将一些数据转换为 sql 语句我的问题是当我分割其中两个分隔符之间什么都没有甚至没有空格的行时它们会被忽略并且出现 IndexOutOfRange 错误因为
如何像我们做扩展一样在VSCODE上发布LSP语言服务器

已经通过官方网站发布扩展的整个过程都有很好的记录 vscode 发布扩展 https code visualstudio com docs extensions publish extension 我的疑问是在 vscode 中发布语言服
scrapy - 每个 starurl 单独的输出文件

我有一个运行良好的 scrapy 蜘蛛 coding utf 8 import scrapy class AllCategoriesSpider scrapy Spider name vieles allowed domains examp

scrapy - 每个 starurl 单独的输出文件

scrapy - 每个 starurl 单独的输出文件 的相关文章

随机推荐

热门标签

scrapy - 每个 starurl 单独的输出文件的相关文章