从带有文件输出的脚本运行 Scrapy

2024-06-27

我目前正在使用带有以下命令行参数的 Scrapy:

scrapy crawl my_spider -o data.json

不过,我更愿意将此命令“保存”在 Python 脚本中。下列的https://doc.scrapy.org/en/latest/topics/practices.html https://doc.scrapy.org/en/latest/topics/practices.html,我有以下脚本:

import scrapy
from scrapy.crawler import CrawlerProcess

from apkmirror_scraper.spiders.sitemap_spider import ApkmirrorSitemapSpider

process = CrawlerProcess({
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})

process.crawl(ApkmirrorSitemapSpider)
process.start() # the script will block here until the crawling is finished

但是,我从文档中不清楚相当于什么-o data.json命令行参数应该在脚本内。如何让脚本生成 JSON 文件?


您需要添加FEED_FORMAT and FEED_URI给你的CrawlerProcess:

process = CrawlerProcess({
'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
'FEED_FORMAT': 'json',
'FEED_URI': 'data.json'
})
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从带有文件输出的脚本运行 Scrapy 的相关文章

随机推荐

  • 检测图像中的粗体(和斜体)文本

    我想检测页面图像中粗体 可能还有斜体 文本的延伸 想想 TIFF 或图像 PDF 我需要指向任何可以做到这一点的开源软件 这是一张字典条目的图片 来自 Tzeltal 西班牙语字典 说明了此类文本 第一行是粗体 然后是斜体 然后是 正常 第
  • 在 SVG 中旋转形状时保持旋转线性渐变不旋转

    SVG 或 WPF XAML 我对两者都持开放态度 并且需要 我不认为它们在实现上有任何不同 下面的示例是 SVG 中的 我试图找到一种在线性渐变上使用旋转的方法 在本例中为 270 但是当它填充的形状旋转时 保持线性渐变不变 就好像它填充
  • 反对控制反转容器的争论

    似乎每个人都在转向 IoC 容器 我已经尝试 理解 它有一段时间了 尽管我不想成为高速公路上走错路的司机 但它仍然没有通过我的常识测试 让我解释一下 如果我的论点有缺陷 请纠正 启发我 我的理解 IoC 容器应该让您在组合不同组件时变得更轻
  • 当我定义模板类静态成员时,为什么它不初始化,直到它出现在某些实现中? [复制]

    这个问题在这里已经有答案了 大家好 我写了一个简单的模板 Singleton 类 如下所示 template
  • Angular 2 Final - 以编程方式更改 URL 上的路由参数

    假设我实际上是页面 结果 http server results dateFrom 03 11 2016 page 1 http server results dateFrom 03 11 2016 page 1 我作为结果页面 我想加载页
  • 使用 Boost.Spirit 编译一个简单的解析器

    我正在开发的一个简单骨架实用程序的一部分有一个用于触发文本替换的语法 我认为这是一种熟悉 Boost Spirit 的好方法 但模板错误却是一种独特的乐趣 这是完整的代码 include
  • 使用 Google Apps 脚本在 Google 表单中的 multiplechoiceitem 中插入图像

    我需要在多项选择项的每个选项中插入 Google Drive 图像 在检查文档后 该类 addMultipleChoiceItem 不支持该方法 setImage 还有其他方法可以插入 Google Drive 中的图像吗 Example
  • 使用 jQuery .load 时防止滚动到顶部

    我的网站上有三个按钮 当您单击每个按钮时 它们会使用 load 将不同的内容添加到 DIV 中 我遇到的问题是 每当您单击按钮时 它都会将您带回页面顶部 我尝试过使用 PreventDefault 并返回 false 但它对我不起作用 我可
  • 带提示的二分查找

    我有一个简单的std vector包含一些已排序的数字 按升序 我想查找一个元素 到目前为止我使用 return std lower bound vec begin vec end needle Where needle是我寻找的元素 然而
  • 如何在Spring Boot Gradle中指定Launcher?

    Spring Boot中共有三个启动器 JarLauncher PropertiesLauncher WarLauncher 对于可执行jar 默认情况下将使用JarLauncher 现在我想使用 PropertiesLauncher 来代
  • 避免从浏览器控制台修改 Javascript 变量

    我有个问题 我定义了一些全局变量并将其命名为一个名为 app 的对象 例子 window app foo null bar null 好吧 我的想法是 我希望能够通过调用 app foo baz 或 app bar baz 从任何模块修改这
  • 从呈现的视图控制器访问呈现的视图控制器?

    我有一个视图控制器 包含我的菜单 显示在另一个视图控制器 我的应用程序 之上 我需要从呈现的视图控制器 我的菜单 访问呈现的视图控制器 在我的菜单下方 例如访问某些变量或使呈现的视图控制器执行其segues之一 但是 我就是不知道该怎么做
  • Ref 限定成员函数的目的是什么? [复制]

    这个问题在这里已经有答案了 在读的时候http en cppreference com w cpp language member functions http en cppreference com w cpp language memb
  • 如何使用 Jenkinsfile 备份 Jenkins

    如何在不使用插件的情况下使用 Jenkinsfile 进行 Jenkins 作业配置备份 要备份的东西 系统配置 詹金斯 职位配置 我们对插件备份解决方案并不满意 因此我们在 master 上运行一个自由式 shell 步骤作业 通常是不行
  • 如何防止编译器优化掉断点?

    我编写了一个 if 子句来检查是否应该中断程序进行调试 if a lt 0 a a a不应该变成负数 但我发现它确实如此 并且我想中断调试以了解如果发生这种情况它为什么会变成负数 因此我编写了这个 if 子句 在线上a a 我设置了一个断点
  • 在 python 中创建带有工具提示的 pdf

    这是流行且高度赞扬的 Python 副本在 R 中使用工具提示创建 pdf https stackoverflow com questions 4691780 create pdf with tooltips in r 简单的问题 有没有办
  • 将 ASP.NET 验证与 JQuery 结合起来的优雅方式

    如何最好地将 JQuery 与 ASP NET 客户端验证模型结合起来 我通常会避免实现 ASP NET 验证模型 因为它对于我正在做的事情来说总是显得大材小用 对于我现在正在开发的网站 我只是收集非关键用户数据 并且只需要一些基本的验证
  • 如何在 JPQL 中选择多个 count() 选择的总和

    以下 SQL 语句的等效 JQPL 语句是什么 SELECT SELECT COUNT FROM foo SELECT COUNT FROM bar 您可以使用上面提到的查询EntityManager的createNativeQuery h
  • 永久铸造到超类

    If class Car Automobile 我可以 Car toyota new Car Automobile tauto Automobile toyota 但如果我这样做tauto GetType Name仍然会是Car 是否可以执
  • 从带有文件输出的脚本运行 Scrapy

    我目前正在使用带有以下命令行参数的 Scrapy scrapy crawl my spider o data json 不过 我更愿意将此命令 保存 在 Python 脚本中 下列的https doc scrapy org en lates