我目前正在使用带有以下命令行参数的 Scrapy:
scrapy crawl my_spider -o data.json
不过,我更愿意将此命令“保存”在 Python 脚本中。下列的https://doc.scrapy.org/en/latest/topics/practices.html https://doc.scrapy.org/en/latest/topics/practices.html,我有以下脚本:
import scrapy
from scrapy.crawler import CrawlerProcess
from apkmirror_scraper.spiders.sitemap_spider import ApkmirrorSitemapSpider
process = CrawlerProcess({
'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})
process.crawl(ApkmirrorSitemapSpider)
process.start() # the script will block here until the crawling is finished
但是,我从文档中不清楚相当于什么-o data.json
命令行参数应该在脚本内。如何让脚本生成 JSON 文件?
您需要添加FEED_FORMAT
and FEED_URI
给你的CrawlerProcess
:
process = CrawlerProcess({
'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
'FEED_FORMAT': 'json',
'FEED_URI': 'data.json'
})
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)