分割scrapy的大CSV文件

2024-04-19

是否可以使 scrapy 写入每个不超过 5000 行的 CSV 文件？我怎样才能给它一个自定义的命名方案？我应该修改吗CsvItemExporter?

尝试这个管道：

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

from scrapy.exporters import CsvItemExporter

import datetime

class MyPipeline(object):

    def __init__(self, stats):
        self.stats = stats
        self.base_filename = "result/amazon_{}.csv"
        self.next_split = self.split_limit = 50000 # assuming you want to split 50000 items/csv
        self.create_exporter()  

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler.stats)

    def create_exporter(self):
        now = datetime.datetime.now()
        datetime_stamp = now.strftime("%Y%m%d%H%M")
        self.file = open(self.base_filename.format(datetime_stamp),'w+b')
        self.exporter = CsvItemExporter(self.file)
        self.exporter.start_exporting()       

    def process_item(self, item, spider):
        if (self.stats.get_stats()['item_scraped_count'] >= self.next_split):
            self.next_split += self.split_limit
            self.exporter.finish_exporting()
            self.file.close()
            self.create_exporter
        self.exporter.export_item(item)
        return item

不要忘记将管道添加到您的设置中：

ITEM_PIPELINES = {
   'myproject.pipelines.MyPipeline': 300,   
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

分割scrapy的大CSV文件的相关文章

在 pandas 中单独打印一列的原始值？

我有一个数据框 df pd DataFrame name george age 23 name anna age 26 现在我想检索乔治的年龄 df df name george age 但这会输出一些额外的信息以及原始值 0 23 Nam
如何在 Google App Engine 的 Python 中获取 StringProperty 的值？

如何获取 nbd Model 的值我想返回由多个字段组成的描述但我无法让它工作这是我的班级代码 class User ndb Model name ndb StringProperty email ndb StringProperty
如何让python优雅地失败？

我只是想知道如何让 python 在所有可能的错误中以用户定义的方式失败例如我正在编写一个处理大项目列表的程序并且某些项目可能不符合我定义的格式如果 python 检测到错误它目前只会输出一条丑陋的错误消息并停止整个过程但是
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
组和平均 NumPy 矩阵

假设我有一个任意的 numpy 矩阵如下所示 arr 6 0 12 0 1 0 7 0 9 0 1 0 8 0 7 0 1 0 4 0 3 0 2 0 6 0 1 0 2 0 2 0 5 0 2 0 9 0 4 0 3 0 2 0 1 0
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
对于相同的查询，MySQL Workbench 比 Python 快得多

MySQL Workbench 中的以下查询需要 0 156 秒才能完成 SELECT date time minute price id FROM minute prices WHERE contract id 673 AND TIMES
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
reStructuredText：README.rst 未在 PyPI 上解析

我有一个托管在 Github 和 PyPI 上的 Python 项目在 Github 上 https github com sloria TextBlob blob master README rst https github com s
在 Linux 上的 Python 中使用受密码保护的 Excel 工作表

问题很简单我每周都会收到一堆受密码保护的 Excel 文件我必须解析它们并使用 Python 将某些部分写入新文件我得到了文件的密码当在 Windows 上完成此操作时处理起来很简单我只需导入 win32com 并使用 clie
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
沿轴 0 重复 scipy csr 稀疏矩阵

我想重复 scipy csr 稀疏矩阵的行但是当我尝试调用 numpy 的重复方法时它只是将稀疏矩阵视为对象并且只会将其作为 ndarray 中的对象重复我浏览了文档但找不到任何实用程序来重复 scipy csr 稀疏矩阵的行我
如何使用 Python 3 正确显示倒计时日期

我正在尝试获取将显示的倒计时基本上就像一个世界末日时钟哈哈有人可以帮忙吗 import os import sys import time import datetime def timer endTime datetime datet
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in
Python 中的字符串slugification

我正在寻找 slugify 字符串的最佳方法蛞蝓是什么 https stackoverflow com questions 427102 in django what is a slug 我当前的解决方案基于这个食谱 http code

随机推荐

在ESC/POS命令中选择字符代码表

我需要在打印收据上打印非英文字符使用热敏 POS 收据打印机 Xprinter XP 58III 热敏 POS 收据打印机支持通用 ESC POS 命令据我所知这应该通过设置字符代码表来完成就我而言目标代码页是 21 用于设置代码
从 Go 连接到 MySQL 的推荐方式是什么？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个可靠的解决方案来从 Go 连接到 MySQL 数据库我见过一些库但很难确定完整性和当前
TransactionScope 无法与 DB2 提供程序一起使用

我一直在尝试使用交易范围 with a DB2数据库使用DB2 Net提供商 v 9 0 0 2 和 c 2 0 根据 IBM 的说法应该支持它们我已经尝试了在 IBM 论坛上可以找到的所有建议例如here http www ibm
nginx conf 文件：检测浏览器语言是否为“de”，然后重定向到页面....否则重定向到其他页面

我想在横幅中创建一个链接以重定向到两个页面之一该链接指向subdomain example com email 如果浏览器语言是 de 则转到www example de banner否则去www example com banner 我
在SURF中使用欧几里德距离

在我的代码中我根据最近邻距离比过滤好图像如下所示 for int i 0 i lt min des image rows 1 int matches size i if matches i 0 distance lt 0 6 match
如何杀死 Linux 中特定端口上运行的进程？

我尝试使用关闭tomcat shutdown sh来自雄猫 bin目录但发现服务器没有正常关闭因此我无法重新启动我的 tomcat 正在端口上运行8080 我想杀死正在运行的tomcat进程8080 我首先想要获得在特定端口 8080
为什么我不能将反向迭代器转换为正向迭代器？

嗯我知道为什么是因为没有转化但是为什么没有转化呢为什么正向迭代器可以变成反向迭代器但反之则不行更重要的是如果我想这样做我该怎么办是否有一些适配器允许您使用前向迭代器向后迭代 std vector
在 Android 中隐藏 RadioButton

我想将 RadioButton 的可见性设置为 INVISIBLE 或 GONE 由于某种原因这不起作用 RadioButton myRadioButton RadioButton findViewById R id my radio b
没有什么可以帮助解决 Qt 中的“对 vtable 的未定义引用”

我无法构建此错误未定义对 CustomUndoStack 的 vtable 的引用这是代码 class CustomUndoStack public QObject Q OBJECT public int main int argc c
ANSI SQL 问题 - 如果记录已存在，如何插入或更新记录？

虽然我目前使用 mySQL 但我不需要任何数据库特定的 SQL 我试图插入一条记录如果不存在并更新一个字段如果存在我想使用 ANSI SQL 该表看起来像这样 create table test table id int nam
Greasemonkey：XPath 未返回 .xhtml 页面的结果

在 xhtml 页面上运行时 xpath 似乎没有返回任何结果 var result document evaluate a img document body null XPathResult ORDERED NODE SNAPSHOT
在 Windows Azure 上使用quartz.net

我在我的 asp net 应用程序中使用quartz net 当我在本地主机上运行时 quartz 调度程序可以工作但是当我将站点发布到 windows azure 时它不再工作任何帮助将非常感激问题不在于它没有在天蓝色站点上运行
/etc/fstab 中的动态 IP

我正在尝试在 AWS 中使用弹性文件系统 EFS 我的目标是使用 etc fstab 自动挂载它由于 EC2 实例会跨可用区域自动扩展因此 EFS 挂载 IP 会根据实例的区域而变化目前AWS提供了这个命令来将其安装到正确的区域 su
C++/CLI：#pragma 托管/非托管范围

我有一个混合模式 DLL 其中有一个包含托管和非托管代码的 cpp 文件一个简化的重现示例如下所示 include stdafx h pragma managed Just for explicitness doesn t influen
如何从 launch.json 传递带有特殊字符的参数？

我试图通过 launch json 将参数传递给我的 Python 程序并且我的参数之一需要特殊字符因为它是密码我计划添加更安全的方式来输入密码但这不是重点这是我的 launch json 密码已更改但仍带有特殊字符 Use I
通过 Paramiko SSH 的 SQLAlchemy

我的服务器上有一个数据库我需要通过 SSH 访问该数据库现在我通过使用命令行来获取数据来处理数据库 import paramiko ssh paramiko SSHClient ssh set missing host key poli
Mockito 并不是在嘲笑电话

我正在测试的功能之一是通过 ssh 登录到一台机器我想模拟 ping 方法它实际上尝试 ssh 进入机器因为我并没有真正 ssh 进入机器我正在测试的类 public class TestMachine public int pin
如何阻止UITextView进入时向上滚动

我有一个UITextView包含在一个UITableViewCell 最初显示视图时布局是正确的但是一旦我单击UITextView它会自动向上滚动一点第一行的上半部分字符变得不可见这张图是当UITextView不活跃 UITextVi
NSDateFormatter 获取 Null

我在我的项目中得到一个字符串我将字符串传递给 dateFormatter 但我得到 nil 在字符串中而不是IST我可能会得到PDT我可能会得到任何其他格式 NSString currentDateString 2012 11 09 12
分割scrapy的大CSV文件

是否可以使 scrapy 写入每个不超过 5000 行的 CSV 文件我怎样才能给它一个自定义的命名方案我应该修改吗CsvItemExporter 尝试这个管道 coding utf 8 Define your item pipelin

分割scrapy的大CSV文件

分割scrapy的大CSV文件 的相关文章

随机推荐

热门标签

分割scrapy的大CSV文件的相关文章