如何以正确的格式将抓取的数据导出到 csv 文件？

2023-12-11

I made an improvement to my code according to this suggestion from @paultrmbrth. what i need is to scrape data from pages that are similar to this and this one and i want the csv output to be like the picture below.

But my code's csv output is little messy, like this:

我有两个问题，csv 输出是否可以像第一张图片一样？我的第二个问题是，我也希望删除电影标题，请给我一个提示或提供给我一个代码，我可以用它来删除电影标题和内容。

UPDATE
这个问题已经被Tarun Lalwani完美解决了。但现在，csv 文件的标头仅包含第一个抓取的 url 类别。例如当我尝试刮擦时这个网页其中有References, Referenced in, Features, Featured in and Spoofed in类别和这个网页其中有Follows, Followed by, Edited from, Edited into, Spin-off, References, Referenced in, Features, Featured in, Spoofs and Spoofed in类别，那么 csv 输出文件标题将仅包含第一个网页的类别，即References, Referenced in, Features, Featured in and Spoofed in所以第二个网页中的一些类别，例如Follows, Followed by, Edited from, Edited into and Spoofs不会出现在输出 csv 文件标题上，其内容也是如此。
这是我使用的代码：

import scrapy


class ExampleSpider(scrapy.Spider):
    name = "example"
    allowed_domains = ["imdb.com"]
    start_urls = (
        'http://www.imdb.com/title/tt0093777/trivia?tab=mc&ref_=tt_trv_cnn',
        'http://www.imdb.com/title/tt0096874/trivia?tab=mc&ref_=tt_trv_cnn',
    )

    def parse(self, response):
        item = {}
        for cnt, h4 in enumerate(response.css('div.list > h4.li_group'), start=1):
            item['Title'] = response.css("h3[itemprop='name'] a::text").extract_first()
            key = h4.xpath('normalize-space()').get().strip()
            if key in ['Follows', 'Followed by', 'Edited into', 'Spun-off from', 'Spin-off', 'Referenced in',
                       'Featured in', 'Spoofed in', 'References', 'Spoofs', 'Version of', 'Remade as', 'Edited from',
                       'Features']:
                values = h4.xpath('following-sibling::div[count(preceding-sibling::h4)=$cnt]', cnt=cnt).xpath(
                    'string(.//a)').getall(),
                item[key] = values
        yield item

这是exporters.py file:

try:
    from itertools import zip_longest as zip_longest
except:
    from itertools import izip_longest as zip_longest
from scrapy.exporters import CsvItemExporter
from scrapy.conf import settings


class NewLineRowCsvItemExporter(CsvItemExporter):

    def __init__(self, file, include_headers_line=True, join_multivalued=',', **kwargs):
        super(NewLineRowCsvItemExporter, self).__init__(file, include_headers_line, join_multivalued, **kwargs)

    def export_item(self, item):
        if self._headers_not_written:
            self._headers_not_written = False
            self._write_headers_and_set_fields_to_export(item)

        fields = self._get_serialized_fields(item, default_value='',
                                             include_empty=True)
        values = list(self._build_row(x for _, x in fields))

        values = [
            (val[0] if len(val) == 1 and type(val[0]) in (list, tuple) else val)
            if type(val) in (list, tuple)
            else (val, )
            for val in values]

        multi_row = zip_longest(*values, fillvalue='')

        for row in multi_row:
            self.csv_writer.writerow([unicode(s).encode("utf-8") for s in row])

我想要实现的是我希望所有这些类别都位于 csv 输出标题上。

'Follows', 'Followed by', 'Edited into', 'Spun-off from', 'Spin-off', 'Referenced in',
'Featured in', 'Spoofed in', 'References', 'Spoofs', 'Version of', 'Remade as', 'Edited from', 'Features'

任何帮助，将不胜感激。

您可以使用下面的方法提取标题

item = {}
item['Title'] = response.css("h3[itemprop='name'] a::text").extract_first()

对于 CSV 部分，您需要创建一个 FeedExports，它可以将每一行拆分为多行

from itertools import zip_longest
from scrapy.contrib.exporter import CsvItemExporter


class NewLineRowCsvItemExporter(CsvItemExporter):

    def __init__(self, file, include_headers_line=True, join_multivalued=',', **kwargs):
        super(NewLineRowCsvItemExporter, self).__init__(file, include_headers_line, join_multivalued, **kwargs)

    def export_item(self, item):
        if self._headers_not_written:
            self._headers_not_written = False
            self._write_headers_and_set_fields_to_export(item)

        fields = self._get_serialized_fields(item, default_value='',
                                             include_empty=True)
        values = list(self._build_row(x for _, x in fields))

        values = [
            (val[0] if len(val) == 1 and type(val[0]) in (list, tuple) else val)
            if type(val) in (list, tuple)
            else (val, )
            for val in values]

        multi_row = zip_longest(*values, fillvalue='')

        for row in multi_row:
            self.csv_writer.writerow(row)

然后您需要在设置中分配 feed 导出器

FEED_EXPORTERS = {
    'csv': '<yourproject>.exporters.NewLineRowCsvItemExporter',
}

假设您将代码放入exporters.py文件。输出将如所期望的

Edit-1

要设置字段及其顺序，您需要定义FEED_EXPORT_FIELDS在你的settings.py

FEED_EXPORT_FIELDS = ['Title', 'Follows', 'Followed by', 'Edited into', 'Spun-off from', 'Spin-off', 'Referenced in',
                       'Featured in', 'Spoofed in', 'References', 'Spoofs', 'Version of', 'Remade as', 'Edited from',
                       'Features']

https://doc.scrapy.org/en/latest/topics/feed-exports.html#std:setting-FEED_EXPORT_FIELDS

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何以正确的格式将抓取的数据导出到 csv 文件？的相关文章

如何在多进程系统中实现锁定？

我们正在并行运行许多詹金斯项目我们使用 python 并且选择使用 pyenv 管理虚拟环境不幸的是 pyenv 有一个众所周知的竞争条件 https github com yyuu pyenv issues 174 为了解决这个问题
使用 Boto3 以字符串形式打开 S3 对象

我知道使用 Boto 2 可以使用以下命令将 S3 对象作为字符串打开 get contents as string http boto readthedocs org en latest ref file html highlight c
创建上下文后将 jar 文件添加到 pyspark

我正在笔记本上使用 pyspark 并且不处理 SparkSession 的创建我需要加载一个包含一些我想在处理 rdd 时使用的函数的 jar 您可以使用 jars 轻松完成此操作但在我的特定情况下我无法做到这一点有没有办法访问sp
使用 Paramiko 进行 DSA 密钥转发？

我正在使用 Paramiko 在远程服务器上执行 bash 脚本在其中一些脚本中存在与其他服务器的 ssh 连接如果我只使用 bash 不使用 Python 我的 DSA 密钥将被第一个远程服务器上的 bash 脚本转发并使用以连接
使用python从gst管道抓取帧到opencv

我在用着OpenCV http opencv org 和GStreamer0 10 我使用此管道通过自定义套接字通过 UDP 接收 MPEG ts 数据包sockfd由 python 提供并显示它xvimagesink 而且效果很好以下命
python 中的 <> 运算符有什么作用？

我刚刚遇到这个here http www feedparser org feedparser py 总是这样使用 if string1 find string2 lt gt 1 pass 什么是 lt gt 运算符这样做为什么不使用通常的
给定一个排序数组，就地删除重复项，使每个元素仅出现一次并返回新长度

完整的问题我开始在线学习 python 但对这个标记为简单的问题有疑问给定一个排序数组就地删除重复项使得每个元素只出现一次并返回新的长度不分配另一个数组的额外空间您必须通过修改输入来完成此操作数组就地具有 O 1 额外内
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
Airflow 1.9 - 无法将日志写入 s3

我在 aws 的 kubernetes 中运行气流 1 9 我希望将日志发送到 s3 因为气流容器本身的寿命并不长我已经阅读了描述该过程的各种线程和文档但我仍然无法让它工作首先是一个测试向我证明 s3 配置和权限是有效的这是在我们
Python 中维基百科 API 中的 DisambiguationError 和 GuessedAtParserWarning

我想获得维基百科与搜索词相关的可能且可接受的名称列表在这种情况下是电晕当输入以下内容时 print wikipedia summary Corona 这给出了以下输出 home virej local lib python3 8 si
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
无法通过 Python 子进程进行 SSH

我需要通过堡垒 ssh 进入机器因此该命令相当长 ssh i
如何在亚马逊 EC2 上调试 python 网站？

我是网络开发新手这可能是一个愚蠢的问题但我找不到可以帮助我的确切答案或教程我工作的公司的网站用 python django 构建托管在亚马逊 EC2 上我想知道从哪里开始调试这个生产站点并检查存储在那里的日志和数据库我有帐户信
如何将带有参数的Python装饰器实现为类？

我正在尝试实现一个接受一些参数的装饰器通常带有参数的装饰器被实现为双重嵌套闭包如下所示 def mydecorator param1 param2 do something with params def wrapper fn def
Django 管理器链接

我想知道是否有可能如果可以的话如何将多个管理器链接在一起以生成受两个单独管理器影响的查询集我将解释我正在研究的具体示例我有多个抽象模型类用于为其他模型提供小型的特定功能其中两个模型是DeleteMixin 和GlobalMix
带 Flask 的 RPI dht22：无法将第 4 行设置为输入 - 等待 PulseIn 消息超时

我正在尝试制作一个 Raspberry Pi 3 REST API 使用 DHT22 提供温度和湿度整个代码 from flask import Flask jsonify request from sds011 import SDS01
如何获取pandas中groupby对象中的组数？

我想知道有多少个独特的组需要执行计算给定一个名为 groupby 的对象dfgroup 我们如何找到组的数量简单快速 Pandaic ngroups 较新版本的 groupby API pandas gt 0 23 提供了此未记录的
定义在文本小部件中双击时选择哪些字符

在 Windows 上双击文本小部件中的单词也将选择连接的标点符号有什么方法可以定义您想要选择的角色吗 tcl wordchars该变量的值是一个正则表达式可以设置它来控制什么被视为单词字符例如通过双击 Tk 中的文本来选择单

随机推荐

如何使用 JQuery 在输入类型文件中验证文件扩展名？

HTML
对子集使用表可获取整个 DF 而不是子集的频率

我正在使用子集从列值集中提取我有一个包含几列的 DF 其中一列是状态我需要获取状态的频率但只是针对某些状态集所以我有这个 tmp lt subset DF DF STATE in SOMESTATES a lt as data fr
C# 从网络服务下载文件

我有一个网络服务比如这个例子用于从服务器下载 zip 文件当我通过网络浏览器打开 URL 时我可以正确下载 zip 文件问题是当我尝试通过桌面应用程序下载 zip 文件时我使用以下代码进行下载 WebClient webClien
_mm_extract_epi8(...) 采用非文字整数作为参数的内在函数

我最近一直在使用 SSE 内在函数int mm extract epi8 m128i src const int ndx 根据参考文献从按索引选择的打包整数数组元素中提取整数字节这正是我想要的但是我通过以下方式确定索引 mm cmp
在 Isabelle 等中定义不同类型的不相交并集

我问了一系列问题直到我可以在 Isabelle 中定义以下简单模型但我仍然坚持得到我想要的东西我尝试用一个例子来非常简短地描述这个问题 Example 假设我有两节课Person and Car Person owns汽车还有dri
单个组件中的多个 Redux 状态 - Typescript、React、Redux

在身份验证期间我返回一些需要在整个用户生命周期中携带到其他组件中的内部 ID 这些值保存在authentication状态所有其他相关组件逻辑都保存在resources state 当我在组件中以多个状态运行时身份验证状态似乎会以某种
LINQ 中的Where 子句调用异步方法

我在一个类中有一个方法定义为 public static async Task
如何创建异步缓存 http 客户端？

使用org apache httpcomponents httpasyncclient cache 4 1 3图书馆我正在尝试弄清楚如何创建一个asynchronous cachinghttp 客户端我可以使用各自的构建器单独创建每个
如何使用 Flexbox 将第二个子项包裹在第一个子项周围

我们尝试使用 Flexbox 获得以下结果但似乎无法让右侧的线绕回Mr Bond 期望的输出 flex parent display flex flex direction row align items stretch flex chi
LinqToSQL - 不支持 SQL 转换

今天早上我一直在困惑 LinqToSQL 的一个问题我将尝试用下面的简短示例进行总结来解释我的观点我有数据库两个表 table Parent ParentId table Child ChildId ParentId FK Name A
Ionic 自定义模态动画

Ionic modal 带有标准动画slide in up 我们是否可以将动画更改为fade in 为了添加 Ionic Modal 的自定义过渡我们将使用 Ionic Modal 选项enterAnimation and leaveAn
Tcl 相当于 UNIX“cp -pL”命令

UNIX cp pL 命令的 Tcl 等效项是什么我找不到它文件命令描述对于单个文件 a 获取文件的真实路径 b 复制它 c 设置属性修改时间和访问时间不幸的是似乎没有任何方法可以设置更改时间 Windows 上的创建时间 set
Django：将实例保存到外键字段时出现 ValueError

我正在尝试保存模型的实例但收到 ValueError ValueError Cannot assign
反应-为什么只有我的第一组选定的行在移走之前变成灰色（其余的在单击“应用”按钮后就消失了）？

当我点击下面的按钮时Show列例如Potato Soup它以灰色选择所有行当我单击Apply按钮然后该行被隐藏好吧这就是我想要的但是当我尝试用同样的技巧做之后Pea Soup 该行不会变成灰色而是直接隐藏但我希望灰线也出现在
Dateformatter 从字符串获取日期

我的绳子是这样的2012 12 08 17 00 00 0 现在我尝试使用 NSDate 格式化程序从此字符串中检索日期我的代码是 NSDateFormatter df NSDateFormatter alloc init df setD
“javac”不被识别为内部或外部命令

我必须将 Matlab 算法转换为 Java 为此我使用 matlab builder ja 工具箱在执行所有必要的步骤后构建失败并显示此错误 javac 不被识别为内部或外部命令可操作程序或批处理文件错误调用 javac 时发
编写一个满足以下测试的函数 f

我有一个问题一直困扰着我需要帮助解决下面是一个需要解决的测试我已经成功地整合了一个解决方案该解决方案适用于 85 的覆盖范围但它是我坚持的最后 15 describe f function it should work funct
如何在每次迭代时仅从一个类中对批次进行采样

我想在一个 ImageNet 数据集每个类有 1000 个类每个类大约有 1300 张图像上训练一个分类器由于某种原因我需要每个批次包含来自同一类别的 64 个图像以及来自不同类别的连续批次使用最新的 TensorFlow 是
为什么 Angular 2+ innerHTML 在一条语句中多次调用方法，如何解决这个问题

我有这样的模板视图 p p 并且 ts 文件就像 import Component from angular core Component selector my app templateUrl app component html sty
如何以正确的格式将抓取的数据导出到 csv 文件？

I made an improvement to my code according to this suggestion from paultrmbrth what i need is to scrape data from pages

如何以正确的格式将抓取的数据导出到 csv 文件？

如何以正确的格式将抓取的数据导出到 csv 文件？ 的相关文章

随机推荐

热门标签

如何以正确的格式将抓取的数据导出到 csv 文件？的相关文章