将 scrapy 项目导出到不同的文件

2023-12-02

我正在从 moocs 上抓取评论，就像这样one

从那里我可以获取所有课程详细信息，其中 5 个项目和每个评论本身的另外 6 个项目。

这是我的课程详细信息的代码：

def parse_reviews(self, response):
    l = ItemLoader(item=MoocsItem(), response=response)
    l.add_xpath('course_title', '//*[@class="course-header-ng__main-info__name__title"]//text()')
    l.add_xpath('course_description', '//*[@class="course-info__description"]//p/text()')
    l.add_xpath('course_instructors', '//*[@class="course-info__instructors__names"]//text()')
    l.add_xpath('course_key_concepts', '//*[@class="key-concepts__labels"]//text()')
    l.add_value('course_link', response.url)
    return l.load_item()

现在我想包含评论详细信息，每个评论另外 5 个项目。由于课程数据对于所有评论都是通用的，因此我想将其存储在不同的文件中，并使用课程名称/ID 来关联数据。

这是我的评论项目的代码：

for review in response.xpath('//*[@class="review-body"]'):
    review_body = review.xpath('.//div[@class="review-body__content"]//text()').extract()
    course_stage =  review.xpath('.//*[@class="review-body-info__course-stage--completed"]//text()').extract()
    user_name =  review.xpath('.//*[@class="review-body__username"]//text()').extract()
    review_date =  review.xpath('.//*[@itemprop="datePublished"]/@datetime').extract()
    score =  review.xpath('.//*[@class="sr-only"]//text()').extract()

我尝试使用临时解决方案，返回每种情况的所有项目，但也不起作用：

def parse_reviews(self, response):
    #print response.body
    l = ItemLoader(item=MoocsItem(), response=response)
    #l = MyItemLoader(selector=response)
    l.add_xpath('course_title', '//*[@class="course-header-ng__main-info__name__title"]//text()')
    l.add_xpath('course_description', '//*[@class="course-info__description"]//p/text()')
    l.add_xpath('course_instructors', '//*[@class="course-info__instructors__names"]//text()')
    l.add_xpath('course_key_concepts', '//*[@class="key-concepts__labels"]//text()')
    l.add_value('course_link', response.url)

    for review in response.xpath('//*[@class="review-body"]'):
        l.add_xpath('review_body', './/div[@class="review-body__content"]//text()')
        l.add_xpath('course_stage', './/*[@class="review-body-info__course-stage--completed"]//text()')
        l.add_xpath('user_name', './/*[@class="review-body__username"]//text()')
        l.add_xpath('review_date', './/*[@itemprop="datePublished"]/@datetime')
        l.add_xpath('score', './/*[@class="sr-only"]//text()')

        yield l.load_item()

该脚本的输出文件已损坏，单元格被替换并且字段的大小不正确。

EDIT:我想在输出中有两个文件：

第一个包含：

course_title,course_description,course_instructors,course_key_concepts,course_link

第二个是：

course_title,review_body,course_stage,user_name,review_date,score

问题是您将所有内容混合到一个项目中，这不是正确的方法。您应该创建两个项目：MoocsItem and MoocsReviewItem.

然后更新代码如下

def parse_reviews(self, response):
    #print response.body
    l = ItemLoader(item=MoocsItem(), response=response)
    l.add_xpath('course_title', '//*[@class="course-header-ng__main-info__name__title"]//text()')
    l.add_xpath('course_description', '//*[@class="course-info__description"]//p/text()')
    l.add_xpath('course_instructors', '//*[@class="course-info__instructors__names"]//text()')
    l.add_xpath('course_key_concepts', '//*[@class="key-concepts__labels"]//text()')
    l.add_value('course_link', response.url)

    item = l.load_item()

    for review in response.xpath('//*[@class="review-body"]'):
        r = ItemLoader(item=MoocsReviewItem(), response=response, selector=review)
        r.add_value('course_title', item['course_title'])
        r.add_xpath('review_body', './/div[@class="review-body__content"]//text()')
        r.add_xpath('course_stage', './/*[@class="review-body-info__course-stage--completed"]//text()')
        r.add_xpath('user_name', './/*[@class="review-body__username"]//text()')
        r.add_xpath('review_date', './/*[@itemprop="datePublished"]/@datetime')
        r.add_xpath('score', './/*[@class="sr-only"]//text()')

        yield r.load_item()

    yield item

现在您想要的是不同的项目类型放入不同的 csv 文件中，这就是下面的 SO 线程的答案：

scrapy如何将项目导出为每个项目单独的csv文件

我还没有测试以下内容，但代码看起来像这样：

from scrapy.exporters import CsvItemExporter
from scrapy import signals
from scrapy.xlib.pydispatch import dispatcher


def item_type(item):
    return type(item).__name__.replace('Item','').lower()  # TeamItem => team

class MultiCSVItemPipeline(object):
    SaveTypes = ['moocs','moocsreview']
    
    def __init__(self):
        dispatcher.connect(self.spider_opened, signal=signals.spider_opened)
        dispatcher.connect(self.spider_closed, signal=signals.spider_closed)

    def spider_opened(self, spider):
        self.files = dict([ (name, open(CSVDir+name+'.csv','w+b')) for name in self.SaveTypes ])
        self.exporters = dict([ (name,CsvItemExporter(self.files[name])) for name in self.SaveTypes])
        [e.start_exporting() for e in self.exporters.values()]

    def spider_closed(self, spider):
        [e.finish_exporting() for e in self.exporters.values()]
        [f.close() for f in self.files.values()]

    def process_item(self, item, spider):
        what = item_type(item)
        if what in set(self.SaveTypes):
            self.exporters[what].export_item(item)
        return item

您需要确保ITEM_PIPELINES已更新以使用此MultiCSVItemPipeline class

ITEM_PIPELINES = {
    'mybot.pipelines.MultiCSVItemPipeline': 300,
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Scrapy

scrapypipeline

将 scrapy 项目导出到不同的文件的相关文章

Python Popen 与 psexec 挂起 - 不良结果

我对 subprocess Popen 和我认为是管道的问题有疑问我有以下代码块从 cli 运行时 100 都不会出现问题 p subprocess Popen psexec serverName get cmd c ver echo
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方

随机推荐

jqgrid - 工具栏文本 - 这是一个好方法吗？

我已指定userdata在 JSON 响应中取决于值title财产标题将发生变化以反映title财产工具栏中的文本网格标题和数据表标题之间将发生变化 HTML table table div div JSON colModel n
如何使用 CSS 拆分表格单元格中的字符串（例如长 URL）？

情况是这样的我正在尝试一些 MySpace 页面自定义如果你有曾经尝试过 stackoverflow 我相信您明白这有多么令人沮丧基本上它可以通过 CSS 在一组特定的规则内进行自定义例如不允许使用字符多么有用看看这个blog
if 语句中多个条件的 Python 简写[重复]

这个问题在这里已经有答案了 if x y z print x y 这是 if x y and y z 的简写吗它在我的代码中有效但我不确定当多个条件不都是或时如何解释或者以上面的后一种形式写出是的如中所述文档比较可以是任意链
如何在 MATLAB 中为符号变量赋予数字？

我尝试使用以下代码在 MATLAB 中声明一个符号变量 syms a 我对这个变量进行了计算一切都很好但我的问题是我不知道如何给变量一个数字并得到数字结果例如我的代码的答案是 answer exp 10 a 例如我想给 a 40并得
当更新 sphinx.conf 中的索引时，总是需要在 sphinx 中重新启动 searchd 吗？

如果我更新 sphinx conf 文件中的资源我可以使用 rotate 重新索引一切正常如果我更新 sphinx conf 中的索引或添加新索引 rotate 不起作用我必须重新启动 searchd 我这样做是否正确我觉得 ro
当不涉及真正的 I/O 调用时，异步链的所有级别是否都需要ConfigureAwait(false)？

在 Azure Document Db Client SDK 之上实现可重用适配器类型的库该库可以在任何地方运行不仅可以在 ASP NET Core Web 服务中运行还可以在命令行应用程序 ASP NET Web Api 等中运行
R 中的 Unicode 变量名称

我正在开发一个玩具项目并尝试使用一些 unicode 变量名称来匹配我试图实现的论文以下代码在 Windows 上的 R 3 4 3 RStudio 版本 1 1 456 和 OSX 上的 R 3 5 1 上运行良好 gt lt fun
如何将 Thunderbird 扩展与 Lightning 集成

我目前正在为一个项目进行初步研究如果可行的话该项目将包含带有 Lightning 集成的 Thunderbird 扩展我的问题是这样的如何使用 Thunderbird 扩展以编程方式更改 Lightning 中的 CSS 具体来说
Rails 2.3.9 查询参数的编码

是否可以让rails 将查询参数解码为utf8 如果我有类似 foo param 的东西我尝试访问控制器中的参数该参数被编码为 ASCII 8BIT 这会导致很多事情被破坏因为我们的许多其他字符串都是用 UTF 8 编码的而 rub
获得授权属性的许可？

我已经实现了我自己的Authorize属性我注意到当我使用时它会查询以检查权限 Authorize 有什么方法可以获取该权限并在应用该权限的当前控制器中使用它Authorize属性而无需重写和重新查询控制器中的代码是的你可以如果您将
iOS 8 下不显示键盘

当专注于我的应用程序的文本字段时它们都无法调出键盘我无法输入任何字母不过iOS 8之前还可以我尝试旋转屏幕发现键盘显示在屏幕范围之外检查视图框架它是1024 768 似乎是正确的最后发现是模拟器的问题不是iOS 8的bug
无法转换为尺寸：膨胀布局时类型=0x1 [重复]

这个问题在这里已经有答案了我的 XML 文件
正则表达式 - 如何用 PHP 替换字符串的最后 3 个单词

尝试将最后 3 个单词封装在 span tag str Lorem ipsum dolor sit amet h2 preg replace w s w s w span 1 span str 这里是 h2 preg replace w s
使用 Pyspark 进行虚拟编码 [重复]

这个问题在这里已经有答案了我希望使用 Pyspark 语法将分类变量虚拟编码为数值变量如下图所示我读入这样的数据 data sqlContext read csv data txt sep header true 在 python 中
是否需要通过 TCP 进行应用程序级重传和确认？

我有以下疑问 1 TCP 是否保证数据包的传送因此如果使用的传输协议是 TCP 则是否需要应用程序级重传假设我已经在客户端和服务器之间建立了 TCP 连接并且服务器向客户端发送消息然而客户端离线并仅在 10 小时后返回那么 TC
为管理仪表板创建私有路由时出错

我尝试使用下面的代码来私有路由管理仪表板我正在使用react router dom 6 2 2 我需要帮助来找出只能由管理员访问的私人路线我尝试了 stackoverflow 中所有现有的解决方案 app js
打字稿错误属性在类型上不存在

我是 angularjs 2 和 ionic 2 的新手我正在使用带有 Validators FormControl 和 FormGroup 的 angularjs 表单当我使用 ionicserve lab 执行项目时一切都很好但
qt 错误：未定义对“线程 vtable”的引用

我有代码 include
如何通过 System.setProperty() 启动多个版本的 Geckodriver

我不知道我是否在监督某些事情但是是否可以在同一个 JVM 中使用多个 geckodriver 版本问题在于 System setProperty webdriver gecko driver path of the geckodrive
将 scrapy 项目导出到不同的文件

我正在从 moocs 上抓取评论就像这样one 从那里我可以获取所有课程详细信息其中 5 个项目和每个评论本身的另外 6 个项目这是我的课程详细信息的代码 def parse reviews self response l ItemL

将 scrapy 项目导出到不同的文件

将 scrapy 项目导出到不同的文件 的相关文章

随机推荐

热门标签

将 scrapy 项目导出到不同的文件的相关文章