scrapy 最简易爬虫

2023-10-30

创建一个项目
scrapy startproject baidu 这后面是名字

#运行项目 要cd 进入项目才可以运行
scrapy crawl baidu


import scrapy
from bs4 import BeautifulSoup as bs

#scrapy crawl quotes

class QuotesSpider(scrapy.Spider):
    
    name = "quotes"

    def start_requests(self):
        urls = [
            'http://top.baidu.com/buzz?b=353&c=10&fr=topcategory_c10',

        ]
        for url in urls:
            
            yield scrapy.Request(url=url, callback=self.parse)


    def parse(self, response):
        
        x = response.css('td.keyword').getall()

        import openpyxl
        wb = openpyxl.Workbook()
        word = wb.active
        
        for i in range(len(x)):

            html = bs(x[i],'lxml')
            ming = html.a.text
            u =html.a.attrs['href']
            self.log(ming)

            A = 'A{0}'.format(i+1)
            B = 'B{0}'.format(i+1)
            
            word[A] = html.a.text
            word[B] = html.a.attrs['href']

        wb.save('小说排行榜.csv')

        self.log('保存完成')


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

scrapy 最简易爬虫 的相关文章

  • git拉取dev分支及git的基本常用命令

    新项目必做的操作 就是拉取远程仓库的代码 一般的开发是在dev分支上开发 但是默认拉下来了master分支 需要拉取dev分支怎么拉取呢 拉取dev分支代码 指定分支也可以 1 首先进入到你需要拉代码的文件里面 如果新项目第一次拉代码建议新

随机推荐

  • pandas的read_excel 报错:OverflowError: date value out of range‘ 的解决办法

    pandas的read excel 报错 OverflowError date value out of range 的解决办法 首先 报错了要进行原因分析 导致这个错误的原因是将文件中的数值读成了日期 解决办法 尝试1 pip insta
  • 关于Android无法用SmsManager发送短信的问题

    关于Android无法用SmsManager发送短信的问题 我使用的是如下代码 SmsManager smsManager SmsManager getDefault PendingIntent pi PendingIntent getAc
  • 解决element-ui中table表格row-style改变当前行样式失效问题

    前言 这个问题点 要注意的是element ui版本 版本不同解决方案也不同 我也收到好多私信说没解决 后来自己测试了一下 发现的确受版本影响 大家使用时仔细看element ui文档中的 是不是object格式的 最近在使用vue ele
  • 操作系统接口--OS

    操作系统接口 接口 连接两个东西 信号转换 屏蔽细节 接口需要实现什么 要知道调用它的是什么东西 背后是怎么完成这件事情的 计算机调用接口的三种方式 1 命令行 命令行 其实就是一个c函数 当我们操作系统启动后 会执行一个函数 该函数在目录
  • 【深度学习】logistic回归模型

    目录 神经网络 数据 符号准备 logistic回归 损失函数和代价函数 梯度下降法 向量化 神经网络 我们学习深度学习的目的就是用于去训练神经网络 而神经网络是什么呢 我们先来看下面一个基础的生物上的神经元的图片 通常来说 神经元就是处理
  • feign 传输文件

    1 pom文件
  • android源码分析!程序员怎样优雅度过35岁中年危机?送大厂面经一份!

    最近跟我的一些读者交流 有一位读者的经历让我记忆深刻 有一次和大学同学聚会 和几个在BAT的同学聊了聊技术 发现自己在创业公司这几年 完全是吃老本的状态 没有什么机会精进技术 同样是工作了三年 和同学的差距越来越大 我继续问他 他说真正让他
  • StringBuilder的用法

    StringBuilder简介 StringBuilder 最早出现在JDK1 5 是一个字符拼接的工具类 它和StringBuffer一样都继承自父类AbstractStringBuilder 在AbstractStringBuilder
  • “华为杯”研究生数学建模竞赛2020年-【华为杯】B题:降低汽油精制过程中的辛烷值损失模型(附优秀论文及python代码)

    目录 摘 要 1 问题重述 1 1 问题背景 1 2 需要解决问题 2 问题假设 3 符号说明
  • 第二章 感知机

    感知机 perceptron 是二类分类的线性分类模型 它包括输入空间 输出空间 模型结构 参数空间和假设空间 感知机学习旨在求出将训练数据进行线性划分的分离超平面 为此导入基于误分类的损失函数 利用梯度下降法对损失函数进行极小化 求得感知
  • STL的一些基本背景了解。

    STL源代码的头文件一般都是内联模式的 现在简单的把stl的集中类型进行分类说明一下 1 容器类 一般分为关联式容器和顺序式容器 典型的例子的就是vector为典型的顺序式容器 对于stl来说主要采用向量 链表 二叉树以及他们的组合为底层存
  • pandas中iloc()函数

    pandas中iloc 函数 DataFrame iloc 纯基于整数位置的索引 import pandas as pd mydict a 1 b 2 c 3 d 4 a 100 b 200 c 300 d 400 a 1000 b 200
  • TensorFlow数据归一化

    TensorFlow数据归一化 1 tf nn l2 normalize l2 normalize x dim epsilon 1e 12 name None output x sqrt max sum x 2 epsilon 2 使用sc
  • 【送书活动】深入浅出SSD:固态存储核心技术、原理与实战

    前言 作者主页 雪碧有白泡泡 个人网站 雪碧的个人网站 推荐专栏 java一站式服务 React从入门到精通 前端炫酷代码分享 从0到英雄 vue成神之路 uniapp 从构建到提升 从0到英雄 vue成神之路 解决算法 一个专栏就够了 架
  • 博士研究生如何做创新性研究?(蒲慕明院士)

    读文献不要只看文献描述的工作 What was done 还有四个 W 你也应知道 是谁做的 Who did it 什么时候做的 When 在哪里做的 Where 为什么会做这工作 Why 想了解重要的创新工作的来龙去脉 你就要读科学史 读
  • 全面深入了解python(一)

    全面深入了解python 一 写在开始前 此教程不是基础教程 在看之前你需要有一定的python基础 不然你可能无法理解教程到底教了哪些东西 环境 python版本是3 6 5 gt 3 4即可 1 Python数据模型 数据模型其实是对P
  • 高级排序技巧:提升Python中排序算法的效率和灵活性

    排序是计算机科学中常见的操作之一 它可以对数据进行按照特定顺序排列的操作 Python提供了多种排序算法 如冒泡排序 插入排序 选择排序等 然而 在处理大规模数据或对特定需求有限制时 我们需要使用更高级的排序技巧来提高算法的效率和灵活性 本
  • 7、ListView的几种适配器及自定义适配器

    span style font family none background color rgb 255 255 255 ListView是我们在Android应用开发中常用的组件 它通过列表的形式展示数据 具有很强的可扩展性 通常使用还会
  • npm查看一个包的版本信息

    我们npm install安装一个包之后 怎么查看这个包的版本信息呢 过一段时间之后 如何查看这个包最新的版本信息呢 下面将做一个全面的总结 1 查看项目中安装的所有的包 npm list 结果如下 vue2 0 test 0 1 0 C
  • scrapy 最简易爬虫

    创建一个项目 scrapy startproject baidu 这后面是名字 运行项目 要cd 进入项目才可以运行 scrapy crawl baidu import scrapy from bs4 import BeautifulSou