scrapy 最简易爬虫

2023-10-30

创建一个项目
scrapy startproject baidu 这后面是名字

#运行项目要cd 进入项目才可以运行
scrapy crawl baidu


import scrapy
from bs4 import BeautifulSoup as bs

#scrapy crawl quotes

class QuotesSpider(scrapy.Spider):
    
    name = "quotes"

    def start_requests(self):
        urls = [
            'http://top.baidu.com/buzz?b=353&c=10&fr=topcategory_c10',

        ]
        for url in urls:
            
            yield scrapy.Request(url=url, callback=self.parse)


    def parse(self, response):
        
        x = response.css('td.keyword').getall()

        import openpyxl
        wb = openpyxl.Workbook()
        word = wb.active
        
        for i in range(len(x)):

            html = bs(x[i],'lxml')
            ming = html.a.text
            u =html.a.attrs['href']
            self.log(ming)

            A = 'A{0}'.format(i+1)
            B = 'B{0}'.format(i+1)
            
            word[A] = html.a.text
            word[B] = html.a.attrs['href']

        wb.save('小说排行榜.csv')

        self.log('保存完成')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

scrapy 最简易爬虫的相关文章

git拉取dev分支及git的基本常用命令

新项目必做的操作就是拉取远程仓库的代码一般的开发是在dev分支上开发但是默认拉下来了master分支需要拉取dev分支怎么拉取呢拉取dev分支代码指定分支也可以 1 首先进入到你需要拉代码的文件里面如果新项目第一次拉代码建议新

随机推荐

pandas的read_excel 报错：OverflowError: date value out of range‘ 的解决办法

pandas的read excel 报错 OverflowError date value out of range 的解决办法首先报错了要进行原因分析导致这个错误的原因是将文件中的数值读成了日期解决办法尝试1 pip insta
关于Android无法用SmsManager发送短信的问题

关于Android无法用SmsManager发送短信的问题我使用的是如下代码 SmsManager smsManager SmsManager getDefault PendingIntent pi PendingIntent getAc
解决element-ui中table表格row-style改变当前行样式失效问题

前言这个问题点要注意的是element ui版本版本不同解决方案也不同我也收到好多私信说没解决后来自己测试了一下发现的确受版本影响大家使用时仔细看element ui文档中的是不是object格式的最近在使用vue ele
操作系统接口--OS

操作系统接口接口连接两个东西信号转换屏蔽细节接口需要实现什么要知道调用它的是什么东西背后是怎么完成这件事情的计算机调用接口的三种方式 1 命令行命令行其实就是一个c函数当我们操作系统启动后会执行一个函数该函数在目录
【深度学习】logistic回归模型

目录神经网络数据符号准备 logistic回归损失函数和代价函数梯度下降法向量化神经网络我们学习深度学习的目的就是用于去训练神经网络而神经网络是什么呢我们先来看下面一个基础的生物上的神经元的图片通常来说神经元就是处理
feign 传输文件

1 pom文件
android源码分析！程序员怎样优雅度过35岁中年危机？送大厂面经一份！

最近跟我的一些读者交流有一位读者的经历让我记忆深刻有一次和大学同学聚会和几个在BAT的同学聊了聊技术发现自己在创业公司这几年完全是吃老本的状态没有什么机会精进技术同样是工作了三年和同学的差距越来越大我继续问他他说真正让他
StringBuilder的用法

StringBuilder简介 StringBuilder 最早出现在JDK1 5 是一个字符拼接的工具类它和StringBuffer一样都继承自父类AbstractStringBuilder 在AbstractStringBuilder
“华为杯”研究生数学建模竞赛2020年-【华为杯】B题：降低汽油精制过程中的辛烷值损失模型（附优秀论文及python代码）

目录摘要 1 问题重述 1 1 问题背景 1 2 需要解决问题 2 问题假设 3 符号说明
第二章感知机

感知机 perceptron 是二类分类的线性分类模型它包括输入空间输出空间模型结构参数空间和假设空间感知机学习旨在求出将训练数据进行线性划分的分离超平面为此导入基于误分类的损失函数利用梯度下降法对损失函数进行极小化求得感知
STL的一些基本背景了解。

STL源代码的头文件一般都是内联模式的现在简单的把stl的集中类型进行分类说明一下 1 容器类一般分为关联式容器和顺序式容器典型的例子的就是vector为典型的顺序式容器对于stl来说主要采用向量链表二叉树以及他们的组合为底层存
pandas中iloc()函数

pandas中iloc 函数 DataFrame iloc 纯基于整数位置的索引 import pandas as pd mydict a 1 b 2 c 3 d 4 a 100 b 200 c 300 d 400 a 1000 b 200
TensorFlow数据归一化

TensorFlow数据归一化 1 tf nn l2 normalize l2 normalize x dim epsilon 1e 12 name None output x sqrt max sum x 2 epsilon 2 使用sc
【送书活动】深入浅出SSD：固态存储核心技术、原理与实战

前言作者主页雪碧有白泡泡个人网站雪碧的个人网站推荐专栏 java一站式服务 React从入门到精通前端炫酷代码分享从0到英雄 vue成神之路 uniapp 从构建到提升从0到英雄 vue成神之路解决算法一个专栏就够了架
博士研究生如何做创新性研究？（蒲慕明院士）

读文献不要只看文献描述的工作 What was done 还有四个 W 你也应知道是谁做的 Who did it 什么时候做的 When 在哪里做的 Where 为什么会做这工作 Why 想了解重要的创新工作的来龙去脉你就要读科学史读
全面深入了解python（一）

全面深入了解python 一写在开始前此教程不是基础教程在看之前你需要有一定的python基础不然你可能无法理解教程到底教了哪些东西环境 python版本是3 6 5 gt 3 4即可 1 Python数据模型数据模型其实是对P
高级排序技巧：提升Python中排序算法的效率和灵活性

排序是计算机科学中常见的操作之一它可以对数据进行按照特定顺序排列的操作 Python提供了多种排序算法如冒泡排序插入排序选择排序等然而在处理大规模数据或对特定需求有限制时我们需要使用更高级的排序技巧来提高算法的效率和灵活性本
7、ListView的几种适配器及自定义适配器

span style font family none background color rgb 255 255 255 ListView是我们在Android应用开发中常用的组件它通过列表的形式展示数据具有很强的可扩展性通常使用还会
npm查看一个包的版本信息

我们npm install安装一个包之后怎么查看这个包的版本信息呢过一段时间之后如何查看这个包最新的版本信息呢下面将做一个全面的总结 1 查看项目中安装的所有的包 npm list 结果如下 vue2 0 test 0 1 0 C
scrapy 最简易爬虫

创建一个项目 scrapy startproject baidu 这后面是名字运行项目要cd 进入项目才可以运行 scrapy crawl baidu import scrapy from bs4 import BeautifulSou

scrapy 最简易爬虫

scrapy 最简易爬虫 的相关文章

随机推荐

热门标签

scrapy 最简易爬虫的相关文章