pycharm scrapy 爬取“文章”（文章阅读网）

2023-11-18

在这里插入图片描述

import scrapy
import re
from urllib import parse
from scrapy.http import Request
from Article_spider.Article_spider.items import duwenzhangSpiderItem,ArticalItemLoader
import datetime
from Article_spider.Article_spider.utils.common import get_md5
from scrapy.loader import ItemLoader

class DuwenzhangSpider(scrapy.Spider):
    name = 'duwenzhang'
    # allowed_domains = ['http://www.duwenzhang.com/']
    start_urls = ['http://www.duwenzhang.com/wenzhang/aiqingwenzhang/']

def parse(self, response):
    **#解析每页文章url并交给scrapy下载**
    post_urls=response.xpath("//b/a/@href").extract()
    for post_url in post_urls:
        regex_str = "(http://.*\d.html)"
        match_obj = re.match(regex_str, post_url)
        if match_obj:
            list_url=match_obj.group(1)

                yield Request(url=list_url,callback=self.parse_detail)
        **#提取下一页并交给scrapy下载**
        # next_url = response.xpath("//a[15]/@href").extract_first()
        # if next_url:
        #     yield Request(url=parse.urljoin(response.url,next_url),callback=self.parse)
        for i in range(2,200):
            next_url="http://www.duwenzhang.com/wenzhang/aiqingwenzhang/list_1_%s.html"%i
            if next_url:
                yield Request(url=parse.urljoin(response.url,next_url),callback=self.parse)
        pass
    def parse_detail(self, response):
        article_item=duwenzhangSpiderItem()
        # 文章标题
        title = response.xpath("//h1/text()").extract()[0]
        # 文章所属
        belong = response.xpath("//td[contains(@class,'pindao')]//a/text()").extract()
        belong = " ".join(belong)
        # 创建时间
        create_time = response.xpath("//tr[2]/td/text()[2]").extract()[1].replace("\r\n", "").strip()
        regex_str = ".*时间：(\d{4}-\d{2}-\d{2} \d{2}:\d{2})"
        match_obj = re.match(regex_str, create_time)
        if match_obj:
            create_time = match_obj.group(1)
        # # 文章内容
        article_plot = response.xpath("//div[@id='wenzhangziti']/p//text()").extract()
        article_plot = "".join(article_plot).replace("\u3000", "").replace("\xa0", "")

        article_item["title"] = title
        article_item["belong"] = belong
        try:
            create_time = datetime.datetime.strptime(create_time, "%Y-%m-%d %H:%M").date()
        except Exception as e:
            create_time = datetime.datetime.now().date()
        article_item["create_time"] = create_time
        article_item["article_plot"] = article_plot
        article_item["url"] = response.url
        article_item["url_obj_id"]=get_md5(response.url)

        yield article_item

        pass

items.py

import re
import scrapy
from scrapy.loader.processors import MapCompose,TakeFirst,Join
from scrapy.loader import ItemLoader
import datetime

class ArticleSpiderItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass


class ArticalItemLoader(ItemLoader):
    #自定义ItemLoader
    default_output_processor = TakeFirst()



class duwenzhangSpiderItem(scrapy.Item):
    title = scrapy.Field()
    belong = scrapy.Field()
    create_time = scrapy.Field()
    article_plot = scrapy.Field()
    url=scrapy.Field()
    url_obj_id=scrapy.Field()

pipelines.py

import codecs
import json
from scrapy.exporters import JsonItemExporter
import MySQLdb
import MySQLdb.cursors
from twisted.enterprise import adbapi


class ArticleSpiderPipeline(object):
    def process_item(self, item, spider):
        return item



class JsonwithEncodingPipeline(object):
    #自定义Json文件的导出
    def __init__(self):
        self.file=codecs.open("article.json","w",encoding="utf-8")

    def process_item(self, item, spider):
        lines=json.dumps(dict(item),ensure_ascii=False)+'\n'
        self.file.write(lines)
        return item
    def spider_closed(self,spider):
        self.file.close()

class JsonExporterPipeline(object):
    #调用scrapy提供的json export到处json文件
    def __init__(self):
        self.file = open('articleExport.json','wb')
        self.exporter=JsonItemExporter(self.file,encoding="utf-8",ensure_ascii=False)
        self.exporter.start_exporting()
    def close_spider(self,spider):
        self.exporter.finish_exporting()
        self.file.close()

    def process_item(self, item, spider):
        self.exporter.export_item(item)
        return item

class MysqlPipeline(object):
    #采用同步的机制
    def __init__(self):
        self.conn=MySQLdb.connect('127.0.0.1','root','root','article_spider',charset="utf8",use_unicode=True)
        self.cursor=self.conn.cursor()
    def process_item(self, item, spider):
        insert_sql="""
            insert into duwenzhang(title,create_time,url,url_object_id,belong,article_plot)
            VALUES (%s,%s,%s,%s,%s,%s)
        """

        self.cursor.execute(insert_sql,(item["title"],item["create_time"],item["url"],item["url_obj_id"],item["belong"],item["article_plot"]))
        self.conn.commit()
        return item

class MysqlTwistedPipeline(object):
    def __init__(self,dbpool):
        self.dbpool=dbpool
    #异步
    @classmethod
    def from_settings(cls,settings):
        dbparms=dict(
        host=settings['MYSQL_HOST'],
        db=settings['MYSQL_DBNAME'],
        user=settings['MYSQL_USER'],
        passwd=settings['MYSQL_PASSWD'],
        charset='utf8',
        cursorclass=MySQLdb.cursors.DictCursor,
        use_unicode=True,
        )

        dbpool=adbapi.ConnectionPool("MySQLdb",**dbparms)

        return cls(dbpool)

    def process_item(self, item, spider):
        #使用Twisted将mysql插入变成异步执行
        query=self.dbpool.runInteraction(self.do_insert,item)
        query.addErrback(self.handle_error) #处理异常


    def handle_error(self,failure):
        #处理异步插入异常
        print(failure)

    def do_insert(self,cursor,item):
        #执行具体的插入
        insert_sql = """
                    insert into duwenzhang(title,create_time,url,url_object_id,belong,article_plot)
                    VALUES (%s,%s,%s,%s,%s,%s)
                """
        cursor.execute(insert_sql, (
        item["title"], item["create_time"], item["url"], item["url_obj_id"], item["belong"], item["article_plot"]))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pycharm

Scrapy

pycharm scrapy 爬取“文章”（文章阅读网）的相关文章

如何计算总和的平方和？

我有一笔款项需要加快处理速度在一种情况下是 S x y k l Fu ku Fv lv Fx kx Fy ly 另一种情况是 S x y S k l Fu ku Fv lv Fx kx Fy ly 2 注意 S indices 是这些索引
“初始化 MCI 时出现问题”播放声音问题

我正在尝试使用 Playsound 播放代码文件夹中的文件但是每次运行代码时它似乎都能够调用该文件但我总是收到以下输出 playsound PlaysoundException Error 277 for command open p
Spark问题中读取大文件 - python

我已经使用 python 在本地安装了 Spark 并在运行以下代码时 data sc textFile C Users xxxx Desktop train csv data first 我收到以下错误 Py4JJavaError Tra
有没有办法清理 jinja2 生成的 html？

我们使用 jinja2 来创建 html 但是由于我们在 jinja 中执行许多循环和其他操作来生成 html 所以 html 看起来很丑注意这只是为了美观我们可以做些什么来清理 html 吗除了清理我们的 jinja2 代码之
动态添加jinja模板

我有一个 jinja 模板它是一组 div 标签内的唯一内容 div include temppage html div 当我按下按钮时我想用其他内容替换标签之间的所有内容我希望用另一个 jinja 模板 include realpa
Python：按条件绘制多个正/负条形图

这是我第一次用 python 绘制条形图我的 df 操作 key descript score 0 noodles taste 5 1 noodles color 2 2 noodles health 3 3 apple color 7
PyQt：如何设置组合框项目可检查？

为了将 GUI 小部件数量保持在最低限度我需要找到一种方法来为用户提供下拉菜单项的选择这些菜单项可用于过滤掉 listWidget 项中显示的内容假设 listWidget 列出了 5 个不同类别的项目 Cat A Cat B Cat
SQLAlchemy+pymysql 错误：sqlalchemy.util.queue.Empty

尝试使用 Eclispse 在 Ubuntu 上运行 Python 2 SQLAlchemy 0 8 和 MySQL5 2 但我不断收到以下错误我使用 pymysql 实际上是 pymysql3 引擎模块监视器 from sqlalch
使用 PRAW 帮助获取 Reddit 帖子链接到的 URL

我正在尝试使用 Praw 获取 Reddit 提交标题中链接的帖子例如提交 http www reddit com r AdviceAnimals comments 1adu71 apparently people still need
SQLAlchemy - 如何使用 SQLAlchemy 做出“django 选择”？

在 Django 中我们可以使用非常简单的选择例如 GENDER CHOICES M Male F Female class Foo models Model gender models CharField max length 1
根据Python中两行之间的匹配创建一个带有[0,1]的新列

我正在尝试将多个列表或数据帧与一个大型基础数据帧进行比较然后对于任何匹配我想附加一个存储 1 匹配或 0 不匹配的列 df pd DataFrame Name A B C D ID 5 6 6 7 8 9 7 list1 5 6 8 9
Keras ImageDataGenerator 相当于 csv 文件

我在文件夹中排序了一堆数据如下图所示我需要构建一个 DataIterator 以便将数据放入神经网络模型中当数据是图像时我找到了很多例子来解决这个问题使用 Keras 类图像数据生成器及其方法流自目录但当数据是 csv 结构时则
在 Python 中进行模糊键查找的最佳方法？

我遇到一个问题我需要在哈希映射中进行模糊查找即返回与最接近查询的键相对应的值在我的例子中是通过 Levenshtein 距离测量的我目前的方法是子类化dict使用特殊的查找方法计算所有键的编辑距离然后返回得分最低的键的值基本上是
如何在 VS Code 宏中将焦点返回到编辑器，将 Python 文本发送到调试控制台？

我尝试按键绑定宏以将 python 文本发送到调试控制台并将焦点返回到 Visual Studio Code 中的编辑器这是我尝试过的安装了vscode python https marketplace visualstudio com
Python Pandas DateOffset 使用另一列中的值

我以为这会很容易但下面的内容并不适合我想要的只是尝试通过使用另一列中的值将天数添加到预先存在的日期时间列来计算新的日期列我下面的偏移列只有 1 位数字 df new date df orig date apply lambda x
使用 asyncio 时应该如何创建属性？

在创建使用 asyncio 的类时我发现自己处于属性 getter 需要进行 io 操作的情况因此该函数应该是一个协程然而等待房产的感觉却很不寻常这是我的意思的一个最小的例子该代码有效并且可以运行 import asyncio
如何在 Python 中将 .docx 转换为 .txt

我想将大量 MS Word 文件转换为纯文本格式我不知道如何在 Python 中做到这一点我在网上找到了以下代码我的路径是本地路径所有文件名都类似于 cx xxx 即 c1 000 c1 001 c2 000 c2 001 等 fr
ValueError：对于optimize.curve_fit中所需的数组来说对象太深

我正在尝试拟合化学系统中四个变量 A B C D 的人口增长和衰退的动力学模型我正在尝试求解以下一组方程我已将其以矩阵形式附加方程的矩阵形式 https i stack imgur com ysEdZ png 其中 t 是时间步长 k
将文本文件转换为 plink PED 和 MAP 格式

我有以下数据其中的一小部分名为 short2 pre snp tumor txt rs987435 C G 1 1 1 0 2 rs345783 C G 0 0 1 0 0 rs955894 G T 1 1 2 2 1 rs608879
如何将 c_uint 的 ctypes 数组转换为 numpy 数组

我有以下 ctypes 数组 data ctypes c uint 100 我想创建一个 numpy 数组np data包含来自 ctypes 数组数据的整数值 ctypes 数组显然稍后会填充值我看到numpy中有一个ctypes接口

随机推荐

Android MVP 详解（上）

作者李旺成时间 2016年4月3日 Android MVP 详解下已经发布欢迎大家提建议 MVP 在 Android 上的使用其实已经有挺长一段时间了长到似乎有点过时了目前风头正劲的是MVVM 那为什么现在还要讲 MVP
tf.nn.atrous_conv2d如何实现空洞卷积？

转载自 https blog csdn net mao xiao feng article details 78003730 介绍关于空洞卷积的理论可以查看以下链接这里我们不详细讲理论 1 Long J Shelhamer E Darr
业务实战中如何利用MySQL函数来解决

随着我们业务越来越复杂的情况下完全基于java后台来解决首先是很麻烦而且性能带来降低代码的可读性下降这个时候就需要一些MySQL的函数来解决了这篇文章对于常见的MySQL函数不予介绍 concat函数使用方法 CONCAT st
Flink设置Source数据源使用kafka获取数据

流处理说明有边界的流bounded stream 批数据无边界的流unbounded stream 真正的流数据 Source 基于集合 package com pzb source import org apache flink ap
I Hate It

很多学校流行一种比较的习惯老师们很喜欢询问从某某到某某当中分数最高的是多少这让很多学生很反感不管你喜不喜欢现在需要你做的是就是按照老师的要求写一个程序模拟老师的询问当然老师有时候需要更新某位同学的成绩 Input 本题
volatile和synchronized的区别

共性 volatile与synchronized都用于保证多线程中数据的安全区别 1 volatile修饰的变量 jvm每次都从主存主内存中读取而不会从寄存器工作内存中读取而synchronized则是锁住当前变量同一时刻只
第一次 openwrt源码下载编译

openwrt 学习记录第一次 openwrt源码下载编译 MT7620开发板安装虚拟机VMware 安装Ubnutu 先进入root账户 topeet ubuntu su 输入密码 1 搭建编译环境参考 https blog csd
maven的使用

目录一 maven基本参数二 maven基础结构三 mvn的打包和运行一 maven基本参数 groupId 是指项目里面的标识一般写法是com mycom myapp 其中mycom是指你公司的域名例如com google m
YOLOv5+PaddleOCR手写签名识别

YOLOv5 PaddleOCR手写签名识别介绍参加了一个中国移动的比赛比赛的数据集是一个工单上面有多个人的签名还有手写的时间因为主办方不允许数据公开所以在这一系列博客中我主要讲一下实现的思路在YOLO演示的时候我会用其他的
查看linux服务器内存信息

查看服务器内存信息 dmidecode grep P A5 Memory s Device grep Size root localhost home dmidecode grep P A5 Memory s Device grep Siz
【leetcode刷题】--- 21.合并两个有序链表（C++递归）

21 合并两个有序链表原题链接 https leetcode cn com problems merge two sorted lists 题目将两个升序链表合并为一个新的升序链表并返回新链表是通过拼接给定的两个链表的所有节点组成
关于ApplicationContext的getBean()方法发现

假定 Son类实现father接口在Son类定义声明式事务后通过ApplicationContext接口的getBean Class arg0 方法获取注入好的bean会报异常方法参数Son class Son已声明bean org
18. 线性代数 - 线性变换

文章目录线性空间线性变换线性变换的几何意义特征值与特征向量 NumPy的矩阵操作 Hi 你好我是茶桁经历了几节线性代数课程之后终于咱们到了最后一节课了本节课的内容说多不多说少也不少我们先是要理解一下线性空间和线性变换并
uml之Robustness Diagram

Robustness Diagram 从需求分析到架构设计转载自 http www dotblogs com tw jed archive 2010 11 21 robustness diagram aspx 什么是Robustness
Java IO流

目录一认识Java的流二使用字节流读写文本文件三使用字符流读写文本文件四读写二进制文件五序列化和反序列化六总结一认识Java的流 1 读文件是指把文件中的数据读取到内存中 2 写文件是把内存中的数据写到文件中 3
2023高教社杯国赛数学建模E题思路 - 黄河水沙监测数据分析

1 赛题 E 题黄河水沙监测数据分析黄河是中华民族的母亲河研究黄河水沙通量的变化规律对沿黄流域的环境治理气候变化和人民生活的影响以及对优化黄河流域水资源分配协调人地关系调水调沙防洪减灾等方面都具有重要的理论指导意义附件
spring boot 之 kotlin语言开发，用一次就想放弃Java，爽歪歪~~~

废话少说上视频 spring boot 之 kotlin用一次就想放弃java 爽歪歪 1 启动入口 SpringBootApplication EnableDiscoveryClient class TawuziAuthServerDb
LVGL V8学习之键盘按键样式重绘（二）

这一篇继续研究一下基于btnmatrix的键盘按键重绘是对上一篇LVGL V8学习之键盘按键样式重绘一的代码的优化还是通过codeblock来模拟代码的运行代码如下按键矩阵的事件回调函数 static void btnmatri
vue后台管理系统—— 模糊查询和列表分页展示

1 效果显示通过输入作品名称或者开始时间或者结束时间来显示数据列表这里的三项选择可以输入其一也可以都输入 2 分页代码用的是element组件包括表格上面的搜索 div class personalident top div
pycharm scrapy 爬取“文章”（文章阅读网）

import scrapy import re from urllib import parse from scrapy http import Request from Article spider Article spider item

pycharm scrapy 爬取“文章”（文章阅读网）

pycharm scrapy 爬取“文章”（文章阅读网） 的相关文章

随机推荐

热门标签

pycharm scrapy 爬取“文章”（文章阅读网）的相关文章