Python爬虫实战——爬取新闻数据（简单的深度爬虫）

2023-11-07

前言

又到了爬新闻的环节（好像学爬虫都要去爬爬新闻，没办法谁让新闻一般都很好爬呢XD，拿来练练手），只作为技术分享，这一次要的数据是分在了两个界面，所以试一下深度爬虫，不过是很简单的。

数据目标

数据爬取

网页url

url = 'https://www.chinanews.com.cn/scroll-news/news1.html'

1.先看看网站网址的规律

发现这部分就是每一天的新闻，现在把这个链接组合一下，我暂时只拿1月份的数据

# 组合日期链接
def cnew_url():
    f = open(r'D:/工作文件/cnew_url.txt', 'w', encoding='utf8')
    for i in range(1, 32):
        if i < 10:
            url = 'https://www.chinanews.com.cn/scroll-news/2023/010' + str(i) + '/news.shtml'
        else:
            url = 'https://www.chinanews.com.cn/scroll-news/2023/01' + str(i) + '/news.shtml'
        f.write(url + '\n')
    f.close()

2.接下来访问每一天的链接获取到新闻的链接还有我们需要的分类的数据，然后再对新闻链接发起request请求获取到我们需要的标题和正文数据

def cnew_data():
    f = open(r'D:/工作文件/cnew_url.txt', encoding='utf8')  # 读取上面已经组合好的链接
    l = openpyxl.load_workbook(r'D:\工作文件\cnew_data.xlsx')
    sheet = l.active
    m = open(r'D:/工作文件/cnew_url1.txt', 'a', encoding='utf8')  # 保存报错的链接
    x = 1  # 从Excel的第几行开始写入
    for i in f:
        lj1 = []
        # 发起请求,获取页面里面的新闻链接
        req = requests.get(i.replace('\n', ''), headers=headers)
        # 设置网页编码，不设置会乱码
        req.encoding = 'utf8'
        ht = etree.HTML(req.text)
        # 获取分类的数据还有正文链接
        fl = ht.xpath("//div[@class='dd_lm']/a/text()")
        lj = ht.xpath("//div[@class='dd_bt']/a/@href")
        # 链接有两种格式，分别组合成可以用的
        for j in lj:
            if j[:5] == '//www':
                lj1.append('https:' + j)
            else:
                lj1.append('https://www.chinanews.com.cn/' + j)
        n = 0  # 这是匹配文章和分类
        for k in tqdm(lj1):
            try:
                data = []
                # 发起请求
                reqs = requests.get(k, headers=headers, timeout=10)
                reqs.encoding = 'utf8'
                ht1 = etree.HTML(reqs.text)
                # 因为这网站的正文所在的xpath路径不同，现在就是拿两种路径下的文本
                bt = ht1.xpath("//h1[@class='content_left_title']/text()")  # 标题
                if bt:  # 判断标题是不是为空，不为空就走第一种xpath
                    data.append([fl[n]])  # 爬到第几个链接就把第几个的类别放进来
                    data.append(ht1.xpath("//h1[@class='content_left_title']/text()"))  # 标题
                    data.append(ht1.xpath("//div[@class='left_zw']/p/text()"))  # 简介
                    data.append([lj1[n]])  # 文章的链接
                else:
                    data.append([fl[n]])
                    data.append(ht1.xpath("//div[@class='content_title']/div[@class='title']/text()"))
                    data.append(ht1.xpath("//div[@class='content_desc']/p/text()"))  # 简介
                    data.append([lj1[n]])
                # 数据写入
                for y in range(len(data)):
                    sheet.cell(x, y + 1).value = '\n'.join(data[y])
                x += 1
                n += 1
            except Exception as arr:
                m.write(lj1[n])
                continue
        # 保存
        l.save(r'D:\工作文件\cnew_data.xlsx')
    f.close()
    m.close()

主函数

if __name__ == '__main__':
    # cnew_url()
    cnew_data()

完整代码

少了一下注释，详细可看前面

import openpyxl
import requests
from lxml import etree
from tqdm import tqdm


headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'
}


# 组合日期链接
def cnew_url():
    f = open(r'D:/工作文件/cnew_url.txt', 'w', encoding='utf8')
    for i in range(1, 6):
        if i < 10:
            url = 'https://www.chinanews.com.cn/scroll-news/2023/020' + str(i) + '/news.shtml'
        else:
            url = 'https://www.chinanews.com.cn/scroll-news/2023/02' + str(i) + '/news.shtml'
        f.write(url + '\n')
    f.close()


def cnew_data():
    f = open(r'D:/工作文件/cnew_url.txt', encoding='utf8')  # 读取上面已经组合好的链接
    l = openpyxl.load_workbook(r'D:\工作文件\cnew_data.xlsx')
    sheet = l.active
    m = open(r'D:/工作文件/cnew_url1.txt', 'a', encoding='utf8')  # 保存报错的链接
    x = 1  # 从Excel的第几行开始写入
    for i in f:
        lj1 = []
        # 发起请求,获取页面里面的新闻链接
        req = requests.get(i.replace('\n', ''), headers=headers)
        # 设置网页编码，不设置会乱码
        req.encoding = 'utf8'
        ht = etree.HTML(req.text)
        # 获取分类的数据还有正文链接
        fl = ht.xpath("//div[@class='dd_lm']/a/text()")
        lj = ht.xpath("//div[@class='dd_bt']/a/@href")
        # 链接有两种格式，分别组合成可以用的
        for j in lj:
            if j[:5] == '//www':
                lj1.append('https:' + j)
            else:
                lj1.append('https://www.chinanews.com.cn/' + j)
        n = 0
        for k in tqdm(lj1):
            try:
                data = []
                reqs = requests.get(k, headers=headers, timeout=10)
                reqs.encoding = 'utf8'
                ht1 = etree.HTML(reqs.text)
                bt = ht1.xpath("//h1[@class='content_left_title']/text()")  # 标题
                if bt:
                    data.append([fl[n]])
                    data.append(ht1.xpath("//h1[@class='content_left_title']/text()"))  # 标题
                    data.append(ht1.xpath("//div[@class='left_zw']/p/text()"))  # 简介
                    data.append([lj1[n]])
                else:
                    data.append([fl[n]])
                    data.append(ht1.xpath("//div[@class='content_title']/div[@class='title']/text()"))
                    data.append(ht1.xpath("//div[@class='content_desc']/p/text()"))  # 简介
                    data.append([lj1[n]])
                for y in range(len(data)):
                    sheet.cell(x, y + 1).value = '\n'.join(data[y])
                x += 1
                n += 1
            except Exception as arr:
                m.write(lj1[n])
                continue
        l.save(r'D:\工作文件\cnew_data.xlsx')
    f.close()
    m.close()


if __name__ == '__main__':
    # cnew_url()
    cnew_data()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

Python爬虫实战——爬取新闻数据（简单的深度爬虫）的相关文章

无法在 PIL 中对 16 位 TIF 应用图像滤镜

我尝试使用 python 应用图像过滤器PIL http www pythonware com products pil 代码很简单 im Image open fnImage im im filter ImageFilter BLUR 此
Python动态导入脚本，需要有其__name__ == "__main__"代码才能被调用

当从另一个脚本导入 python 脚本时我想要受经典保护的脚本代码 if name main 要运行我怎样才能运行该代码我想做的是从 python 脚本动态更改模块然后导入现有脚本该脚本应该看到所做的更改并运行其 main 像Py
出现导入错误：无法从“随机”导入名称“随机”[重复]

这个问题在这里已经有答案了我在我的计算机上多次运行我的代码但没有出现此错误但突然间这个来了 File e Python 3 8 0 lib site packages comtypes client code cache py lin
SMTPAuthenticationError: (535, b'5.7.8 用户名和密码在 Django 生产中不被接受？

我在 Heroku 上部署了一个 Django 应用程序在其中一节中我使用 SMTP Gmail 设置向用户发送电子邮件当我在本地运行项目时电子邮件发送成功但在 Heroku 上部署的项目上却发送失败我在 Stackoverfl
确定Python模块中的函数是否可用

我正在研究一些使用Python套接字的代码socket fromfd http docs python org library socket html socket fromfd功能但是此方法并非在所有平台上都可用因此我正在编写一些后
WTForms 中的小数字段舍入

我有一个包含价格小数字段的表单如下所示 from flask ext wtf import Form import wtforms from wtforms validators import DataRequired from deci
Weasyprint 在调用 write_pdf 时获得未定义的属性：“AttributeError：‘PosixPath’对象没有属性‘read_text’”

我正在 ubuntu 18 04 上运行 weasyprint 项目并尝试创建一个 pdf 当我尝试设置页脚图像时问题就开始了我正在 python 3 6 7 上运行这是我调用 weasyprint 的代码 import sys i
肥皂服务的良好框架是什么？

我正在寻找一个用于肥皂的好框架service 我更喜欢使用Pythonic框架但是在查看了soaplib rpclib 太不稳定 SOAPy 不适用于2 7 和ZSI 太令人困惑之后我不确定这是否可能我对使用另一种语言感到满意尽
ValueError：在 R 中使用 keras 模型时在用户代码中

我正在尝试使用 R 在 R 中运行一维 CNNkeras包裹我正在使用以下代码 library MASS library keras Create some data data Boston data lt Boston create a
Python变量赋值问题

a b 0 1 while b lt 50 print b a b b a b 输出 1 2 4 8 16 32 wheras a b 0 1 while b lt 50 print b a b b a b 输出正确的斐波那契数列 1 1
在 Ubuntu 上使用 Python 获取显示器分辨率

对于 Ubuntu win32api 中是否有与 GetSystemMetrics 相当的代码我需要获取显示器的宽度和高度以像素为单位我可以建议一些可以使用的方法不过我还没有使用过 xlib 版本 1 xlib Python 程序的
图像堆栈的最大强度投影

我正在尝试重新创建该功能 max array 3 来自 MatLab 它可以获取 N 个图像的 300x300px 图像堆栈我在这里说图像因为我正在处理图像实际上这只是一个大的双数组 300x300xN 并创建一个 300x300
Python3.1中的视图？

Python3 1中的视图到底是什么它们的行为方式似乎与迭代器类似并且它们也可以具体化为列表迭代器和视图有何不同据我所知视图仍然附加到创建它的对象上对原始对象的修改会影响视图来自docs http docs python or
在 Docker 容器内运行时，如何自动在 API 路由文件中进行 FASTAPI 拾取更改？

我通过 docker 运行 FastApi 在 docker compose 中创建一个名为 ingestion data 的服务我的 Dockerfile FROM tiangolo uvicorn gunicorn fastapi p
如何在树莓派上更新到最新的 python 3.5.1 版本？

我昨天拿到了 Raspberry Pi 我已经在尝试用它来编写代码了我有一个计划在其上运行的程序但它仅与 Python 版本 3 5 0 或 3 5 1 兼容并且我在互联网上找到的所有内容似乎都已经过时与 Python 2 有关或
如何将时间间隔划分为不同长度的部分？

我有一个从 0 到t 我想把这个区间分成一个以2 25 2 25 1 5为周期的累积序列方法如下 input start 0 stop 19 output sequence 0 2 25 4 5 6 8 25 10 5 12 14 25
sklearn 中带有词袋和附加情感特征的文本分类器

我正在尝试构建一个分类器除了词袋之外还使用情绪或主题 LDA 结果等特征我有一个包含文本和标签的 pandas DataFrame 并且想添加情感值 5 到 5 之间的数字和 LDA 分析结果带有句子主题的字符串我有一个工作词
python 函数返回 javascript date.getTime()

我正在尝试创建一个简单的 python 函数它将返回与 javascript 相同的值new Date getTime 方法如所写here http www w3schools com js js dates asp javascrip
Python请求401错误但url在浏览器中打开

我正在尝试从这个位置提取 json https www nseindia com api option chain indices symbol BANKNIFTY https www nseindia com api option cha
python pandas如何在多个条件下过滤字符串

我有以下数据框 import pandas as pd data 5Star FiveStar five star fiv estar data pd DataFrame data columns columnName 当我尝试用一种条件

随机推荐

Canvas 原生实现图片涂抹打马赛克功能

先看效果上图是一段打码过后的代码截图简单说一下实现思路就是通过创建多个canvas 一个用来绘制原图一个用来绘制全马赛克图一个用来绘制笔迹或者叫打码的区域最后一个canvas用来将三个canvas绘制到一个canvas之上主要
关于解决IDEA中git的commit无效的解决方法

关于解决IDEA中git的commit无效的解决方法在开发中我们偶尔会遇到点击idea中commit无效的情况点击完commit后进度条一闪而过缺没有将代码提交上去下面是本人总结的几种方法一重启IDEA 重启大法俗话说的好重
算法与数据结构技术书籍从入门到进阶推荐适合大神小白附技术书阅读方法论【附网盘链接】

转载自某大佬博客 https pymlovelyq github io 2018 10 06 Algorithm 前言技术书阅读方法论一速读一遍最好在1 2天内完成人的大脑记忆力有限在一天内快速看完一本书会在大脑里留下深刻印象
ubuntu安装英伟达显卡驱动

文章目录 1 通过PPA安装 2 手动安装 3 通过ubuntu官方方法安装 4 相关命令 1 通过PPA安装 1 卸载系统里低版本的英伟达驱动 sudo apt get purge nvidia 2 把显卡驱动加入PPA sudo add
redis 五种数据类型的底层数据结构

为了拿捏 Redis 数据结构我画了 40 张图完整版 Redis 数据结构并不是指 String 字符串对象 List 列表对象 Hash 哈希对象 Set 集合对象和 Zset 有序集合对象因为这些是 Redis 键值对
Docker安装RabbitMQ

1 首先确保自己的虚拟机安装了Docker环境可以通过docker v 查看自己的docker是否安装了 docker v Docker未安装可以通过下面的教程安装Docker CentOS7安装Docker教程 2 通过命令安装Rabb
现代文翻译成古文_把现代文翻译成古文诗词,太雅致了!

1 今文身不由己古译向来心是看客心奈何人是剧中人 2 今文我们越来越陌生了古译相達何必曾相识再看君卿已陌路 3 今文我也不想你你也就别想我了古译我断不思量你莫思量我 4 今文物是人非我们回不去了古译柳絮随风各西
关于计算机视觉中的深度信息概念

引用 https blog csdn net a1059682127 article details 80503378 https www zhihu com question 406919125 answer 1338670936 单独使
kettle抽取数据中文乱码

kettle如何解决也有一两篇谈到在建数据库连接时加characterEncoding来解决在kettle中数据链接中添加属性数据源和目标都要添加
使用Vue创建一个商品展示首页

使用Vue创建项目实现一个商品展示首页在这篇博客中我们将使用Vue来创建一个简单的商品展示首页我们已经有一个后端API提供了商品信息接口地址为 http localhost 8080 api products 返回的数据格式是JSO
C++猜数字小游戏-通过循环实现

C 猜数字小游戏通过循环实现题目系统随机生成一个1到100之间的数字玩家进行猜测如果猜错提示玩家数字过大或过小如果猜对恭喜玩家胜利并且退出游戏每局游戏只能猜5次实现通过循环和if判断源码 include
基于SUSAN算法的边缘检测方法研究（Matlab代码实现）

个人主页研学社的博客欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 1 1 SUSAN算子原理 1 2 SUSAN边缘检测算法 2 运行结果 3 Ma
Temporary failure in name resolution

在启动nexus war包时出现以下提示错误 2016 05 04 13 50 12 ERROR main net sf ehcache Cache Unable to set localhost This prevents creatio
路径搜索问题

之前碰到的很多问题都可以归结为路径搜索问题就是求两点之间的路经 1 是否存在路径 2 求任意一条路径 3 求所有路径求是否有路径和任意一条路径的时候和正常遍历一样一个点被mark之后不再访问因为如果这个结点到终点有路径之前就应该
Word里如何打出带有上下横杠的大写字母i

换成新罗马就行了
Linux系统中关于/etc/rc.d/rc.local中部分命令不执行的问题

最近遇到了个奇怪的问题费了一番周折才最终解决在此给遇到类似问题的同学提供一条思路在Linux系统中我们有可能需要某些命令在系统启动的时候自动运行此时我们会想到利用文件 etc rc d rc local 按照正常逻辑只需要将相应的
通过关键字从百度中爬取相匹配图片，可以爬取多种也可以爬取一种图片

通过re requests urlib BeautifulSoup os模块实现从百度下载指定类别图片包含代码逐行解析 import re 进行http请求的第三方库 import requests from urllib import
STM32F103屏蔽JTAG/SWD 以及PC13，PC14，PC15的RTC晶振禁用。

STM32F103屏蔽JTAG SWD 以及PC13 PC14 PC15的RTC晶振禁用 1 关于JTAG SWD屏蔽 2 PC13 PC14 PC15的RTC晶振屏蔽 1 关于JTAG SWD屏蔽 STM32F103系列上的一些IO口在标
免费获取省市县的shp，geojson文件

整理下资料需要做准备工作 1 一个全能地图下载 https blog csdn net qq 41619796 article details 90241491 可以获取边界坐标 2 获取文件的网站 http geojson io 3 G
Python爬虫实战——爬取新闻数据（简单的深度爬虫）

前言又到了爬新闻的环节好像学爬虫都要去爬爬新闻没办法谁让新闻一般都很好爬呢XD 拿来练练手只作为技术分享这一次要的数据是分在了两个界面所以试一下深度爬虫不过是很简单的数据目标相关库 import openpyxl impo