BeautifulSoup+pandas 爬取新浪国内新闻

2023-05-16

（1）使用技术

python 3.5.2、sqlite3、pandas、requests、jupyter notebook

（2）详细代码

新浪国内新闻首页：http://news.sina.com.cn/china/

1、爬取的内容为最新消息里面每个新闻详细页面的标题、发布时间、编辑、内容、评论数以及评论内容

2、编写思路

使用requests将发送请求，并且将返回的数据接收回来。
对接接收回来的数据进行处理，使用pandas进行处理，并且保存到sqlite3里面

3、具体的代码模块讲解

获取分页的url，国内新闻采取分页的形式来分割不同的新闻，因此我们首先获取新闻分页的数据，并且从分页的数据中获取到各个新闻详情页的url。getPageUrl用来获取分页的url(pageUrl 是在开发者工具使用NetWork查找到的，一般的请求在doc、js、xhr中)

def getPageUrl(begin,end):
pageUrls = []
pageUrl = "http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw\
&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1\
&show_num=22&tag=1&format=json&page={}"
for i in range(begin,end):
newUrl = pageUrl.format(i)
pageUrls.append(newUrl)
return pageUrls

根据获取到的分页的数据，再获取详情页面的URL，其中getNewsUrl中的begin,end是分页的开始和结束。由于新闻量的数据量太大，此处做了限制。

def getNewsUrl(begin,end):
newsUrl = []
pageUrls = getPageUrl(begin,end);
for url in pageUrls:
res = requests.get(url)
res.encoding = "utf-8"
urlJson = json.loads(res.text)
for i in urlJson["result"]["data"]:
newsUrl.append(i["url"])
return newsUrl;

获取到了具体的新闻页面url以后，可以根据url去爬取新闻页面具体的信息。

import requests;
from bs4 import BeautifulSoup;
from datetime import datetime;
import re;
import json;

def getNewDetails(newsUrl):
results = {};
contentsList = [];
res = requests.get(newsUrl);
res.encoding = "utf-8";
soup = BeautifulSoup(res.text,"html.parser");
mainTitle = soup.select(".main-title")[0].text.strip();
results["mainTitle"] = mainTitle
originTime = soup.select(".date-source span")[0].text.strip();
publishTime = datetime.strptime(originTime,"%Y年%m月%d日 %H:%M");
strTime = datetime.strftime(publishTime,"%Y-%m-%d");
results["publishTime"] = publishTime
if(len(soup.select(".date-source a")) > 0):
originSource = soup.select(".date-source a")[0].text.strip();
else:
originSource = "";
results["originSource"] = originSource
contents = " ".join([p.text.strip() for p in soup.select(".article p")[:-1]]);
results["contents"] = contents
editor = soup.select(".article p")[-1].text.strip();
results["editor"] = editor
m = re.search("doc-i(.*).shtml",newsUrl)
comments = requests.get("http://comment5.news.sina.com.cn/page/info?version=1\
&format=json&channel=gn&newsid=comos-" + m.group(1) + "&group=undefined&compress=0\
&ie=utf-8&oe=utf-8&page=1&page_size=3&t_size=3&h_size=3&thread=1");
comments.encoding = "utf-8";
commentsJson = json.loads(comments.text.strip());
results["total"] = commentsJson["result"]["count"]["total"]
for com in commentsJson["result"]["cmntlist"]:
contentsList.append(com["time"] + " " + com["nick"] + ":" + com["content"])
results["contents"] = ' '.join(contentsList)
return results

用getNewData来做一个获取具体页面url以及爬取数据的一个连接

def getNewData():
newsData = []
newsUrl = getNewsUrl(1,3)
for url in newsUrl:
newsData.append(getNewDetails(url))
return newsData

使用pandas来处理返回来的数据，可以保存成csv,xlsx

import pandas;
df = pandas.DataFrame(getNewData())
df.to_excel("news.xlsx")

使用pandas来处理返回来的数据，可以保存数据库中

import sqlite3
cnx = sqlite3.connect('news.sqlite')
type(cnx)
df.to_sql('data',cnx ,schema=None, if_exists='replace', index=True, index_label=None, chunksize=None, dtype=None)

读取数据库中的数据

import sqlite3;

pandas.read_sql('select * from data;',con = db)

本文根据自己的学习所总结的一些内容，如有不足之处，请多多指教。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

BeautifulSoup+pandas 爬取新浪国内新闻的相关文章

Error attempting to get column ‘xxx‘ from result set. Cause: java.sql.SQLDataException错误的解决方法

文章目录 1 复现错误2 分析错误3 解决错误4 文末总结 1 复现错误今天写好导入hive表的详情列表的接口 xff0c 如下代码所示 xff1a span class token comment hive表导入的回调接口 64 aut
文件传输协议FTP、SFTP、SCP

今天在了解Ansible的时候看到了Ansible是基于SFTP协议进行文件传输的 xff0c 就想了解下FTP协议与SFTP协议的区别 xff0c 因为总结了这篇文章应用层 xff1a HTTP xff08 Hypertext Tran
SSH配置免密登录详解（踩坑无数总结）

之前在使用Ansible部署工具的时候 xff0c 需要先配置好SSH免密登录 xff0c 在配置时踩了很多的坑 xff08 按照很多文章的步骤并不能完全配置好免密登录 xff09 xff0c 因此在踩完所有的坑之后 xff0c 总结出来这
CentOS7.6升级内核到5.11及build RPM包

目录源码编译方式升级内核安装依赖包升级GCC 编译安装kernel5 11 构建RPM包安装RPM包源码编译方式升级内核在编译高版本内核之前 xff0c 构建编译环境以及依赖包安装是肯定的 xff1b 但是 xff0c Cent
内存对齐规则--图文详解

在之前的C语言结构体的学习中 xff0c 遇到了内存对齐的问题 xff0c 之后在C 43 43 的类的学习中 xff0c 再次遇到了内存对齐问题 xff0c 所以我觉得有必要总结一下这个知识点内存对齐规则 1 xff09 第一个成员在与
#define定义宏函数的正确使用

如何使用宏来定义一个自定义函数呢 xff1f 首先我们来看下面这段代码 define SQUARE x x x int main int a 61 5 printf 34 SQUARE a d n 34 SQUARE a 这个值为25 pr
C语言运算符优先级列表(超详细)

本篇文章是对C语言中运算符的优先级进行了详细的分析介绍 xff0c 需要的朋友参考下 C语言运算符优先级优先级运算符名称或含义使用形式结合方向说明 1 数组下标数组名常量表达式左到右圆括号表达式 xff09 函数名形
直接插入排序讲解及代码实现

基本思想每一步将一个待排序的元素 xff0c 按其排序码的大小 xff0c 插入到前面已经排好序的一组元素的合适位置上去 xff0c 直到元素全部插完为止当插入第i i gt 61 1 个元素时 xff0c 前面的array 0 arr
虚拟地址空间及页表详解

虚拟地址空间进程地址空间由进程可寻址的虚拟内存组成 xff0c 内核允许进程使用这种虚拟内存的地址每个进程都有一个 32位或64位的平坦地址空间 xff0c 空间的大小取决于体系结构 xff08 平坦指的是地址空间范围是一个独立的连续
vector 模拟实现

define CRT SECURE NO WARNINGS 1 include lt iostream gt include lt algorithm gt include lt assert h gt include lt Windows
C语言中的字节对齐

一什么是字节对齐一个基本类型的变量在内存中占用n个字节则该变量的起始地址必须能够被n整除即存放起始地址 n 61 0 那么就成该变量是字节对齐的对于结构体联合体而言这个n取其所有基本类型的成员中占用空间字节数最大的那个内
Gson转换Date类型出错处理（com.google.gson.internal.bind.DateTypeAdapter.deserializeToDate）

用Gson做对象和Json字符串相互转换很方便 xff0c 但要把包含java util Date类型属性的对象转换成Json字符串 xff0c 如下面的代码 xff1a Gson gson 61 new Gson String p 61
orm框架sequelize的where条件接受动态参数传入

在nodejs项目中 xff0c 接口会接收从前台传来的查询参数 xff0c 接口里面根据请求参数动态查询数据库 xff0c 例如分页参数等等 xff1b sequelize官方文档中并没有提及如何做 xff0c 不过可以利用sequeli
判断单链表是否存在回环

Author Victor LV Date 2016 9 6 10 14 Description 判断单链表是否有回环C 43 43 C 43 43 判断单链表是否存在回环输入 list的头指针返回 bool true表示有回环 fal
PAM： Pluggable Authentication Modules for Linux(未完待续)

PAM简介 PAM诞生自1995年 xff0c 最先由SUN提出并应用于Solaris2 3上在这之后 xff0c 经过广大开发人员的不懈努力各版本的UNIX系统陆续提供了对PAM的支持包括FreeBSD和Linux 其中专门针对Li
TypeError: this.cliEngineCtor is not a constructor，webstorm和eslint的版本纠结

在webstorm里使用eslint的时候 xff0c 会提示 TypeError this cliEngineCtor is not a constructor xff0c 这样的一个错误 xff0c 知道应该是版本的错误 xff0c 但
Android dataBinding和viewBinding简单封装Activity

public abstract class BaseActivity lt MD extends BaseViewModel gt extends AppCompatActivity implements View OnClickListe
Android dataBinding和viewBinding简单封装ViewModel

Lifecycle xff1a 为ViewMode添加生命周期 public interface ViewModelLifecycle extends LifecycleObserver 64 OnLifecycleEvent Lifecy
Ftp操作

仅收录一些ftp常用操作 xff0c 关于ftp的主动模式和被动模式 xff0c 见参考 import org apache commons net ftp FTPClient private boolean binaryTransfer
Ubuntu下安装及使用gdebi

gdebi用于在Ubuntu环境下安装 deb 文件程序安装 xff1a sudo apt install gdebi core 使用 xff1a sudo gdebi xxx deb 安装成功

随机推荐

AD20/Altium designer——如何对线宽进行设置、布线过程中快速改线宽的方法

1 设计规则 2 线宽设置首选宽度即布线时的默认线宽 3 布线过程中改线宽连线过程中按 Tab键打开布线属性 xff0c 直接输入线宽后回车键即可
C++ ActiveMQ实现通讯

C 43 43 ActiveMQ实现通讯完整版简介该博客收到一些反应 xff0c 说教程不够明细操作的时候怎么都不行 xff0c 特今日 xff08 2017年8月29日17点 xff09 进行博客修改 xff0c 并将新demo一起附
PyCharm的Debug和中断方法

目录 1 断点测试 Debug2 中断运行3 清除所有断点 1 断点测试 Debug 参考链接 xff1a Pycharm调试小技巧 Python基础如何在pycharm调试代码 xff1f 超棒的博客 xff1a IDEA调试程序按钮初
Linux（Centos）卸载桌面环境

1 快捷键ctrl 43 alt 43 t 打开终端 2 卸载掉gnome shell主程序 sudo apt get remove gnome shell 3 卸载掉gnome sudo apt get remove gnome 4 卸载
迅为4418开发板/6818开发板教你如何修改屏幕(转载)

https www cnblogs com minyue33 p 8072571 html 开发平台 xff1a 迅为iTOP 4418 6818开发板 4418 amp 6818屏幕修改分别需要修改uboot和内核 xff0c 首先是修改
GaussDB_100_1.0.1部署安装

目录安装前准备安装依赖创建安装用户安装数据库 install py脚本修改执行install py进行安装通过zsql连接数据库环境变量参数说明 install py安装命令参数说明 zengine ini配置参数安装前准备
Android添加开机自启动脚本

最近需要在android5 1中添加自启动脚本 xff0c 直接将脚本要执行的指令写到init rc没有成功 xff0c 可以将指令写到一个sh脚本 xff0c 用init rc来执行sh脚本才成功 xff08 init rc或者init
Android ADB 打开 Lanucher

adb shell am start n com android launcher3 com android launcher3 Launcher
Linux查找文件中的字符串

grep Rn 34 addNavigationBar 34
Android中的蓝牙通信

一蓝牙简介现有的蓝牙主要分为两类 xff1a 经典蓝牙 xff1a 3 0版本以下的蓝牙 xff0c 都称为经典蓝牙 xff0c 功耗高传输数据量大传输距离只有10米低功耗蓝牙 xff1a 4 0及以上版本的蓝牙就是低功耗蓝牙也
Android Studio如何查找和引用第三方库

Android应用开发依托于Java有大量的第三方库可供使用 xff0c 生态较为完善 xff0c Android工程越大越可能用到第三方库 xff0c 那么如何查找引用第三方库呢 xff1f 如果知道第三方库的名字 xff0c 可以直接去
java实现生产者消费者问题(代码详解)

一解决方法 xff1a synchronized xff0c wait xff0c notify 1 使用wait方法和notify方法实现生产者和消费者模式 2 什么是生产者和消费者模式生产线程负责生产 xff0c 消费线程负责消
Ubuntu 13.04 用户安装 chrome 会遇到依赖问题

文章转载自 xff1a http www linuxidc com Linux 2013 04 83638 htm Ubuntu 13 04 用户安装 chrome 会遇到依赖问题 xff0c 注意我是在谷歌官网下载Chrome xff0c
Win7右击计算机管理打不开，提示找不到文件或没有关联的程序

最近电脑拿去修理结果一回来发现了 xff0c 右击查看我的电脑 gt 管理 xff0c 提示找不到文件或没有关联的程序该文件没有与之关联的程序来执行该操作请安装一个程序 xff0c 或者 xff0c 如果已安装程序 xff0c 请在
INFO: Initializing Spring root WebApplicationContext log4j:3个WARN卡死的解决

启动tomcat加载到这里卡死 xff0c 没有任何输出 xff0c 如下 INFO Initializing Spring root WebApplicationContext log4j WARN No appenders could
vmware创建lunix虚拟机，并实现联网

1 虚拟机的安装请参考http www linuxidc com Linux 2016 05 131701 htm 2 安装完毕后进行联网的设置 1 选中虚拟机 gt 右键 gt 设置 gt 网络适配器 gt 桥接模式 xff08 2 x
GaussDB_200_6.5.1部署安装

目录安装前准备安装依赖修改 etc hosts 上传解压介质预安装拷贝安装包预安装配置编辑preinstall ini配置文件编辑host0配置文件执行预安装命令安装FusionInsight Manager 修改ins
xshell拖动上传文件至linux服务器

首先安装lrzsz 命令为 xff1a yum install lrzsz 安装完毕后直接将 tar gz格式的文件拖如xshell的窗口内就会自动上传
生产者消费者模型的代码实现（Linux环境）

生产者消费者问题 include lt stdio h gt include lt string h gt include lt stdlib h gt include lt unistd h gt include lt pthread h
BeautifulSoup+pandas 爬取新浪国内新闻

xff08 1 xff09 使用技术 python 3 5 2 sqlite3 pandas requests jupyter notebook xff08 2 xff09 详细代码新浪国内新闻首页 xff1a http news sin

BeautifulSoup+pandas 爬取新浪国内新闻

BeautifulSoup+pandas 爬取新浪国内新闻 的相关文章

随机推荐

热门标签

BeautifulSoup+pandas 爬取新浪国内新闻的相关文章