转载自Python研究者,作者阿辰
今天教大家如何爬取新浪网新闻数据,通过词云可视化展示新闻关键词,快速了解最新的新闻热点。这里爬取了2500条新闻数据进行演示。
PS:这里采集的主要是国内最新新闻数据(写这篇文章的时候是4月26号,所以获取的是26号当前最新的新闻)。先来看一下数据:
1
网页分析
在开始采集之前先说一下新闻数据来源(新浪网)
https://news.sina.com.cn/china/
下一页分析
我们想要采集多条数据,因此需要找到下一页的规律
点击第二页的时候,发现网页链接没有变化,这里数据是通过异步加载过来,因此查看network,找到了目标异步链接:
https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page=2&encode=utf-8&callback=feedCardJsonpCallback&_=1619440444354
但发现callback=feedCardJsonpCallback&_=1619440444354,可以去掉,因此最终链接如下&#x