Python爬虫自动获取CSDN博客收藏文章

2023-05-16


CSDN的Python创意编程活动开始第一天就看到了,但是认为自己是菜鸟,就向当“吃瓜群众”,后来看到有好多人的代码是关于爬虫的,当初我就是由于对爬虫 感兴趣才自学的Python。现在也打算参加一下这个活动。

由于经常使用CSDN,所以收藏了好多优秀的文章,但是对于收藏夹没有整理好,要回去找之前收藏的文章不是很方便,经过研究,就用自学的简单Python爬虫帮我吧。

去到首页一看,收藏的文章是算是异步加载的吧。。但是每次都要点击“显示更多"才能看到后面的内容。


幸运的是我也知道一点异步加载的知识,就按F12进行研究:浏览后一些内容以后


双击打开Name下的链接:



什么鬼,这是什么东西,我看不懂呀!其实这是unicode编码,要换成中文也很简单:在命令行就可以转换


当然,还有一个更好的方法,一个好用的网页: http://tool.chinaz.com/tools/unicode.aspx

可以实现在线转码的功能。把那个网页的第一条信息复制进来,点击unicode转中文,就可以看到中文了。


现在来研究一下那个链接,

http://my.csdn.net/my/favorite/get_favorite_list?pageno=2&pagesize=10&username=hurmishine

经过测试后发现,pageno这个参数控制显示页面起始编号,pagesize就是每页显示的数据条数。

我们可以通过改变参数来获取全部信息。

最后确定的链接为:

http://my.csdn.net/my/favorite/get_favorite_list?pageno=0&pagesize=10000&username=hurmishine

pagesize尽量设大一点,如果收藏的实际数量少于参数,将会以实际数量显示。

对于每一条数据:

{"id":"12653825","username":"hurmishine","url":"http:\/\/blog.csdn.net\/marksinoberg\/article\/details\/70946107","domain":"blog.csdn.net","title":"CSDN \u535a\u5ba2\u5907\u4efd\u5de5\u5177 - \u66f4\u4e0a\u4e00\u5c42\u697c\uff01 - \u535a\u5ba2\u9891\u9053 - CSDN.NET","description":"","share":"1","dateline":"1493451002","map_name":""},

对于我来说有用的只有url和title,我们用正则表达式匹配出来即可。

完整代码如下,具体细节自己体会:

#coding:utf-8
import urllib,urllib2,re,cookielib

def saveByText():
	f=open("html.html")#保存到本地的文件名
	html = f.read();
	#"url":"http:\/\/blog.csdn.net\/zhangweiguo_717\/article\/details\/52716677",
	#"title":"Python\u6a21\u62df\u767b\u5f55CSDN - \u535a\u5ba2\u9891\u9053 - CSDN.NET",
	# urls = re.findall(r'"url":"(.*?)",',html)
	# links = re.findall(r'"title":"(.*?)",',html)

	links = re.findall(r'"url":"(.*?)",.*?"title":"(.*?)"',html)
	f2=open("index.html","w")
	f2.write("<meta charset='utf-8'>\r\n")
	index=0
	for link in links :
		ans=link[1].decode('unicode-escape').encode('utf-8')
		# print ans
		ans=ans.replace(' - 博客频道 - CSDN.NET','').replace("\/",'/')
		# print ans
		url = link[0].replace("\/",'/')
		index+=1
		f2.write('<font size="5">'+' '*10+str(index)+"、</font>"+"\n<a href="+url+' target="_blank">'+'\n')
		f2.write('<font size="5">'+ans+"</font></a><br><br><br>\n\n")
	f2.close()

if __name__ == '__main__':
	saveByText()
结果显示:



PS:自己也没想到自己竟然收藏了那么多的文章,其间也发现,竟然有重复的收藏文章,应该是之前的Bug的吧,还有,收藏夹或许是个罪恶的根源,总以为收藏了以后去看。。。但是实际呢?

到现在可以说是基本完成了,但是每次都要复制,有点麻烦,如果可以模拟登陆,全自动那该多好呀,但是我还不会呀,但是经过不懈的努力,终于在网上找到了模拟登陆CSDN博客成功的代码,就拿来用了....

链接地址:http://blog.csdn.net/zhangweiguo_717/article/details/52716677

虽然此次活动中备份CSDN博客的那份代码也涉及到模拟登陆:http://blog.csdn.net/Marksinoberg/article/details/70946107

自动登陆获取收藏内容代码:

#coding:utf-8
import urllib,urllib2,re,cookielib
import re
import getpass #密文输入
UA='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36'
headers = {'User-Agent':UA}  
def login(username,password):
	#建立带有cookie的opener
	cookie = cookielib.CookieJar()
	cookieProc = urllib2.HTTPCookieProcessor(cookie)
	global opener 
	opener = urllib2.build_opener(cookieProc)
	h = opener.open('https://passport.csdn.net').read().decode("utf8")
	patten1 = re.compile(r'name="lt" value="(.*?)"')
	patten2 = re.compile(r'name="execution" value="(.*?)"')
	b1 = patten1.findall(h)
	b2 = patten2.findall(h)
	global postData
	postData = {
	    'username': username,
	    'password': password,
	    'lt': b1[0],
	    'execution': b2[0],
	    '_eventId': 'submit',
	}
	
	postData= urllib.urlencode(postData)

	opener.addheaders = [('User-Agent',UA),
	                     ('Referer', 'https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn')
	                     ]
	response = opener.open('https://passport.csdn.net', data=postData)
	# response2 = opener.open('http://my.csdn.net/my/fans')  
	# text2 = response2.read()
	# print text2

def autoSave(username):
	url='http://my.csdn.net/my/favorite/get_favorite_list?pageno=0&pagesize=10000&username=hurmishine'
	# req = urllib2.Request(url=url.format(username),headers=headers)  
	# html = urllib2.urlopen(req).read()
	html = opener.open(url.format(username), data=postData).read()
	links = re.findall(r'"url":"(.*?)",.*?"title":"(.*?)"',html)
	f2=open("index.html","w")
	f2.write("<meta charset='utf-8'>\r\n")
	index=0
	flag=''
	print len(links)
	for link in links :
		ans=link[1].decode('unicode-escape').encode('utf-8')
		ans=ans.replace(' - 博客频道 - CSDN.NET','').replace("\/",'/')
		url = link[0].replace("\/",'/')
		index+=1
		print ans,url
		f2.write('<font size="5">'+' '*10+str(index)+"、</font>"+"\n<a href="+url+' target="_blank">'+'\n')
		f2.write('<font size="5">'+ans+"</font></a><br><br><br>\n\n")
	f2.close()

if __name__ == '__main__':
	username=""
	password=""
	login(username,password)
	autoSave(username)
	


好了,就这样吧。

自动获取收藏的那份代码,上传的47行有问题,注释部分忘了去除,上面代码已更正.

参考博客:http://blog.csdn.net/haichao062/article/details/8107316
http://blog.csdn.net/devil_2009/article/details/38796533

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬虫自动获取CSDN博客收藏文章 的相关文章

  • Python爬虫深造篇(一)——多线程网页爬取

    一 前情提要 相信来看这篇深造爬虫文章的同学 xff0c 大部分已经对爬虫有不错的了解了 xff0c 也在之前已经写过不少爬虫了 xff0c 但我猜爬取的数据量都较小 xff0c 因此没有过多的关注爬虫的爬取效率 这里我想问问当我们要爬取的
  • c++多态和虚函数心得

    多态性 xff08 Polymorphism xff09 是指一个名字 xff0c 多种语义 xff1b 或界面相同 xff0c 多种实现 重载函数是多态性的一种简单形式 虚函数允许函数调用与函数体的联系在运行时才进行 xff0c 称为动态
  • IntelliJ IDEA 代码检查规范QAPlug

    转自 xff1a http blog csdn net jizi7618937 article details 51500725 Avoid Array Loops 数组之间的拷贝使用System arrayCopy更加高效 byte Re
  • linux系统中rpm与Yum软件仓库

    rpm的作用 xff1a 在没有rpm软件管理之前我们在安装 升级 卸载服务程序时要考虑到其他程序 库的依赖关系 xff0c 所以在进行安装 校验 卸载 升级等操作时的难度就非常之大 rpm机制则为就是为了解决这些问题而设计的 xff0c
  • Nokov使用说明(Windows系统)

    Nokov使用说明 第一步 镜头硬件调节1 连接镜头 xff0c 打开Seeker软件 xff08 以下简称软件 xff09 2 放置标定框3 调节镜头4 调焦1 xff09 调节后环 xff1a 光圈调到最大2 xff09 调节前环 xf
  • 计算机的存储器层次结构以及一二三级缓存的区别

    hibernate 一级缓存和二级缓存的区别 xff1a 主要的不同是它们的作用范围不同 一级缓存是session级别的 也就是只有在同一个session里缓存才起作用 xff0c 当这个session关闭后这个缓存就不存在了 而二级缓存是
  • Mac安装java反编译工具JD-GUI提示需要安装jdk1.8+解决方案

    一 下载 Java Decompiler JD Java Decompiler http java decompiler github io 二 当打开JD GUI软件时候 xff0c 会弹出以下错误 xff0c 见图示 xff1a 而自己
  • Docker命令详细说明

    Docker命令详细说明 docker help 查看docker帮助 使用方法 xff1a docker 命令选项 命令 参数 docker dameon help docker help v version config 61 dock
  • udev 规则文件介绍

    1 配置文件 udev的配置文件位于 etc udev 和 lib udev xff08 开头的是注释 xff09 udev 的主配置文件是 etc udev udev conf 它包含一套变量 xff0c 允许用户修改 udev 默认值
  • ATSAMV7Xult板卡调试Nuttx系统------NuttX模拟器SIM的的编译和调试

    NUTTX的模拟环境的编译和调试 xff1a 由于开发团队硬件资源紧张 xff0c 因此大家调试时可以使用模拟器来进行一些任务的开发和调试 参考 nuttx 7 17 configs sim readme txt介绍的操作方法 xff1a
  • C语言中,int、char、float、double各占多少字节

    https zhidao baidu com question 619738052995674092 html 只是数据类型不同而已 xff0c 在c语言中数据类型不同 xff0c 占的内存字节数不同 xff0c 所以表示数据大小不一样 i
  • 第一天做LeetCode 19.1.10

    为了备战蓝桥杯 xff0c 今天第一天做LeetCode xff0c 就做了一道题花了半个小时 xff0c 期间有各种错误 xff0c 深深的感受到自己连菜鸡都算不上 题目 xff1a 给定一个数组nums xff0c 与目标值target
  • 麻将通用胡牌算法详解(拆解法)

    1 背景 前几天刚好有项目需要胡牌算法 xff0c 查阅资料后 xff0c 大部分胡牌算法的博客都是只讲原理 xff0c 实现太过简单 xff0c 且没有给出测试用例 然后就有了下面的这个胡牌算法 xff0c 我将从算法原理和算法实现两部分
  • Java并发编程笔记之ThreadLocal内存泄漏探究

    转发 xff1a Java并发编程笔记之ThreadLocal内存泄漏探究 使用 ThreadLocal 不当可能会导致内存泄露 xff0c 是什么原因导致的内存泄漏呢 xff1f 我们首先看一个例子 xff0c 代码如下 xff1a Cr
  • 学长们的求职血泪史(C/C++/JAVA)

    2014届校招基本慢慢收尾 xff0c 现特将本人和小伙伴们的求职血泪史记录 xff0c 并且推荐一些书籍供学弟学妹们参考 xff0c 以壮我皇家理工之名 首先得感谢百度的师兄 xff0c 他教会了我很多东西 xff0c 致以很深的谢意 另
  • [海康威视]-超脑设备的 以图搜图 功能C#实现

    以图搜图意思就是海康超脑设备存储着人脸照片 xff0c 你用一张人脸照片去比对 xff0c 比对找个这个人的信息返回给你们 xff0c 识图拿代码
  • C++Builder PID控制一阶惯性系统

    ifndef Unit1H define Unit1H include lt Classes hpp gt include lt Controls hpp gt include lt StdCtrls hpp gt include lt F
  • kubernetes学习记录(14)——使用CustomResourceDefinitions(CRD)扩展Kubernetes API

    工作中即将开始写operator xff0c 先提前学习一下相关的知识 目前我们的kubernetes集群版本为1 15 0 xff0c 故参考文档为官方文档 Extend the Kubernetes API with CustomRes
  • kubernetes学习记录(15)——使用operator-sdk开发operator

    operator sdk环境搭建 我的电脑环境为windows xff0c 安装operator sdk需要自己编译构建二进制文件 参考官方文档Compile and install from master 官方给的Prerequisite
  • kubernetes学习记录(16)——使用operator实现kubernetes的sidecar管理

    使用operator实现kubernetes的sidecar管理主要参考阿里开源的openkruise项目 xff0c github地址 xff1a https github com openkruise kruise openkruise

随机推荐