Python爬虫自动获取CSDN博客收藏文章

2023-05-16

CSDN的Python创意编程活动开始第一天就看到了，但是认为自己是菜鸟，就向当“吃瓜群众”，后来看到有好多人的代码是关于爬虫的，当初我就是由于对爬虫感兴趣才自学的Python。现在也打算参加一下这个活动。

由于经常使用CSDN，所以收藏了好多优秀的文章，但是对于收藏夹没有整理好，要回去找之前收藏的文章不是很方便，经过研究，就用自学的简单Python爬虫帮我吧。

去到首页一看，收藏的文章是算是异步加载的吧。。但是每次都要点击“显示更多"才能看到后面的内容。

幸运的是我也知道一点异步加载的知识，就按F12进行研究：浏览后一些内容以后

双击打开Name下的链接：

什么鬼，这是什么东西，我看不懂呀!其实这是unicode编码，要换成中文也很简单：在命令行就可以转换

当然，还有一个更好的方法，一个好用的网页： http://tool.chinaz.com/tools/unicode.aspx

可以实现在线转码的功能。把那个网页的第一条信息复制进来，点击unicode转中文，就可以看到中文了。

现在来研究一下那个链接，

http://my.csdn.net/my/favorite/get_favorite_list?pageno=2&pagesize=10&username=hurmishine

经过测试后发现，pageno这个参数控制显示页面起始编号，pagesize就是每页显示的数据条数。

我们可以通过改变参数来获取全部信息。

最后确定的链接为：

http://my.csdn.net/my/favorite/get_favorite_list?pageno=0&pagesize=10000&username=hurmishine

pagesize尽量设大一点,如果收藏的实际数量少于参数,将会以实际数量显示。

对于每一条数据：

{"id":"12653825","username":"hurmishine","url":"http:\/\/blog.csdn.net\/marksinoberg\/article\/details\/70946107","domain":"blog.csdn.net","title":"CSDN \u535a\u5ba2\u5907\u4efd\u5de5\u5177 - \u66f4\u4e0a\u4e00\u5c42\u697c\uff01 - \u535a\u5ba2\u9891\u9053 - CSDN.NET","description":"","share":"1","dateline":"1493451002","map_name":""},

对于我来说有用的只有url和title，我们用正则表达式匹配出来即可。

完整代码如下,具体细节自己体会:

#coding:utf-8
import urllib,urllib2,re,cookielib

def saveByText():
	f=open("html.html")#保存到本地的文件名
	html = f.read();
	#"url":"http:\/\/blog.csdn.net\/zhangweiguo_717\/article\/details\/52716677",
	#"title":"Python\u6a21\u62df\u767b\u5f55CSDN - \u535a\u5ba2\u9891\u9053 - CSDN.NET",
	# urls = re.findall(r'"url":"(.*?)",',html)
	# links = re.findall(r'"title":"(.*?)",',html)

	links = re.findall(r'"url":"(.*?)",.*?"title":"(.*?)"',html)
	f2=open("index.html","w")
	f2.write("<meta charset='utf-8'>\r\n")
	index=0
	for link in links :
		ans=link[1].decode('unicode-escape').encode('utf-8')
		# print ans
		ans=ans.replace(' - 博客频道 - CSDN.NET','').replace("\/",'/')
		# print ans
		url = link[0].replace("\/",'/')
		index+=1
		f2.write('<font size="5">'+' '*10+str(index)+"、</font>"+"\n<a href="+url+' target="_blank">'+'\n')
		f2.write('<font size="5">'+ans+"</font></a><br><br><br>\n\n")
	f2.close()

if __name__ == '__main__':
	saveByText()

结果显示：

PS：自己也没想到自己竟然收藏了那么多的文章，其间也发现，竟然有重复的收藏文章，应该是之前的Bug的吧，还有，收藏夹或许是个罪恶的根源，总以为收藏了以后去看。。。但是实际呢？

到现在可以说是基本完成了，但是每次都要复制，有点麻烦，如果可以模拟登陆，全自动那该多好呀，但是我还不会呀，但是经过不懈的努力，终于在网上找到了模拟登陆CSDN博客成功的代码，就拿来用了....

链接地址：http://blog.csdn.net/zhangweiguo_717/article/details/52716677

虽然此次活动中备份CSDN博客的那份代码也涉及到模拟登陆：http://blog.csdn.net/Marksinoberg/article/details/70946107

自动登陆获取收藏内容代码：

#coding:utf-8
import urllib,urllib2,re,cookielib
import re
import getpass #密文输入
UA='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36'
headers = {'User-Agent':UA}  
def login(username,password):
	#建立带有cookie的opener
	cookie = cookielib.CookieJar()
	cookieProc = urllib2.HTTPCookieProcessor(cookie)
	global opener 
	opener = urllib2.build_opener(cookieProc)
	h = opener.open('https://passport.csdn.net').read().decode("utf8")
	patten1 = re.compile(r'name="lt" value="(.*?)"')
	patten2 = re.compile(r'name="execution" value="(.*?)"')
	b1 = patten1.findall(h)
	b2 = patten2.findall(h)
	global postData
	postData = {
	    'username': username,
	    'password': password,
	    'lt': b1[0],
	    'execution': b2[0],
	    '_eventId': 'submit',
	}
	
	postData= urllib.urlencode(postData)

	opener.addheaders = [('User-Agent',UA),
	                     ('Referer', 'https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn')
	                     ]
	response = opener.open('https://passport.csdn.net', data=postData)
	# response2 = opener.open('http://my.csdn.net/my/fans')  
	# text2 = response2.read()
	# print text2

def autoSave(username):
	url='http://my.csdn.net/my/favorite/get_favorite_list?pageno=0&pagesize=10000&username=hurmishine'
	# req = urllib2.Request(url=url.format(username),headers=headers)  
	# html = urllib2.urlopen(req).read()
	html = opener.open(url.format(username), data=postData).read()
	links = re.findall(r'"url":"(.*?)",.*?"title":"(.*?)"',html)
	f2=open("index.html","w")
	f2.write("<meta charset='utf-8'>\r\n")
	index=0
	flag=''
	print len(links)
	for link in links :
		ans=link[1].decode('unicode-escape').encode('utf-8')
		ans=ans.replace(' - 博客频道 - CSDN.NET','').replace("\/",'/')
		url = link[0].replace("\/",'/')
		index+=1
		print ans,url
		f2.write('<font size="5">'+' '*10+str(index)+"、</font>"+"\n<a href="+url+' target="_blank">'+'\n')
		f2.write('<font size="5">'+ans+"</font></a><br><br><br>\n\n")
	f2.close()

if __name__ == '__main__':
	username=""
	password=""
	login(username,password)
	autoSave(username)

好了，就这样吧。

自动获取收藏的那份代码,上传的47行有问题,注释部分忘了去除,上面代码已更正.

参考博客：http://blog.csdn.net/haichao062/article/details/8107316
http://blog.csdn.net/devil_2009/article/details/38796533

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python爬虫自动获取CSDN博客收藏文章的相关文章

Python爬虫深造篇(一)——多线程网页爬取

一前情提要相信来看这篇深造爬虫文章的同学 xff0c 大部分已经对爬虫有不错的了解了 xff0c 也在之前已经写过不少爬虫了 xff0c 但我猜爬取的数据量都较小 xff0c 因此没有过多的关注爬虫的爬取效率这里我想问问当我们要爬取的
c++多态和虚函数心得

多态性 xff08 Polymorphism xff09 是指一个名字 xff0c 多种语义 xff1b 或界面相同 xff0c 多种实现重载函数是多态性的一种简单形式虚函数允许函数调用与函数体的联系在运行时才进行 xff0c 称为动态
IntelliJ IDEA 代码检查规范QAPlug

转自 xff1a http blog csdn net jizi7618937 article details 51500725 Avoid Array Loops 数组之间的拷贝使用System arrayCopy更加高效 byte Re
linux系统中rpm与Yum软件仓库

rpm的作用 xff1a 在没有rpm软件管理之前我们在安装升级卸载服务程序时要考虑到其他程序库的依赖关系 xff0c 所以在进行安装校验卸载升级等操作时的难度就非常之大 rpm机制则为就是为了解决这些问题而设计的 xff0c
Nokov使用说明（Windows系统）

Nokov使用说明第一步镜头硬件调节1 连接镜头 xff0c 打开Seeker软件 xff08 以下简称软件 xff09 2 放置标定框3 调节镜头4 调焦1 xff09 调节后环 xff1a 光圈调到最大2 xff09 调节前环 xf
计算机的存储器层次结构以及一二三级缓存的区别

hibernate 一级缓存和二级缓存的区别 xff1a 主要的不同是它们的作用范围不同一级缓存是session级别的也就是只有在同一个session里缓存才起作用 xff0c 当这个session关闭后这个缓存就不存在了而二级缓存是
Mac安装java反编译工具JD-GUI提示需要安装jdk1.8+解决方案

一下载 Java Decompiler JD Java Decompiler http java decompiler github io 二当打开JD GUI软件时候 xff0c 会弹出以下错误 xff0c 见图示 xff1a 而自己
Docker命令详细说明

Docker命令详细说明 docker help 查看docker帮助使用方法 xff1a docker 命令选项命令参数 docker dameon help docker help v version config 61 dock
udev 规则文件介绍

1 配置文件 udev的配置文件位于 etc udev 和 lib udev xff08 开头的是注释 xff09 udev 的主配置文件是 etc udev udev conf 它包含一套变量 xff0c 允许用户修改 udev 默认值
ATSAMV7Xult板卡调试Nuttx系统------NuttX模拟器SIM的的编译和调试

NUTTX的模拟环境的编译和调试 xff1a 由于开发团队硬件资源紧张 xff0c 因此大家调试时可以使用模拟器来进行一些任务的开发和调试参考 nuttx 7 17 configs sim readme txt介绍的操作方法 xff1a
C语言中，int、char、float、double各占多少字节

https zhidao baidu com question 619738052995674092 html 只是数据类型不同而已 xff0c 在c语言中数据类型不同 xff0c 占的内存字节数不同 xff0c 所以表示数据大小不一样 i
第一天做LeetCode 19.1.10

为了备战蓝桥杯 xff0c 今天第一天做LeetCode xff0c 就做了一道题花了半个小时 xff0c 期间有各种错误 xff0c 深深的感受到自己连菜鸡都算不上题目 xff1a 给定一个数组nums xff0c 与目标值target
麻将通用胡牌算法详解(拆解法)

1 背景前几天刚好有项目需要胡牌算法 xff0c 查阅资料后 xff0c 大部分胡牌算法的博客都是只讲原理 xff0c 实现太过简单 xff0c 且没有给出测试用例然后就有了下面的这个胡牌算法 xff0c 我将从算法原理和算法实现两部分
Java并发编程笔记之ThreadLocal内存泄漏探究

转发 xff1a Java并发编程笔记之ThreadLocal内存泄漏探究使用 ThreadLocal 不当可能会导致内存泄露 xff0c 是什么原因导致的内存泄漏呢 xff1f 我们首先看一个例子 xff0c 代码如下 xff1a Cr
学长们的求职血泪史(C/C++/JAVA)

2014届校招基本慢慢收尾 xff0c 现特将本人和小伙伴们的求职血泪史记录 xff0c 并且推荐一些书籍供学弟学妹们参考 xff0c 以壮我皇家理工之名首先得感谢百度的师兄 xff0c 他教会了我很多东西 xff0c 致以很深的谢意另
[海康威视]-超脑设备的以图搜图功能C#实现

以图搜图意思就是海康超脑设备存储着人脸照片 xff0c 你用一张人脸照片去比对 xff0c 比对找个这个人的信息返回给你们 xff0c 识图拿代码
C++Builder PID控制一阶惯性系统

ifndef Unit1H define Unit1H include lt Classes hpp gt include lt Controls hpp gt include lt StdCtrls hpp gt include lt F
kubernetes学习记录（14）——使用CustomResourceDefinitions（CRD）扩展Kubernetes API

工作中即将开始写operator xff0c 先提前学习一下相关的知识目前我们的kubernetes集群版本为1 15 0 xff0c 故参考文档为官方文档 Extend the Kubernetes API with CustomRes
kubernetes学习记录（15）——使用operator-sdk开发operator

operator sdk环境搭建我的电脑环境为windows xff0c 安装operator sdk需要自己编译构建二进制文件参考官方文档Compile and install from master 官方给的Prerequisite
kubernetes学习记录（16）——使用operator实现kubernetes的sidecar管理

使用operator实现kubernetes的sidecar管理主要参考阿里开源的openkruise项目 xff0c github地址 xff1a https github com openkruise kruise openkruise

随机推荐

kubernetes学习记录（3）——集群外部访问Pod或Service

学习阅读的书籍为 kubernetes权威指南 xff1a 从Docker到Kubernetes实践全接触 xff0c 书中有不少地方讲的比较模糊 xff0c 故在此做下学习过程中的梳理 Pod和Service是Kubernetes集群范围
kubernetes学习记录（9）——集群基于CA签名的安全设置

最近在使用RC的时候碰到了一个问题 xff1a 创建RC后无法自动创建Pod 网上搜索 xff0c 得到出现该问题的原因是 xff1a 身份认证解决的办法有两种 xff1a xff08 1 xff09 跳过认证 xff08 2 xff09
kubernetes学习记录（5）——服务发现机制与Cluster DNS的安装(无CA认证版)

服务发现机制 Kubernetes提供了两种发现Service的方法 xff1a 1 环境变量当Pod运行的时候 xff0c Kubernetes会将之前存在的Service的信息通过环境变量写到Pod中这种方法要求Pod必须要在Ser
Docker学习记录（1）——搭建自己的Docker Registry

最近在编写Kubernetes demo的时候 xff0c 遇到了一个问题 xff1a 当相同的Pod部署到不同的Node上时 xff0c 每个Node都得下载Pod中指定的镜像文件由于墙等原因 xff0c 很多镜像文件的下载速度都很
GraphX介绍

转自 xff1a https www cnblogs com txq157 p 5978747 html 1 GraphX介绍 1 1 GraphX应用背景 Spark GraphX是一个分布式图处理框架 xff0c 它是基于Spark平台
kubernetes学习记录（8）——中文界面版dashboard安装

dashboard controller yaml apiVersion extensions v1beta1 kind Deployment metadata name kubernetes dashboard span class hl
openshift/origin学习记录（0）——Ansible安装多节点openshift集群

本节内容是基于Ansible Playbook自动部署openshift集群 xff0c 之后几节内容会通过一个AllInOne的集群手动添加组件 xff0c 研究实现的流程本部分内容是3 6 0 xff0c 可能不适用3 6 1 xff
openshift/origin学习记录（9）——S2I镜像定制(基于Git)

参考开源容器云Openshift 一书 xff0c 制作一个Tomcat的S2I镜像 xff08 从Git下载代码 xff0c Maven打包 xff0c 部署到Tomcat上 xff09 从Svn下载代码的S2I镜像可以参考https
Docker学习记录（4）——docker pull默认从本地镜像仓库拉取镜像

主机操作系统为Centos7 3 xff0c 内网环境下使用docker pull xff0c 直接从本地镜像仓库下载镜像本地镜像仓库的搭建方法多样 xff0c 这里不做记录我的本地镜像仓库的地址为master example com
Centos7.2学习记录（4）——调整root和home大小

df h查看磁盘使用情况备份 home文件夹下内容 span class hljs preprocessor cp r home homebak span 卸载 home span class hljs preprocessor umou
ubuntu的终端log怎么保存

script screen log 之后再在终端的输入就被记在screen log exit 退出
HDU 1215 七夕节(约数之和)

七夕节 Time Limit 2000 1000 MS Java Others Memory Limit 65536 32768 K Java Others Total Submission s 39837 Accepted Submiss
为什么无穷大总是0x3f3f3f3f?

转自 http aikilis tk 如果问题中各数据的范围明确 xff0c 那么无穷大的设定不是问题 xff0c 在不明确的情况下 xff0c 很多程序员都取0x7fffffff作为无穷大 xff0c 因为这是32 bit int的最大
CSU 1333 & Uva 12661 Funny Car Racing【最短路变形+spfa算法，链式前向星建图】

Funny Car Racing Memory Limit 131072KB64bit IO Format lld amp llu Status Description There is a funny car racing in a ci
根据Oracle数据库scott模式下的scott.emp表和dept表，完成下列操作.

题目要求 xff1a 根据Oracle数据库scott模式下的emp表和dept表 xff0c 完成下列操作将scott用户解锁 xff1a alter user scott account unlock scott的初始密码是tiger
【死磕 Java 集合】— ConcurrentSkipListMap源码分析

转自 xff1a http cmsblogs com p 61 4773 隐藏目录前情提要简介存储结构源码分析主要内部类构造方法添加元素添加元素举例删除元素删除元素举例查找元素查找元素举例彩蛋作者 xff1a 彤哥出处 xff1a
STL-set (集合)之删除元素

set概述和vector list不同 xff0c set map都是关联式容器 set内部是基于红黑树实现的插入和删除操作效率较高 xff0c 因为只需要修改相关指针而不用进行数据的移动在进行数据删除操作后 xff0c 迭代器会不会
经典算法之一：快速排序

快速排序由于排序效率在同为O N logN 的几种排序方法中效率较高 xff0c 因此经常被采用 xff0c 再加上快速排序思想分治法也确实实用 xff0c 因此很多软件公司的笔试面试 xff0c 包括像腾讯 xff0c 微软等知名IT公
矩阵乘法测试

对于时间的函数 gettimeofday 函数使用方法 xff1a http blog csdn net hurmishine article details 60326345 矩阵乘法测试 xff1a 代码 xff1a 1 为了试验简单
Python爬虫自动获取CSDN博客收藏文章

CSDN的Python创意编程活动开始第一天就看到了 xff0c 但是认为自己是菜鸟 xff0c 就向当吃瓜群众 xff0c 后来看到有好多人的代码是关于爬虫的 xff0c 当初我就是由于对爬虫感兴趣才自学的Python 现在也打算参加

Python爬虫自动获取CSDN博客收藏文章

Python爬虫自动获取CSDN博客收藏文章 的相关文章

随机推荐

热门标签

Python爬虫自动获取CSDN博客收藏文章的相关文章