下载徐小明新浪博客全部博文链接

2023-10-29

利用爬虫把徐小明新浪博客里的所有博文链接爬下来，保存到脚本所在路径的csv文件中(python2.7代码)

把起始博文目录链接换成其他的也是完全可以的

详细内容请关注微信公众号：岛城窝窝，

代码如下

#! /usr/bin/env python
#coding=utf-8
# by huangle63
'''
此代码功能为把徐小明新浪博客的所有博文链接下载保存到本地csv文件中
运行本程序，会在脚本所在路径生成一个 xuxiaoming_blog_catalog.csv 文件
20150419 huangle63
'''
import sys
import re
import csv
import urllib2
from bs4 import BeautifulSoup

#获取页面代码，返回对象是 BeautifulSoup 格式
def get_http_content(url):
    try:
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        headers = { 'User-Agent' : user_agent }
        html = urllib2.Request(url, headers = headers)
        myResponse = urllib2.urlopen(html)
        myPage = myResponse.read()
        bsObj = BeautifulSoup(myPage,'html5lib')
        return bsObj
    except urllib2.URLError as e:
        return None

#每个页面链接里有n个博文目录链接
def spider_catalog(spider_href):
    no_spider_hrefs.remove(spider_href)
    #获取当前页面链接里的博文目录链接
    url_content = get_http_content(spider_href)
    if url_content == None:
        print('ERROR1: Page could not be found')
    else:
        #获取页面目录信息,格式：日期    标题名   链接
        #把获取的信息保存到csv文件中
        csvFile = open(sys.path[0] + r'\xuxiaoming_blog_catalog.csv','ab')
        try:
            for link in url_content.findAll('div',{'class':'articleCell SG_j_linedot1'}):
                link_title = link.find('a', href = re.compile("^(http://blog.sina.com.cn/s)")).get_text().replace(u'\u200b','').replace(u'\xa0','')
                link_href = link.find('a', href = re.compile("^(http://blog.sina.com.cn/s)")).attrs['href']
                link_date = link.find('span',{'class':'atc_tm SG_txtc'}).get_text()
                print(link_date + '   ' + link_title + '    ' + link_href)
                writer = csv.writer(csvFile)
                writer.writerow((link_date,link_title.encode("gbk"),link_href))
        except AttributeError as e:#当调用BeautifulSoup对象不存在时，会返回一个NONE对象，如果再调用这个NONE对象下面的子标签，就会发生AttributeError错误
            print('ERROR2: BeautifulSoup get the none tag')
        finally:
            csvFile.close()

        #获取当前页面里的其它页面链接(第一页，第二页......)
        try:
            for link in url_content.find('ul',{'class':'SG_pages'}).findAll('li'):
                all_li = link.find('a',href = re.compile("^(http://blog.sina.com.cn/s)"))
                if all_li != None:
                    link_page_href = all_li.attrs['href']
                    if link_page_href not in page_hrefs:
                        page_hrefs.add(link_page_href)
                        no_spider_hrefs.add(link_page_href)
                        link_page_title = all_li.get_text().replace(u'\u200b','').replace(u'\xa0','')
                        print(link_page_title + '    ' + link_page_href)
                        spider_catalog(link_page_href)  #递归查询所有页面链接
        except AttributeError as e:#当调用BeautifulSoup对象不存在时，会返回一个NONE对象，如果再调用这个NONE对象下面的子标签，就会发生AttributeError错误
            print('ERROR2: BeautifulSoup get the none tag')
        except Exception as e:
            print('ERROR3: ',e)

page_hrefs = set() #pages_href用于去重,把所有链接都存储在pages_hrefs
no_spider_hrefs = set() #用于存储还没有爬虫的页面链接
start_page_html = 'http://blog.sina.com.cn/s/articlelist_1300871220_0_1.html' #起始博文的网页链接
page_hrefs.add(start_page_html)
no_spider_hrefs.add(start_page_html)
spider_catalog(start_page_html)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

徐小明

新浪博客

爬虫

目录链接

下载徐小明新浪博客全部博文链接的相关文章

只使用 Django 的某些部分？

我喜欢 Django 但对于一个特定的应用程序我只想使用它的一部分但我对 Django 的内部工作原理还不够熟悉所以也许有人可以指出我必须做什么的正确方向查看具体来说我想使用模型和数据库抽象 The 缓存API http doc
如何使用 django (python) 和 s3 上传文件？

我正在寻找一种将文件上传到 s3 的方法我正在使用 django 我目前正在使用亚马逊的 python 库进行上传以及以下代码 View def submitpicture request fuser request session lo
scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
pip 安装失败，SSL 证书验证失败 (_ssl.c:833)

我无法通过 pip install 安装任何外部 python 模块我已经正确安装了 python 但如果我使用 pip install 它会显示此错误这是我运行后的代码pip install pytesseract C Users 1
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
Spyder 导入模块出错

我正在尝试在 Spyder 中使用 sklearn 一开始当我尝试导入它时我收到 ImportError No module named sklearn 然后我用 PYTHONPATH 管理器设置 PATH 然后使用工具菜单中的更新模
Django 未在 404 页面上应用应用程序中的 CSS 文件

姜戈3 0 8 Python 3 7 x 我有一个包含一些应用程序的 Django 项目我正在尝试为 400 403 404 500 错误制作一些默认错误页面我已经这样做了并显示了适当的模板但没有任何样式或 JS 在 404 错
了解 asyncio 已经运行的永久循环和挂起的任务

我在理解如何将新任务挂起到已经运行的事件循环中时遇到问题这段代码 import asyncio import logging asyncio coroutine def blocking cmd while True logging in
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
使用 3d 对象作为 3d 散点图中的标记 - Python

使用下面的代码我尝试模拟一个用罐头制成的碗我希望每个标记都是一个罐头最好的方法是什么我真的很感激任何建议谢谢 import pylab import numpy as np from math import pi sin cos
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
如何测试列表中多个值的成员资格

我想测试两个或多个值是否在列表中具有成员资格但我得到了意外的结果 gt gt gt a b in b a foo bar a True 那么 Python 可以同时测试列表中多个值的成员资格吗这个结果意味着什么 See also How
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
如何可视化多维数据上的 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法并希望可视化聚类后的图到目前为止我做了这个 from mnist import MNIST mndata MNIST Datasets X train y train mndata
如何配置 Eclipse 在使用 Pydev 插件选择“运行”或“调试”时启动浏览器

我正在使用 Eclipse Pydev 插件学习 Python 和 Django 当我按运行或调试时我希望内部或外部浏览器使用 URL http 127 0 0 1 启动或刷新我见过用 PHP 插件完成的但没有用 Pydev
VSCode无法切换matplotlib后端：ImportError：无法加载需要“qt5”交互框架的后端“Qt5Agg”

我只想通过在 VSCode 中运行 Python 来进行绘图但结果失败了我无法将后端从 agg 切换到 Qt5Agg 但是我可以在 VSCode 的终端中轻松执行此操作 VSCode集成终端中的问题如下所示我尝试了各种解决方案但失败
通过 ManyToManyField = Value 对 django 查询集进行排序

如果有一些模型例如 class Tag models Model name models CharField class Thing models Model title models CharField tags models Many

随机推荐

Winform各控件详解(笔记)

DataGridView简称DGV http www cnblogs com 08shiyan archive 2010 08 10 1796768 html
iOS项目技巧+封装过程

前言接手一个外包项目发现问题颇多下面是对整个项目封装过程的记录当前项目存在的问题 1 接口前缀太多切换环境不方便 2 通用方法没有进行封装 gt 支付方法哪里用到写哪里 3 扩展性和容错率太低许多数组取值是直接根据数组下标来取的
Java IO 学习总结（四）BufferedReader 缓冲字符流

Java IO 学习总结一输入流输出流 Java IO 学习总结二 File 类 Java IO 学习总结三 BufferedInputStream Java IO 学习总结四 BufferedReader 缓冲字符流 Java
CSS常用函数补充(var、clac、blur、gradient)

文章目录一 var 1 1 简介 1 2 使用 1 3 规则二 calc 2 1 简介 2 2 使用三 blur 3 1 简介 3 2 使用 3 2 1 filter 3 2 2 backdrop filter 四 gradient
[深入研究4G/5G/6G专题-55]: L3信令控制-4-软件功能与流程的切分-CU网元的信令

目录第1章软件架构 1 1 总体架构 1 2 微服务架构 1 3 基本模型第2章 5G CP IF 控制面对外的公共接口
收藏一些很炫的html特效

文字颜色变换
get;get属性器

get set是用来扩展域的也就是C里的变量只是用起来更加灵活而己看以下代码 using System public class cls private int book 定义一个域也可以叫变量只是面向对像里都这么叫使用起来也更
人工智能（AI）产生影响

人工智能 AI 的快速发展已经开始对各个行业产生了深远的影响作为一种人工智能技术的应用自然语言处理模型也将对文章创作产生影响以下是人工智能对文章创作行业可能产生的影响 1 帮助提高文章的质量和效率自然语言处理模型已经可以模仿人类创作
DM JDBC 使用 Hikaricp连接池框架开发示例

一 DM JDBC 配置指南达梦数据库提供的JDBC驱动windows放置路径 D dmdbms drivers jdbc 具体数据库安装路径以实际为准 JDK1 5版本使用 DmJdbcDriver15 jar JDK1 6版本使用
Vue 3.0 全家桶 + Vite 从零配置开发环境、生产环境

上篇文章我们对比了 Vite 与 Webpack 的差异接下来准备将项目中用到的 Webpack 5 0 替换为 Vite 2 0 我们先着手从零配置开发生产环境文章目录一初始化 1 初始化 package json 2 安装
对抗验证概述

了解如何实施对抗性验证以建立分类器来确定您的数据是来自训练还是测试集如果可以这样做则您的数据有问题并且对抗验证模型可以帮助您诊断问题如果您要在Kaggle上研究一些获胜的解决方案则可能会注意到对对抗性验证的引用像这样它是
QT5无法输入中文，如何解决？？？

环境 UBUNTU 12 04 LTS 最近在Ubuntu下安装了QT5 0 2版本在尝试完跑实例程序后自己想做一个Socket的TCP IP通信例子但是悲剧的发现QT5中竟然不能切换输入法到中文所做尝试包括 1 换输入法fctix
分页组件封装

scss 分页 el pagination text align right margin top 20px span el pagination total position absolute left 0 is background e
白盒测试基本方法

白盒测试的概述由于逻辑错误和不正确假设与一条程序路径被运行的可能性成反比由于我们经常相信某逻辑路径不可能被执行而事实上它可能在正常的情况下被执行由于代码中的笔误是随机且无法杜绝的因此我们要进行白盒测试白盒测试又称结构测试透明
Maven : has broken classes path unknown

1 美图 2 背景 windows下因为要整理Maven 的pom文件我加入了一个
Java提高篇——equals()方法和“==”运算符

equals 超类Object中有这个equals 方法该方法主要用于比较两个对象是否相等该方法的源码如下 public boolean equals Object obj return this obj 我们知道所有的对象都拥有标识
wsl子系统Ubuntu18.04，cuDNN安装

如果觉得本篇文章对您的学习起到帮助作用请点赞关注评论留下您的足迹本文主要wls子系统Ubuntu18 04安装cuDNN 安装cudnn坑巨多因此记录以备日后查看同时如果能够帮助到更多人也不胜荣幸文章目录一下载安装
Xcopy 复制文件和目录，包括子目录

Xcopy 复制文件和目录包括子目录语法 xcopy Source Destination w p c v q f l g d mm dd yyyy u i s e t k r h a m n o x exclude file1 fil
Spring FeignClient 遇到的参数问题（RequestParam.value() was empty on parameter 0）

报错 Caused by java lang IllegalStateException RequestParam value was empty on parameter 0 代码 PostMapping value org getOrg
下载徐小明新浪博客全部博文链接

利用爬虫把徐小明新浪博客里的所有博文链接爬下来保存到脚本所在路径的csv文件中 python2 7代码把起始博文目录链接换成其他的也是完全可以的详细内容请关注微信公众号岛城窝窝代码如下 usr bin env python cod

下载徐小明新浪博客全部博文链接

下载徐小明新浪博客全部博文链接 的相关文章

随机推荐

热门标签

下载徐小明新浪博客全部博文链接的相关文章